网络爬虫是一种能自动从网络上收集信息的工具

网络爬虫是一种能自动从网络上收集信息的工具，可根据用户的需求定向采集特定信息的工具，自动在网络上获取网页源码。对于采集数量较少的工作而言，实现一个网页下载程序不会很麻烦，但是，当从网络上采集海量信息的时候，爬虫系统的实现将变得十分复杂。

相对ETL技术，网络爬虫技术仅仅处理数据抽取这一步。网络爬虫只将网络上的页面下载下来，对下载的非结构化数据没有进行处理，而直接将其保存到数据库之中。这样做的劣势在于：搜索引擎的后续操作首先要从数据库种获取到这些非结构化信息，然后再进一步的进行信息的处理。这样无形之中增添了两次操作数据库的任务量，在数据量极其庞大的背景下，会大大降低整个系统的效率。

在线购物平台商品信息抓取系统当前最为流程的python技术来实现对爬虫各功能。