网络爬虫是一种能自动从网络上收集信息的工具,可根据用户的需求定向采集特定信息的工具,自动在网络上获取网页源码。对于采集数量较少的工作而言,实现一个网页下载程序不会很麻烦,但是,当从网络上采集海量信息的时候,爬虫系统的实现将变得十分复杂。

相对ETL技术,网络爬虫技术仅仅处理数据抽取这一步。网络爬虫只将网络上的页面下载下来,对下载的非结构化数据没有进行处理,而直接将其保存到数据库之中。这样做的劣势在于:搜索引擎的后续操作首先要从数据库种获取到这些非结构化信息,然后再进一步的进行信息的处理。这样无形之中增添了两次操作数据库的任务量,在数据量极其庞大的背景下,会大大降低整个系统的效率。

在线购物平台商品信息抓取系统当前最为流程的python技术来实现对爬虫各功能。