在《2.2、页面搜集原理、技术和系统--搜集过程》中我们知道调度器需要分配蜘蛛去抓取网络上的网页,但是网络上的页面数量是百亿级别的,如果调度器只是简单的一个服务器,那么抓取的速度是远远不足的。因此,搜索引擎需要一个可扩展的搜索子系统,允许多台服务器同时进行网页的抓取工作。

1、搜索引擎要确定一个在节点间动态划分网页URL的算法,以保证不同的节点搜集的网页不会重复,并且在节点内抓取进程可以自由获取一个任务。

2、搜索引擎要考虑系统的动态配置问题,即允许在运行过程中添加和删除节点机器。

下一节黄聪就和大家一起分析第一个问题如何解决。请看《2.6.1、可扩展搜索子系统--节点间URL的划分策略》。