robots 协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是 robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。
搜索引擎蜘蛛自动访问互联网上的网页井获取网页信息,它在访问一个网站时,首先会检查该网站的根目录下是否含有robots.txt的文本文件,该文件主要用来限定搜索引擎蜘蛛在网站上的抓取范围。这时可以在网站中创建一个robots.txt,在文件中声明该网站中不希望被搜索引擎收录的网页或者指定搜索引擎收录的网页。例如,在百度中搜索“淘宝”,会看到图4-7所示的信息,也就是说淘宝屏蔽了百度的抓取。
当网站包含不希望被搜索引擎收录的内容时,才需要在网站根目录设置robots.txt文件。相反,网站如果没有禁止搜索引擎收录的内容,请勿建立robots.txt文件。
robots.txt文件的写法多种多样,不同的写法所起到的作用也各不相同,下面详细介绍几种robots.txt文件的常用写法。
禁止所有搜索引擎访问网站中的部分网页,这里用 a、b、c 目录来代替禁止搜索引擎访问的网页部分,其robots.txt文件写法为:
如果是允许搜索引擎访问网站中a、b、c目录的网页内容,其robots.txt文件写法为:
只允许某个搜索引擎的访问,这里用e来代替这个搜索引擎,其robots.txt文件写法为:
在Disallow:后面不用加任何内容,意思是仅允许e访问该网站。
使用”$”限制访问URL时,其robots.txt文件写法为:
意思是仅允许访问以”.htm”为后缀的URL。
禁止搜索引擎抓取网站上所有图片,这里以F代替某搜索引擎,其robots.txt写法为:
意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片)。
只允许搜索引擎抓取网页和.gif格式图片,这里以E来代替某搜索引擎,其写法为:
意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片。