robots.txt的名字,从字面上来看就是机器人文件,是给机器人看得,所谓机器人就是搜索引擎的蜘蛛。这个文件是一个纯文本的文本文档,采用的是Robots排除标准,这项标准是一个协议,有一小组命令组成。

robots.txt的用处:

告诉搜索引擎,网站的内容那些是可以索引的,哪些是不可以索引的。

注意:robots.txt仅仅只是一项指令,并不能强制阻止各种抓取工具对你的网站进行抓取。如果你的网站上有不希望被公开访问的内容,要采取其他方法来屏蔽(比如用密码,用加密等等)。

从上面的这些例子里可以看到有三个重要的关键词:

User-agent: 【蜘蛛的名称,下面的这些指令都应用到这些蜘蛛】

Allow: 【不需要屏蔽的网址,一般是上面 Disallow 中的一个子集】

在网址部分,可以使用通配符以简化指令。通配符包括星号和$符号。

以上为标准协议的指令。下面还有几个被多个搜索引擎支持的非标准扩展协议。