这个文件是一个纯文本的文本文档

robots.txt的名字，从字面上来看就是机器人文件

robots.txt的名字，从字面上来看就是机器人文件，是给机器人看得，所谓机器人就是搜索引擎的蜘蛛。这个文件是一个纯文本的文本文档，采用的是Robots排除标准，这项标准是一个协议，有一小组命令组成。

robots.txt的用处：

告诉搜索引擎，网站的内容那些是可以索引的，哪些是不可以索引的。

注意：robots.txt仅仅只是一项指令，并不能强制阻止各种抓取工具对你的网站进行抓取。如果你的网站上有不希望被公开访问的内容，要采取其他方法来屏蔽（比如用密码，用加密等等）。

从上面的这些例子里可以看到有三个重要的关键词：

User-agent: 【蜘蛛的名称，下面的这些指令都应用到这些蜘蛛】

Allow: 【不需要屏蔽的网址，一般是上面 Disallow 中的一个子集】

在网址部分，可以使用通配符以简化指令。通配符包括星号和$符号。

以上为标准协议的指令。下面还有几个被多个搜索引擎支持的非标准扩展协议。