robots.txt，原来你是如此的重要

893184203 · 发表于 2012-7-12 17:38:09

搜索引擎通过一种程序，简称spider(又可以称为搜索蜘蛛、robot、搜索机器人)，自动爬行整个互联网能访问到的网络页面，并且获取页面的相关信息。蜘蛛不管内容是否属于隐私，是否会产生安全隐患，它都会一如既往的就行爬行、收录……鉴于网络安全与隐私保护的考虑，蜘蛛会通过根目录中所创建的纯文本文件，也就是它的弟弟，robots.txt来决定是否进行访问，爬行，并且进行内容的索引。网站管理员可以在robots.txt里声明不想被访问的部分。或者指定搜索引擎只收录指点的内容。当设置了这个文件以后，当搜索引擎蜘蛛访问站点时，会首先检查是否存在它的弟弟，robots.txt。如果存在，那么就按照它兄弟的说法来进行链接的爬行抓取工作。如果不存在，则会沿着“大门”所通向的任何一条“路”(链接)来进行记录。
robots.txt文件的格式：

      robots与它哥哥的对话很难懂，每一句话，针对每一个意思。rotots.txt文件应该包含一条或者多条的规则记录。这些记录通过换行分开，每一条记录都是由一行或者多行User-agent开始。后面加上无数 Disallow行，详细说明如下：

      User-agent:
      该条语句的值用于描述搜索引擎robot的名字，(在robots与它的兄弟姐妹见面的时候，总要先打招呼，然后告诉它的兄弟你只能到我家里哪里哪里……)。如果有多条User-agent语句的话，说明就有多少robot会受到限制。在robots文件里，至少要有一条User-agent语句，并且需要有值被赋予。如果该语句的值为“*”的话，那么就是说，robots将告诉它每个兄弟姐妹他们被限制了。在robots文件里，“User-agent:*”这样的语句只能有一条。

      Disallow:
      这个语句是说明不希望被搜索引擎访问到的一个URL，在robots.txt中，任何以Disallow开头的URL都不会被蜘蛛访问到。例如：disallow:/help 意思就是说，/help.html和/help/index.html都不允许访问。而Disallow:/help/ 的意思则是说不允许搜索引擎访问help这个目录以及这个目录下面的任何文件。只要在robots.txt中包含任何一条Disallow语句的值为空，那么说明站点的任何部分都运行被搜索引擎访问到。

      如果robots什么也不说，什么也不做(就是说，robots.txt内容为空的话)意思就是站点对所有的搜索引擎蜘蛛开放。

oldxi86 · 发表于 2012-7-16 21:28:55

本帖最后由 oldxi86 于 2012-7-16 21:29 编辑

不看不知道，以后的好好重视了
婴儿理发器

chenpuwk · 发表于 2012-7-17 19:49:24

刚开始学习学习，支持

wgj4107 · 发表于 2012-7-19 16:14:43

学习实践，加油ing中

账号		自动登录	找回密码
密码			注册