SEOVIP学习社区

 找回密码
 注册
搜索
查看: 2577|回复: 3

robots.txt,原来你是如此的重要

[复制链接]

该用户从未签到

893184203 发表于 2012-7-12 17:38:09 | 显示全部楼层 |阅读模式
   搜索引擎通过一种程序,简称spider(又可以称为搜索蜘蛛、robot、搜索机器人),自动爬行整个互联网能访问到的网络页面,并且获取页面的相关信息。蜘蛛不管内容是否属于隐私,是否会产生安全隐患,它都会一如既往的就行爬行、收录……鉴于网络安全与隐私保护的考虑,蜘蛛会通过根目录中所创建的纯文本文件,也就是它的弟弟,robots.txt来决定是否进行访问,爬行,并且进行内容的索引。网站管理员可以在robots.txt里声明不想被访问的部分。或者指定搜索引擎只收录指点的内容。当设置了这个文件以后,当搜索引擎蜘蛛访问站点时,会首先检查是否存在它的弟弟,robots.txt。如果存在,那么就按照它兄弟的说法来进行链接的爬行抓取工作。如果不存在,则会沿着“大门”所通向的任何一条“路”(链接)来进行记录。
   robots.txt文件的格式:

        robots与它哥哥的对话很难懂,每一句话,针对每一个意思。rotots.txt文件应该包含一条或者多条的规则记录。这些记录通过换行分开,每一条记录都是由一行或者多行User-agent开始。后面加上无数 Disallow行,详细说明如下:


        User-agent:
        该条语句的值用于描述搜索引擎robot的名字,(在robots与它的兄弟姐妹见面的时候,总要先打招呼,然后告诉它的兄弟你只能到我家里哪里哪里……)。 如果有多条User-agent语句的话,说明就有多少robot会受到限制。在robots文件里,至少要有一条User-agent语句,并且需要有值被赋予。如果该语句的值为“*”的话,那么就是说,robots将告诉它每个兄弟姐妹他们被限制了。在robots文件里,“User-agent:*”这样的语句只能有一条。

        Disallow:
        这个语句是说明不希望被搜索引擎访问到的一个URL,在robots.txt中,任何以Disallow开头的URL都不会被蜘蛛访问到。例如:disallow:/help 意思就是说,/help.html和/help/index.html都不允许访问。而Disallow:/help/ 的意思则是说不允许搜索引擎访问help这个目录以及这个目录下面的任何文件。只要在robots.txt中包含任何一条Disallow语句的值为空,那么说明站点的任何部分都运行被搜索引擎访问到。

        如果robots什么也不说,什么也不做(就是说,robots.txt内容为空的话)意思就是站点对所有的搜索引擎蜘蛛开放。

该用户从未签到

oldxi86 发表于 2012-7-16 21:28:55 | 显示全部楼层
本帖最后由 oldxi86 于 2012-7-16 21:29 编辑

不看不知道,以后的好好重视了
婴儿理发器
  • TA的每日心情
    开心
    2012-7-17 21:19
  • 签到天数: 1 天

    [LV.1]初来乍到

    chenpuwk 发表于 2012-7-17 19:49:24 | 显示全部楼层
    刚开始学习学习,支持
  • TA的每日心情
    难过
    2014-3-10 13:27
  • 签到天数: 29 天

    [LV.4]偶尔看看III

    wgj4107 发表于 2012-7-19 16:14:43 | 显示全部楼层
    学习实践,加油ing中
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    小黑屋|手机版|Archiver|SEOVIP学习社区

    GMT+8, 2024-4-27 12:45 , Processed in 0.052894 second(s), 21 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表