搜索
  • 您还未登录,请
  • 查看: 1249|回复: 0
    打印 上一主题 下一主题
    收起左侧

    解析robots.txt的正确使用方法

    [复制链接]
    • 形象
    • 资料
    • 荣誉
    CooL.泪猪  男性
    发短消息 加为好友

    QQ查看个人网站
    UID: 1
    帖子: 5112
    精华: 33
       积分: 33240
       威望: 2128
       状态: 0
       积极: 9976
       贡献: 644
       魅力: 499
       活跃: 11205
       人气: 1235
       酷币: 23500
       阅读权限:255
       注册时间:2009-9-1
       在线时长:2830小时
       失踪天数: 0 天
       社区经验: 18级 已经发了5112篇文章咯快19级咯
       在线状态:   
    时尚酷族泪猪
    级别: 酷族管理员
  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 299 天

    连续签到: 2 天

    [LV.8]以坛为家I

    荣誉勋章

    社区QQ达人 超级无敌新人奖 优秀成员 最佳成员奖 原创者勋章 沙发王勋章 每日签到奖 推广之星奖 宣传大使 极度诱惑勋章 视觉潮人奖 先锋奖 六星奖 音乐天才奖 空间认证奖 YY认证勋章 在线时间王勋章 红人勋章 爱心勋章 社区活动奖 幸福恋人奖(男) 酷Q帅哥奖 精英会员审核团队标志 最具人气奖 水瓶座
    跳转到指定楼层
    楼主
    CooL.泪猪实名认证 发表于 2012-4-29 21:36:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式      紫钻仅向指定用户开放  
    +1
    1249°C
    沙发哦 ^ ^ 马上

    马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

    您需要 登录 才可以下载或查看,没有帐号?会员注册

    x
    网友eleven俊问:
      1.robots.txt这个Disallow:后面一半怎么写(请举例说明各种情况,越多越好)

      2.robots.txt怎么指明某个东西的未知,比如:网站地图(请将具体的代码写好)

      3.robots.txt在根目录下怎么看?根目录在管理后台(发布跟新文章地方)就可以看,看是空间放源代码文件得地方,这个我分不清楚,求教?

      4.robots还拿哪些问题比较重要的,请写下,感谢!

      大伟的回复:

      robots.txt是在网站空间根目录里面。 给楼主提供一篇文章看看:

      网站能不能被搜索引擎索引到,除了看有没有向搜索引擎入口提交、有否与其他站点交换链接等之外,还得看根目录底下的robots.txt文件有没有禁止搜索引擎的收录,这里摘录一些关于robots.txt文件的写法备忘。

      什么是robots.txt文件

      搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等),自动搜集互联网上的网页并获取相关信息。

      鉴于网络安全与隐私的考虑,搜索引擎遵循robots.txt协议。通过在根目录中创建的纯文本文件robots.txt,网站可以声明不想被robots访问的部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录,或者指定搜索引擎只收录指定的内容。当一个搜索引擎的爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。

      robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

      robots.txt文件的写法

      robots.txt文件的格式

      User-agent: 定义搜索引擎的类型

      Disallow: 定义禁止搜索引擎收录的地址

      Allow: 定义允许搜索引擎收录的地址

      我们常用的搜索引擎类型有:

      google蜘蛛:googlebot

      百度蜘蛛:baiduspider

      yahoo蜘蛛:slurp

      alexa蜘蛛:ia_archiver

      msn蜘蛛:msnbot

      altavista蜘蛛:scooter

      lycos蜘蛛:lycos_spider_(t-rex)

      alltheweb蜘蛛:fast-webcrawler

      inktomi蜘蛛: slurp

      robots.txt文件的写法

      User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符

      Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

      Disallow: /require/   这里定义是禁止爬寻require目录下面的目录

      Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

      Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

      Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

      Disallow: /*?* 禁止访问网站中所有的动态页面

      Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

      Disallow:/ab/adc.html 禁止爬寻ab文件夹下面的adc.html所有文件

      User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符

      Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录

      Allow: /tmp 这里定义是允许爬寻tmp的整个目录

      Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

      Allow: .gif$ 允许抓取网页和gif格式图片

      robots.txt文件用法举例

      例1. 禁止所有搜索引擎访问网站的任何部分

      User-agent: *

      Disallow: /

      实例分析:淘宝网的 Robots.txt文件

      User-agent: Baiduspider

      Disallow: /

      很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

      例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

      User-agent: *

      Disallow:

      例3. 禁止某个搜索引擎的访问

      User-agent: BadBot

      Disallow: /

      例4. 允许某个搜索引擎的访问

      User-agent: baiduspider

      Disallow: User-agent: *

      Disallow: /

      例5.一个简单例子

      在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

      需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。

      User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。

      User-agent: *

      Disallow: /cgi-bin/

      Disallow: /tmp/

      Disallow: /~joe/

      Robots特殊参数:

      允许 Googlebot:

      如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:

      User-agent:

      Disallow:/

      User-agent:Googlebot

      Disallow:

      Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

      “Allow”扩展名:

      Googlebot 可识别称为“Allow”的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。

      您也可以同时使用“Disallow”和“Allow”。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:

      User-Agent:Googlebot

      Disallow:/folder1/

      Allow:/folder1/myfile.html

      这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

      如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用”Allow”规则允许该漫游器的访问。例如:

      User-agent:Googlebot

      Disallow:/

      User-agent:Googlebot-Mobile

      Allow:

      使用 * 号匹配字符序列:

      您可使用星号 (*) 来匹配字符序列。例如,要拦截对所有以 private 开头的子目录的访问,可使用下列条目:

      User-Agent:Googlebot

      Disallow:/private*/

      要拦截对所有包含问号 (?) 的网址的访问,可使用下列条目:

      User-agent:*

      Disallow:/*?*

      使用 $ 匹配网址的结束字符

      您可使用 $ 字符指定与网址的结束字符进行匹配。例如,要拦截以 .asp 结尾的网址,可使用下列条目:

      User-Agent:Googlebot

      Disallow:/*.asp$

      您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 表示一个会话 ID,您可排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 ? 结尾的网址可能是您要包含的网页版本。在此情况下,可对 robots.txt 文件进行如下设置:

      User-agent:*

      Allow:/*?$

      Disallow:/*?

      Disallow:/ *?

      一行将拦截包含 ? 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (?),而后又是任意字符串的网址)。

      Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。

      Robots Meta标签

      Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

      Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

      index指令告诉搜索机器人抓取该页面;

      follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

      Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。

      需要注意的是:上述的robots.txt和Robots Meta标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。

      目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于RobotsMETA标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。

      Sitemap 网站地图

      对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接。就像这样:Sitemap:http://www.********.cn/sitemap.xml

      目前对此表示支持的搜索引擎公司有Google, Yahoo和MSN。不过,大伟建议还是在Google Sitemap进行提交,里面有很多功能可以分析你的链接状态。

    CooL.泪猪说:
    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
         时尚酷族社区:www.coqq.net

    发表回复

    您需要登录后才可以回帖 登录 | 会员注册

    本版积分规则

    欢迎您的光临,如果您觉得本站做得不错的话,请把本站介绍给您的好友,谢谢大家的支持!
    发布主题 上个主题 下个主题 快速回复 收藏帖子 返回列表

    ©2009-2025 时尚酷族社区 http://www.coqq.net/  版权所有 
      

    快速回复 返回顶部 返回列表