解析robots.txt的正确使用方法

ＣooL．泪猪 · 发表于 2012-4-29 21:36:30

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？会员注册

x


	网友eleven俊问：　　1.robots.txt这个Disallow:后面一半怎么写(请举例说明各种情况，越多越好) 　　2.robots.txt怎么指明某个东西的未知，比如：网站地图(请将具体的代码写好) 　　3.robots.txt在根目录下怎么看?根目录在管理后台(发布跟新文章地方)就可以看，看是空间放源代码文件得地方，这个我分不清楚，求教? 　　4.robots还拿哪些问题比较重要的，请写下，感谢! 　　大伟的回复：　　robots.txt是在网站空间根目录里面。给楼主提供一篇文章看看：　　网站能不能被搜索引擎索引到，除了看有没有向搜索引擎入口提交、有否与其他站点交换链接等之外，还得看根目录底下的robots.txt文件有没有禁止搜索引擎的收录，这里摘录一些关于robots.txt文件的写法备忘。　　什么是robots.txt文件　　搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等)，自动搜集互联网上的网页并获取相关信息。　　鉴于网络安全与隐私的考虑，搜索引擎遵循robots.txt协议。通过在根目录中创建的纯文本文件robots.txt，网站可以声明不想被robots访问的部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录，或者指定搜索引擎只收录指定的内容。当一个搜索引擎的爬虫访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果该文件不存在，那么爬虫就沿着链接抓取，如果存在，爬虫就会按照该文件中的内容来确定访问的范围。　　robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。　　robots.txt文件的写法　　robots.txt文件的格式　　User-agent: 定义搜索引擎的类型　　Disallow: 定义禁止搜索引擎收录的地址　　Allow: 定义允许搜索引擎收录的地址　　我们常用的搜索引擎类型有：　　google蜘蛛：googlebot 　　百度蜘蛛：baiduspider 　　yahoo蜘蛛：slurp 　　alexa蜘蛛：ia_archiver 　　msn蜘蛛：msnbot 　　altavista蜘蛛：scooter 　　lycos蜘蛛：lycos_spider_(t-rex) 　　alltheweb蜘蛛：fast-webcrawler 　　inktomi蜘蛛： slurp 　　robots.txt文件的写法　　User-agent: * 　　这里的代表的所有的搜索引擎种类，是一个通配符　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录　　Disallow: /require/ 　这里定义是禁止爬寻require目录下面的目录　　Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录　　Disallow: /ABC 这里定义是禁止爬寻ABC整个目录　　Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。　　Disallow: /?* 禁止访问网站中所有的动态页面　　Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片　　Disallow:/ab/adc.html 禁止爬寻ab文件夹下面的adc.html所有文件　　User-agent: * 　　这里的代表的所有的搜索引擎种类，是一个通配符　　Allow: /cgi-bin/　　这里定义是允许爬寻cgi-bin目录下面的目录　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。　　Allow: .gif$ 允许抓取网页和gif格式图片　　robots.txt文件用法举例　　例1. 禁止所有搜索引擎访问网站的任何部分　　User-agent: * 　　Disallow: / 　　实例分析：淘宝网的 Robots.txt文件　　User-agent: Baiduspider 　　Disallow: / 　　很显然淘宝不允许百度的机器人访问其网站下其所有的目录。　　例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file) 　　User-agent: * 　　Disallow: 　　例3. 禁止某个搜索引擎的访问　　User-agent: BadBot 　　Disallow: / 　　例4. 允许某个搜索引擎的访问　　User-agent: baiduspider 　　Disallow: User-agent: * 　　Disallow: / 　　例5.一个简单例子　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。　　需要注意的是对每一个目录必须分开声明，而不要写成 “Disallow: /cgi-bin/ /tmp/”。　　User-agent:后的具有特殊的含义，代表“any robot”，所以在该文件中不能有“Disallow: /tmp/” or “Disallow:.gif”这样的记录出现。　　User-agent: 　　Disallow: /cgi-bin/ 　　Disallow: /tmp/ 　　Disallow: /~joe/ 　　Robots特殊参数：　　允许 Googlebot：　　如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页，可以使用下列语法：　　User-agent: 　　Disallow:/ 　　User-agent:Googlebot 　　Disallow: 　　Googlebot 跟随指向它自己的行，而不是指向所有漫游器的行。　　“Allow”扩展名：　　Googlebot 可识别称为“Allow”的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名，因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。　　您也可以同时使用“Disallow”和“Allow”。例如，要拦截子目录中某个页面之外的其他所有页面，可以使用下列条目：　　User-Agent:Googlebot 　　Disallow:/folder1/ 　　Allow:/folder1/myfile.html 　　这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。　　如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile)，可使用”Allow”规则允许该漫游器的访问。例如：　　User-agent:Googlebot 　　Disallow:/ 　　User-agent:Googlebot-Mobile 　　Allow: 　　使用 * 号匹配字符序列：　　您可使用星号 () 来匹配字符序列。例如，要拦截对所有以 private 开头的子目录的访问，可使用下列条目：　　User-Agent:Googlebot 　　Disallow:/private/ 　　要拦截对所有包含问号 (?) 的网址的访问，可使用下列条目：　　User-agent:* 　　Disallow:/? 　　使用 $ 匹配网址的结束字符　　您可使用 $ 字符指定与网址的结束字符进行匹配。例如，要拦截以 .asp 结尾的网址，可使用下列条目：　　User-Agent:Googlebot 　　Disallow:/.asp$ 　　您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 表示一个会话 ID，您可排除所有包含该 ID 的网址，确保 Googlebot 不会抓取重复的网页。但是，以 ? 结尾的网址可能是您要包含的网页版本。在此情况下，可对 robots.txt 文件进行如下设置：　　User-agent: 　　Allow:/?$ 　　Disallow:/? 　　Disallow:/ ? 　　一行将拦截包含 ? 的网址(具体而言，它将拦截所有以您的域名开头、后接任意字符串，然后是问号 (?)，而后又是任意字符串的网址)。　　Allow: /?$ 一行将允许包含任何以 ? 结尾的网址(具体而言，它将允许包含所有以您的域名开头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址)。　　Robots Meta标签　　Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样，Robots Meta标签也是放在页面的中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。　　Robots Meta标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。　　index指令告诉搜索机器人抓取该页面; 　　follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去; 　　Robots Meta标签的缺省值是index和follow，只有inktomi除外，对于它，缺省值是index、nofollow。　　需要注意的是：上述的robots.txt和Robots Meta标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则，需要搜索引擎机器人的配合才行，并不是每个ROBOTS都遵守的。　　目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于RobotsMETA标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。　　Sitemap 网站地图　　对网站地图的新的支持方式，就是在robots.txt文件里直接包括sitemap文件的链接。就像这样：Sitemap:http://www.********.cn/sitemap.xml 　　目前对此表示支持的搜索引擎公司有Google, Yahoo和MSN。不过，大伟建议还是在Google Sitemap进行提交，里面有很多功能可以分析你的链接状态。

ＣooL．泪猪说：

解析robots.txt的正确使用方法

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

发表回复

浏览过的版块

社区QQ达人

超级无敌新人奖

优秀成员

最佳成员奖

原创者勋章

沙发王勋章

每日签到奖

推广之星奖

宣传大使

极度诱惑勋章

视觉潮人奖

先锋奖

六星奖

音乐天才奖

空间认证奖

YY认证勋章

在线时间王勋章

红人勋章

爱心勋章

社区活动奖

幸福恋人奖(男)

酷Q帅哥奖

精英会员审核团队标志

最具人气奖

水瓶座

分享到：

个人中心