网站robots文件常见问题:robots的作用是什么?如何使用robots文件

robots.txt文件是引导搜索引擎Spider抓取网站的文件。合理地使用robots.txt文件可以防止自己网站内诸如后台登入之类的秘密页面被搜索引擎抓取索引和公布,还可以屏蔽搜索引擎对网站非内容页面的抓取,只让搜索引擎抓取和收录能够带来排名和流量的页面。在robots.xt文件的使用中有下面几个问题值得讨论一下。

1.要不要使用robots.txt

对于有需要屏蔽Spider抓取的内容的网站,当然是需要robots.xt文件的。但是对于希望把内容全部开放给Spiderl的网站来说robots.xt就没有意义了,那么此时还需不需要这个robots.xt文件呢?

2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议。搜索引擎支持robots协议,也就是在抓取网站内容之前需要先抓取网站的robots.txt文件。

如果网站不设置robots.xt文件,正常情况下服务器会返回404状态码,但是也有些服务器会返回200或者其他错误。针对返回404状态码的服务器,就不需要做特殊处理了。因为搜索引擎抓取一两次都发现网站并没有设置robots.xt文件,在一定周期内就不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外的信息的服务器,最好重新配置一下服务器,

设置为对访问服务器上不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或允许抓取全部内容设置的robots.xt文件,以防服务器对Spider做出错误的引导。

有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.xt文件有可能会浪费Spider的抓取次数,毕竟spider对一个网站的抓取次数是有限的。其实这种担心是不必要的,不论你设置不设置robots.xt文件,搜索引擎都会频繁地抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或者更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.xt文件,并不会造成对网站抓取次数的浪费。

2.不同搜索引擎对robots协议的支持并不相同

虽然主流搜索引擎都声明支持robots协议,但是对于robots.xt文件中的限制语句可能会有不同的匹配解读。在本书后续对Google Webmaster的“已拦截的网址”介绍中,介绍了百度和Google对robots协议匹配不同的地方。即“Disallow:tmp”在百度中是不可以匹配“/tmpdaf'”的,但是在Google中是可以匹配的。所以站长SEO人员在配置robots.txt文件时,需要特别注意一下,最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。

3.robots.txt可以声明网站地图

robots.txt文件除了有限制搜索引擎抓取的功能外,还可以声明网站地图的位置。这其实是Google所支持的一个功能,站长可以通过Google Webmaster直接向Google提交XML版本或纯文本的网站地图,也可以选择在robots.xt文件中添加一行声明:

Sitemap:http://example.com/Sitemap_location.xml

该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。不过暂时只有Go0gle支持,百度搜索工程师曾经表示不支持(如图5-8所示),并且现在百度在站长平台中有了专门的Sitemap提交入口,所以这个声明对百度不一定有效。不过由于robots.xt文件的特性,搜索引擎都必须频繁抓取此文件,所以在robots.xt文件中声明一下网站地图,单从促进搜索引擎对网站抓取方面来看,只会有益无害。

4.robots meta标签的使用

robots协议除可以在网站根目录使用robots.txt文件外,还可以使用meta标签。具体写法如下:

nofollow会在后面进行详细的介绍,noarchive是禁止显示快照的意思,也就是当网友搜索到你的网站时,只能进入你的网站浏览内容,不能通过搜索引擎的快照浏览你的网站的内容。使用meta标签中的nofollow可以使得搜索引擎不跟踪页面中的链接。值得一提的是在网络上和其他SEO书籍中提及的

本文作者:站长派,如若转载,请注明出处:https://zhanzhangpai.com/?p=1274

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年3月7日 上午8:04
下一篇 2022年3月7日 上午8:15

相关推荐

  • 什么是网页去重原理?搜索引擎是如何去重的?

    本篇文章站长博客为大家介绍什么是网页去重原理?搜索引擎是如何去重的? 在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和EO人员孜孜不…

    2022年2月23日
  • 谷歌SEO,如何通过长尾关键词获取海量流量

    你是否厌倦了和竞争对手争夺相同的高竞争关键词? 我这有五个字的秘诀,帮你解决这个难题: 长尾关键词。 你为什么要关注长尾关键词呢? 因为它们可以带来海量精准的高转化流量,能给你带来…

    2022年1月17日
  • 谷歌seo入门指南第六章:搜索引擎优化技术

    重要的是要确保没有技术上的障碍阻止

    2022年1月11日
  • seo网站代码涉及到哪些方面?

    seo网站代码涉及到哪些方面? 网站都是需要进行SEO优化的,这样才能令网站被更多人看到,通过好的排名和权重,为网站带来各种实际的好处。seo网站优化除了内容上的优化还有网站代码上…

    2022年4月24日
  • 什么是网站百度权重?百度权重是如何结算的?

    上一篇文章中介绍了了什么是网站权重,接下来介绍什么是网站百度权重?百度权重是如何结算的? 在百度搜索引擎系统中应该是存在“权重”这个指标的,只是没有像Google一样提供公开查询而…

    2022年2月26日
  • 【SEO问答】什么是优质内容?如何生产优质内容?

    【提问要求】: 1、问题不能是个例性的问题;具体的个例的站点问题请在搜索资源平台反馈中心进行反馈。 2、在本贴中只能提问“百度搜索优质内容”的相关问题。 3、请尽可能详细、清晰地描…

    2022年3月22日
  • 百度搜索打击的违法违规信息概要

    原文标题:关于百度搜索严厉打击虚假诈骗等违法违规信息的公告发布日期:2019-02-27 为了维护安全健康的搜索生态,保障搜索用户的合法权益,百度搜索严厉打击电信网络中的虚假诈骗、…

    2021年11月5日
  • 谷歌SEO:搜索引擎如何索引网页?网页是如何被收录的?

    一旦您确保您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在前面关于抓取的部分中,我们…

    2022年2月18日
  • 网站CSS代码如何优化

    对于网站排名优化来说,css的几乎没有任何影响,但往大的方向如网站优化来说,样式表css的优化就至关重要了,其主要作用即是提高网页的响应速度。 外链CSS css的使用有多种方式,…

    2022年3月15日
  • 视频广告组成逻辑

    视频广告组成逻辑 第一步,吸引用户。 开篇内容用明晰的主题和极具吸睛力的内容元素争取更多观众停留,点击率高的素材往往都是前3s做的好的,因此吸引用户是视频价值的基础和前提。 第二步…

    2022年4月6日