网站robots文件常见问题:robots的作用是什么?如何使用robots文件

robots.txt文件是引导搜索引擎Spider抓取网站的文件。合理地使用robots.txt文件可以防止自己网站内诸如后台登入之类的秘密页面被搜索引擎抓取索引和公布,还可以屏蔽搜索引擎对网站非内容页面的抓取,只让搜索引擎抓取和收录能够带来排名和流量的页面。在robots.xt文件的使用中有下面几个问题值得讨论一下。

1.要不要使用robots.txt

对于有需要屏蔽Spider抓取的内容的网站,当然是需要robots.xt文件的。但是对于希望把内容全部开放给Spiderl的网站来说robots.xt就没有意义了,那么此时还需不需要这个robots.xt文件呢?

2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议。搜索引擎支持robots协议,也就是在抓取网站内容之前需要先抓取网站的robots.txt文件。

如果网站不设置robots.xt文件,正常情况下服务器会返回404状态码,但是也有些服务器会返回200或者其他错误。针对返回404状态码的服务器,就不需要做特殊处理了。因为搜索引擎抓取一两次都发现网站并没有设置robots.xt文件,在一定周期内就不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外的信息的服务器,最好重新配置一下服务器,

设置为对访问服务器上不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或允许抓取全部内容设置的robots.xt文件,以防服务器对Spider做出错误的引导。

有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.xt文件有可能会浪费Spider的抓取次数,毕竟spider对一个网站的抓取次数是有限的。其实这种担心是不必要的,不论你设置不设置robots.xt文件,搜索引擎都会频繁地抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或者更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.xt文件,并不会造成对网站抓取次数的浪费。

2.不同搜索引擎对robots协议的支持并不相同

虽然主流搜索引擎都声明支持robots协议,但是对于robots.xt文件中的限制语句可能会有不同的匹配解读。在本书后续对Google Webmaster的“已拦截的网址”介绍中,介绍了百度和Google对robots协议匹配不同的地方。即“Disallow:tmp”在百度中是不可以匹配“/tmpdaf'”的,但是在Google中是可以匹配的。所以站长和SEO人员在配置robots.txt文件时,需要特别注意一下,最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。

3.robots.txt可以声明网站地图

robots.txt文件除了有限制搜索引擎抓取的功能外,还可以声明网站地图的位置。这其实是Google所支持的一个功能,站长可以通过Google Webmaster直接向Google提交XML版本或纯文本的网站地图,也可以选择在robots.xt文件中添加一行声明:

Sitemap:http://example.com/Sitemap_location.xml

该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。不过暂时只有Go0gle支持,百度搜索工程师曾经表示不支持(如图5-8所示),并且现在百度在站长平台中有了专门的Sitemap提交入口,所以这个声明对百度不一定有效。不过由于robots.xt文件的特性,搜索引擎都必须频繁抓取此文件,所以在robots.xt文件中声明一下网站地图,单从促进搜索引擎对网站抓取方面来看,只会有益无害。

4.robots meta标签的使用

robots协议除可以在网站根目录使用robots.txt文件外,还可以使用meta标签。具体写法如下:

nofollow会在后面进行详细的介绍,noarchive是禁止显示快照的意思,也就是当网友搜索到你的网站时,只能进入你的网站浏览内容,不能通过搜索引擎的快照浏览你的网站的内容。使用meta标签中的nofollow可以使得搜索引擎不跟踪页面中的链接。值得一提的是在网络上和其他SEO书籍中提及的

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1274

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年3月7日 上午8:04
下一篇 2022年3月7日 上午8:15

相关推荐

  • 什么是网站权重?什么样的网站权重高?

    本篇文章站长博客介绍什么是网站权重?什么样的网站权重高? 权重是一个相对的概念,即对于统一指标而言,A和B相对比哪个更重要。在搜索引擎中一般会体现在具体数字上,比如,在Google…

    2022年2月26日
  • 谷歌SEO,如何通过长尾关键词获取海量流量

    你是否厌倦了和竞争对手争夺相同的高竞争关键词? 我这有五个字的秘诀,帮你解决这个难题: 长尾关键词。 你为什么要关注长尾关键词呢? 因为它们可以带来海量精准的高转化流量,能给你带来…

    2022年1月17日
  • 百度快照和网页权重的关系

    本篇文章站长博客为大家介绍百度快照和网页权重的关系 在友情链接交换和网站分析中,站长和EO人员一般都比较习惯看目标网站的首页或相应页面的百度快照。根据以往的EO经验,权重越高的、更…

    2022年2月27日
  • 清风算法2.0详情

    算法名称:清风算法2.0算法内容:严厉打击欺骗下载发布时间:2018-4-19原文详情: 百度搜索将于5月上旬推出清风算法2.0,对于欺骗用户下载的问题进行永久封禁。请站长尽快对照…

    2021年11月5日
  • 网站内容更新的原则是什么?网站内容建设的方向是什么?

    针对依靠SEO起家的网站来说,对SEO有正面作用的内容就是好内容,对SEO没有正面作用的内容就是没有价值的。此类网站大都是主要为搜索引擎制造内容的,搜索引擎是第一位的,用户是第二位…

    2022年3月10日
  • SEO的工作原理,网站排名优化的原理是什么

    一、网站优化排名的对象是什么 1、一个网站是由众多的网页组成的,网站是一个或者多个网页组成的。(搜索引擎排名过程简介) 2、seo优化的对象是网页而不是网站,就像奥运会上的运动员得…

    2022年3月15日
  • 百度工程师为你总结网站优化常见问题

    前段时间,小编收到部分开发者关于建站相关的提问,于是特地让百度工程师为大家从网站的抓取建设、内容生产、死链处理3个方面总结了开发者经常遇到的问题,看到就是赚到! 一、网站抓取建设 …

    2022年2月18日
  • 百度智能小程序体验优化指南 2.0

    “体验”对于智能小程序经营、获流等各个方面都有着举足轻重的影响:用户角度,体验影响着用户留存、消费意愿、信任度;规范角度,体验是智能小程序获取各种权益的重要门槛,进而影响流量获取的…

    2022年7月6日 搜索引擎
  • 腾讯股价跌破300港元,单日暴跌10%

    3月15日下午消息,腾讯控股跌破300港元,日内重挫近10%。除了腾讯之外,中概股也再度迎来集体暴跌,从2021年初以来,中概股总体累计跌幅巨大,不少个股累计跌幅已超过90%,粗略…

    2022年3月16日
  • 网站代码优化包括哪些内容

    代码优化是页面优化的一个重要环节,也是页面优化的基础,代码优化包括:精简代码,头部优化权重标签优化以及图片优化。页面代码优化包括5大方面: 1、清理垃圾代码。 清理垃圾代码是指删除…

    2022年3月15日