网站robots文件常见问题:robots的作用是什么?如何使用robots文件

robots.txt文件是引导搜索引擎Spider抓取网站的文件。合理地使用robots.txt文件可以防止自己网站内诸如后台登入之类的秘密页面被搜索引擎抓取索引和公布,还可以屏蔽搜索引擎对网站非内容页面的抓取,只让搜索引擎抓取和收录能够带来排名和流量的页面。在robots.xt文件的使用中有下面几个问题值得讨论一下。

1.要不要使用robots.txt

对于有需要屏蔽Spider抓取的内容的网站,当然是需要robots.xt文件的。但是对于希望把内容全部开放给Spiderl的网站来说robots.xt就没有意义了,那么此时还需不需要这个robots.xt文件呢?

2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议。搜索引擎支持robots协议,也就是在抓取网站内容之前需要先抓取网站的robots.txt文件。

如果网站不设置robots.xt文件,正常情况下服务器会返回404状态码,但是也有些服务器会返回200或者其他错误。针对返回404状态码的服务器,就不需要做特殊处理了。因为搜索引擎抓取一两次都发现网站并没有设置robots.xt文件,在一定周期内就不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外的信息的服务器,最好重新配置一下服务器,

设置为对访问服务器上不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或允许抓取全部内容设置的robots.xt文件,以防服务器对Spider做出错误的引导。

有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.xt文件有可能会浪费Spider的抓取次数,毕竟spider对一个网站的抓取次数是有限的。其实这种担心是不必要的,不论你设置不设置robots.xt文件,搜索引擎都会频繁地抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或者更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.xt文件,并不会造成对网站抓取次数的浪费。

2.不同搜索引擎对robots协议的支持并不相同

虽然主流搜索引擎都声明支持robots协议,但是对于robots.xt文件中的限制语句可能会有不同的匹配解读。在本书后续对Google Webmaster的“已拦截的网址”介绍中,介绍了百度和Google对robots协议匹配不同的地方。即“Disallow:tmp”在百度中是不可以匹配“/tmpdaf'”的,但是在Google中是可以匹配的。所以站长和SEO人员在配置robots.txt文件时,需要特别注意一下,最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。

3.robots.txt可以声明网站地图

robots.txt文件除了有限制搜索引擎抓取的功能外,还可以声明网站地图的位置。这其实是Google所支持的一个功能,站长可以通过Google Webmaster直接向Google提交XML版本或纯文本的网站地图,也可以选择在robots.xt文件中添加一行声明:

Sitemap:http://example.com/Sitemap_location.xml

该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。不过暂时只有Go0gle支持,百度搜索工程师曾经表示不支持(如图5-8所示),并且现在百度在站长平台中有了专门的Sitemap提交入口,所以这个声明对百度不一定有效。不过由于robots.xt文件的特性,搜索引擎都必须频繁抓取此文件,所以在robots.xt文件中声明一下网站地图,单从促进搜索引擎对网站抓取方面来看,只会有益无害。

4.robots meta标签的使用

robots协议除可以在网站根目录使用robots.txt文件外,还可以使用meta标签。具体写法如下:

nofollow会在后面进行详细的介绍,noarchive是禁止显示快照的意思,也就是当网友搜索到你的网站时,只能进入你的网站浏览内容,不能通过搜索引擎的快照浏览你的网站的内容。使用meta标签中的nofollow可以使得搜索引擎不跟踪页面中的链接。值得一提的是在网络上和其他SEO书籍中提及的

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1274

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年3月7日 上午8:04
下一篇 2022年3月7日 上午8:15

相关推荐

  • 做SEO需要懂哪些技术

    有人说seo就是个打杂的,哪里缺人就要去哪里。从这句话我们可以隐约的看出可能要懂很多技术。 1、html基础 做seo需要让我们的网站被搜索引擎所喜欢(五点告诉你什么样的网站才能赢…

    2022年3月15日
  • 常见的网站结构

    网站结构是指网站中页面之间的层次关系 对搜索引擎优化而言,优秀的网站结构优化应该包括网站物理结构优化和逻辑结构优化两个方面,一种是网站的物理结构,一种是网站的逻辑结构。下面我们来分…

    2022年3月15日
  • 百度智能小程序拾贝计划,得多平台超强曝光,参与即可获得200条天级收录配额

    听说了吗?智能小程序上周发布了“拾贝计划”,入选的小程序可以获得实物、曝光、荣誉、服务等多重奖励。 这几天小智已经陆续收到了开发者的投稿,距离投稿截止仅剩两天,还没有参与的小伙伴,…

    2022年3月18日
  • 百度快照和网页权重的关系

    本篇文章站长博客为大家介绍百度快照和网页权重的关系 在友情链接交换和网站分析中,站长和EO人员一般都比较习惯看目标网站的首页或相应页面的百度快照。根据以往的EO经验,权重越高的、更…

    2022年2月27日
  • 【SEO问答】网站只有首页排名,内页均无排名怎么解决?

    站长1: 去年年初网站内页大调整,包括内容细化和域名,开始排名收录无变化【网站每日流量是不成问题的,信息类网站,有固定客户】,过了三四个月,开始出现下滑,糟糕的是,这时候遇到了网站…

    2022年3月21日
  • 关键词出现位置及次数介绍

    URL中出现关键词(英文) 网页标题中出现关键词(1-3个) 关键词标签中出现关键词(1-3个) 描述标签中出现关键词(主关键词重复2次) 内容中自然出现关键词 内容第一段和最后一…

    2022年3月15日
  • SEO秘籍之《百度搜索引擎网页质量白皮书》

    网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否友好、来源是否权威专业等…

    2022年12月29日
  • 网站内链优化注意事项?内链优化原则?

    网站优化不外乎两点,站外优化和站内优化,而站内优化中,以内链优化最为重要,那么内链优化中有什么是需要引起我们的注意呢? 1、相关性的内页之间需要进行链接 相关性不管在外链亦或是内链…

    2022年3月15日
  • 谷歌SEO:如何挖掘有用户搜索需求的关键词?

    通过搜索量获得战略性 既然您已经发现了与您的网站相关的搜索字词及其相应的搜索量,那么您可以通过查看您的竞争对手并找出搜索在不同季节或地点的不同可能会变得更具战略性。 竞争对手关键词…

    2022年2月20日
  • 【百度站长工具】站点验证图文详解

    铛铛铛敲黑板,居然还有站长不懂如何在平台进行站点验证,学堂君特邀版主hscd521给大家带来站点验证的图文详解。 搜索资源平台为站点提供三种验证方式:文件验证、html标签验证、C…

    2022年12月29日