网站robots文件常见问题:robots的作用是什么?如何使用robots文件

robots.txt文件是引导搜索引擎Spider抓取网站的文件。合理地使用robots.txt文件可以防止自己网站内诸如后台登入之类的秘密页面被搜索引擎抓取索引和公布,还可以屏蔽搜索引擎对网站非内容页面的抓取,只让搜索引擎抓取和收录能够带来排名和流量的页面。在robots.xt文件的使用中有下面几个问题值得讨论一下。

1.要不要使用robots.txt

对于有需要屏蔽Spider抓取的内容的网站,当然是需要robots.xt文件的。但是对于希望把内容全部开放给Spiderl的网站来说robots.xt就没有意义了,那么此时还需不需要这个robots.xt文件呢?

2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议。搜索引擎支持robots协议,也就是在抓取网站内容之前需要先抓取网站的robots.txt文件。

如果网站不设置robots.xt文件,正常情况下服务器会返回404状态码,但是也有些服务器会返回200或者其他错误。针对返回404状态码的服务器,就不需要做特殊处理了。因为搜索引擎抓取一两次都发现网站并没有设置robots.xt文件,在一定周期内就不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外的信息的服务器,最好重新配置一下服务器,

设置为对访问服务器上不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或允许抓取全部内容设置的robots.xt文件,以防服务器对Spider做出错误的引导。

有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.xt文件有可能会浪费Spider的抓取次数,毕竟spider对一个网站的抓取次数是有限的。其实这种担心是不必要的,不论你设置不设置robots.xt文件,搜索引擎都会频繁地抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或者更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.xt文件,并不会造成对网站抓取次数的浪费。

2.不同搜索引擎对robots协议的支持并不相同

虽然主流搜索引擎都声明支持robots协议,但是对于robots.xt文件中的限制语句可能会有不同的匹配解读。在本书后续对Google Webmaster的“已拦截的网址”介绍中,介绍了百度和Google对robots协议匹配不同的地方。即“Disallow:tmp”在百度中是不可以匹配“/tmpdaf'”的,但是在Google中是可以匹配的。所以站长和SEO人员在配置robots.txt文件时,需要特别注意一下,最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。

3.robots.txt可以声明网站地图

robots.txt文件除了有限制搜索引擎抓取的功能外,还可以声明网站地图的位置。这其实是Google所支持的一个功能,站长可以通过Google Webmaster直接向Google提交XML版本或纯文本的网站地图,也可以选择在robots.xt文件中添加一行声明:

Sitemap:http://example.com/Sitemap_location.xml

该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。不过暂时只有Go0gle支持,百度搜索工程师曾经表示不支持(如图5-8所示),并且现在百度在站长平台中有了专门的Sitemap提交入口,所以这个声明对百度不一定有效。不过由于robots.xt文件的特性,搜索引擎都必须频繁抓取此文件,所以在robots.xt文件中声明一下网站地图,单从促进搜索引擎对网站抓取方面来看,只会有益无害。

4.robots meta标签的使用

robots协议除可以在网站根目录使用robots.txt文件外,还可以使用meta标签。具体写法如下:

nofollow会在后面进行详细的介绍,noarchive是禁止显示快照的意思,也就是当网友搜索到你的网站时,只能进入你的网站浏览内容,不能通过搜索引擎的快照浏览你的网站的内容。使用meta标签中的nofollow可以使得搜索引擎不跟踪页面中的链接。值得一提的是在网络上和其他SEO书籍中提及的

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1274

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年3月7日 上午8:04
下一篇 2022年3月7日 上午8:15

相关推荐

  • 网站动态URL需要伪静态处理吗?

    今日问题: 网站动态URL需要伪静态处理吗? 正确答案: 网站url是静态或者动态对搜索引擎没有影响,但是建议尽量减少动态URL中的参数和URL的长度,同时不能让同一网页对应多个动…

    2021年11月16日
  • 如何建立关键词之间的联系?

    对于部分网站可能并不需要为挖掘来的关键词建立相关关系,只需要把关键词分布到网站中就可以了。但是关键词之间的相关关系一般可以辅助指导网站内链的布局,所以架构比较大、内容比较多的网站,…

    2022年3月8日
  • 如何寻找友情链接?在哪里找友情链接?

    需要交换就需要寻找对象。现在随着SEO行业的发展,已经有多种渠道可以寻找链接交换对象了,常见的寻找方式如下。 (1)现在有大量的链接交换QQ群,里面有很多有同样链接交换需求的站长或…

    2022年3月16日
  • 百度搜索引擎检索系统概述

    前面简要介绍过了搜索引擎的索引系统,实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这…

    2022年2月1日
  • 蓝天算法1.0详情

    百度持续打击新闻源售卖软文、目录行为,近日百度反作弊团队发现部分新闻源站点售卖目录,发布大量低质内容现象仍然存在,此举严重违反新闻源规则,并影响用户搜索体验。针对此情况,百度推出“…

    2022年2月8日
  • 谷歌SEO:如何给网站挖掘关键词?

    您可能有一种描述您所做工作的方式,但您的受众如何搜索您提供的产品、服务或信息?回答这个问题是关键字研究过程中至关重要的第一步。 发现关键字 您可能会考虑一些要为其排名的关键字。这些…

    2022年2月19日
  • 关键词分类知识:什么是2/8理论?什么是长尾理论

    按照关键词的长短可以把所有关键词分成短尾关键词和长尾关键词。短尾关键词即字数比较少的关键词,比如机械、美容、北京医院等,一般竞争强度会很大;长尾关键词即字数比较多、比较具体、搜索量…

    2022年3月5日
  • 2022年卡塔尔世界杯将至,网站防范被黑公告

    2022年卡塔尔世界杯即将来临,以棋牌类,赌球类,竞猜类等内容为主的黑产猖獗,近日百度搜索发现网站被黑的情况日益严重,故特发此公告提醒各大站长,时刻关注网站安全,做好网站防护工作,…

    2022年12月6日
  • 百度搜索基础展现解读

    一、什么是搜索基础展现? 用户在百度搜索引擎中根据自身的搜索需求输入关键词,从得到的搜索结果中,筛选出符合需求的内容,产生点击行为。这个过程中,【搜索展现】传递给用户的信息,会影响…

    2022年12月30日
  • 如何挖掘长尾关键词?长尾关键词挖掘方法大全

    挖掘长尾关键词其实方法有很多,找到适合自己的就好。 长尾关键词分为三个等级:难、中、易。接下来为大家介绍几种常用的方法: 1.利用主关键词在百度中查看相关搜索(难) 2.研究同行业…

    2022年3月15日