什么是robots文件?robots文件怎么写?

哈喽大家好!

【搜索问答剧场】最新一集如期而至,平小雕又带着满满的知识干货回来啦!准备好迎接知识的洗礼了嘛?

第五集【搜索问答剧场】中,跟大家提到了【Robots】工具。

本期就来详细教大家如何灵活地使用【Robots】工具,以及如何正确设置网站整体的抓取范围。

一、了解robots文件

1、Q:什么是robots文件?

A:robots文件用于指定spider在网站上的抓取范围,在文件中可以声明网站中不想被搜索引擎抓取或指定被抓取的资源。

2、Q:robots.txt文件怎么写?

文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

“<field>:<optional space><value><optionalspace>”

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:该项的值用于描述搜索引擎robot的名字。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。

如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

说明:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

robots.txt文件举例:

什么是robots文件?robots文件怎么写?

什么是robots文件?robots文件怎么写?

3、Q:robots.txt文件放在哪里?

A:robots.txt文件应该放置在网站根目录下。网站对应robots文件的URL:

什么是robots文件?robots文件怎么写?

详情可参考《什么是robots文件

二、如何使用【Robots】工具

1、Q:【Robots】工具的作用?

A:站长可以通过搜索资源平台【Robots】工具来创建、校验、更新robots.txt文件,或查看网站robots.txt文件是否成功生效的情况。

2、Q:使用【Robots】工具的注意事项?

A:【Robots】工具目前支持48k的文件内容检测。同时请保证网站的robots.txt文件不要过大,目录最长不超过250个字符。

robots文件更新和提交后,百度蜘蛛不是立即调整停止/开放抓取的,搜索引擎需要逐渐完成robots.txt的更新。

3、Q:robots.txt中设置了禁止百度收录网站的内容,为何还出现在百度搜索结果中?

A:可能存在以下问题:

(1)robots文件不能够有效访问。站长可以在资源平台-【Robots】工具查看robots文件的访问情况。

(2)文件暂未生效。robots文件在结果中生效一般需要1-2周,可以关注。

4、【Robots】工具校验提示解读?

什么是robots文件?robots文件怎么写?

A:可能出现以下情况:

显示错误码404,robots文件可能无法被访问。

显示错误码301,robots文件可能存在跳转。

显示错误码500,robots页面访问失败。

以上情况时,建议自查robots文件情况针对性优化后,重新提交校验。

5、Q:robots文件误封禁,如何处理?

A:(1)修改robots文件,封禁改为允许。

(2)在搜索资源平台检测并更新robots文件,若显示抓取失败,可以多尝试点击几次,触发蜘蛛抓取站点。

(3)关注【抓取频次】数据情况,可以适当调整抓取频次。

(4)可以使用【链接提交】,主动提交相关资源链接。

相关文档可参考《网站误封robots该如何处理

相关推荐:

robots文件用法举例

robots文件格式

Robots文件应放在哪里

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=3471

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年10月17日 上午10:10
下一篇 2022年10月19日 上午11:44

相关推荐

  • 关于Z-Blog的网址的瑕疵及解决

    如果,首页分页、分类分页、作者分页、标签分页、日期分页统一采用【*/2/default.html】式网址,URL配置如下。 首页分页【{%host%}/page/{%page%}/…

    2022年10月17日
  • 谷歌翻译退出中国

    谷歌翻译也退出中国了,访问原本谷歌翻译的本地化域名,会提示收藏新的网址,新网址为谷歌翻译香港的地址。在2010年Google宣布退出中国之后,仅在中国保留了“谷歌翻译”服务和“谷歌…

    2022年10月8日
  • 关于网站内容生产的一点思考?

    最近仔细观察了2个大型网站,一个是垂直公考类网站,一个是科技资讯综合类网站,具体站点不透漏,只说明自己看到的感悟: 先说数据:通过爱站查询两个网站百度权重都是权重5,日ip均超过4…

    2022年2月18日
  • 当代互联网人摸鱼办公室现状

    下午好,摸鱼人,工作再累,一定不要忘记摸鱼哦! 有事没事起身去茶水间去厕所去廊道走走,别老在工位上坐着,钱是老板的,但命是自己的 距离周末还有:2天 距离元旦还有:23天 距离春节…

    2021年12月9日
  • 文章写作中“标题党”不可取,但为何“标题党”从未断绝,“标题党”常用套路解析

    一、什么是“标题党” 正文开始之前我们先来看一下“标题党”的百科介绍,百度百科上对标题党是这样阐述的:标题党是指用夸张的标题吸引人点击查看,内容却是非官方来源的“小道消息”,甚至是…

    2022年2月8日
  • 便宜网站建设有哪些弊端?

    当下尽管一些企业有建站在线上推广的意识,但是在真正选择建站时往往会由于成本原因选择一个便宜的网站建设。下面一起了解下便宜网站建设有哪些弊端的介绍。 ①服务器相对就较差 越是优质的网…

    2022年9月21日
  • .club域名适合哪些终端企业建站?

    .club域名适合哪些终端企业建站? .club域名作为新通用顶级域名,英文直译有“俱乐部”得意思,相信大家都有所了解。现今随着.com域名的资源枯竭,所以很多公司开始用.club…

    2022年4月27日
  • 网站空间选虚拟主机还是服务器?

    网站空间选虚拟主机还是服务器? 众所周知,建网站需要一个储存文件的地方,很多人会使用服务器也有部分人会选虚拟主机。虚拟主机也被成为“网站空间”,如果把服务器比作“写字楼”,那么云虚…

    2022年4月21日
  • 【SEO问答】怎么增加网站的抓取频次

    【SEO问答】怎么增加网站的抓取频次 现在有什么有效的方法增加网站的抓取频次 站长1 多点权重高的站点做站点外链 站长2 最重要的还是内容的量级,你弄个几千万的内容,抓取频次应该会…

    2022年3月28日
  • 特朗普自创社交媒体Truth Social登顶苹果商店

    2月21日晚间消息,据报道,美国前总统特朗普(Donald Trump)的社交媒体应用“Truth Social”于当地时间周日晚在苹果App Store应用商品上线,数小时后就成…

    2022年2月24日