谷歌SEO教程第32篇—robots.txt 简介

robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站收到过多请求;它并不是一种阻止 Google 抓取某个网页的机制。若想阻止 Google 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页。

robots.txt 文件主要用于管理流向您网站的抓取工具流量,通常用于阻止 Google 访问某个文件(具体取决于文件类型):

robots.txt 对不同文件类型的影响
网页 对于网页(包括 HTML、PDF,或其他 Google 能够读取的非媒体格式),您可在以下情况下使用 robots.txt 文件管理抓取流量:您认为来自 Google 抓取工具的请求会导致您的服务器超负荷;或者,您不想让 Google 抓取您网站上的不重要网页或相似网页。

如果您使用 robots.txt 文件阻止 Google 抓取您的网页,则其网址仍可能会显示在搜索结果中,但搜索结果不会包含对该网页的说明。 而且,图片文件、视频文件、PDF 文件和其他非 HTML 文件都会被排除在外。如果您看到了这样一条与您网页对应的搜索结果并想修正它,请移除屏蔽该网页的 robots.txt 条目。如果您想从 Google 搜索结果中完全隐藏该网页,请改用其他方法。

媒体文件您可以使用 robots.txt 文件管理抓取流量并阻止图片、视频和音频文件出现在 Google 搜索结果中。这不会阻止其他网页或用户链接到您的图片/视频/音频文件。

  • 详细了解如何阻止图片显示在 Google 中。
  • 详细了解如何从 Google 中移除您的视频文件或限制您的视频文件显示在 Google 上。
资源文件 如果您认为在加载网页时跳过诸如不重要的图片、脚本或样式文件之类的资源不会对网页造成太大影响,您可以使用 robots.txt 文件屏蔽此类资源。不过,如果缺少此类资源会导致 Google 抓取工具更难解读网页,请勿屏蔽此类资源,否则 Google 将无法有效分析有赖于此类资源的网页。

在创建或修改 robots.txt 文件之前,您应了解这种网址屏蔽方法的限制。根据您的目标和具体情况,您可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到您的网址。

  • 并非所有搜索引擎都支持 robots.txt 规则。
    robots.txt 文件中的命令并不能强制规范抓取工具对网站采取的行为;是否遵循这些命令由抓取工具自行决定。Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必如此。因此,如果您想确保特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法,例如用密码保护服务器上的隐私文件。
  • 不同的抓取工具会以不同的方式解析语法。
    虽然正规的网页抓取工具会遵循 robots.txt 文件中的规则,但每种抓取工具可能会以不同的方式解析这些规则。您需要好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令。
  • 如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引。
    尽管 Google 不会抓取被 robots.txt 文件屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在 Google 搜索结果中。若要正确阻止您的网址出现在 Google 搜索结果中,您应为服务器上的文件设置密码保护、使用 noindex meta 标记或响应标头,或者彻底移除网页。

如果您确定需要一个 robots.txt 文件,请了解如何创建 robots.txt 文件。如果您已有 robots.txt 文件,请了解如何更新它。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4288

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2023年3月29日 下午3:50
下一篇 2023年3月31日 下午3:52

相关推荐