谷歌SEO教程第36篇—有关漫游器的常见问题解答

不需要。Googlebot 访问网站时,会先尝试检索 robots.txt 文件来请求抓取权限。对于不包含 robots.txt 文件、robots meta 标记或 X-Robots-Tag HTTP 标头的网站,我们一般会照常抓取并编入索引。

这要视具体情况而定。简而言之,这三种方法分别适用于不同的情况:

  • robots.txt:如果抓取您的内容会在您的服务器上引发问题,请使用该方法。例如,您可能需要禁止抓取无限加载内容的日历脚本。请勿使用 robots.txt 屏蔽不公开内容或处理规范化;如需屏蔽不公开内容,请使用服务器端身份验证机制。 为确保网址未编入索引,请改用robots meta 标记或 X-Robots-Tag HTTP 标头。
  • robots meta 标记:如果您需要控制单个 HTML 网页在搜索结果中的显示效果,或者需要确保该网页不显示,请使用该方法。
  • X-Robots-Tag HTTP 标头:如果您需要控制内容在搜索结果中的显示效果,或者需要确保这些内容不显示,请使用该方法。

不可以。这些方法仅适用于您可在其中修改代码或添加文件的网站。详细了解如何从 Google 中移除信息。

一般来讲,您可以在 Google Search Console 帐号中调整抓取速度设置。

不可以。robots.txt 文件中的规则(sitemap: 除外)仅对相对路径有效。

不可以。该文件必须位于网站的顶层目录下。

不可以。robots.txt 文件可由各种用户读取。如果某些内容的文件夹或文件名是非公开内容,请不要将其列在 robots.txt 文件中。我们建议您不要根据用户代理或其他属性提供不同的 robots.txt 文件。

您不需要添加 allow 规则。所有网址均隐式允许抓取,而 allow 规则用于替换同一 robots.txt 文件中的 disallow 规则。

网页抓取工具一般具有很高的灵活性,通常不会因 robots.txt 文件中的小错误而受到影响。一般情况下,最严重的后果就是忽略不正确或不受支持的规则。请注意,尽管 Google 在解读 robots.txt 文件时无法揣摩您的隐含意图,但我们必须解析所提取的 robots.txt 文件。也就是说,如果您知道 robots.txt 文件存在问题,那么这些问题通常很容易解决。

您可以使用任何可创建有效文本文件的程序。常用来创建 robots.txt 文件的程序包括记事本、TextEdit、vi 或 emacs。详细了解如何创建 robots.txt 文件。 创建文件后,请使用 robots.txt 测试工具验证该文件。

禁止 Google 抓取某个网页很可能会导致该网页从 Google 索引中被移除。

但是,robots.txt disallow 无法保证某一网页不会显示在搜索结果中:Google 仍可能会根据外部信息(如传入的链接)断定其具有相关性,并在搜索结果中显示该网址。如果您希望明确禁止某个网页被编入索引,请使用 noindex robots meta 标记或 X-Robots-Tag HTTP 标头。在这种情况下,请勿在 robots.txt 中屏蔽该网页,因为 Google 只有在抓取该网页后才能看到和遵循相关标记。了解如何控制与 Google 分享的内容

首先,robots.txt 文件的缓存必须更新(我们一般最多将内容缓存一天)。您可以通过向 Google 提交更新后的 robots.txt 加快此过程。 即使在系统发现了更改后,抓取与索引编制过程也很复杂,有时对于个别网址的处理可能需要很久,因此无法给出准确的时间。另请注意,即使 robots.txt 文件禁止访问某个网址,该网址仍有可能显示在搜索结果中,只是我们无法抓取它。如果您想加速移除禁止 Google 访问的网页,请提交移除请求。

您可以对所有网址(包括 robots.txt 文件)返回 503 (service unavailable) HTTP 状态代码,从而暂时停止所有对您网站的抓取。系统会定期重新请求 robots.txt 文件,直到能够再次访问该文件。我们建议您不要通过改动 robots.txt 文件来禁止抓取。

robots.txt 文件中的规则是区分大小写的。在这种情况下,建议您使用规范化方法确保编入索引的网址版本只有一个。这样可以降低 robots.txt 文件中的行数,方便您管理该文件。如果无法使用上述方法,那么我们建议您列出文件夹名称的常见组合,或者使用名称的前几个字符代替全称,尽量将其缩短。例如,您无需列出 /MyPrivateFolder 的所有大小写组合,只要列出 /MyP 的组合即可(前提是您确定不存在其他包含这些首字符的可抓取网址)。此外,如果不存在抓取问题,则可改用robots meta 标记或 X-Robots-Tag HTTP 标头。

403 Forbidden HTTP 状态代码以及其他 4xx HTTP 状态代码代表 robots.txt 文件不存在。这意味着抓取工具一般会假定可以抓取该网站的所有网址。若要禁止抓取网站,您必须针对 robots.txt 返回 200 OK HTTP 状态代码,其中必须包含相应的 disallow 规则。

不可以。robots.txt 文件可控制访问的是哪些网页。robots meta 标记用于控制是否将网页编入索引,但是需要抓取相应的网页才能看到该标记。 如果抓取某个网页时存在问题(例如该网页导致服务器高负载),请使用 robots.txt 文件。如果您只是想控制某个网页是否显示在搜索结果中,则可使用robots meta 标记。

不可以,robots meta 标记是网页级设置。

不可以,robots meta 标记必须位于网页的 <head> 部分。

不会。即使robots meta 标记目前显示 noindex,我们仍然需要不定期重新抓取该网址,以查看 meta 标记是否发生了更改。

nofollow robots meta 标记适用于网页上的所有链接。rel="nofollow" 链接属性仅适用于网页中的特定链接。 有关 rel="nofollow" 链接属性的详细信息,请参阅我们关于用户生成的垃圾内容和 rel="nofollow" 的文档。

若要查看服务器标头,一种简单的方法是使用 Google Search Console 中的网址检查工具功能。若要检查任何网址的响应标头,请尝试搜索“服务器标头检查器”。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4296

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(1)
上一篇 2023年4月2日 下午3:54
下一篇 2023年4月6日 下午3:58

相关推荐