谷歌SEO:搜索引擎如何索引网页?网页是如何被收录的?

一旦您确保您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在前面关于抓取的部分中,我们讨论了搜索引擎如何发现您的网页。索引是您发现的页面的存储位置。爬虫找到一个页面后,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。

我可以查看 Googlebot 抓取工具如何查看我的网页吗?

是的,您网页的缓存版本将反映 Googlebot 上次抓取它的快照。

谷歌以不同的频率抓取和缓存网页。更成熟、更知名的网站,如https://www.nytimes.com等频繁发帖的网站将比 Roger the Mozbot 的副业的不那么出名的网站http://www.rogerlovescupcakes 更频繁地被抓取。 .(如果它是真的……)

您可以通过单击 SERP 中 URL 旁边的下拉箭头并选择“缓存”来查看页面的缓存版本:

您还可以查看站点的纯文本版本,以确定您的重要内容是否被有效地抓取和缓存。

页面是否曾从索引中删除?

是的,页面可以从索引中删除!可能会删除 URL 的一些主要原因包括:

  • URL 正在返回“未找到”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外的(页面已移动且未设置 301 重定向)或故意的(页面已被删除并 404ed 以便将其从索引中删除)
  • 该 URL 添加了一个 noindex 元标记 – 站点所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。
  • 该 URL 已因违反搜索引擎的网站管理员指南而受到人工处罚,因此已从索引中删除。
  • 该 URL 已被阻止抓取,并在访问者访问该页面之前添加了所需的密码。

如果您认为您网站上以前在 Google 索引中的页面不再显示,您可以使用URL 检查工具了解该页面的状态,或使用具有“请求索引”功能的Fetch as Google向索引提交单个 URL。(奖励:GSC 的“获取”工具还有一个“渲染”选项,可让您查看 Google 如何解释您的页面是否存在任何问题)。

告诉搜索引擎如何索引您的网站

机器人元指令

元指令(或“元标签”)是您可以向搜索引擎提供的关于您希望如何处理您的网页的指令。

您可以告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要将任何链接权益传递给任何页面链接”。这些指令通过 HTML 页面的 <head> 中的机器人元标记(最常用)或通过 HTTP 标头中的 X-Robots-Tag 执行。

机器人元标记

漫游器元标记可在网页 HTML 的 <head> 中使用。它可以排除所有或特定的搜索引擎。以下是最常见的元指令,以及您可以应用它们的情况。

index/noindex告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以进行检索。如果您选择使用“noindex”,则表示您希望将页面从搜索结果中排除在外。默认情况下,搜索引擎假定它们可以索引所有页面,因此没有必要使用“index”值。

  • 什么时候可以使用:如果您尝试从 Google 的网站索引中修剪精简页面(例如:用户生成的个人资料页面),但您仍然希望访问者可以访问它们,您可能会选择将页面标记为“noindex”。

follow/nofollow告诉搜索引擎页面上的链接是应该被关注还是不被关注。“关注”会导致机器人跟随您页面上的链接并将链接资产传递到这些 URL。或者,如果您选择使用“nofollow”,搜索引擎将不会跟随或传递任何链接权益到页面上的链接。默认情况下,假定所有页面都具有“关注”属性。

  • 什么时候可以使用:当你试图阻止页面被索引以及阻止爬虫跟踪页面上的链接时,nofollow 通常与 noindex 一起使用。

noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保留其已编入索引的所有页面的可见副本,搜索者可以通过搜索结果中的缓存链接访问。

  • 什么时候可以使用:如果您经营一个电子商务网站并且您的价格经常变化,您可能会考虑使用 noarchive 标签来防止搜索者看到过时的价格。

以下是元机器人 noindex、nofollow 标签的示例:

<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>

此示例将所有搜索引擎排除在索引页面和跟踪任何页面链接之外。如果您想排除多个爬虫,例如 googlebot 和 bing,可以使用多个机器人排除标记。

元指令影响索引,而不是爬网

Googlebot 需要抓取您的网页才能查看其元指令,因此如果您试图阻止抓取工具访问某些网页,则元指令不是这样做的方法。必须抓取机器人标签才能得到尊重。

X-Robots-标签

x-robots 标签用于 URL 的 HTTP 标头中,如果您想大规模阻止搜索引擎,则比元标签提供更多的灵活性和功能,因为您可以使用正则表达式、阻止非 HTML 文件并应用站点范围的 noindex 标签.

例如,您可以轻松排除整个文件夹或文件类型(如 moz.com/no-bake/old-recipes-to-noindex):

<Files ~ “\/?no\-bake\/.*”> 标头集 X-Robots-Tag “noindex, nofollow”</Files>
机器人元标记中使用的衍生物也可以用于 X-Robots-Tag。

或特定文件类型(如 PDF):

<Files ~ “\.pdf$”> 标题集 X-Robots-Tag “noindex, nofollow”</Files>

有关元机器人标签的更多信息,请浏览Google 的机器人元标签规范。

WordPress 提示:

在仪表板中 > 设置 > 阅读时,确保<em>未</em>选中“搜索引擎可见性”框。这会阻止搜索引擎通过您的 robots.txt 文件访问您的网站!

了解影响抓取和索引的不同方式将帮助您避免常见的陷阱,这些陷阱会阻止您的重要页面被发现。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1006

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月18日 上午9:57
下一篇 2022年2月18日 上午10:05

相关推荐

  • 什么是网站直接访问流量?什么是网站外部链接流量?

    网站流量分为三种,分别是直接访问流量来源,搜索引擎流量来源和外部链接流量来源,做SEO对搜索引擎流量来源都非常熟悉,简单来说就是网站通过用户搜素关键词进入网站的流量,那么直接访问流…

    2022年3月10日
  • 搜索常见问题Q&A

    Q1:隔天看快照收录了,但当天没有展现,这是什么原因? A:这种情况是完全有可能的,因为收录有很多条策略,有一些时效性比较强的内容,短时间有收录,过了这一段时间之后,用户对这个内容…

    2022年12月30日
  • 清风算法2.0详情

    算法名称:清风算法2.0算法内容:严厉打击欺骗下载发布时间:2018-4-19原文详情: 百度搜索将于5月上旬推出清风算法2.0,对于欺骗用户下载的问题进行永久封禁。请站长尽快对照…

    2021年11月5日
  • 网站索引量下降常见原因及解决方案

    索引量是流量的基础,索引量数据的每一个变动都拨动着站长敏感的神经,“索引量下降之后该如何着手分析”一直是各位讨论的热门话题。这次站长社区版主老吕又拔刀相助了,看看史上最全的百度索引…

    2022年12月30日
  • 网站更新内容的注意事项?

    上一篇文章中介绍了网站内容更新的原则,那么网站更新内容的注意事项有哪些呢? 因为是以SEO为出发点,不是以行业和用户为出发点,所以此类网站往往会是一群不懂这个行业的人在运营。没有太…

    2022年3月11日
  • 网站结构对seo的影响

    很多seoer在做seo的时候更多的关心网站内容以及外链的质量,很少来关心网站的结构,殊不知,一个好的网站结构对seo来说能达到事半功倍的效果。那么搜索引擎友好的网站结构对seo有…

    2022年3月15日
  • 影响用户体验判断的因素?

    现在的搜索引擎己经不是以链接分析为中心了,而是以用户体验为中心。在正常的内容相关性判断和链接分析基础上,网页的用户体验对于搜索排名的影响越来越大。网站的用户体验优化(UEO),严格…

    2022年2月24日
  • 如何分析用户搜索需求?

    本篇文章站长博客为大家介绍如何分析用户搜索需求? 用户需求分析即“查询分析”,这里涉及两个方面:一个是用户搜索词的分析,另一个是用户搜索意图的分析。通过搜索词的分析可以返回一个可能…

    2022年2月23日
  • 常见的SEO专业术语

    如果你是一个博主或者站长,又或者是从事互联网相关的任何工作,你必须知道一些关于SEO的知识。因此学习SEO最常用的术语是非常必要的,下面将会列出若干常见的SEO术语: 【SEO】 …

    2022年3月15日
  • 谷歌seo入门指南第六章:搜索引擎优化技术

    重要的是要确保没有技术上的障碍阻止

    2022年1月11日