谷歌SEO:搜索引擎如何索引网页?网页是如何被收录的?

一旦您确保您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在前面关于抓取的部分中,我们讨论了搜索引擎如何发现您的网页。索引是您发现的页面的存储位置。爬虫找到一个页面后,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。

我可以查看 Googlebot 抓取工具如何查看我的网页吗?

是的,您网页的缓存版本将反映 Googlebot 上次抓取它的快照。

谷歌以不同的频率抓取和缓存网页。更成熟、更知名的网站,如https://www.nytimes.com等频繁发帖的网站将比 Roger the Mozbot 的副业的不那么出名的网站http://www.rogerlovescupcakes 更频繁地被抓取。 .(如果它是真的……)

您可以通过单击 SERP 中 URL 旁边的下拉箭头并选择“缓存”来查看页面的缓存版本:

您还可以查看站点的纯文本版本,以确定您的重要内容是否被有效地抓取和缓存。

页面是否曾从索引中删除?

是的,页面可以从索引中删除!可能会删除 URL 的一些主要原因包括:

  • URL 正在返回“未找到”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外的(页面已移动且未设置 301 重定向)或故意的(页面已被删除并 404ed 以便将其从索引中删除)
  • 该 URL 添加了一个 noindex 元标记 – 站点所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。
  • 该 URL 已因违反搜索引擎的网站管理员指南而受到人工处罚,因此已从索引中删除。
  • 该 URL 已被阻止抓取,并在访问者访问该页面之前添加了所需的密码。

如果您认为您网站上以前在 Google 索引中的页面不再显示,您可以使用URL 检查工具了解该页面的状态,或使用具有“请求索引”功能的Fetch as Google向索引提交单个 URL。(奖励:GSC 的“获取”工具还有一个“渲染”选项,可让您查看 Google 如何解释您的页面是否存在任何问题)。

告诉搜索引擎如何索引您的网站

机器人元指令

元指令(或“元标签”)是您可以向搜索引擎提供的关于您希望如何处理您的网页的指令。

您可以告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要将任何链接权益传递给任何页面链接”。这些指令通过 HTML 页面的 <head> 中的机器人元标记(最常用)或通过 HTTP 标头中的 X-Robots-Tag 执行。

机器人元标记

漫游器元标记可在网页 HTML 的 <head> 中使用。它可以排除所有或特定的搜索引擎。以下是最常见的元指令,以及您可以应用它们的情况。

index/noindex告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以进行检索。如果您选择使用“noindex”,则表示您希望将页面从搜索结果中排除在外。默认情况下,搜索引擎假定它们可以索引所有页面,因此没有必要使用“index”值。

  • 什么时候可以使用:如果您尝试从 Google 的网站索引中修剪精简页面(例如:用户生成的个人资料页面),但您仍然希望访问者可以访问它们,您可能会选择将页面标记为“noindex”。

follow/nofollow告诉搜索引擎页面上的链接是应该被关注还是不被关注。“关注”会导致机器人跟随您页面上的链接并将链接资产传递到这些 URL。或者,如果您选择使用“nofollow”,搜索引擎将不会跟随或传递任何链接权益到页面上的链接。默认情况下,假定所有页面都具有“关注”属性。

  • 什么时候可以使用:当你试图阻止页面被索引以及阻止爬虫跟踪页面上的链接时,nofollow 通常与 noindex 一起使用。

noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保留其已编入索引的所有页面的可见副本,搜索者可以通过搜索结果中的缓存链接访问。

  • 什么时候可以使用:如果您经营一个电子商务网站并且您的价格经常变化,您可能会考虑使用 noarchive 标签来防止搜索者看到过时的价格。

以下是元机器人 noindex、nofollow 标签的示例:

<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>

此示例将所有搜索引擎排除在索引页面和跟踪任何页面链接之外。如果您想排除多个爬虫,例如 googlebot 和 bing,可以使用多个机器人排除标记。

元指令影响索引,而不是爬网

Googlebot 需要抓取您的网页才能查看其元指令,因此如果您试图阻止抓取工具访问某些网页,则元指令不是这样做的方法。必须抓取机器人标签才能得到尊重。

X-Robots-标签

x-robots 标签用于 URL 的 HTTP 标头中,如果您想大规模阻止搜索引擎,则比元标签提供更多的灵活性和功能,因为您可以使用正则表达式、阻止非 HTML 文件并应用站点范围的 noindex 标签.

例如,您可以轻松排除整个文件夹或文件类型(如 moz.com/no-bake/old-recipes-to-noindex):

<Files ~ “\/?no\-bake\/.*”> 标头集 X-Robots-Tag “noindex, nofollow”</Files>
机器人元标记中使用的衍生物也可以用于 X-Robots-Tag。

或特定文件类型(如 PDF):

<Files ~ “\.pdf$”> 标题集 X-Robots-Tag “noindex, nofollow”</Files>

有关元机器人标签的更多信息,请浏览Google 的机器人元标签规范。

WordPress 提示:

在仪表板中 > 设置 > 阅读时,确保<em>未</em>选中“搜索引擎可见性”框。这会阻止搜索引擎通过您的 robots.txt 文件访问您的网站!

了解影响抓取和索引的不同方式将帮助您避免常见的陷阱,这些陷阱会阻止您的重要页面被发现。

本文作者:站长派,如若转载,请注明出处:https://zhanzhangpai.com/?p=1006

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年2月18日 上午9:57
下一篇 2022年2月18日 上午10:05

相关推荐

  • 什么是分布式Spider和“降权蜘蛛”?百度蜘蛛有哪些类型?

    由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取…

    2022年2月21日
  • 如何购买虚拟主机?购买虚拟主机注意事项?

    虚拟主机怎么选购?虚拟主机商哪家好?虚拟主机选购不好会出现哪些问题?虚拟主机选购要注意什么?下面是虚拟主机选购的知识介绍。 一、虚拟主机选购不好会有哪些问题? 1、影响用户体验 当…

    2022年4月2日
  • 如何正确识别百度蜘蛛

    一、查看UA信息 如果UA信息不对,可以直接判断该蜘蛛为非百度搜索的蜘蛛。目前UA分为移动、PC、和小程序三个应用场景,分别如下: 【移动UA】 1、Mozilla/5.0(Lin…

    2022年3月28日
  • SEO的工作原理,网站排名优化的原理是什么

    一、网站优化排名的对象是什么 1、一个网站是由众多的网页组成的,网站是一个或者多个网页组成的。(搜索引擎排名过程简介) 2、seo优化的对象是网页而不是网站,就像奥运会上的运动员得…

    2022年3月15日
  • 如何挖掘长尾关键词?长尾关键词挖掘方法大全

    挖掘长尾关键词其实方法有很多,找到适合自己的就好。 长尾关键词分为三个等级:难、中、易。接下来为大家介绍几种常用的方法: 1.利用主关键词在百度中查看相关搜索(难) 2.研究同行业…

    2022年3月15日
  • 哪些建站技巧有助于seo优化?

    seo优化技术在前期的网站建设时,就要充分考虑到网站SEO优化的一些方面,包括网站模板的优化,服务器选择,网站首页、栏目页、产品页、文章页的SEO设置等。做好这些,网站就会有一个非…

    2022年5月23日
  • 建站源码是什么?网站建站源码能要回吗?

    建站源码是什么?网站建站源码能要回吗? 随着互联网的快速发展,越来越多的人想建立自己的网站,但他们不懂技术,也不清楚网站建设流程,比如网站源码这个问题就有很多人不了解。那么建站源码…

    2022年4月14日
  • 商城网站建设需要注意哪些问题?

    商城网站建设需要注意哪些问题? 很多企业都想要建一个商城网站,因为商城网站建站不仅可以展现企业的优势还可以在线上直接跟用户产生交易。但是要知道商城网站和一般的展示型企业网站有所不同…

    2022年4月7日
  • 2022年百度站长平台工具常见问题解析

    开发者们每天都会和资源平台里的一系列工具打交道,平台一直以来也在不断地和大家分享工具使用的注意事项。 今天小编就来和大家分享一下索引量、流量与关键词等工具的常见问题及解析,快来做好…

    2022年2月25日
  • SEO是什么意思?什么是SEO优化?

    SEO的中文意思是搜索引擎优化。 通俗理解是:一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术,最终通过提高…

    2022年3月15日