谷歌SEO:搜索引擎如何索引网页?网页是如何被收录的?

一旦您确保您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在前面关于抓取的部分中,我们讨论了搜索引擎如何发现您的网页。索引是您发现的页面的存储位置。爬虫找到一个页面后,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。

我可以查看 Googlebot 抓取工具如何查看我的网页吗?

是的,您网页的缓存版本将反映 Googlebot 上次抓取它的快照。

谷歌以不同的频率抓取和缓存网页。更成熟、更知名的网站,如https://www.nytimes.com等频繁发帖的网站将比 Roger the Mozbot 的副业的不那么出名的网站http://www.rogerlovescupcakes 更频繁地被抓取。 .(如果它是真的……)

您可以通过单击 SERP 中 URL 旁边的下拉箭头并选择“缓存”来查看页面的缓存版本:

您还可以查看站点的纯文本版本,以确定您的重要内容是否被有效地抓取和缓存。

页面是否曾从索引中删除?

是的,页面可以从索引中删除!可能会删除 URL 的一些主要原因包括:

  • URL 正在返回“未找到”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外的(页面已移动且未设置 301 重定向)或故意的(页面已被删除并 404ed 以便将其从索引中删除)
  • 该 URL 添加了一个 noindex 元标记 – 站点所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。
  • 该 URL 已因违反搜索引擎的网站管理员指南而受到人工处罚,因此已从索引中删除。
  • 该 URL 已被阻止抓取,并在访问者访问该页面之前添加了所需的密码。

如果您认为您网站上以前在 Google 索引中的页面不再显示,您可以使用URL 检查工具了解该页面的状态,或使用具有“请求索引”功能的Fetch as Google向索引提交单个 URL。(奖励:GSC 的“获取”工具还有一个“渲染”选项,可让您查看 Google 如何解释您的页面是否存在任何问题)。

告诉搜索引擎如何索引您的网站

机器人元指令

元指令(或“元标签”)是您可以向搜索引擎提供的关于您希望如何处理您的网页的指令。

您可以告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要将任何链接权益传递给任何页面链接”。这些指令通过 HTML 页面的 <head> 中的机器人元标记(最常用)或通过 HTTP 标头中的 X-Robots-Tag 执行。

机器人元标记

漫游器元标记可在网页 HTML 的 <head> 中使用。它可以排除所有或特定的搜索引擎。以下是最常见的元指令,以及您可以应用它们的情况。

index/noindex告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以进行检索。如果您选择使用“noindex”,则表示您希望将页面从搜索结果中排除在外。默认情况下,搜索引擎假定它们可以索引所有页面,因此没有必要使用“index”值。

  • 什么时候可以使用:如果您尝试从 Google 的网站索引中修剪精简页面(例如:用户生成的个人资料页面),但您仍然希望访问者可以访问它们,您可能会选择将页面标记为“noindex”。

follow/nofollow告诉搜索引擎页面上的链接是应该被关注还是不被关注。“关注”会导致机器人跟随您页面上的链接并将链接资产传递到这些 URL。或者,如果您选择使用“nofollow”,搜索引擎将不会跟随或传递任何链接权益到页面上的链接。默认情况下,假定所有页面都具有“关注”属性。

  • 什么时候可以使用:当你试图阻止页面被索引以及阻止爬虫跟踪页面上的链接时,nofollow 通常与 noindex 一起使用。

noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保留其已编入索引的所有页面的可见副本,搜索者可以通过搜索结果中的缓存链接访问。

  • 什么时候可以使用:如果您经营一个电子商务网站并且您的价格经常变化,您可能会考虑使用 noarchive 标签来防止搜索者看到过时的价格。

以下是元机器人 noindex、nofollow 标签的示例:

<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>

此示例将所有搜索引擎排除在索引页面和跟踪任何页面链接之外。如果您想排除多个爬虫,例如 googlebot 和 bing,可以使用多个机器人排除标记。

元指令影响索引,而不是爬网

Googlebot 需要抓取您的网页才能查看其元指令,因此如果您试图阻止抓取工具访问某些网页,则元指令不是这样做的方法。必须抓取机器人标签才能得到尊重。

X-Robots-标签

x-robots 标签用于 URL 的 HTTP 标头中,如果您想大规模阻止搜索引擎,则比元标签提供更多的灵活性和功能,因为您可以使用正则表达式、阻止非 HTML 文件并应用站点范围的 noindex 标签.

例如,您可以轻松排除整个文件夹或文件类型(如 moz.com/no-bake/old-recipes-to-noindex):

<Files ~ “\/?no\-bake\/.*”> 标头集 X-Robots-Tag “noindex, nofollow”</Files>
机器人元标记中使用的衍生物也可以用于 X-Robots-Tag。

或特定文件类型(如 PDF):

<Files ~ “\.pdf$”> 标题集 X-Robots-Tag “noindex, nofollow”</Files>

有关元机器人标签的更多信息,请浏览Google 的机器人元标签规范。

WordPress 提示:

在仪表板中 > 设置 > 阅读时,确保<em>未</em>选中“搜索引擎可见性”框。这会阻止搜索引擎通过您的 robots.txt 文件访问您的网站!

了解影响抓取和索引的不同方式将帮助您避免常见的陷阱,这些陷阱会阻止您的重要页面被发现。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1006

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月18日 上午9:57
下一篇 2022年2月18日 上午10:05

相关推荐

  • 什么是404错误代码?404状态码什么意思?

    当页面不存在时,一定要返回404代码。有的服务器设置有问题,或是站长有意在页面不存在时还返回200状态码,也就是表示页面数据正常,这样将使搜索引擎认为网站上有大量重复内容,多个UR…

    2022年3月15日
  • 从spider抓取,分析网站不收录原因

    目前百度spider抓取新资源的途径有两个:1、主动出击发现抓取; 2、从搜索资源平台的普通收录工具中获取数据。 其中通过资源平台“收”上来的数据最受百度spider的欢迎。 有的…

    2021年12月3日
  • URL301重定向的方法?URL如何进行301永久重定向

    经常会碰到这样的情况,其他网站链接你的站点时,会用下面的链接: www.example.com example.com/ www.example.com/index.html ex…

    2022年3月15日
  • 网站死链处理指南

    直播回看地址:http://live.baidu.com/m/media/pc … 937643&source=h5pre 内容基本都是原意,文字部分精简。 本…

    2023年1月10日
  • 为什么要分析网站日志?

    在给网站做SEO的同时,一定要监测和分析下网站,首先要了解的是各个蜘蛛在抓取目录情况(蜘蛛都是从网站首页往目录先爬取,爬取之后再抓取)、抓取页面情况(从首页爬往目录后再爬到内容页面…

    2022年3月15日
  • 友情链接交换技巧:友情链接锚文本要多样化

    自然的链接,不可能所有链接的锚文本都是相应页面的核心关键词。为了使链接构建显得更加自然,应该设计多样化的锚文本。可以在一开始做友情链接交换的时候就设置几个核心的锚文本,多个核心关键…

    2022年3月19日
  • 惊雷算法2.0详情

    原文标题:百度搜索将推出惊雷算法2.0发布日期:2018-05-23 为保证搜索用户体验,促进搜索生态良性发展,百度搜索将于5月底推出惊雷算法2.0 。 相对于惊雷算法1.0,此次…

    2021年11月5日
  • 关键词分为哪些类型?

    只有明确关键词的分类后,才可以根据网站的目的来筛选、布局和重点优化关键词。 关键词的分类有很多种形式,每一种形式都可以指导网站EO策略和方向的规划。不同网站所使用的关键词分类方式也…

    2022年3月3日
  • SSL认证流程有几步?SSL证书无效的原因有哪些?

    什么是SSL证书认证?SSL证书认证流程是什么样?为什么ssl证书会无效?ssl认证类型有哪些?以上是ssl证书认证的一些常见问题,下面是ssl证书认证的知识介绍。 一、SSL认证…

    2022年3月22日
  • 【SEO问答】什么是优质内容?如何生产优质内容?

    【提问要求】: 1、问题不能是个例性的问题;具体的个例的站点问题请在搜索资源平台反馈中心进行反馈。 2、在本贴中只能提问“百度搜索优质内容”的相关问题。 3、请尽可能详细、清晰地描…

    2022年3月22日