谷歌SEO:影响网站收录的因素有哪些?如何让搜索引擎收录网站

如果您使用 Google Search Console 或“site:domain.com”高级搜索运算符,发现您的一些重要页面从索引中丢失和/或您的一些不重要页面被错误地编入索引,您可以进行一些优化实施以更好地指导 Googlebot 如何抓取您的网络内容。告诉搜索引擎如何抓取您的网站可以让您更好地控制索引中的内容。

大多数人都在考虑确保 Google 可以找到他们的重要页面,但很容易忘记您可能不希望 Googlebot 找到某些页面。这些可能包括内容稀少的旧 URL、重复 URL(例如电子商务的排序和过滤参数)、特殊促销代码页、登台或测试页面等。

要引导 Googlebot 离开您网站的某些页面和部分,请使用 robots.txt。

机器人.txt

Robots.txt 文件位于网站的根目录(例如 yourdomain.com/robots.txt),并建议您的网站搜索引擎应该和不应该抓取哪些部分,以及它们抓取您网站的速度,通过特定的 robots.txt 指令

Googlebot 如何处理 robots.txt 文件

  • 如果 Googlebot 找不到某个网站的 robots.txt 文件,它会继续抓取该网站。
  • 如果 Googlebot 发现某个网站的 robots.txt 文件,它通常会遵守建议并继续抓取该网站。
  • 如果 Googlebot 在尝试访问网站的 robots.txt 文件时遇到错误并且无法确定该文件是否存在,它将不会抓取该网站。

优化抓取预算!

抓取预算是 Googlebot 在离开之前将在您的网站上抓取的平均网址数,因此抓取预算优化可确保 Googlebot 不会浪费时间抓取您不重要的页面,而可能会忽略您的重要页面。抓取预算在<a href=”/blog/large-site-seo-basics-faceted-navigation”>拥有数万个网址的大型网站</a>上最为重要,但阻止抓取工具绝不是一个坏主意访问您绝对不关心的内容。只需确保不要阻止爬虫访问您添加了其他指令的页面,例如规范或 noindex 标记。如果 Googlebot 在某个页面上被阻止,它将无法看到该页面上的说明。

并非所有网络机器人都遵循 robots.txt。不怀好意的人(例如,电子邮件地址抓取工具)构建不遵循此协议的机器人。事实上,一些不良行为者使用 robots.txt 文件来查找您的私人内容所在的位置。尽管阻止爬虫访问诸如登录和管理页面等私人页面似乎是合乎逻辑的,这样它们就不会出现在索引中,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着有恶意的人可以更轻松地找到它们。最好对这些页面进行 NoIndex 并将它们关在登录表单后面,而不是将它们放在您的 robots.txt 文件中。

您可以在我们学习中心的 robots.txt 部分中阅读有关此内容的更多详细信息。

在 GSC 中定义 URL 参数

一些网站(最常见于电子商务)通过将某些参数附加到 URL 来使相同的内容在多个不同的 URL 上可用。如果您曾经在网上购物,您可能已经通过过滤器缩小了搜索范围。例如,您可以在亚马逊上搜索“鞋子”,然后按尺码、颜色和款式细化您的搜索。每次优化时,URL 都会略有变化:

https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

Google 如何知道向搜索者提供哪个版本的 URL?Google 在自己确定代表 URL 方面做得很好,但是您可以使用 Google Search Console 中的 URL 参数功能来告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不抓取带有____参数的 URL”,那么您实际上是在要求对 Googlebot 隐藏此内容,这可能会导致这些页面从搜索结果中删除。如果这些参数创建重复页面,这就是您想要的,但如果您希望这些页面被索引,则不理想。

爬虫能找到你所有的重要内容吗?

现在您已经了解了一些确保搜索引擎抓取工具远离您的不重要内容的策略,让我们了解可以帮助 Googlebot 找到您的重要页面的优化。

有时,搜索引擎将能够通过抓取找到您网站的某些部分,但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎能够发现您想要索引的所有内容,而不仅仅是您的主页,这一点很重要。

问问自己这个问题:机器人可以爬过的网站,而不仅仅是爬到它上面吗?

您的内容是否隐藏在登录表单后面?

如果您要求用户在访问某些内容之前登录、填写表格或回答调查,搜索引擎将不会看到这些受保护的页面。爬虫肯定不会登录。

您是否依赖搜索表单?

机器人不能使用搜索表单。有些人认为,如果他们在他们的网站上放置一个搜索框,搜索引擎将能够找到访问者搜索的所有内容。

文本是否隐藏在非文本内容中?

不应使用非文本媒体形式(图像、视频、GIF 等)来显示您希望被索引的文本。虽然搜索引擎在识别图像方面做得越来越好,但不能保证他们能够阅读和理解它。最好在网页的 <HTML> 标记中添加文本。

搜索引擎可以跟随您的网站导航吗?

正如爬虫需要通过来自其他站点的链接来发现您的站点一样,它也需要您自己站点上的链接路径来引导它从一个页面到另一个页面。如果您有一个希望搜索引擎找到的页面,但它没有与任何其他页面链接,那么它就像不可见一样好。许多网站都犯了一个严重错误,即以搜索引擎无法访问的方式构建导航结构,从而阻碍了它们在搜索结果中列出的能力。

常见的导航错误可能会阻止爬虫查看您的所有网站:

  • 拥有显示与桌面导航不同结果的移动导航
  • 菜单项不在 HTML 中的任何类型的导航,例如启用 JavaScript 的导航。谷歌在抓取和理解 Javascript 方面做得更好,但它仍然不是一个完美的过程。确保某些内容被 Google 找到、理解和索引的更可靠的方法是将其放入 HTML 中。
  • 个性化,或向特定类型的访问者显示独特的导航而不是其他人,可能看起来像是在隐藏搜索引擎爬虫
  • 忘记通过导航链接到您网站上的主页 – 请记住,链接是爬虫跟踪到新页面的路径!

这就是为什么您的网站必须具有清晰的导航和有用的 URL 文件夹结构的原因。

你有干净的信息架构吗?

信息架构是在网站上组织和标记内容以提高用户效率和可查找性的实践。最好的信息架构是直观的,这意味着用户不必费力思考就可以浏览您的网站或查找某些内容。

你在使用站点地图吗?

站点地图就是它听起来的样子:您网站上的 URL 列表,爬虫可以使用这些 URL 来发现和索引您的内容。确保 Google 找到您的最高优先级页面的最简单方法之一是创建一个符合 Google 标准的文件并通过 Google Search Console 提交。虽然提交站点地图并不能取代对良好站点导航的需求,但它肯定可以帮助爬​​虫找到通往所有重要页面的路径。

确保您只包含您希望被搜索引擎编入索引的 URL,并确保为爬虫提供一致的方向。例如,如果您已通过 robots.txt 阻止该 URL,则不要在站点地图中包含该 URL,或者在站点地图中包含重复的 URL,而不是首选的规范版本(我们将在 < a href=”/beginners-guide-to-seo-1/technical-seo”>第 5 章</a>!)。
了解有关 XML 站点地图的更多信息

如果您的站点没有任何其他站点链接到它,您仍然可以通过在 Google Search Console 中提交您的 XML 站点地图来将其编入索引。不能保证他们会在索引中包含提交的 URL,但值得一试!

爬虫在尝试访问您的 URL 时是否会出错?

在抓取您网站上的 URL 的过程中,抓取工具可能会遇到错误。您可以转到 Google Search Console 的“抓取错误”报告来检测可能发生这种情况的 URL – 此报告将向您显示服务器错误和未找到的错误。服务器日志文件也可以向您展示这一点,以及其他信息的宝库,例如爬网频率,但由于访问和剖析服务器日志文件是一种更高级的策略,我们不会在初学者指南中详细讨论它,尽管您可以在此处了解更多信息

在您可以对爬网错误报告做任何有意义的事情之前,了解服务器错误和“未找到”错误非常重要。

4xx 代码:当搜索引擎爬虫由于客户端错误而无法访问您的内容时

4xx 错误是客户端错误,这意味着请求的 URL 包含错误的语法或无法实现。最常见的 4xx 错误之一是“404 – 未找到”错误。这些可能是由于 URL 拼写错误、页面被删除或重定向损坏,仅举几个例子。当搜索引擎遇到 404 时,他们无法访问该 URL。当用户点击 404 时,他们可能会感到沮丧并离开。

5xx 代码:当搜索引擎爬虫由于服务器错误而无法访问您的内容时

5xx 错误是服务器错误,表示网页所在的服务器未能满足搜索者或搜索引擎访问该页面的请求。在 Google Search Console 的“抓取错误”报告中,有一个专门针对这些错误的选项卡。这些通常是因为对 URL 的请求超时,因此 Googlebot 放弃了该请求。查看Google 的文档以了解有关修复服务器连接问题的更多信息。

值得庆幸的是,有一种方法可以告诉搜索者和搜索引擎您的页面已移动 – 301(永久)重定向。

创建自定义 404 页面!

通过添加指向您网站上重要页面的链接、网站搜索功能甚至联系信息来自定义您的 404 页面。这应该可以降低访问者在遇到 404 时跳出您的网站的可能性。
了解有关自定义 404 页面的更多信息

假设您将页面从example.com/young-dogs/移动到example.com/puppies/。搜索引擎和用户需要一个从旧 URL 到新 URL 的桥梁。该网桥是 301 重定向。

当您执行 301 时: 当您不实施 301 时:
链接资产 将链接权益从页面的旧位置转移到新 URL。 如果没有 301,来自先前 URL 的权限不会传递到新版本的 URL。
索引 帮助 Google 查找页面的新版本并将其编入索引。 仅在您的网站上存在 404 错误不会损害搜索性能,但是让排名/被交易的页面 404 可能会导致它们从索引中掉出来,排名和流量随之而来 – 哎呀!
用户体验 确保用户找到他们正在寻找的页面。 允许访问者点击死链接会将他们带到错误页面而不是预期页面,这可能会令人沮丧。

301 状态代码本身意味着页面已永久移动到新位置,因此请避免将 URL 重定向到不相关的页面——旧 URL 的内容实际上并不存在的 URL。如果一个页面正在针对某个查询进行排名,而您将其 301 转到具有不同内容的 URL,则它的排名位置可能会下降,因为使其与该特定查询相关的内容不再存在。301 功能强大——负责任地移动 URL!

您还可以选择 302 重定向页面,但这应该保留用于临时移动以及传递链接公平性不那么重要的情况。302 有点像绕道而行。您暂时通过特定路线吸引流量,但不会永远这样。

注意重定向链!

如果 Googlebot 必须经过多次重定向,它可能很难到达您的页面。谷歌称这些为“重定向链”,他们建议尽可能限制它们。如果您将 example.com/1 重定向到 example.com/2,然后决定将其重定向到 example.com/3,最好消除中间人并将 example.com/1 重定向到 example.com/3。
详细了解重定向链

一旦您确保您的网站针对可抓取性进行了优化,接下来的工作就是确保它可以被索引。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1003

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月18日 上午9:53
下一篇 2022年2月18日 上午10:00

相关推荐

  • 关键词出现位置及次数介绍

    URL中出现关键词(英文) 网页标题中出现关键词(1-3个) 关键词标签中出现关键词(1-3个) 描述标签中出现关键词(主关键词重复2次) 内容中自然出现关键词 内容第一段和最后一…

    2022年3月15日
  • 百度搜索基础信息设置规范

    一、导言 对于开发者们而言,站点和智能小程序在搜索结果页的展现内容与形式,是吸引用户点击搜索结果访问站点的重要因素。百度搜索会基于网站和小程序的设置,提取对搜索用户有价值的信息展现…

    2022年7月6日 搜索引擎
  • 做SEO需要懂哪些技术

    有人说seo就是个打杂的,哪里缺人就要去哪里。从这句话我们可以隐约的看出可能要懂很多技术。 1、html基础 做seo需要让我们的网站被搜索引擎所喜欢(五点告诉你什么样的网站才能赢…

    2022年3月15日
  • 谷歌SEO-SEO文案写作:提升内容质量和谷歌排名的12条实用技巧

    过去四年,Ahrefs博客 每月搜索访问量从原来12,000增长至现在的468,000。 我们是怎么做到的? 我们找到了一种方法——通过结合优质的SEO基础知识 和好的文案写作方法…

    2022年2月5日
  • 原创文章和伪原创文章的区别

    什么叫做伪原创:就是我信采集别人写的文章的同时对文章进行了同义词、近义词的替换或者段落、语句打乱等手法进行处理加工的文章。 什么叫做原创:就是我们在网上搜不到的内容,文章语句通顺和…

    2022年3月15日
  • 网站title优化原则?如何优化网站标题?

    Title是一个页面的核心,对页面进行优化时首先就是从Title开始的。在SEO中,Title的权重非常高,有没有描写好Title,有没有抓住关键词进行合理的描写,这都是需要不断研…

    2022年3月15日
  • 网站动态URL需要伪静态处理吗?

    今日问题: 网站动态URL需要伪静态处理吗? 正确答案: 网站url是静态或者动态对搜索引擎没有影响,但是建议尽量减少动态URL中的参数和URL的长度,同时不能让同一网页对应多个动…

    2021年11月16日
  • 烽火算法3.0详情

    算法名称:烽火算法3.0算法内容:持续打击网络劫持问题发布时间:2019-03-14原文详情: 网站劫持的表现形式 百度搜索中的网站劫持有以下两种表现形式: 跳转劫持:用户点击目标…

    2021年11月5日
  • 谷歌SEO:搜索引擎如何对网页进行排名?网站排名原因是什么?

    搜索引擎如何确保当有人在搜索栏中输入查询时,他们会得到相关的结果作为回报?该过程称为排名,或按与特定查询最相关到最不相关对搜索结果进行排序。 为了确定相关性,搜索引擎使用算法、过程…

    2022年2月18日
  • 如何降低域名被恶意泛解析的风险

    域名被恶意泛解析是域名安全最常见的问题之一,服务商往往起到决定性作用,那么作为站点自身该做哪些工作呢?SEO从业者洪石陈管理着多个当地媒体站点,虽然他说自己是网站安全领域内的小学生…

    2022年2月7日