谷歌SEO:影响网站收录的因素有哪些?如何让搜索引擎收录网站

如果您使用 Google Search Console 或“site:domain.com”高级搜索运算符,发现您的一些重要页面从索引中丢失和/或您的一些不重要页面被错误地编入索引,您可以进行一些优化实施以更好地指导 Googlebot 如何抓取您的网络内容。告诉搜索引擎如何抓取您的网站可以让您更好地控制索引中的内容。

大多数人都在考虑确保 Google 可以找到他们的重要页面,但很容易忘记您可能不希望 Googlebot 找到某些页面。这些可能包括内容稀少的旧 URL、重复 URL(例如电子商务的排序和过滤参数)、特殊促销代码页、登台或测试页面等。

要引导 Googlebot 离开您网站的某些页面和部分,请使用 robots.txt。

机器人.txt

Robots.txt 文件位于网站的根目录(例如 yourdomain.com/robots.txt),并建议您的网站搜索引擎应该和不应该抓取哪些部分,以及它们抓取您网站的速度,通过特定的 robots.txt 指令

Googlebot 如何处理 robots.txt 文件

  • 如果 Googlebot 找不到某个网站的 robots.txt 文件,它会继续抓取该网站。
  • 如果 Googlebot 发现某个网站的 robots.txt 文件,它通常会遵守建议并继续抓取该网站。
  • 如果 Googlebot 在尝试访问网站的 robots.txt 文件时遇到错误并且无法确定该文件是否存在,它将不会抓取该网站。

优化抓取预算!

抓取预算是 Googlebot 在离开之前将在您的网站上抓取的平均网址数,因此抓取预算优化可确保 Googlebot 不会浪费时间抓取您不重要的页面,而可能会忽略您的重要页面。抓取预算在<a href=”/blog/large-site-seo-basics-faceted-navigation”>拥有数万个网址的大型网站</a>上最为重要,但阻止抓取工具绝不是一个坏主意访问您绝对不关心的内容。只需确保不要阻止爬虫访问您添加了其他指令的页面,例如规范或 noindex 标记。如果 Googlebot 在某个页面上被阻止,它将无法看到该页面上的说明。

并非所有网络机器人都遵循 robots.txt。不怀好意的人(例如,电子邮件地址抓取工具)构建不遵循此协议的机器人。事实上,一些不良行为者使用 robots.txt 文件来查找您的私人内容所在的位置。尽管阻止爬虫访问诸如登录和管理页面等私人页面似乎是合乎逻辑的,这样它们就不会出现在索引中,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着有恶意的人可以更轻松地找到它们。最好对这些页面进行 NoIndex 并将它们关在登录表单后面,而不是将它们放在您的 robots.txt 文件中。

您可以在我们学习中心的 robots.txt 部分中阅读有关此内容的更多详细信息。

在 GSC 中定义 URL 参数

一些网站(最常见于电子商务)通过将某些参数附加到 URL 来使相同的内容在多个不同的 URL 上可用。如果您曾经在网上购物,您可能已经通过过滤器缩小了搜索范围。例如,您可以在亚马逊上搜索“鞋子”,然后按尺码、颜色和款式细化您的搜索。每次优化时,URL 都会略有变化:

https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

Google 如何知道向搜索者提供哪个版本的 URL?Google 在自己确定代表 URL 方面做得很好,但是您可以使用 Google Search Console 中的 URL 参数功能来告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不抓取带有____参数的 URL”,那么您实际上是在要求对 Googlebot 隐藏此内容,这可能会导致这些页面从搜索结果中删除。如果这些参数创建重复页面,这就是您想要的,但如果您希望这些页面被索引,则不理想。

爬虫能找到你所有的重要内容吗?

现在您已经了解了一些确保搜索引擎抓取工具远离您的不重要内容的策略,让我们了解可以帮助 Googlebot 找到您的重要页面的优化。

有时,搜索引擎将能够通过抓取找到您网站的某些部分,但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎能够发现您想要索引的所有内容,而不仅仅是您的主页,这一点很重要。

问问自己这个问题:机器人可以爬过的网站,而不仅仅是爬到它上面吗?

您的内容是否隐藏在登录表单后面?

如果您要求用户在访问某些内容之前登录、填写表格或回答调查,搜索引擎将不会看到这些受保护的页面。爬虫肯定不会登录。

您是否依赖搜索表单?

机器人不能使用搜索表单。有些人认为,如果他们在他们的网站上放置一个搜索框,搜索引擎将能够找到访问者搜索的所有内容。

文本是否隐藏在非文本内容中?

不应使用非文本媒体形式(图像、视频、GIF 等)来显示您希望被索引的文本。虽然搜索引擎在识别图像方面做得越来越好,但不能保证他们能够阅读和理解它。最好在网页的 <HTML> 标记中添加文本。

搜索引擎可以跟随您的网站导航吗?

正如爬虫需要通过来自其他站点的链接来发现您的站点一样,它也需要您自己站点上的链接路径来引导它从一个页面到另一个页面。如果您有一个希望搜索引擎找到的页面,但它没有与任何其他页面链接,那么它就像不可见一样好。许多网站都犯了一个严重错误,即以搜索引擎无法访问的方式构建导航结构,从而阻碍了它们在搜索结果中列出的能力。

常见的导航错误可能会阻止爬虫查看您的所有网站:

  • 拥有显示与桌面导航不同结果的移动导航
  • 菜单项不在 HTML 中的任何类型的导航,例如启用 JavaScript 的导航。谷歌在抓取和理解 Javascript 方面做得更好,但它仍然不是一个完美的过程。确保某些内容被 Google 找到、理解和索引的更可靠的方法是将其放入 HTML 中。
  • 个性化,或向特定类型的访问者显示独特的导航而不是其他人,可能看起来像是在隐藏搜索引擎爬虫
  • 忘记通过导航链接到您网站上的主页 – 请记住,链接是爬虫跟踪到新页面的路径!

这就是为什么您的网站必须具有清晰的导航和有用的 URL 文件夹结构的原因。

你有干净的信息架构吗?

信息架构是在网站上组织和标记内容以提高用户效率和可查找性的实践。最好的信息架构是直观的,这意味着用户不必费力思考就可以浏览您的网站或查找某些内容。

你在使用站点地图吗?

站点地图就是它听起来的样子:您网站上的 URL 列表,爬虫可以使用这些 URL 来发现和索引您的内容。确保 Google 找到您的最高优先级页面的最简单方法之一是创建一个符合 Google 标准的文件并通过 Google Search Console 提交。虽然提交站点地图并不能取代对良好站点导航的需求,但它肯定可以帮助爬​​虫找到通往所有重要页面的路径。

确保您只包含您希望被搜索引擎编入索引的 URL,并确保为爬虫提供一致的方向。例如,如果您已通过 robots.txt 阻止该 URL,则不要在站点地图中包含该 URL,或者在站点地图中包含重复的 URL,而不是首选的规范版本(我们将在 < a href=”/beginners-guide-to-seo-1/technical-seo”>第 5 章</a>!)。
了解有关 XML 站点地图的更多信息

如果您的站点没有任何其他站点链接到它,您仍然可以通过在 Google Search Console 中提交您的 XML 站点地图来将其编入索引。不能保证他们会在索引中包含提交的 URL,但值得一试!

爬虫在尝试访问您的 URL 时是否会出错?

在抓取您网站上的 URL 的过程中,抓取工具可能会遇到错误。您可以转到 Google Search Console 的“抓取错误”报告来检测可能发生这种情况的 URL – 此报告将向您显示服务器错误和未找到的错误。服务器日志文件也可以向您展示这一点,以及其他信息的宝库,例如爬网频率,但由于访问和剖析服务器日志文件是一种更高级的策略,我们不会在初学者指南中详细讨论它,尽管您可以在此处了解更多信息

在您可以对爬网错误报告做任何有意义的事情之前,了解服务器错误和“未找到”错误非常重要。

4xx 代码:当搜索引擎爬虫由于客户端错误而无法访问您的内容时

4xx 错误是客户端错误,这意味着请求的 URL 包含错误的语法或无法实现。最常见的 4xx 错误之一是“404 – 未找到”错误。这些可能是由于 URL 拼写错误、页面被删除或重定向损坏,仅举几个例子。当搜索引擎遇到 404 时,他们无法访问该 URL。当用户点击 404 时,他们可能会感到沮丧并离开。

5xx 代码:当搜索引擎爬虫由于服务器错误而无法访问您的内容时

5xx 错误是服务器错误,表示网页所在的服务器未能满足搜索者或搜索引擎访问该页面的请求。在 Google Search Console 的“抓取错误”报告中,有一个专门针对这些错误的选项卡。这些通常是因为对 URL 的请求超时,因此 Googlebot 放弃了该请求。查看Google 的文档以了解有关修复服务器连接问题的更多信息。

值得庆幸的是,有一种方法可以告诉搜索者和搜索引擎您的页面已移动 – 301(永久)重定向。

创建自定义 404 页面!

通过添加指向您网站上重要页面的链接、网站搜索功能甚至联系信息来自定义您的 404 页面。这应该可以降低访问者在遇到 404 时跳出您的网站的可能性。
了解有关自定义 404 页面的更多信息

假设您将页面从example.com/young-dogs/移动到example.com/puppies/。搜索引擎和用户需要一个从旧 URL 到新 URL 的桥梁。该网桥是 301 重定向。

当您执行 301 时: 当您不实施 301 时:
链接资产 将链接权益从页面的旧位置转移到新 URL。 如果没有 301,来自先前 URL 的权限不会传递到新版本的 URL。
索引 帮助 Google 查找页面的新版本并将其编入索引。 仅在您的网站上存在 404 错误不会损害搜索性能,但是让排名/被交易的页面 404 可能会导致它们从索引中掉出来,排名和流量随之而来 – 哎呀!
用户体验 确保用户找到他们正在寻找的页面。 允许访问者点击死链接会将他们带到错误页面而不是预期页面,这可能会令人沮丧。

301 状态代码本身意味着页面已永久移动到新位置,因此请避免将 URL 重定向到不相关的页面——旧 URL 的内容实际上并不存在的 URL。如果一个页面正在针对某个查询进行排名,而您将其 301 转到具有不同内容的 URL,则它的排名位置可能会下降,因为使其与该特定查询相关的内容不再存在。301 功能强大——负责任地移动 URL!

您还可以选择 302 重定向页面,但这应该保留用于临时移动以及传递链接公平性不那么重要的情况。302 有点像绕道而行。您暂时通过特定路线吸引流量,但不会永远这样。

注意重定向链!

如果 Googlebot 必须经过多次重定向,它可能很难到达您的页面。谷歌称这些为“重定向链”,他们建议尽可能限制它们。如果您将 example.com/1 重定向到 example.com/2,然后决定将其重定向到 example.com/3,最好消除中间人并将 example.com/1 重定向到 example.com/3。
详细了解重定向链

一旦您确保您的网站针对可抓取性进行了优化,接下来的工作就是确保它可以被索引。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1003

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月18日 上午9:53
下一篇 2022年2月18日 上午10:00

相关推荐

  • 图片网页优化注意事项?图片网站如何优化?图片页面如何优化?

    除图片垂直搜索引黎外,其实在普通的网页搜索中也会有大量包含“图”的搜索词,如果网站有丰富的优质图片,大可以设计专门的网页优化“水*图”“*图片”“*照片”之类的关键词。这是针对网页…

    2022年3月15日
  • 网站被黑注入博彩色情页面指南

    欧洲杯激战正酣,又到了博彩利益集团疯狂入侵正常站点、注入垃圾博彩页面疯狂跳转的时期,百度通过内部监控发现优质站点、尤其是新闻源站点被黑数量呈上升趋势。为保证广大用户的搜索体验不受伤…

    2022年2月2日
  • 清风算法2.0详情

    算法名称:清风算法2.0算法内容:严厉打击欺骗下载发布时间:2018-4-19原文详情: 百度搜索将于5月上旬推出清风算法2.0,对于欺骗用户下载的问题进行永久封禁。请站长尽快对照…

    2021年11月5日
  • 什么是关键词堆砌?关键词堆砌的影响是什么

    任何网站在进行SEO的时候,都会考虑到挑选关键词,然后将这些挑选出来的关键词布局到整个网站页面当中。有一些SEOER,经常会为了出现关键词而刻意去添加关键词,对关键词布局认识模糊,…

    2022年3月15日
  • site结果排序和权重的关系

    在交换友情链接时,站长和SEO人员一般都习惯在搜索引擎中,使用site指令查看一下对方首页是不是在第一位,来判断对方网站是不是被降权了。百度官方对外解答时说“site指令的结果排序…

    2022年2月28日
  • 什么是关键词?如何用关键词做好谷歌SEO?

    关键词是人们在搜索引擎中输入的可以帮助他们找到所需内容的单词和短语。 例如,如果你想买一件新夹克,你可以在Google中输入“mens leather jacket(男士皮夹克)”…

    2022年1月17日
  • 网站关键词选择的十大误区

    搜索引擎是网站进行网络营销的重要平台,一方面是通过竞价广告的投放,一方面是针对网站的搜索引擎优化。竞价广告和搜索引擎优化都需要选取关键词,但是在选取关键词中存在了误区,企业往往投放…

    2022年3月15日
  • 常见的SEO专业术语

    如果你是一个博主或者站长,又或者是从事互联网相关的任何工作,你必须知道一些关于SEO的知识。因此学习SEO最常用的术语是非常必要的,下面将会列出若干常见的SEO术语: 【SEO】 …

    2022年3月15日
  • 清风算法3.0详情

    算法名称:清风算法3.0算法内容:规范下载行业生态发布时间:2018-10-16原文详情: 为规范下载行业生态、保障百度搜索用户下载体验,百度搜索对外发布《百度搜索下载站质量规范》…

    2021年11月5日
  • 防止网站内部搜索被他人恶意利用

    相信很多站长遇到过这种情况:网站内的搜索功能被不良分子利用,通过在站内搜索框中不断搜索敏感关键词,产生一大批TITLE上带有敏感关键词的垃圾搜索结果页(如下图)。由于Baidusp…

    2022年2月6日