什么是Spider?Spider是如何发现网页的?

本篇内容站长博客为大家介绍什么是Spider?Spider是如何发现网页的?

Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是,只要是Spider抓到的URL,都可能会参与排名,但参与排名的网页并不一定就被Spider抓取到了内容,比如有些网站屏蔽搜索引擎Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引擎中参与了排名(例如天猫上的很多独立域名的店铺)。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相关的问题。

首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作,所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取策略的问题。抓取策略的选择会直接影响Spider所需要的资源、Spider所抓取网页占全网网页的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?

其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么Spider般会使用什么样的再次抓取和更新策略呢?

再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”,并且这部分网页也是需要呈现给广大网民浏览的,此时Spider就要想方设法针对处于暗网中的网页进行抓取。当下百度是如何来解决这个暗网问题的呢?

最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复;又由于各地区数据中心分配问题,搜索引擎一般不会把Spider服务器放

置在一个地区,会多地区同时作业,这两方面就涉及分布式抓取的策略问题。那么一般搜索引擎的Spider会采用什么样的分布抓取策略呢?

接下来逐一介绍一般的搜索引擎Spideri在面临以上问题时采用的是什么策略,并详细地了解一下整个搜索引擎最上游的Spider到底是如何工作的,以及一个优秀的Spider程序应该有哪些特点。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1100

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午9:22
下一篇 2022年2月22日 上午8:28

相关推荐

  • 清风算法3.0详情

    算法名称:清风算法3.0算法内容:规范下载行业生态发布时间:2018-10-16原文详情: 为规范下载行业生态、保障百度搜索用户下载体验,百度搜索对外发布《百度搜索下载站质量规范》…

    2021年11月5日
  • 网站动态URL需要伪静态处理吗?

    今日问题: 网站动态URL需要伪静态处理吗? 正确答案: 网站url是静态或者动态对搜索引擎没有影响,但是建议尽量减少动态URL中的参数和URL的长度,同时不能让同一网页对应多个动…

    2021年11月16日
  • 友情链接交换的标准?友情链接交换注意事项?

    一般在寻找交换对象的过程中,就需要查看对方网站的各项指标是否符合自己的交换条件。一般都需要查看对方网站的权重、内容和所交换的页面是否符合自己的要求。针对这几方面,有如下一些指标是站…

    2022年3月17日
  • 谷歌SEO-如何更快更系统化地开展外链建设

    你是否知道外链建设的基本知识,但却为顺利开展外链建设而苦苦挣扎?这份高级指南将教你如何快速地开展外链建设。 外链建设中的outreach工作可以拆分为三个任务: 寻找outreac…

    2022年2月16日
  • 搜索引擎排名处理过程,SEO优化过程中怎么排名?

    百度上为什么会有网站呢?它是怎么抓取的呢?为什么网站又是以那样的形式存在于搜索结果之中呢?那个百度快照是个什么东西?(什么是百度快照)下面笔者就对百度排名的过程简单介绍一下。 1、…

    2022年3月15日
  • SEO常见网站流量数据统计指标及名词介绍

    流量统计中会有各种数据来反映网站当前的流量状况,功能越强大的流量统计工具就拥有越丰富的数据,比如GA有儿十个流量报表,母个报表都有着特定的作用。由于SE的工作就是尽力把搜索引擎上的…

    2022年3月10日
  • 谷歌SEO-2022年年应该如何优化谷歌精选摘要

    你希望在不借助外链或者内容更改就能够参与谷歌第一位的排名吗?利用好谷歌精选摘要就可以帮你实现这一点。 精选摘要通常显示在谷歌搜索结果的最顶部。它们通过从排名靠前的页面中提取相关内容…

    2022年2月1日
  • 网站页面性能优化指南

    为了更好地提升用户的浏览体验,《移动落地页体验白皮书5.0》中规定:页面的首屏内容应在1秒内加载完成。 百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户…

    2021年11月5日
  • 谷歌SEO-关键词标签:它是什么?需要使用它吗?

    关键词标签是meta标签中的一种。它可以为搜索引擎提供有关页面内容的更多信息。它可以在网页的HTML源代码中找到,并且对访问者不可见。 下面是关键词标签的示例: <meta …

    2022年2月2日
  • 网站301跳转常见问题汇总

    上周有站长朋友在百度站长平台社区提出了一些关于301跳转的问题,我们特别邀请Baiduspider技术专家对此做了解答。在后续与Baiduspider技术专家沟通时,我们又获得了一…

    2022年1月22日