什么是Spider?Spider是如何发现网页的?

本篇内容站长博客为大家介绍什么是Spider?Spider是如何发现网页的?

Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是,只要是Spider抓到的URL,都可能会参与排名,但参与排名的网页并不一定就被Spider抓取到了内容,比如有些网站屏蔽搜索引擎Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引擎中参与了排名(例如天猫上的很多独立域名的店铺)。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相关的问题。

首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作,所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取策略的问题。抓取策略的选择会直接影响Spider所需要的资源、Spider所抓取网页占全网网页的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?

其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么Spider般会使用什么样的再次抓取和更新策略呢?

再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”,并且这部分网页也是需要呈现给广大网民浏览的,此时Spider就要想方设法针对处于暗网中的网页进行抓取。当下百度是如何来解决这个暗网问题的呢?

最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复;又由于各地区数据中心分配问题,搜索引擎一般不会把Spider服务器放

置在一个地区,会多地区同时作业,这两方面就涉及分布式抓取的策略问题。那么一般搜索引擎的Spider会采用什么样的分布抓取策略呢?

接下来逐一介绍一般的搜索引擎Spideri在面临以上问题时采用的是什么策略,并详细地了解一下整个搜索引擎最上游的Spider到底是如何工作的,以及一个优秀的Spider程序应该有哪些特点。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1100

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午9:22
下一篇 2022年2月22日 上午8:28

相关推荐

  • 如何用程序识别Baiduspider ua

    近日 ,Baiduspider针对移动抓取user agent(以下简称ua)进行了升级,与PC端的抓取ua做到版本统一,均称为Baiduspider/2.0。从此次更新的移动ua…

    2022年2月3日
  • 影响网站关键词排名的负面因素有哪些?

    对于每个站长来说,提高网站排名是做梦都在做的事情,可是百度算法里影响排名的因素有那么多,一味地做优化却还落得过过度优化的问题,这是得不偿失的事。下边笔者来和大家分析下哪些行为会给网…

    2022年3月15日
  • 外链的作用、原理和方向

    网站外链的多少和外链质量的高低,在比较大的程度上决定了这个网站权重的高低,也决定了这个网站能够从搜索引擎中获得排名和流量能力的大小。在本书前文也简单讨论过搜索引擎链接分析的内容。站…

    2022年3月16日
  • 内链优化注意事项,如何优化网站内链?

    有不少网站根本不做外链,只在内容上发力,配合优秀的内链设计就把网站的SEO做得很好,在搜索引擎上获得极高的权重和流量。内链的优化也是一个很大的话题,不同类型的网站不同类型的内容都会…

    2022年3月9日
  • SEO网站推广的目的,网站seo要解决的主要问题

    seo本来就是一件靠测试和思考得到规则的过程,所以每个人对网站优化的手段都不尽相同,但是在seo的过程中 我们要解决的问题是相同的,大致分为以下几个。 1.给网站一个定位 网站定位…

    2022年3月15日
  • 谷歌SEO:哪些内容容易被搜索引擎判定为垃圾内容

    稀薄的内容 虽然网站通常拥有不同主题的独特页面,但较旧的内容策略是为关键字的每次迭代创建一个页面,以便针对那些高度具体的查询在第 1 页上排名。 例如,如果您销售婚纱,您可能已经为…

    2022年2月20日
  • 什么是索引?索引和排名的关系?

    本篇文章站长博客为大家介绍什么是索引?索引和排名的关系? 搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。这里先来介绍一下正向索引。当用户进行查询时,如果对本地文件全…

    2022年2月23日
  • 谷歌SEO:影响网站收录的因素有哪些?如何让搜索引擎收录网站

    如果您使用 Google Search Console 或“site:domain.com”高级搜索运算符,发现您的一些重要页面从索引中丢失和/或您的一些不重要页面被错误地编入索引…

    2022年2月18日
  • 网站代码优化注意事项

    SEO代码优化是一项比较复杂的工程,大多数seo人员对网站的代码优化了解并不多,希望这篇“SEO教程之代码优化方法!代码优化的九点注意事项!”的文章能有一点点帮。 一、尽量采用di…

    2022年3月15日
  • 信风算法详情

    算法名称:信风算法算法内容:杜绝翻页诱导行为发布时间:2019-05-22原文详情: 近期,百度搜索技术团队发现,部分网站存在利用翻页键诱导用户的行为,极大的损害了用户的浏览体验。…

    2021年11月5日