什么是分布式Spider和“降权蜘蛛”?百度蜘蛛有哪些类型?

由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取作业任务分割成很多较小的部分,使用大量合理计算能力的服务器来承载这个任务,以完成对全互联网网页的快速抓取。现在大型搜索引擎都会使用分布式计算,同样Spider也会使用分布式计算,可以称这种Spider为分布式Spider,它遵循了分布式计算的主要规则,根据这些规则也可以解释现在站长和EO人员关心的“降权蜘蛛”问题。

分布式计算有很多种计算方式,这里简单介绍Spider应有的分布式抓取策略。涉及分布式计算,也就涉及任务分发机制。整个分布式Spider系统需要保证所有Spider之间不会有重复抓取的情况发生,也就是要为各个Spider分配好抓取范围。当一个Spider发现一个新的URL时,会判断该URL是否在自已的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取URL队列中;如果不在自己的抓取范围之内,就会把该URL提交给上级服务器,由上级服务器分发给相应的Spider,并加入到该Spider的待抓取URL列表中。

要确保所有Spider的作业不重复,就要求每个Spider都有自己的抓取范围,也就是说每个Spider都会只抓取指定类型的网页。这里就要看搜索引擎是如何对网页进行分类的了,常规网页的分类方法有三种,第一种是按照优秀站点、普通站点、垃圾站点、降权站点和屏蔽(被K)站点等站点质量等级分类;第二种是按照网站首页、网站目录页、网站内容页、网站专题页、视频、图片、新闻、行业资料、其他类型的网络文件(PDF、Word、Excel等)等网页类型分类;第三种是按照站点或网页内容所在行业分类。在真正的Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(影响抓取效率的重要因素),站点级别相关的分类应该是被优先使用的。

Spider会严格按照自己的作业任务进行作业,由以上分类可以看出,对于大部分中小网站

般都会有一个固定的Spider进行抓取,所以很多站长和SEO人员在分析网站日志时所发现的百度Spider经常都是同一IP段的,但是不同网站之间发现的Spider的IP段并不同。理论上,如果参与研究的站点比较多,类型比较丰富,就可以比较容易地分辨出百度Spider的任务分发模式,这样通过分析日志中百度来访Spider的IP就可以判断出自己的站点在百度搜索眼中是什么样的。

针对第一种分类方式,就可能出现某一IP段的Spider只抓取权重高的网站,某一IP段的Spider只抓取已被搜索引擎降权或者屏蔽的网站。如果真的是采用这种任务分发方式,那么网络上所传的“降权蜘蛛”就可能存在。不过并不是因为这个Spider的到来使得网站降权或者屏蔽,而是因为该网站已经被百度降权或者屏蔽,百度服务器才会把对该站点的抓取任务分发给这个Spider.如果百度使用这种分布式的Spider,那么网络上对百度Spider各IP段特性的总结也是比较有意义的,不过不可全信,因为百度不可能只使用一种任务分发模式。这也可以成为站长和EO人员的研究方向,即使可能最终一无所获。因为搜索引擎对网站和网页的分类有太多纬度了,新抓取和再次抓取所使用的纬度就可能不同,很可能各个纬度都是综合使用的。

本文作者:站长派,如若转载,请注明出处:https://zhanzhangpai.com/?p=1089

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年2月21日 上午9:20
下一篇 2022年2月21日 上午9:23

相关推荐

  • 新网站如何做SEO?新网站SEO需要做什么?新网站SEO优化步骤介绍

    新网站如何做SEO?新网站SEO需要做什么?新网站SEO优化步骤介绍 虽然现在都2022年了,但新入场玩网站的朋友还是有非常多,尤其是一些创业的、运营岗位新入职的SEOer 尽管摆…

    2022年3月31日
  • 长尾关键词的形式

    网站的定位 一是与企业产品或者网站定位精确度高的词语,此类关键词针对一些有明确目标需求的搜索引擎引入的用户,这类人群是对你所经营的网站产品有着明确认知程度的人群,但是这部分人群是网…

    2022年3月15日
  • 如何建立关键词之间的联系?

    对于部分网站可能并不需要为挖掘来的关键词建立相关关系,只需要把关键词分布到网站中就可以了。但是关键词之间的相关关系一般可以辅助指导网站内链的布局,所以架构比较大、内容比较多的网站,…

    2022年3月8日
  • 什么是导航类关键词?导航类关键词有哪些分类?

    在SEO中关键词研究是必要的,所以本文就介绍一下什么是导航类关键词?导航类关键词有哪些分类? 导航类关键词是指用户想去特定的网站,但是记不起该网站的网址或者懒得在地址栏输入网址时所…

    2022年3月4日
  • 什么是长尾关键词?长尾关键词的特征是什么?

    分析网站的搜索流量和关键词,我们发现: 1、对于一般小型网站,目标关键词带来的流量占网站总搜索流量的绝大部分。 2、存在于网站目录页、内容页的关键词也会带来流量,但为数不多。 3、…

    2022年3月15日
  • 网站专题页面如何优化?

    之前的文章中介绍了如何优化网站首页以及如何优化网站列表页,接下来介绍如何优化网站专题页。 专题页面可以当成带有明显文本介绍的网站首页来优化,页面Title、Keywords、Des…

    2022年3月14日
  • 智能建站有什么优缺点

    智能建站有什么优缺点 什么是在线智能建站?很多运营人员对于网站的页面设计和代码不了解,因此会选择一些在线的智能建站系统。那么在线智能建站有什么优点呢?在线智能建站有什么缺点?本文在…

    2022年5月18日
  • 蓝天算法1.0详情

    百度持续打击新闻源售卖软文、目录行为,近日百度反作弊团队发现部分新闻源站点售卖目录,发布大量低质内容现象仍然存在,此举严重违反新闻源规则,并影响用户搜索体验。针对此情况,百度推出“…

    2022年2月8日
  • 伪原创文章优化技巧

    网站优化一定离不开文章,如果没有专门的文案人员或者足够的时间,那么只能去做伪原创,而伪原创有很多要注意的事项和规则。 文章是网站最核心的内容,因此网站里文章的内容直接决定了网站的质…

    2022年3月15日
  • 谷歌SEO-什么是外链,如何获取更多的外链?

    外链是指某个网站的一个页面指向该网站或者其他网站的另外一网页的链接。假如有人链向你的网站,你就拥有一个来自他们的网站的外链。假如你链向另外一个网站,他们就有一条来自你网站的外链。 …

    2022年2月8日