什么是分布式Spider和“降权蜘蛛”?百度蜘蛛有哪些类型?

由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取作业任务分割成很多较小的部分,使用大量合理计算能力的服务器来承载这个任务,以完成对全互联网网页的快速抓取。现在大型搜索引擎都会使用分布式计算,同样Spider也会使用分布式计算,可以称这种Spider为分布式Spider,它遵循了分布式计算的主要规则,根据这些规则也可以解释现在站长和EO人员关心的“降权蜘蛛”问题。

分布式计算有很多种计算方式,这里简单介绍Spider应有的分布式抓取策略。涉及分布式计算,也就涉及任务分发机制。整个分布式Spider系统需要保证所有Spider之间不会有重复抓取的情况发生,也就是要为各个Spider分配好抓取范围。当一个Spider发现一个新的URL时,会判断该URL是否在自已的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取URL队列中;如果不在自己的抓取范围之内,就会把该URL提交给上级服务器,由上级服务器分发给相应的Spider,并加入到该Spider的待抓取URL列表中。

要确保所有Spider的作业不重复,就要求每个Spider都有自己的抓取范围,也就是说每个Spider都会只抓取指定类型的网页。这里就要看搜索引擎是如何对网页进行分类的了,常规网页的分类方法有三种,第一种是按照优秀站点、普通站点、垃圾站点、降权站点和屏蔽(被K)站点等站点质量等级分类;第二种是按照网站首页、网站目录页、网站内容页、网站专题页、视频、图片、新闻、行业资料、其他类型的网络文件(PDF、Word、Excel等)等网页类型分类;第三种是按照站点或网页内容所在行业分类。在真正的Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(影响抓取效率的重要因素),站点级别相关的分类应该是被优先使用的。

Spider会严格按照自己的作业任务进行作业,由以上分类可以看出,对于大部分中小网站

般都会有一个固定的Spider进行抓取,所以很多站长和SEO人员在分析网站日志时所发现的百度Spider经常都是同一IP段的,但是不同网站之间发现的Spider的IP段并不同。理论上,如果参与研究的站点比较多,类型比较丰富,就可以比较容易地分辨出百度Spider的任务分发模式,这样通过分析日志中百度来访Spider的IP就可以判断出自己的站点在百度搜索眼中是什么样的。

针对第一种分类方式,就可能出现某一IP段的Spider只抓取权重高的网站,某一IP段的Spider只抓取已被搜索引擎降权或者屏蔽的网站。如果真的是采用这种任务分发方式,那么网络上所传的“降权蜘蛛”就可能存在。不过并不是因为这个Spider的到来使得网站降权或者屏蔽,而是因为该网站已经被百度降权或者屏蔽,百度服务器才会把对该站点的抓取任务分发给这个Spider.如果百度使用这种分布式的Spider,那么网络上对百度Spider各IP段特性的总结也是比较有意义的,不过不可全信,因为百度不可能只使用一种任务分发模式。这也可以成为站长和EO人员的研究方向,即使可能最终一无所获。因为搜索引擎对网站和网页的分类有太多纬度了,新抓取和再次抓取所使用的纬度就可能不同,很可能各个纬度都是综合使用的。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1089

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午9:20
下一篇 2022年2月22日 上午8:27

相关推荐

  • 网站收录与索引的区别是什么

    在过去的一段时间里,大家一度对收录和索引的概念非常模糊,百度工程师也曾“粗暴”地说过“收录和索引是一回事”。但实际工作中,院长发现,其实收录和索引都有其各自的重要意义,并不能含糊地…

    2022年12月30日
  • 原创文章和伪原创文章的区别

    什么叫做伪原创:就是我信采集别人写的文章的同时对文章进行了同义词、近义词的替换或者段落、语句打乱等手法进行处理加工的文章。 什么叫做原创:就是我们在网上搜不到的内容,文章语句通顺和…

    2022年3月15日
  • 搜索引擎是如何分析链接的?链接分析算法的目的是什么?

    本篇文章站长博客介绍搜索引擎是如何分析链接的?链接分析算法的目的是什么? 整个互联网上的网页因为有了链接,才被织成了一张网。网页之间的链接关系在一定程度上反映了每个网页各自的重要程…

    2022年2月24日
  • SEO的工作原理,网站排名优化的原理是什么

    一、网站优化排名的对象是什么 1、一个网站是由众多的网页组成的,网站是一个或者多个网页组成的。(搜索引擎排名过程简介) 2、seo优化的对象是网页而不是网站,就像奥运会上的运动员得…

    2022年3月15日
  • 谷歌SEO:2022年你需要的 8 个链接建设工具(免费+付费)

    近十年来,链接建设一直是我最关注的东西。在为 Ahrefs 工作之前,我担任过链接建设顾问,帮助数十个客户构建了数百个链接。 我在这段时间学到的是,你不需要用到所有的链接建设工具。…

    2022年2月9日
  • 百度智能小程序拾贝计划,得多平台超强曝光,参与即可获得200条天级收录配额

    听说了吗?智能小程序上周发布了“拾贝计划”,入选的小程序可以获得实物、曝光、荣誉、服务等多重奖励。 这几天小智已经陆续收到了开发者的投稿,距离投稿截止仅剩两天,还没有参与的小伙伴,…

    2022年3月18日
  • 什么是网站的网状结构?

    网站的网状结构指的是网站的内部链接,比如你的每个页面都有一个随机调用文章的版块,就可以看成简单的网状结构,内页之间互相链接,如果把每个页面看成一个点,摆在一个平面上,然后用他们之间…

    2022年3月15日
  • 关于回收网站提交配额的通知

    由于近期黑产、作弊行为肆虐,大量抢占平台资源,严重影响用户体验,搜索资源平台针对非实名账户内站点、低质站点关停sitemap提交能力并调整API每日推送额度。请各站点做好日常维护和…

    2023年11月2日
  • 网站代码优化包括哪些内容

    代码优化是页面优化的一个重要环节,也是页面优化的基础,代码优化包括:精简代码,头部优化权重标签优化以及图片优化。页面代码优化包括5大方面: 1、清理垃圾代码。 清理垃圾代码是指删除…

    2022年3月15日
  • 影响网站关键词排名的负面因素有哪些?

    对于每个站长来说,提高网站排名是做梦都在做的事情,可是百度算法里影响排名的因素有那么多,一味地做优化却还落得过过度优化的问题,这是得不偿失的事。下边笔者来和大家分析下哪些行为会给网…

    2022年3月15日