Spider有哪些类型?批量型Spider,增量型Spider,垂直型Spider

本篇文章站长博客介绍Spider有哪些类型?批量型Spider,增量型Spider,垂直型Spider:

按照现在网络上所有Spider的作用及表现出来的特征,可以将其分为三类:批量型Spider增量型Spider和垂直型Spider。

1.批量型Spider

一般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标就会停止。普通站长和SEO人员使用的采集工具或程序,所派出的Spider大都属于批量型Spider,一般只抓取固定网站的固定内容,或者设置对某一资源的固定目标数据量,当抓取的数据或者时间达到设置限制后就会自动停止,这种Spider就是很典型的批量型Spider。

2.增量型Spider

增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型Spider.但是站内搜索引擎除外,自有站内搜索引擎一般是不需要Spider的。增量型spider和批量型Spider不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一定时间之后该页面会被删除,优秀的增量型Spider需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google网页搜索等全文搜索引擎的Spider,一般都是增量型Spider。

3.垂直型Spider

垂直型Spider也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大而广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。

对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能百分之百地进行准确分类,并且垂直型Spider也不能像增量型Spider那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么就会利用增量型Spider以站点为单位进行内容分类,然后再派出垂直型Spider抓取符合自己内容要求的站点;没有增量型Spider作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型Spider作业。当然在同一个站点内也会存在不同的内容,此时垂直型Spider也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。

现在一淘网、优酷下的搜库、百度和Google等大型搜索引擎下的垂直搜索使用的都是垂直型Spider。虽然现在使用比较广泛的垂直型Spider对网页的识别度已经很高,但是总会有些不足,这也使得垂直类搜索引擎上的SEO有了很大空间。

本书主要讨论网页搜索的SEO,所以讨论的内容以增量型Spider为主,也会简单涉及垂直型Spider方面的内容,其实垂直型Spider完全可以看作是做了抓取限制的增量型Spider。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1103

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月22日 上午8:27
下一篇 2022年2月22日 上午8:31

相关推荐

  • 网站Description优化原则?如何设置网站描述?

    Description是Head和整个网页SEO的第二个重要的部分,虽然搜索引擎没有把它定为排名的因素,但它可以引导搜索引擎寻找需要的内容,如果你在SEO的过程中把Descript…

    2022年3月15日
  • 2022年百度站长平台工具常见问题解析

    开发者们每天都会和资源平台里的一系列工具打交道,平台一直以来也在不断地和大家分享工具使用的注意事项。 今天小编就来和大家分享一下索引量、流量与关键词等工具的常见问题及解析,快来做好…

    2022年2月25日
  • 百度搜索内容时效性解读

    上周五,百度搜索线上公开课如期和大家见面,百度搜索产品经理谢其扬从三个方面:什么是时效性、时效性在百度搜索中的重要性以及如何判断时效性,为开发者们详细解读了时效性的相关内容。 本小…

    2022年12月30日
  • 如何建立关键词之间的联系?

    对于部分网站可能并不需要为挖掘来的关键词建立相关关系,只需要把关键词分布到网站中就可以了。但是关键词之间的相关关系一般可以辅助指导网站内链的布局,所以架构比较大、内容比较多的网站,…

    2022年3月8日
  • 百度工程师为你总结网站优化常见问题

    前段时间,小编收到部分开发者关于建站相关的提问,于是特地让百度工程师为大家从网站的抓取建设、内容生产、死链处理3个方面总结了开发者经常遇到的问题,看到就是赚到! 一、网站抓取建设 …

    2022年2月18日
  • 白皮书5.0解读—落地页中如何设置咨询功能?

    2020年3月,百度发布的《百度APP移动搜索落地页体验白皮书5.0》中提到”咨询类功能在当前页只能出现一次,且位置不允许出现在顶部;在用户未主动点击的情况下,咨询的对话窗口不可自…

    2022年12月30日
  • 什么是robots文件?robots文件有必要设置吗

    什么是robots.txt文件? 搜索引擎机器人通过链接抵达互联网上的每个网页,并抓取网页信息。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots…

    2022年3月15日
  • 谷歌SEO-如何高效编写完美的元描述?

    元描述是一个 HTML 属性,用于描述页面内容。它可以在搜索结果中以摘录的形式出现在标题标签下方,以提供更多内容。 以下是代码段的外观: <meta name= “descr…

    2022年1月31日
  • 外链分为哪几种?外链的表现形式

    对于seo从业者,外链是再熟悉不过的了,也是每天都必须接触的。学SEO的都知道一句话:内容为王,外链为皇。内容我们都知道了,外链的形式有哪几种?外链都分为哪几种呢? 1、锚文本外链…

    2022年3月15日
  • 六个步骤搞定更换网站服务器

    最近又不少站长朋友发帖咨询说要更换网站的服务器了,但是怕误操作导致网站被K,因为已经有不少的站长朋友来反馈,说自己因为换了IP导致网站被K了。 那么今天百度站长平台新人训练营版主E…

    2022年1月27日