Spider有哪些类型?批量型Spider,增量型Spider,垂直型Spider

本篇文章站长博客介绍Spider有哪些类型?批量型Spider,增量型Spider,垂直型Spider:

按照现在网络上所有Spider的作用及表现出来的特征,可以将其分为三类:批量型Spider增量型Spider和垂直型Spider。

1.批量型Spider

一般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标就会停止。普通站长和SEO人员使用的采集工具或程序,所派出的Spider大都属于批量型Spider,一般只抓取固定网站的固定内容,或者设置对某一资源的固定目标数据量,当抓取的数据或者时间达到设置限制后就会自动停止,这种Spider就是很典型的批量型Spider。

2.增量型Spider

增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型Spider.但是站内搜索引擎除外,自有站内搜索引擎一般是不需要Spider的。增量型spider和批量型Spider不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一定时间之后该页面会被删除,优秀的增量型Spider需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google网页搜索等全文搜索引擎的Spider,一般都是增量型Spider。

3.垂直型Spider

垂直型Spider也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大而广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。

对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能百分之百地进行准确分类,并且垂直型Spider也不能像增量型Spider那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么就会利用增量型Spider以站点为单位进行内容分类,然后再派出垂直型Spider抓取符合自己内容要求的站点;没有增量型Spider作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型Spider作业。当然在同一个站点内也会存在不同的内容,此时垂直型Spider也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。

现在一淘网、优酷下的搜库、百度和Google等大型搜索引擎下的垂直搜索使用的都是垂直型Spider。虽然现在使用比较广泛的垂直型Spider对网页的识别度已经很高,但是总会有些不足,这也使得垂直类搜索引擎上的SEO有了很大空间。

本书主要讨论网页搜索的SEO,所以讨论的内容以增量型Spider为主,也会简单涉及垂直型Spider方面的内容,其实垂直型Spider完全可以看作是做了抓取限制的增量型Spider。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1103

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月22日 上午8:27
下一篇 2022年2月22日 上午8:31

相关推荐

  • 如何分析用户搜索需求?

    本篇文章站长博客为大家介绍如何分析用户搜索需求? 用户需求分析即“查询分析”,这里涉及两个方面:一个是用户搜索词的分析,另一个是用户搜索意图的分析。通过搜索词的分析可以返回一个可能…

    2022年2月23日
  • 百度搜索算法规范详解【总纲版】

    原文标题:百度搜索算法规范详解最新更新章节:2020-06-18 引言 一直以来,百度搜索都致力于与广大开发者共同努力,为亿万搜索用户提供优质可信的内容、安全便捷的搜索体验。搜索算…

    2022年1月7日
  • 内链优化注意事项,如何优化网站内链?

    有不少网站根本不做外链,只在内容上发力,配合优秀的内链设计就把网站的SEO做得很好,在搜索引擎上获得极高的权重和流量。内链的优化也是一个很大的话题,不同类型的网站不同类型的内容都会…

    2022年3月9日
  • 细雨算法2.0详情及算法解读

    算法名称:细雨算法2.0算法内容:打击B2B领域低质内容发布时间:2019-11-07原文详情: 对于近期B2B领域出现的伤害搜索用户体验的违规低质内容,百度搜索将升级细雨算法,上…

    2021年11月5日
  • 什么是关键词研究?关键词研究有哪些方向?

    关键词研究是SSEO工作中必不可少的重要环节。有不少网站拥有很多较优质的内容资源,但却因为关键词定位不准而不能获得精准流量:有些站长总以为自己网站定位过于细分或精准,没有太多的关键…

    2022年3月3日
  • 如何给WordPress添加时间因子,WordPress时间因子正确添加方法?

    如何给Wordpress添加时间因子,Wordpress时间因子正确添加方法? 之前的文章中给大家介绍过《百度搜索落地页时间因子规范》相关内容,那么为什么要给网站增加时间因子呢?如…

    2022年7月6日
  • 百度APP移动搜索落地页体验白皮书5.0

    原文标题:百度APP移动搜索落地页体验白皮书5.0最新更新章节:2020-03-19 1.导言 2.面向对象 3.名词解释 4.落地页体验规范   4.1. 信息获取规范 4.1….

    2021年11月5日
  • 【开发者分享系列】SEO用户需求分析

    文章作者:社区版主——毕文权   这篇内容不太适合无脑采集”梭哈”的站点,不过也有一定参考性!百度公开课的历史内容基本要差不多了,还有几个老课程没看,可能会…

    2023年1月10日
  • 谷歌SEO-什么是站外 SEO?它为什么重要?

    为内容倾注了心血,Google 排名却一直举步维艰?你的站外搜索引擎优化(以下简称 站外 SEO)工作(或者缺乏这项工作)可能是罪魁祸首。 SEO 工作可以分成两个板块:站内 SE…

    2022年2月18日
  • site结果排序和权重的关系

    在交换友情链接时,站长和SEO人员一般都习惯在搜索引擎中,使用site指令查看一下对方首页是不是在第一位,来判断对方网站是不是被降权了。百度官方对外解答时说“site指令的结果排序…

    2022年2月28日