什么是Spider?Spider是如何发现网页的?

本篇内容站长博客为大家介绍什么是Spider?Spider是如何发现网页的?

Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是,只要是Spider抓到的URL,都可能会参与排名,但参与排名的网页并不一定就被Spider抓取到了内容,比如有些网站屏蔽搜索引擎Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引擎中参与了排名(例如天猫上的很多独立域名的店铺)。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相关的问题。

首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作,所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取策略的问题。抓取策略的选择会直接影响Spider所需要的资源、Spider所抓取网页占全网网页的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?

其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么Spider般会使用什么样的再次抓取和更新策略呢?

再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”,并且这部分网页也是需要呈现给广大网民浏览的,此时Spider就要想方设法针对处于暗网中的网页进行抓取。当下百度是如何来解决这个暗网问题的呢?

最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复;又由于各地区数据中心分配问题,搜索引擎一般不会把Spider服务器放

置在一个地区,会多地区同时作业,这两方面就涉及分布式抓取的策略问题。那么一般搜索引擎的Spider会采用什么样的分布抓取策略呢?

接下来逐一介绍一般的搜索引擎Spideri在面临以上问题时采用的是什么策略,并详细地了解一下整个搜索引擎最上游的Spider到底是如何工作的,以及一个优秀的Spider程序应该有哪些特点。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1100

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午9:22
下一篇 2022年2月22日 上午8:28

相关推荐

  • 什么是分布式Spider和“降权蜘蛛”?百度蜘蛛有哪些类型?

    由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取…

    2022年2月21日
  • 清风算法3.0详情

    算法名称:清风算法3.0算法内容:规范下载行业生态发布时间:2018-10-16原文详情: 为规范下载行业生态、保障百度搜索用户下载体验,百度搜索对外发布《百度搜索下载站质量规范》…

    2021年11月5日
  • 【开发者分享系列】SEO用户需求分析

    文章作者:社区版主——毕文权   这篇内容不太适合无脑采集”梭哈”的站点,不过也有一定参考性!百度公开课的历史内容基本要差不多了,还有几个老课程没看,可能会…

    2023年1月10日
  • 网站代码优化注意事项

    SEO代码优化是一项比较复杂的工程,大多数seo人员对网站的代码优化了解并不多,希望这篇“SEO教程之代码优化方法!代码优化的九点注意事项!”的文章能有一点点帮。 一、尽量采用di…

    2022年3月15日
  • 网站长尾关键词的作用是什么?选择要优化长尾关键词?

    现实中的热门关键词只占到网上搜索词的30%左右,而剩下的70%都是长尾词。 研究长尾关键词相关知识,对网站至关重要,长尾词也能给网站带来以下好处: 1、很多长尾都是以问答形式来呈现…

    2022年3月15日
  • 搜索引擎是如何计算内容相关性的?

    本篇文章站长博客为大家介绍搜索引擎是如何计算内容相关性的? 相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的题,只是通过关键词分词匹配、关键词在内容中的…

    2022年2月24日
  • 如何快速提升domain结果数

    曾经有不少公司和初级SEO人员受培训机构或者站长工具的误导,把domain的结果数当成网站百度反链的数据。相信现在还有一些刚刚了解EO的朋友会比较重视自己的网站在百度搜索中的dom…

    2022年3月2日
  • 网站的树形结构和扁平树形结构哪个好

    做seo大家都知道网站结构分为网站的树形结构和扁平树形结构,那么哪个网站结构更好呢? 那么我们要分开来看,是更利于seo还是更方便管理? 1.从seo的角度来看 我们都知道一个网站…

    2022年3月15日
  • 如何建设网站外链?增加网站外链的方法?

    首先教大家认识一下什么是高质量外链,依据笔者多年的经验来看,高质量外链是指外链网站权重高,站点相关性好,导出链接少……俗话说内容为王,外链为皇,皇又比王重要,可见外链的重要性。而高…

    2022年3月15日
  • 如何挖掘关键词?关键词挖掘的原则是什么?

    明确了关键词的分类后,就需要开展关键词的挖掘工作,然后再将关键词根据需求分组和布局到网站中去。关键词挖掘S是EO工作中比较上游的工作,没有定位明确要优化的关键词类别,SEO的很多重…

    2022年3月6日