百度搜索引擎抓取系统概述(一)

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:Baiduspdier、Googlebot、Sogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

1、spider抓取系统的基本框架

如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。百度搜索引擎抓取系统概述(一)

2、spider抓取过程中涉及的网络协议

搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。以下简单列举:

http协议:超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页最近更新时间等内容。

https协议:实际是加密版http,一种更加安全的数据传输协议。

UA属性:UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。

robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。

3、spider抓取的基本过程

spider的基本抓取过程可以理解为如下的流程图:百度搜索引擎抓取系统概述(一)

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=461

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月1日 下午1:53
下一篇 2022年2月2日 上午11:17

相关推荐

  • 什么是domain指令?domain结果是网站的反链吗?

    一、什么是domain指令 在很长一段时间内,domain都被当做查询百度外链的指令。并且大部分站长工具都把在百度使用“domain-域名”的结果数当做该网站在百度中的外链数,这其…

    2022年3月1日
  • 10个网站URL优化技巧

    URL如何来优化?这是许多SEOER们一直在讨论的问题,因为优化好我们的Url将会有利于给我们网站的优化,而如何优化URL更符合我们的SEO策略呢,对于SEO而言,URL的好坏将直…

    2022年3月15日
  • 网站动态URL需要伪静态处理吗?

    今日问题: 网站动态URL需要伪静态处理吗? 正确答案: 网站url是静态或者动态对搜索引擎没有影响,但是建议尽量减少动态URL中的参数和URL的长度,同时不能让同一网页对应多个动…

    2021年11月16日
  • 什么是分词理论?如何运营分词理论做SEO?

    中文分词很重要,做SEO的人都知道。不懂技术的初级SEO和编辑人员被SEO行业影响,也知道分词很重要,但是大部分人都在谈概念,真正把分词运用到实际工作中的SEO人员却很少。往往是自…

    2022年3月11日
  • 烽火算法2.0详情

    算法名称:烽火算法2.0算法内容:严厉打击恶意劫持发布时间:2018-05-17原文详情: 一直以来,百度搜索对于危害用户隐私、恶意劫持站点的行为态度坚定,一经发现一律严惩。201…

    2021年11月5日
  • 为什么要做404页面?怎么做404页面?

    404页面的目的是:告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开。 很多开源系统如CMS系统、Blog系统等不提供404页面或提供的40…

    2022年3月15日
  • SEO技术分类:什么是白帽SEO,什么是黑帽SEO,什么是灰帽SEO

    SEO及SEO搜索引擎优化,从结构上分为站外SEO优化和站内SEO优化两种。站外SEO优化首要做的是上网站的外部链接,搜罗友情链接交流、论坛、博客、贴吧等;站内SEO就是一个斗劲系…

    2022年3月15日
  • 惊雷算法1.0详情

    原文标题:百度搜索推出惊雷算法 严厉打击刷点击作弊行为发布日期:2017-11-20 百度搜索将于11月底推出惊雷算法,严厉打击通过刷点击,提升网站搜索排序的作弊行为;以此保证搜索…

    2021年11月5日
  • SSL认证流程有几步?SSL证书无效的原因有哪些?

    什么是SSL证书认证?SSL证书认证流程是什么样?为什么ssl证书会无效?ssl认证类型有哪些?以上是ssl证书认证的一些常见问题,下面是ssl证书认证的知识介绍。 一、SSL认证…

    2022年3月22日
  • 网站首页优化注意事项?如何优化网站首页?

    网站首页一般是网站中最重要的一个页面,也是整个网站中权重最高的页面。所以一定要深入地挖掘网站首页的可利用之处,为网站作出最大的贡献。SEO常规观念中的一些数据限制,在网站首页中都可…

    2022年3月13日