搜索引擎是如何进行内容处理的?百度蜘蛛页面处理原理介绍

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

步骤01要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03去除页面噪声

如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此EO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?

步骤04去除内容中的停止词

接下来应该是对剩余文本内容的分词处理,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这

些词也是有丰富的搜索结果的,当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对EO人员的工作并没有太多影响,所以不必深究。经过这些处理后,Spider抓取回来的网页内容就被“洗”干净了,再经过分词处理及去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1083

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午8:14
下一篇 2022年2月21日 上午9:20

相关推荐

  • 百度搜索将严厉打击色情低俗广告内容

    原文标题:百度搜索将严厉打击色情低俗广告内容发布日期:2019-01-23 为了维护健康积极的搜索生态环境、保障用户的搜索体验,百度搜索技术团队将在近期对存在色情低俗广告的违规站点…

    2021年11月5日
  • 什么是网页去重原理?搜索引擎是如何去重的?

    本篇文章站长博客为大家介绍什么是网页去重原理?搜索引擎是如何去重的? 在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和EO人员孜孜不…

    2022年2月23日
  • 清风算法3.0详情

    算法名称:清风算法3.0算法内容:规范下载行业生态发布时间:2018-10-16原文详情: 为规范下载行业生态、保障百度搜索用户下载体验,百度搜索对外发布《百度搜索下载站质量规范》…

    2021年11月5日
  • 遇Baiduspider抓取,反馈时间多久合适

    进入移动时代,同学们肯定会发现,百度官方和各知名SEO大拿们都在不断强调一个词:速度!最重要的莫过于,从用户点击搜索结果到页面完全加载完毕,不可超过3秒,否则有可能被限制展现(因为…

    2022年2月7日
  • 网站内部结构如何优化?内部结构优化包含哪些内容?

    最好的站内结构可以及时的来应对百度频繁的算法。 1、品牌词策略 网站标题中最好有自己的品牌词,这样有助于网站的外链操作。也利于自己的品牌建设和品牌推广。 2、善用权重标签 首页he…

    2022年3月15日
  • 网站URL优化全解析

    一、怎样的URL对搜索引擎友好 1、在搭建网站结构、制作URL时,尽量避开非主流设计,追求简单美即可, 越简单越平常,越好2、不建议URL中含有中文字符,中文字符容易出现识别问题3…

    2021年11月16日
  • 【SEO问答】公司官网域名域名更换了,如果申请变更官网标示?

    公司的官网A,时间比较久,目前网站搜索结果显示:官方 公司官网B,域名是后面购买的,网站新做刚上线,后面要作为官网主域名,网站A会继续保留,搜索公司名字,希望把官网标示换做B,请问…

    2022年3月22日
  • 网站页面性能优化指南

    为了更好地提升用户的浏览体验,《移动落地页体验白皮书5.0》中规定:页面的首屏内容应在1秒内加载完成。 百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户…

    2021年11月5日
  • 百度APP移动搜索落地页体验白皮书5.0解读

    《百度APP移动搜索落地页体验白皮书5.0》 如何合理设置展开全文功能 本期解读文章深度剖析展开全文功能的设置要求。白皮书5.0提到”展开全文的设置必须具有文字标示,且功能实际可用…

    2021年11月5日
  • 什么是分布式Spider和“降权蜘蛛”?百度蜘蛛有哪些类型?

    由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取…

    2022年2月21日