搜索引擎是如何进行内容处理的?百度蜘蛛页面处理原理介绍

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

步骤01要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03去除页面噪声

如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此EO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?

步骤04去除内容中的停止词

接下来应该是对剩余文本内容的分词处理,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这

些词也是有丰富的搜索结果的,当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对EO人员的工作并没有太多影响,所以不必深究。经过这些处理后,Spider抓取回来的网页内容就被“洗”干净了,再经过分词处理及去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。

本文作者:站长派,如若转载,请注明出处:https://zhanzhangpai.com/?p=1083

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年2月21日 上午8:14
下一篇 2022年2月21日 上午9:20

相关推荐

  • 网站内链优化注意事项?内链优化原则?

    网站优化不外乎两点,站外优化和站内优化,而站内优化中,以内链优化最为重要,那么内链优化中有什么是需要引起我们的注意呢? 1、相关性的内页之间需要进行链接 相关性不管在外链亦或是内链…

    2022年3月15日
  • 网站Description优化原则?如何设置网站描述?

    Description是Head和整个网页SEO的第二个重要的部分,虽然搜索引擎没有把它定为排名的因素,但它可以引导搜索引擎寻找需要的内容,如果你在SEO的过程中把Descript…

    2022年3月15日
  • 什么是服务器硬盘?服务器硬盘和普通硬盘的区别?

    服务器硬盘是什么意思?服务器的硬盘跟普通硬盘会存在差别吗?从价格上来说,服务器硬盘要比普通硬盘贵得多,那么为什么价格相差较大呢?下面是服务器硬盘和普通硬盘的知识介绍。 一、什么是服…

    2022年4月2日
  • 什么是关键词堆砌?关键词堆砌的影响是什么

    任何网站在进行SEO的时候,都会考虑到挑选关键词,然后将这些挑选出来的关键词布局到整个网站页面当中。有一些SEOER,经常会为了出现关键词而刻意去添加关键词,对关键词布局认识模糊,…

    2022年3月15日
  • 网站长尾关键词的作用是什么?选择要优化长尾关键词?

    现实中的热门关键词只占到网上搜索词的30%左右,而剩下的70%都是长尾词。 研究长尾关键词相关知识,对网站至关重要,长尾词也能给网站带来以下好处: 1、很多长尾都是以问答形式来呈现…

    2022年3月15日
  • 12个实用的谷歌seo技巧

    市面上有很多SEO最佳做法的指南,但是它们中很多充斥着很糟糕的、以及过时的操作建议。又或者是很多只适用于一小部分读者的情况。 换句话说,那些只能算是SEO小技巧——算不上是真正意义…

    2022年1月15日
  • 关键词选择步骤是什么?关键词选择的分析步骤介绍

    首先我们来看几个关键词: 1、笔记本 2、笔记本电脑 3、联想笔记本电脑 4、联想thinkpad笔记本电脑 以上四组关键词的竞争热度是上面最难,往下越简单,很容易就推算的出来的,…

    2022年3月15日
  • 关键词分类知识:什么是2/8理论?什么是长尾理论

    按照关键词的长短可以把所有关键词分成短尾关键词和长尾关键词。短尾关键词即字数比较少的关键词,比如机械、美容、北京医院等,一般竞争强度会很大;长尾关键词即字数比较多、比较具体、搜索量…

    2022年3月5日
  • 网站误封robots该如何处理

    robots文件是搜索生态中很重要的一个环节,同时也是一个很细节的环节。很多站长同学在网站运营过程中,很容易忽视robots文件的存在,进行错误覆盖或者全部封禁robots,造成不…

    2022年3月15日
  • 有效索引什么意思?

    本篇文章站长博客介绍有效索引什么意思? 面对如此巨大数量的网页,任何一个常规关键词都可能匹配出几万、几十万甚至上亿的网页。但是大部分用户一般都只浏览搜索结果的前三页,这样搜索引擎就…

    2022年2月25日