搜索引擎是如何进行内容处理的?百度蜘蛛页面处理原理介绍

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

步骤01要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03去除页面噪声

如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此EO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?

步骤04去除内容中的停止词

接下来应该是对剩余文本内容的分词处理,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这

些词也是有丰富的搜索结果的,当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对EO人员的工作并没有太多影响,所以不必深究。经过这些处理后,Spider抓取回来的网页内容就被“洗”干净了,再经过分词处理及去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1083

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午8:14
下一篇 2022年2月21日 上午9:20

相关推荐

  • 清风算法1.0详情

    算法名称:清风算法1.0算法内容:严惩网页标题作弊发布时间:2019-9-14原文详情: 百度搜索将于9月底推出清风算法,旨在严惩网站通过网页标题作弊,欺骗用户并获得点击的行为;从…

    2021年11月5日
  • 常见的网站结构

    网站结构是指网站中页面之间的层次关系 对搜索引擎优化而言,优秀的网站结构优化应该包括网站物理结构优化和逻辑结构优化两个方面,一种是网站的物理结构,一种是网站的逻辑结构。下面我们来分…

    2022年3月15日
  • 阻止个人信息在搜索引擎中出现

    个人信息一旦在网上发布,很有可能会被百度搜索引擎抓取,特别是在知名社交网站、专业网站上发布的内容。可能您并不希望这类个人信息出现在百度搜索结果中,以下方式可以帮助您阻止个人信息在搜…

    2022年1月31日
  • 什么是百度指数?百度指数使用技巧?

    百度指数一般被站长和EO人员拿来当做关键词搜索量使用,有时也会用来分析某个关键词的搜索趋势和衡量一个品牌的网络推广效果。在2013年底百度指数进行了一次大的升级改版,改版后的百度指…

    2022年3月1日
  • 网站内链优化注意事项?内链优化原则?

    网站优化不外乎两点,站外优化和站内优化,而站内优化中,以内链优化最为重要,那么内链优化中有什么是需要引起我们的注意呢? 1、相关性的内页之间需要进行链接 相关性不管在外链亦或是内链…

    2022年3月15日
  • site结果排序和权重的关系

    在交换友情链接时,站长和SEO人员一般都习惯在搜索引擎中,使用site指令查看一下对方首页是不是在第一位,来判断对方网站是不是被降权了。百度官方对外解答时说“site指令的结果排序…

    2022年2月28日
  • 百度搜索引擎检索系统概述

    前面简要介绍过了搜索引擎的索引系统,实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这…

    2022年2月1日
  • SEO网站推广的目的,网站seo要解决的主要问题

    seo本来就是一件靠测试和思考得到规则的过程,所以每个人对网站优化的手段都不尽相同,但是在seo的过程中 我们要解决的问题是相同的,大致分为以下几个。 1.给网站一个定位 网站定位…

    2022年3月15日
  • 【SEO问答】SEO的提升需要阅读哪里书籍?

    问题背景:昨天一个SEO小伙伴在问SEO适合阅读哪些书籍,我曾给数位进阶或新手SEO推荐过书籍,今天我觉得有必要整理一个贴子。将这些信息分享留存下来。 站长1: 光年,转行了。。。…

    2022年3月21日
  • 图片网页优化注意事项?图片网站如何优化?图片页面如何优化?

    除图片垂直搜索引黎外,其实在普通的网页搜索中也会有大量包含“图”的搜索词,如果网站有丰富的优质图片,大可以设计专门的网页优化“水*图”“*图片”“*照片”之类的关键词。这是针对网页…

    2022年3月15日