搜索引擎是如何计算内容相关性的?

本篇文章站长博客为大家介绍搜索引擎是如何计算内容相关性的?

相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的题,只是通过关键词分词匹配、关键词在内容中的频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。当下搜索引擎还不能真正理解搜索词和文章所表达的含义,所以也就使得部分内容应该有排名但实际上却没有的现象。现在搜索引擎判断相关性一般会采用关键词匹配和语义分析两种判断方法。

关键词匹配

搜索引擎对索引库的检索过程可以简单描述如下:

(1)把用户提交的搜索词分成词A和词B。

(2)同时使用词A和词B在索引库中进行检索,并提出所有包含词A或者词B的文件,组成文件集合L。

(3)在文件集合L中把同时包含词A和词B的文件优先提出来组成文件集合M排在前面,把只包含词A或词B的文件排在后面。

()继续对文件集合M进行分析,把完全包含用户搜索词的文档提出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面。

(⑤)再根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N中的文件进行排序。()搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度、外链的数量和质量来确定文件的重要程度,以进行排序调整。

以上只是简单模拟搜索引擎的检索排序过程,为了描述方便,引入了“文件集合”。在整个检索和排名过程中,关键词匹配程度、密度、频率、位置、形式和外链情况会应用到所有文件上,而不仅仅是上文所提到的文件集合上。由以上检索排序模拟过程可以看出,搜索引擎判断一个网页或者文件与搜索词的相关度,主要根据文件中关键词出现的频率(次数)、密度(占全部内容的比例)、最终分词后关键词之间的距离(是否完全匹配)、位置和形式(是否在标题、内容比较靠前的位置以及是否黑体、变色、H标签等突出显示)、文件外链锚文本(是否和内容

有统一的文本描述)等,外链的数量和质量并不是判断内容相关性的因素,只是判断文件重要程度、内容质量或可信任程度的标准。

同时在关键词匹配中,搜索引擎为了使返回的结果都是用户真正需要的,会分析判断搜索词分词后的词语,哪些是用户主要关心的,哪些是次要关心的。比如,搜索引擎会弱化搜索词中的常用或者意义不大的定语,在百度搜索“我们的航母”,搜索结果中前几页的网页内容都会完全匹配“我们的航母”这个关键词。多向后翻几页,当没有能完全匹配该搜索词的网页时,会明显感觉到后面的网页都是以“航母”为主要关键词的。

语义分析

只根据关键词匹配和外部链接对网页的描述(锚文本),搜索引擎还不能真正理解网页的内容,比如,一篇介绍iPhone的新闻,通篇都没有提到“苹果”两个字,这个网页的外链也没有“苹果”错文本,此时搜索引擎如果只使用关键词匹配的方法,就不能把“苹果”和“Phone”联系起来。搜索引擎为了解决这个问题,提升内容相关性的计算强度,就引入了语义分析技术。

语义分析技术其实就是通过对海量内容的分析找出词汇之间的关系。当两个词或一组词经常出现在同一个文档中时,就可以认为这些词之间是语义相关的。最典型的例子就是“电脑”和“计算机”,还有上面提到的“苹果”和“iPhone”,搜索引擎根据对大量信息的分析,就可以判断出两个关键词在某种程度上相关或者是同义词,这样在检索索引文件时,同义词也会被适当加入检索。

内容相关性的高低会直接体现搜索引擎搜索结果质量的好坏,因此内容相关性计算一直是搜索引擎重点研究的方向。所以,增加内容和目标关键词的相关度也成了EO人员研究的重要方向。EO人员顺着搜索引擎判断内容相关性的思路,设计了很多让搜索引擎认为某个关键词和自己内容相关的做法,这些做法有的过分地凑“相关度”而到达了欺骗搜索引擎的程度。搜索引擎也针对这种情况推出了一系列的反作弊策略。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1124

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年2月23日 上午8:48
下一篇 2022年2月24日 上午8:55

相关推荐

  • 什么是长尾关键词?长尾关键词的特征是什么?

    分析网站的搜索流量和关键词,我们发现: 1、对于一般小型网站,目标关键词带来的流量占网站总搜索流量的绝大部分。 2、存在于网站目录页、内容页的关键词也会带来流量,但为数不多。 3、…

    2022年3月15日
  • 什么样的网站结构对搜索引擎友好

    (1)能找到目标网页 必须有外部链接指向网站首页,这样搜索引擎才能发现我们的网站并进行抓取,然后蜘蛛沿首页内部链接抓取更深层内容页,能很轻松的对网站内容进行遍历抓取。 (2)能抓取…

    2022年3月15日
  • 【SEO问答】网站首页集权排名可实施操作有哪些?

    举例现象:大多数排名都是内页排上的,首页很少。几乎日更,收录也不错,但是首页排名不是很理想。 现象描述:大部分站长都会进行日常资讯更新。有些资讯拥有良好指数词排名和流量,此类页面已…

    2022年3月21日
  • 百度搜索打击的违法违规信息概要

    原文标题:关于百度搜索严厉打击虚假诈骗等违法违规信息的公告发布日期:2019-02-27 为了维护安全健康的搜索生态,保障搜索用户的合法权益,百度搜索严厉打击电信网络中的虚假诈骗、…

    2021年11月5日
  • 什么是外链?外链的作用是什么?

    什么是外链 外链就是指从别的网站导入到自己网站的链接。导入链接对于网站优化来说是非常重要的一个过程。导入链接的质量(即导入链接所在页面的权重)直接决定了我们的网站在搜索引擎中的权重…

    2022年3月15日
  • 百度搜索将严厉打击色情低俗广告内容

    原文标题:百度搜索将严厉打击色情低俗广告内容发布日期:2019-01-23 为了维护健康积极的搜索生态环境、保障用户的搜索体验,百度搜索技术团队将在近期对存在色情低俗广告的违规站点…

    2021年11月5日
  • 网站导航结构是什么?网站导航结构优化方法

    导航结构是啥 网站导航的作用就是引导用户快速找到主要信息,指引用户到达目标页面,一个好的导航对于吸引用户和搜索引擎优化都非常重要。 导航结构的作用 1、引导用户访问指定页面。其中全…

    2022年3月15日
  • 做SEO日常需要监控网站哪些数据?

    1、页面收录 网站的页面收录量直接决定网站Landing Page页面的流量。通过网站的收录数据来找到竞争对手网站权重较高的频道页面从而进一步从竞争对手高权重的频道页面入手,分析其…

    2022年3月15日
  • 什么是SEO算法?百度发布过哪些SEO算法?

    一、什么是SEO算法 SEO算法就是搜索引擎优化排名算法,目的是为了规范自然搜索排名,让用户看到更真实的搜索结果。百度SEO算法主要围绕着内容建设,外链建设,内链建设的质量与数量关…

    2022年3月17日
  • 什么是网站的网状结构?

    网站的网状结构指的是网站的内部链接,比如你的每个页面都有一个随机调用文章的版块,就可以看成简单的网状结构,内页之间互相链接,如果把每个页面看成一个点,摆在一个平面上,然后用他们之间…

    2022年3月15日