什么是中文分词?搜索引擎是如何进行中文分词的?

本篇文章站长博客为大家介绍什么是中文分词?搜索引擎是如何进行中文分词的?

分词是中文搜索引擎中特有的技术。在英文中以单词为单位,单词之间会有空格,并且每个单词都有特定的意思,计算机很容易理解英文语句的意思。但是中文以字为单位,只有将一句话中所有的字串联起来才能表达一个完整的意思,计算机不能直接把中文分成单个字来理解,所以就需要引入中文分词技术,把一句话切分成一个个有意义的词语来进行理解。比如把“我是一个学生”切分成“我/是/一个/学生”。

搜索引擎面对中文网页时就是这样,靠中文分词来理解网页所描述的内容。其实分词技术的基础就是拥有海量的有意义的词库(词典),搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者是对内容进行机械切割,统计出出现次数最多的词。通过分词就可以使得搜索引擎明白该网页内容是与什么相关的,这会直接决定该网页出现在哪些词的搜索结果中,所以中文分词在SEO工作中也是需要潜心研究的。现在很多SEO人员只是知道有这么个技术,但是对这项技术具体是怎么进行分词的,以及中文分词是怎么运用到EO工作中的还一无所知。

搜索引擎对于中文内容的理解和分词一直都没有太大的进步,所以搜索引擎程序在判断网页内容和关键词的相关性方面的技术,与几年前相比也并没有太大进步。现在常见的中文分词技术有两种:基于词典匹配和基于统计,也有研究基于语义分析的分词方法,但是汉语博大精深,计算机程序暂时还不能很好地支持。

1.基于词典匹配

这种分词技术是使用搜索引擎自己的词典对网页内容进行拆分。按照匹配方向的不同可以分为正向匹配和逆向匹配;按照不同长度优先匹配的不同可以分为最长匹配和最小匹配。常见的三种匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

不论使用什么样的匹配方式,都是使用搜索引擎已有的词典,对网页内容进行拆分理解。这种分词方式的准确度取决于词典的完整性和更新情况。如果当一个新词出现时,搜索引擎没

有即时把该词加入到词典中,那么就会影响最终的分词精度。尤其是在网络如此发达的今天,几乎每天都有新词出现。

2.基于统计

这种分词技术不依靠词典,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字当成一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题,并且有利于消除歧义。

在当前的搜索引擎中文分词中多多少少都会存在着一些难题没有解决,这可能是因为汉语真的太博大精深了,在当下计算机根本不可能完全理解。比如,网络上流传的两句话“以前喜欢一个人,现在喜欢一个人”“以前谁都看不上,现在谁都看不上”,有些人第一眼看到这两句话也不太理解,相信搜索引擎在短期内更不会真正理解这两句话。

搜索引擎会把网页拆分出来的词按照词频进行排序,使用TF-IDF之类的算法以确定该网页主要和哪些词相关,并进行相关度计算。搜索引擎会综合各方面因素来确定当前页面主要描述的内容。分词技术指导EO人员在进行网站内容建设和关键词布局时,可以把一个关键词分成更小的单位进行拆分布局,这样不仅可以加强网页和这个关键词的相关度,也会使得网页匹配出更多的关键词。

如图2-11所示为在百度搜索长尾词“搜索引擎优化公司”,图中自然搜索结果的第一和第三名的网页Title、Description和页面内容都没有完整出现“搜索引擎优化公司”这个词,但是依然拥有比较不错的排名。

例如:百度网页搜索把“搜索引擎优化公司”分别匹配。切割成了“搜索引擎优化”“公司”和“搜索引擎优化”“优化公司”,来进行相关度计算。在后面的搜索结果中还有很多网页都完整地出现了“搜索引擎优化公司”这个词,但是并没有排到理更靠前的位置。可见如果中文分词用得好,会为网页额外增加大量可以匹配的关键词,这样就可以使网站整体获得更多的搜索展示机会和流量。

在这个例子中充分体现了分词技术中的正向最大匹配、逆向最大匹配及最少切分的规律。如前面所述很多SEO人员知道有中文分词这么回事,但是并不知道怎么运用。如果你还没有研究过中文分词,那么现在就开始详细研究吧,有不懂的问题就百度一下,会有很多详细的介绍资料。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1112

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(1)
上一篇 2022年2月22日 上午8:35
下一篇 2022年2月23日 上午8:43

相关推荐

  • 【SEO问答】感觉网站流量越来越少了,怎么办?

    感觉网站流量越来越少了,怎么办? 站长1: 1、分析现状与原因,确定是哪个平台,是百度还是搜狗,到底哪个流量减少的比较多(一般是百度) 2、如网站基础较差、数据量很少,那就先做好这…

    2022年3月21日
  • 影响网站关键词排名的负面因素有哪些?

    对于每个站长来说,提高网站排名是做梦都在做的事情,可是百度算法里影响排名的因素有那么多,一味地做优化却还落得过过度优化的问题,这是得不偿失的事。下边笔者来和大家分析下哪些行为会给网…

    2022年3月15日
  • 站点品牌展现名称及icon设置要求

    本文主要说明站点品牌展现的名称及icon设置要求。 1. 名称要求: 1.1名称需与头像呼应。 1.2 若站点关联了小程序,站点的品牌展现需要和小程序接近一致,不可差异过大。 1….

    2022年12月29日
  • 网站导航优化注意事项?如何优化网站导航?

    网站导航的本职作用是引导用户和Spider更好地浏览网站内容。常见的网站导航有主导航、多级导航、底部导航和面包屑导航等。这些导航链接在SEO中,不仅可以引导用户和Spider测览全…

    2022年3月7日
  • 如何分析竞争对手网站?

    现在越来越多的企业开始做起了电商,那么在搜索引擎之中,竞争越来越大,竞争对手也越来越多,有人说,竞争对手多了SEO肯定越来越难做,但是笔者却想告诉大家,换个角度去做SEO、去思考,…

    2022年3月15日
  • 百度搜索将严厉打击色情低俗广告内容

    原文标题:百度搜索将严厉打击色情低俗广告内容发布日期:2019-01-23 为了维护健康积极的搜索生态环境、保障用户的搜索体验,百度搜索技术团队将在近期对存在色情低俗广告的违规站点…

    2021年11月5日
  • 谷歌SEO-搜索意图: 一个十分重要又经常被忽略的“排名要素”

    希望现在能够参与谷歌的排名?那么你就需要创作出一个满足用户搜索意图的内容。 我很难强调搜索意图对谷歌SEO的重要性。但可以毫不夸张地说,如果现在你想参与谷歌的排名,那么理解、并创作…

    2022年2月6日
  • 网站导航怎么设计,网站导航设计注意事项

    清晰的导航系统是网站设计的重要部分之一。网站导航的作用就是引导用户快速找到主要信息,指引用户到达目标页面,合理的导航设计大大提升用户的体验感,提高搜索引擎对网站的友好性。 网站导航…

    2022年3月15日
  • 百度站长平台工具使用手册

    关键词影响力,是百度搜索资源平台针对站点对于关键词数据分析的需求,推出的全新概念。涵盖该关键词下百度搜索可以为站点带来的全部收益指标,包括:排名、百度搜索流量、展现量等。在H5版本…

    2022年12月29日
  • 如何建立关键词之间的联系?

    对于部分网站可能并不需要为挖掘来的关键词建立相关关系,只需要把关键词分布到网站中就可以了。但是关键词之间的相关关系一般可以辅助指导网站内链的布局,所以架构比较大、内容比较多的网站,…

    2022年3月8日