百度搜索引擎检索系统概述

前面简要介绍过了搜索引擎的索引系统,实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。今天简要给大家介绍一下索引之后的检索系统。

检索系统主要包含了五个部分,如下图所示:

百度搜索引擎检索系统概述

 

(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

10 0x123abc

号 0x13445d

线 0x234d

地铁 0x145cf

故障 0x354df

(2)查出含每个term的文档集合,即找出待选集合,如下:

0x123abc 1 2 3 4 7 9…..

0x13445d 2 5 8 9 10 11……

……

……

 

(3)求交,上述求交,文档2和文档9可能是我们需要找的,整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

(4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

(5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等,之后会详细给大家介绍。

本文作者:站长派,如若转载,请注明出处:https://zhanzhangpai.com/?p=459

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长留言处理。

(0)
上一篇 2022年1月31日 下午1:49
下一篇 2022年2月1日 上午11:18

相关推荐

  • 做SEO需要懂哪些技术

    有人说seo就是个打杂的,哪里缺人就要去哪里。从这句话我们可以隐约的看出可能要懂很多技术。 1、html基础 做seo需要让我们的网站被搜索引擎所喜欢(五点告诉你什么样的网站才能赢…

    2022年3月15日
  • 谷歌SEO:搜索引擎如何对网页进行排名?网站排名原因是什么?

    搜索引擎如何确保当有人在搜索栏中输入查询时,他们会得到相关的结果作为回报?该过程称为排名,或按与特定查询最相关到最不相关对搜索结果进行排序。 为了确定相关性,搜索引擎使用算法、过程…

    2022年2月18日
  • Spider的抓取策略?搜索引擎是如何抓取网页的?

    本篇文章站长博客介绍Spider的抓取策略?搜索引擎是如何抓取网页的? 在大型搜索引擎Spider的抓取过程中会有很多策略,有时也可能是多种策略综合使用。这里简单介绍一下比较简单的…

    2022年2月22日
  • 免费虚拟主机怎么样?免费虚拟主机好用吗?

    免费虚拟主机怎么样?免费虚拟主机好用吗? 当下其实不管是虚拟主机还是云服务器价格都相对比较便宜,所以大多数用户都会花钱来购买稳定的主机空间。但是仍然有新手想要找一些免费的虚拟主机使…

    2022年4月11日
  • 如何挖掘热门关键词?

    很多人都明白做seo就是要活的高质量的流量,要获取流量的前天就是我们要寻找更多的关键词,今天说下如何寻找热门搜索关键词。 1.百度热搜 百度热搜提供各个行业的热门搜索关键词以及关键…

    2022年3月15日
  • 商城网站建设需要注意哪些问题?

    商城网站建设需要注意哪些问题? 很多企业都想要建一个商城网站,因为商城网站建站不仅可以展现企业的优势还可以在线上直接跟用户产生交易。但是要知道商城网站和一般的展示型企业网站有所不同…

    2022年4月7日
  • SEO会用到哪些工具?

    SEO会用到哪些工具? seo优化网站运营人员如果运用好seo工具可能会有事半功倍的效果,我们可以使用网站SEO优化工具从多个角度检查数据、包括排名页面的域和页面指标、关键词难度以…

    2022年5月13日
  • 什么是长尾关键词?长尾关键词的特征是什么?

    分析网站的搜索流量和关键词,我们发现: 1、对于一般小型网站,目标关键词带来的流量占网站总搜索流量的绝大部分。 2、存在于网站目录页、内容页的关键词也会带来流量,但为数不多。 3、…

    2022年3月15日
  • 企业建站的周期要多久?

    企业建站的周期要多久? 公司网站建设是符合时代的大势,是企业开展互联网+背景下的必然要求。企业要想突破销售瓶颈,很好的方法就是通过网络推广让更多的目标用户找到你。那么你知道企业建站…

    2022年4月25日