什么是网页去重原理?搜索引擎是如何去重的?

本篇文章站长博客为大家介绍什么是网页去重原理?搜索引擎是如何去重的?

在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和EO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。

在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“去重”步骤在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做得鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标

准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度索多次升级算法,对采集重复信息、垃圾页面进行了多次重量级的打击。所以O在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对

用户有用的角度去建设,然后者的内容不一定全部是原创,一般如果网站权重没有大问题,都会得到健康的发展。关于原创问题,本书后续会在第12章进行详细讨论。

另外,不仅仅是搜索引擎需要“网页去重,自己做网站也需要对站内页面进行去重。比如分类信息、B2B平合等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验也会降低很多。又如SEO人员在设计流量产品大批量产生页面时,也需要做一个重复过滤,否则就会大大降低产品质量。O人员所设计的流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。

“去重”算法的大概原理一般就如上所述,有兴趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周围的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产出高质量的“$EO产品”。

作为SEO人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节),EO人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是万能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果EO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就只会提改标题、改链接、改文字之类‘无聊’的需求”了。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1118

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月23日 上午8:43
下一篇 2022年2月23日 上午8:48

相关推荐

  • 什么是面包屑导航?如何优化面包屑导航?

    什么是面包屑导航? 面包屑导航也叫位置导航,告诉用户我们当前位置是在网站的什么位置。 为什么要做面包屑导航优化? 1、有利于SEO优化 简单易懂、便于用户精准定位站点内容,占用位置…

    2022年3月15日
  • 清风算法4.0详情

    为保障用户的下载体验,让提供优质下载服务的站点得到合理的展现,促进下载行业生态良性发展,百度搜索将于近期升级清风算法,针对不符合规范的低质下载站,将限制其在百度搜索结果中的展现。 …

    2021年11月11日
  • 网站内链的优化方法?如何优化网站内链?

    关于内链的优化方法,我们主要从四个方面建设,做好这四个方面,网站就一定会受到搜索引擎的喜欢! 内链建设之一:导航条优化 1、导航条尽量不要用图片和flash,如果是图片,请加上描述…

    2022年3月15日
  • 普通群发外链有用吗?批量群发外链有哪些危害?

    当大家意识到链接的重要性之后,就都在想方设法地给自己的网站增加链接。由于大部分网站自己资源有限,可以交换到的链接就有限,去别的网站发布链接就成了大部分网站EO工作的重心或者全部。至…

    2022年3月19日
  • 2022年如何提高谷歌搜索排名?2022年谷歌seo提升关键词排名的6个有效方法

    尽管你一直在努力提高排名,但最令人沮丧的莫过于在谷歌的第十几页才找到你的排名。 因为这个事情在我个人经历了很多次。 有时候,无论你做什么,都感觉无济于事。谷歌似乎很讨厌你的网站,你…

    2022年1月14日
  • 百度搜索内容时效性解读

    上周五,百度搜索线上公开课如期和大家见面,百度搜索产品经理谢其扬从三个方面:什么是时效性、时效性在百度搜索中的重要性以及如何判断时效性,为开发者们详细解读了时效性的相关内容。 本小…

    2022年12月30日
  • SEO常见网站流量数据统计指标及名词介绍

    流量统计中会有各种数据来反映网站当前的流量状况,功能越强大的流量统计工具就拥有越丰富的数据,比如GA有儿十个流量报表,母个报表都有着特定的作用。由于SE的工作就是尽力把搜索引擎上的…

    2022年3月10日
  • 网站被黑注入博彩色情页面指南

    欧洲杯激战正酣,又到了博彩利益集团疯狂入侵正常站点、注入垃圾博彩页面疯狂跳转的时期,百度通过内部监控发现优质站点、尤其是新闻源站点被黑数量呈上升趋势。为保证广大用户的搜索体验不受伤…

    2022年2月2日
  • 什么是关键词堆砌?关键词堆砌的影响是什么

    任何网站在进行SEO的时候,都会考虑到挑选关键词,然后将这些挑选出来的关键词布局到整个网站页面当中。有一些SEOER,经常会为了出现关键词而刻意去添加关键词,对关键词布局认识模糊,…

    2022年3月15日
  • 惊雷算法3.0详情

    原文标题:惊雷算法3.0升级上线 持续打击刷点击作弊行为 原文时间:2021-01-12 为维护广大开发者的权益,促进移动生态的良性发展,百度搜索于1月中旬推出了惊雷算法3.0,并…

    2022年1月28日