什么是反作弊算法?反作弊算法有哪些类型?

本篇文章站长博客介绍什么是反作弊算法?反作弊算法有哪些类型?

在搜索引擎的架构中过滤也是很重要的一环,在Spider抓取部分会过滤掉重复和垃圾页面,在进行排序和呈现时同样还会进行一次过滤,来保证搜索结果的质量。反作弊就是过滤环节中的主要组成部分。当下搜索引擎排名的重要参考因素主要有内容、链接、网站权重和用户体验,所以作弊也一般是从这几方面入手。第12章会详细讨论一下常见的作弊手法,这里主要来讨论一下搜索引擎是如何进行反作弊的,反作弊过程中是否会出现误伤,以及站长和EO人员应该如何避免被搜索引擎误伤。

虽然搜索引擎针对每种作弊行为所做的反作弊动作和算法各不相同,但是大体上还是有一定规律可循的。搜索引擎会利用黑白名单和作弊特征研究两方面进行反作弊算法升级。

1.黑白名单

搜索引擎会根据网站内容的质量、权重、品牌建立白名单,也会找出明显作弊严重的网站建立黑名单。搜索引擎会认为白名单中网站所推荐的网站都是好的、健康的网站,含有黑名单中网站链接的网站可能会存在某种问题。

例如:链向白名单中网站的网站不一定是健康的,同时黑名单中网站链向的网站也不一定是不健康的。但是有多个白名单网站链向同一个网站,那么这个网站就很可能是健康的:同一个网站链向了多个黑名单中的网站,就可以把其认定为不健康的网站。

在整个互联网中,黑白名单中的网站不可能和名单外的网站都有直接链接关系,所以搜索引擎会给这种白名单的链接一定的信任值,这个信任值随着链接级数的增加而逐级衰减:同样,从黑名单网站反向开始,会给最终链接指向黑名单网站的各级链接一个不信任值,这个值也是逐级递减的。对于一个黑白名单之外且和黑白名单中网站没有直接联系的网站,搜索引擎会计算它得到的信任值和不信任值,当达到或超过搜索引擎设置的阈值之后,就会把其列为健康网站或者不健康网站。

这是一种很常见的反作弊方式,在EO工作中体现最明显的就是选择服务器和交换友情链接。选择服务器时,大家都希望自己独立使用一台服务器或者一个P;选择虚拟空间时,也会检查相同IP的网站是否有作弊嫌疑,以免被相同P网站连累。虽然百度官方声明不会按照P惩罚网站,但还是远离作弊网站比较稳妥。交换友情链接时就更明显了,一般都会检查对方有无作弊嫌疑或降权嫌疑,以免自己把链接指向不健康的网站而遭到搜索引擎的惩罚。

2.作弊特征研究

作弊特征研究是现在搜索引擎进行反作弊的主要手法。当发现一个对搜索结果影响很大的作弊网站或一种新的作弊手法时,一般不会只是人工地把这个或这些网站降权或者屏蔽,而是潜心研究这个网站或这些网站到底是怎么作弊的,以及钻了搜索引擎技术和逻辑上的什么漏洞。

当发现漏洞后就会提升算法弥补漏洞,同时对这种作弊方法进行有针对性的打击。Goge近两年所发布的算法升级都是有针对性的,不是针对操纵PR的链接作弊,就是针对网站影响用户体验行为的作弊等。百度更是如此,从2012年6月份以来的算法升级,每次都会针对特定的作弊行为。这都是研究作弊手法的特征后进行有针对性的算法升级的。

因为是针对某一特征的反作弊算法升级,也有可能会出现这种情况:某个网站没有作弊,但是也有类似作弊站的某些特征,而被搜索引擎捎带处罚了一下,视特征的符合程度遭受到的处罚程度不同。也就是说搜索引擎在反作弊的算法升级过程中,很有可能会产生误伤。这种误伤会不会产生,以及误伤程度和误伤范围要取决于搜索引擎打击作弊的力度和算法的精度。

比如,百度搜索在2012年10月23日针对超链接作弊的算法升级过程中,只是取消了作弊链接的作用,而因为有很多有着优质内容的综合门户网站也都参与了此种作弊,所以才没有对参与作弊的网站进行打击。这种反作弊算法也就是把作弊的情况整理了一下,作弊站顶多失去作弊部分所带来的排名和流量,而没有得到其他额外的惩罚,这样没有作弊的网站就更不可能得到惩罚了,顶多有几个外链的作用消失而已。

又如,百度搜索在2012年6月28日针对采集站和垃圾站的算法升级中,因为是识别垃圾和采集,又因为搜索引擎暂时不能精确地识别原创,所以就导致了一些网站被连累,产生了一定误伤。后来百度搜索部门对投诉的网站进行了详细分析,虽然只有少数的网站被确定为误伤,但是可以肯定这种算法升级有一定的负面连锁反应。

站长和EO人员在工作中,不仅仅要尽心尽力地运营自己的网站,还要避免自己和作弊站、垃圾站有所靠近或关联,同时要尽可能地向优质高权重网站靠近或扯上关系,相信这也是大部分站长和EO人员一直努力的方向。但是很少有朋友有心避免被反作弊算法牵连,搜索引擎的算法再精准也是人设计出来的,并不是神造的、完美无暇的,所以有作弊就会有反作弊,反作弊稍微严格一点就可能产生误伤,作为站长和EO人员应该尽可能避免这种被误伤的情况发生。

站长和EO人员要潜心研究搜索引擎想要打击的作弊行为的特征。比如,某种作弊行为都会选择使用一套开源CMS程序或者模版,那么你就要尽可能避免使用同一个CMS和模版:买卖链接的网站一般都会设置隐藏的链接块或文本块,并且卖的链接中经常会有医疗病种、私服、赌博或者其他暴利、高竞争的关键词,那么你就要尽可能地不使用隐藏的TAB来做友情链接,重要的是最好不要和搜索引擎重点打击行业的网站做友情链接等。搜索引擎打击所有的作弊行为中,肯定都会根据这种作弊行为的特征进行算法升级,那么作为一个“良民”站长或EO人员就应该避免和这些作弊行为有相似的地方。比如,某个人长相和奥巴马一样可能会受到追捧,某人长得和“凤姐”一样就可能会受到到鄙视或嘲笑。

最后,需要了解的是,针对反作弊,搜索引擎也并不是总处于被动状态。搜索引擎也一直在研究站长作弊背后的动机和站在对立角度审视自己的各种算法,一般在算法上线之前都会设计相关算法,把站长容易操纵的作弊因素根据特征从正常的算法中过滤掉,并不是一味地亡羊补牢和处罚作弊站点。这应该也是近年来大众认为“EO越来越难做”的原因之一。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1139

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月25日 上午8:02
下一篇 2022年2月25日 上午8:30

相关推荐

  • 网站301跳转常见问题汇总

    上周有站长朋友在百度站长平台社区提出了一些关于301跳转的问题,我们特别邀请Baiduspider技术专家对此做了解答。在后续与Baiduspider技术专家沟通时,我们又获得了一…

    2022年1月22日
  • 什么内容容易被百度判断优质内容?

    专家专栏上线后,院长陆续收到专家们自荐内容,今天,给大家分享的是,赵彦刚为站长们分享的,如何制作优质内容: 什么内容容易被百度判断优质内容? 这个话题对站长或SEO圈内来说,是一个…

    2022年12月30日
  • 什么是索引?索引和排名的关系?

    本篇文章站长博客为大家介绍什么是索引?索引和排名的关系? 搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。这里先来介绍一下正向索引。当用户进行查询时,如果对本地文件全…

    2022年2月23日
  • 谷歌SEO-关键词标签:它是什么?需要使用它吗?

    关键词标签是meta标签中的一种。它可以为搜索引擎提供有关页面内容的更多信息。它可以在网页的HTML源代码中找到,并且对访问者不可见。 下面是关键词标签的示例: <meta …

    2022年2月2日
  • 内链的表现形式有哪些?

    很多新手站长都想知道内部链接怎么去部署优化,其表现形式都有哪些,只要知道了表现形式就可以很好的去部署内部链接,这样以来网站的收录也就增加、排名也就上升了、百度权重也就提高了,下面就…

    2022年3月15日
  • 网站被镜像,如何向百度反馈?

    最近收到不少站长反馈被镜像的问题,网站被镜像后,站点流量、关键词都会受到影响,是很多网站深恶痛绝的现象,站长通过禁止正文被粘贴、禁止镜像站IP都无法彻底杜绝被镜像现象。被镜像该如何…

    2022年2月5日
  • 如何给WordPress添加时间因子,WordPress时间因子正确添加方法?

    如何给Wordpress添加时间因子,Wordpress时间因子正确添加方法? 之前的文章中给大家介绍过《百度搜索落地页时间因子规范》相关内容,那么为什么要给网站增加时间因子呢?如…

    2022年7月6日
  • 内链的作用有哪些?为什么要优化网站内链

    一、提升网站权重 当内链有很好效果的时候,用户体验的作用就能够通过观察数据体现出来。网页内容被浏览的次数大大提高,不会出现没有点击率的情况。由于内容的可传递性,用户访问量就会迅速提…

    2022年3月15日
  • 什么是百度指数?百度指数使用技巧?

    百度指数一般被站长和EO人员拿来当做关键词搜索量使用,有时也会用来分析某个关键词的搜索趋势和衡量一个品牌的网络推广效果。在2013年底百度指数进行了一次大的升级改版,改版后的百度指…

    2022年3月1日
  • 从spider抓取,分析网站不收录原因

    目前百度spider抓取新资源的途径有两个:1、主动出击发现抓取; 2、从搜索资源平台的普通收录工具中获取数据。 其中通过资源平台“收”上来的数据最受百度spider的欢迎。 有的…

    2021年12月3日