经常被采集的技术层面处理方法

小站新站被采集,自己网站没收录或者没排名,被权重网站采集,而变成了别人的嫁衣,反馈又没有实质性可以证明自己的内容。注意:即使按照下面的说法做也无法杜绝采集,毕竟防君子不防小人。

优化层面

1、添加内容时候增加一些,能代表自己的东西“XXX网提示” “XXX提醒”,品牌词的变种词“百度知道”变成“bai度了解”“佰镀知道”,对方采集没有及时替换的情况下,反馈可以充当证据,不要说内容是自己原创的他人采集为什么算他的,没有实际证据的情况,也可能你采集他人的把时间给修改提前了。

2、给图片增加水印。

技术层面

被采集站点必须有最新入口,才会被采集者采集到最新且没有收录的内容,我们只要考虑,新内容不被采集到的,等新内容收录之后,在放出来,它采集意义也不大。

1、延时更新首页,首页尽可能不要实时更新,几天一更新,网站把蜘蛛养起来之后首页就可以更新不那么勤快了,举例百度经验,百度知道 首页根本没有最新内容。

2、延时更新列表,和首页道理一样,只要做好主动推送和sitemap就不用考虑首页列表引导蜘蛛进入到最新内容里。

3、限制列表页数,限制5-10页,没有用户翻几十页上百页的。正常用户都是有需求才来,我的网站就限制十页,百度经验限制3页,还不是最新内容。

4、限制用户列表页面展示内容数量。

5、内容页链接尽可能无规则,避免使用递增有规律的url,假如链接有规律递增,采集者不需要最新入口都可以采集最新内容,使用百度近一周收录获取到最新链接进行递增。

举例: htt ps://jin gyan.baidu.com/article/1.html

htt ps://jin gyan.baidu.com/article/2.html

以此类推

htt ps://jing yan.baidu.com/article/99999999.html

爱奇艺、腾讯视频、链接无规则,就很难采集。

一般提交内容,后台就会生成静态页面,只要把静态页提交给百度就好。

我常用的这些办法就是以上这些,完全屏蔽不了,采集者甚至用代理IP抓相关内容爬搜索结果页来采集你。

不建议新站这么操作,等到蜘蛛稳定爬取了,还可以偷偷懒,偷懒更新不一定是坏事,让勤快的采集者无路可走。

注:动态站你也可以选择调用几天前的数据。提前做好sitemap主动api推送等操作。

限制访客IP的通常做法我就不说了,大家可以百度。


内容来源:百度站长论坛

原文链接:http://bbs.zhanzhang.baidu.com/thread-2191267-1-1.html

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4119

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2023年1月10日 下午5:33
下一篇 2023年1月31日 上午11:48

相关推荐

  • 百度绿萝算法1.0详情

    作者:百度网页搜索反作弊团队 发布时间:2013年2月19日 亲爱的站长朋友们: 大家好! 三个多月前,我们与各位站长朋友分享了百度对超链作弊的态度,经过一段时间的观察和数据积累,…

    2022年2月8日
  • 什么是事务类关键词?

    上一篇文章介绍了什么是导航类关键词,本篇文章继续介绍什么是事务类关键词? 事务类关键词指的是用户有明显的购买意向或动作目的而搜索的关键词。比如“乐pad多少钱”“百科语料打包下载”…

    2022年3月4日
  • 谷歌seo入门指南第六章:搜索引擎优化技术

    重要的是要确保没有技术上的障碍阻止

    2022年1月11日
  • 外链建设的原则和技巧

    一、难度越大,价值就越高 实际操作过SEO的人都知道,原创内容和外部链接是两个难度,都是费时费力的工作。外部链接甚至无法保证有投入就能有产出,获得好的外部链接就更困难了。不 过一般…

    2022年3月15日
  • 伪原创文章优化技巧

    网站优化一定离不开文章,如果没有专门的文案人员或者足够的时间,那么只能去做伪原创,而伪原创有很多要注意的事项和规则。 文章是网站最核心的内容,因此网站里文章的内容直接决定了网站的质…

    2022年3月15日
  • 百度搜索引擎抓取系统概述(二)

    编者按:之前与大家分享了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程的内容,今天将于大家分享搜索引擎抓取系统第二部分内容—spider抓取过程中…

    2022年2月3日
  • 网站JS代码如何优化

    javascript代码对于网站排名优化同样没有多大影响,但从网站优化的角度来看却是至关重要的一步优化操作,优良的javascript代码可以大幅度提升网页的响应速度! 外链js代…

    2022年3月15日
  • 百度APP移动搜索落地页体验白皮书5.0

    原文标题:百度APP移动搜索落地页体验白皮书5.0最新更新章节:2020-03-19 1.导言 2.面向对象 3.名词解释 4.落地页体验规范   4.1. 信息获取规范 4.1….

    2021年11月5日
  • 什么是反作弊算法?反作弊算法有哪些类型?

    本篇文章站长博客介绍什么是反作弊算法?反作弊算法有哪些类型? 在搜索引擎的架构中过滤也是很重要的一环,在Spider抓取部分会过滤掉重复和垃圾页面,在进行排序和呈现时同样还会进行一…

    2022年2月25日
  • 什么是人工干预?

    在反作弊过程中,也很有可能会伴随着人工干预自然搜索排名,但是搜索引擎中的人工干预肯定不会是大众想象的那样频繁,也不是浅层次上的干预,否则搜索引擎自然排名的算法就可以丢弃了,搜索引擎…

    2022年2月26日