如何增加蜘蛛爬取以及高价值url的发现!

前言:

本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。

蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能无节制的爬取,会造成系统调度浪费或被抓取站点容易造成爬取崩溃。

为什么说高价值url而不是高价值内容呢?

主要原因是很多内容蜘蛛并未发现或者发现未爬取的页面,无法获取页面主体内容,无法分析内容价值。

以下则是可以提高蜘蛛抓取的策略。

一、目录树增加蜘蛛爬取

站点结构也是会影响蜘蛛爬取的,通常网站目录结构是由“统一固定目录”或“非统一固定栏目”来承载内容的,当一个站点目录下出现大量,已经蜘蛛抓取的高质量内容,那么这个目录下,未来出现的内容大概率是高质量的,如果这个目录下出现大量低质量或者违规内容,那么蜘蛛大概率放弃爬取。

这也是为什么有些网站个别目录收录很好,有些目录收录差或者不收录的原因。

大家也可能看到很多网站直接根目录下挂所有内容页 /1.html /2.html …… /100000.html

目录结构分辨

目录是由斜杠”/”来分辨的 根目录”/”到最后一个出现的(如下图)

https://zhidao.baidu.com /question/ 371203564961799932.html

————————— ———– —————————–

站点域名 目录结构 内容文件名

二、页面相关性增加抓取

页面内容的相关性是会增加蜘蛛爬取的,当蜘蛛发现并爬取A页面内容《电脑蓝屏怎么办》,进行页面url分析,如果A页面中子URL集合过多,蜘蛛全部抓取调度系统会导致被爬取站点崩溃和浪费,如果A页面存在B页面《茄子怎么吃》和C页面《如何修复电脑蓝屏》,如果你是蜘蛛或者是用户你会怎么选择B页面和C页面呢?肯定会爬取C页面的,这样A页面URL集合就可以筛选出高质量URL C页面和低质量URL B页面了。


来源:百度搜索资源平台

作者:毕文权

原文链接:http://bbs.zhanzhang.baidu.com/thread-2195930-1-1.html

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4154

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2023年1月10日 下午5:39
下一篇 2023年3月2日 下午5:34

相关推荐

  • 谷歌SEO,如何通过长尾关键词获取海量流量

    你是否厌倦了和竞争对手争夺相同的高竞争关键词? 我这有五个字的秘诀,帮你解决这个难题: 长尾关键词。 你为什么要关注长尾关键词呢? 因为它们可以带来海量精准的高转化流量,能给你带来…

    2022年1月17日
  • 百度搜索将严格控制搜索中的权限问题

    原文标题:百度搜索将严格控制搜索中的权限问题发布日期:2019-04-18 近期,百度搜索发现在搜索中部分站点存在内容获取权限、功能使用权限等问题,影响搜索用户的体验。百度搜索一直…

    2021年11月5日
  • 百度搜索内容权威性解读

    如何定义权威性? 如何判断一个结果的权威性?官方寻址和权威性的关系是什么?…… 关于权威性那些事儿,百度搜索产品经理李彤从权威性在百度搜索中的作用、如何定义权威性、如何判断权威性和…

    2022年12月30日
  • 为什么要做404页面?怎么做404页面?

    404页面的目的是:告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开。 很多开源系统如CMS系统、Blog系统等不提供404页面或提供的40…

    2022年3月15日
  • 什么是关键词堆砌?关键词堆砌的影响是什么

    任何网站在进行SEO的时候,都会考虑到挑选关键词,然后将这些挑选出来的关键词布局到整个网站页面当中。有一些SEOER,经常会为了出现关键词而刻意去添加关键词,对关键词布局认识模糊,…

    2022年3月15日
  • 百度搜索打击盗版网文站点公告

    百度搜索打击盗版网文站点公告 为了加强知识产权保护,维护正版站点的排序权益,百度搜索将在近期以技术手段,对有盗版特征(如笔趣阁)的小说、网文站点进行识别和处置,以给更多优秀站点展现…

    2022年7月15日
  • 常见的网站结构

    网站结构是指网站中页面之间的层次关系 对搜索引擎优化而言,优秀的网站结构优化应该包括网站物理结构优化和逻辑结构优化两个方面,一种是网站的物理结构,一种是网站的逻辑结构。下面我们来分…

    2022年3月15日
  • 网站安全风险及应对方案

    5月25日,VIP大讲堂-网站安全那些事儿成功举办,百度云加速为大家带来网站安全风险及应对方案,学堂君将现场演讲提炼成图文概括版,快来看吧! 百度云加速主要给大家带来: 一、网站安…

    2022年2月1日
  • Cookie介绍?什么是Cookie

    这里并不是要对Cookie这个技术层面上的数据名词进行剂析,而是要纠正一些朋友的想法Cookie并没有想象中那么强大。比如,很多SEO朋友说网站跳出率会影响网站的搜索排名,这种说法…

    2022年2月28日
  • 百度统计被刷恶意广告怎么办

    此方法并不能彻底杜绝刷百度统计广告,只能避免被刷,毕竟小站沧海一粟,流量寥寥无几,被刷是在太影响统计数据了,大流量网站倒是无所谓。接下来说说方法: 1、删除原有百度统计(或其他统计…

    2022年12月29日