如何增加蜘蛛爬取以及高价值url的发现!

前言:

本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。

蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能无节制的爬取,会造成系统调度浪费或被抓取站点容易造成爬取崩溃。

为什么说高价值url而不是高价值内容呢?

主要原因是很多内容蜘蛛并未发现或者发现未爬取的页面,无法获取页面主体内容,无法分析内容价值。

以下则是可以提高蜘蛛抓取的策略。

一、目录树增加蜘蛛爬取

站点结构也是会影响蜘蛛爬取的,通常网站目录结构是由“统一固定目录”或“非统一固定栏目”来承载内容的,当一个站点目录下出现大量,已经蜘蛛抓取的高质量内容,那么这个目录下,未来出现的内容大概率是高质量的,如果这个目录下出现大量低质量或者违规内容,那么蜘蛛大概率放弃爬取。

这也是为什么有些网站个别目录收录很好,有些目录收录差或者不收录的原因。

大家也可能看到很多网站直接根目录下挂所有内容页 /1.html /2.html …… /100000.html

目录结构分辨

目录是由斜杠”/”来分辨的 根目录”/”到最后一个出现的(如下图)

https://zhidao.baidu.com /question/ 371203564961799932.html

————————— ———– —————————–

站点域名 目录结构 内容文件名

二、页面相关性增加抓取

页面内容的相关性是会增加蜘蛛爬取的,当蜘蛛发现并爬取A页面内容《电脑蓝屏怎么办》,进行页面url分析,如果A页面中子URL集合过多,蜘蛛全部抓取调度系统会导致被爬取站点崩溃和浪费,如果A页面存在B页面《茄子怎么吃》和C页面《如何修复电脑蓝屏》,如果你是蜘蛛或者是用户你会怎么选择B页面和C页面呢?肯定会爬取C页面的,这样A页面URL集合就可以筛选出高质量URL C页面和低质量URL B页面了。


来源:百度搜索资源平台

作者:毕文权

原文链接:http://bbs.zhanzhang.baidu.com/thread-2195930-1-1.html

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4154

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2023年1月10日 下午5:39
下一篇 2023年3月2日 下午5:34

相关推荐