如何增加蜘蛛爬取以及高价值url的发现!

前言:

本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。

蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能无节制的爬取,会造成系统调度浪费或被抓取站点容易造成爬取崩溃。

为什么说高价值url而不是高价值内容呢?

主要原因是很多内容蜘蛛并未发现或者发现未爬取的页面,无法获取页面主体内容,无法分析内容价值。

以下则是可以提高蜘蛛抓取的策略。

一、目录树增加蜘蛛爬取

站点结构也是会影响蜘蛛爬取的,通常网站目录结构是由“统一固定目录”或“非统一固定栏目”来承载内容的,当一个站点目录下出现大量,已经蜘蛛抓取的高质量内容,那么这个目录下,未来出现的内容大概率是高质量的,如果这个目录下出现大量低质量或者违规内容,那么蜘蛛大概率放弃爬取。

这也是为什么有些网站个别目录收录很好,有些目录收录差或者不收录的原因。

大家也可能看到很多网站直接根目录下挂所有内容页 /1.html /2.html …… /100000.html

目录结构分辨

目录是由斜杠”/”来分辨的 根目录”/”到最后一个出现的(如下图)

https://zhidao.baidu.com /question/ 371203564961799932.html

————————— ———– —————————–

站点域名 目录结构 内容文件名

二、页面相关性增加抓取

页面内容的相关性是会增加蜘蛛爬取的,当蜘蛛发现并爬取A页面内容《电脑蓝屏怎么办》,进行页面url分析,如果A页面中子URL集合过多,蜘蛛全部抓取调度系统会导致被爬取站点崩溃和浪费,如果A页面存在B页面《茄子怎么吃》和C页面《如何修复电脑蓝屏》,如果你是蜘蛛或者是用户你会怎么选择B页面和C页面呢?肯定会爬取C页面的,这样A页面URL集合就可以筛选出高质量URL C页面和低质量URL B页面了。


来源:百度搜索资源平台

作者:毕文权

原文链接:http://bbs.zhanzhang.baidu.com/thread-2195930-1-1.html

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4154

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2023年1月10日 下午5:39
下一篇 2023年3月2日 下午5:34

相关推荐

  • 网站页面性能优化指南

    为了更好地提升用户的浏览体验,《移动落地页体验白皮书5.0》中规定:页面的首屏内容应在1秒内加载完成。 百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户…

    2021年11月5日
  • 友情链接交换技巧:严格控制友情链接数量和相关性

    对于普通的友情链接交换,单页中一定要控制数量和相关性。百度在两次算法升级公告中,明确警告了包含交换链接过多的情况,以及不具推荐意义的链接,也就是内容不相关的链接。所以以后在进行链接…

    2022年3月18日
  • 谷歌SEO:如何给网站挖掘关键词?

    您可能有一种描述您所做工作的方式,但您的受众如何搜索您提供的产品、服务或信息?回答这个问题是关键字研究过程中至关重要的第一步。 发现关键字 您可能会考虑一些要为其排名的关键字。这些…

    2022年2月19日
  • 惊雷算法2.0详情

    原文标题:百度搜索将推出惊雷算法2.0发布日期:2018-05-23 为保证搜索用户体验,促进搜索生态良性发展,百度搜索将于5月底推出惊雷算法2.0 。 相对于惊雷算法1.0,此次…

    2021年11月5日
  • 百度搜索排序原则解读

    互联网用户对内容需求的变化,驱动着互联网内容生态的不断革新,深刻地改变着移动互联网下内容生产、分发、传播、消费的全过程。在此背景下,百度搜索排序标准也随之升级。2020年百度搜索线…

    2022年12月30日
  • 网站内容更新的原则是什么?网站内容建设的方向是什么?

    针对依靠SEO起家的网站来说,对SEO有正面作用的内容就是好内容,对SEO没有正面作用的内容就是没有价值的。此类网站大都是主要为搜索引擎制造内容的,搜索引擎是第一位的,用户是第二位…

    2022年3月10日
  • 百度搜索优质内容解读

    什么是优质内容? 如何生产优质内容? 如何让百度搜索选择我的内容? 说起内容生产,每个创作者都有许多“痛”和“懵”。 我们特地邀请了百度搜索产品经理佳岐,为开发者们从优化内容质量的…

    2022年12月30日
  • Spider再次抓取更新策略?如何提升搜索引擎抓取网页的频率

    Spider把网页抓取到木地,该网页被分析索引并参与了排名,并不意味着Spider针对该网页的工作已经结束了。现在互联网网页内容多是动态变化的,甚至有时网页会被管理者删除。搜索引擎…

    2022年2月22日
  • 百度搜索优质内容指南

    1、导言 一直以来,百度搜索从用户角度出发,不断分析和研究用户需求,努力提升搜索结果的优质体验,期望将最优质的搜索结果返回给搜索用户。 什么样的内容才算优质?什么样的内容才能更好的…

    2021年11月5日
  • 遇Baiduspider抓取,反馈时间多久合适

    进入移动时代,同学们肯定会发现,百度官方和各知名SEO大拿们都在不断强调一个词:速度!最重要的莫过于,从用户点击搜索结果到页面完全加载完毕,不可超过3秒,否则有可能被限制展现(因为…

    2022年2月7日