如何增加蜘蛛爬取以及高价值url的发现!

 

前言:

本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。

蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能无节制的爬取,会造成系统调度浪费或被抓取站点容易造成爬取崩溃。

为什么说高价值url而不是高价值内容呢?

主要原因是很多内容蜘蛛并未发现或者发现未爬取的页面,无法获取页面主体内容,无法分析内容价值。

以下则是可以提高蜘蛛抓取的策略。

一、目录树增加蜘蛛爬取

站点结构也是会影响蜘蛛爬取的,通常网站目录结构是由“统一固定目录”或“非统一固定栏目”来承载内容的,当一个站点目录下出现大量,已经蜘蛛抓取的高质量内容,那么这个目录下,未来出现的内容大概率是高质量的,如果这个目录下出现大量低质量或者违规内容,那么蜘蛛大概率放弃爬取。

这也是为什么有些网站个别目录收录很好,有些目录收录差或者不收录的原因。

大家也可能看到很多网站直接根目录下挂所有内容页 /1.html /2.html …… /100000.html

目录结构分辨

目录是由斜杠”/”来分辨的 根目录”/”到最后一个出现的(如下图)

https://zhidao.baidu.com /question/ 371203564961799932.html

————————— ———– —————————–

站点域名 目录结构 内容文件名

二、页面相关性增加抓取

页面内容的相关性是会增加蜘蛛爬取的,当蜘蛛发现并爬取A页面内容《电脑蓝屏怎么办》,进行页面url分析,如果A页面中子URL集合过多,蜘蛛全部抓取调度系统会导致被爬取站点崩溃和浪费,如果A页面存在B页面《茄子怎么吃》和C页面《如何修复电脑蓝屏》,如果你是蜘蛛或者是用户你会怎么选择B页面和C页面呢?肯定会爬取C页面的,这样A页面URL集合就可以筛选出高质量URL C页面和低质量URL B页面了。


来源:百度搜索资源平台

作者:毕文权

原文链接:http://bbs.zhanzhang.baidu.com/thread-2195930-1-1.html

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=4154

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2023年1月10日 下午5:39
下一篇 2023年3月2日 下午5:34

相关推荐

  • 谷歌SEO,如何通过长尾关键词获取海量流量

    你是否厌倦了和竞争对手争夺相同的高竞争关键词? 我这有五个字的秘诀,帮你解决这个难题: 长尾关键词。 你为什么要关注长尾关键词呢? 因为它们可以带来海量精准的高转化流量,能给你带来…

    2022年1月17日
  • 如何对关键词分组?

    这里指根据网站页面类型来对选择出的关键词进行分组。包括哪些词适合首页和核心目录页;哪些词适合扩展子目录页面;哪些词适合专题页面;哪些词适合布局到内容中去;哪些词适合做站内资源聚合页…

    2022年3月8日
  • 谷歌SEO:搜索引擎如何对网页进行排名?网站排名原因是什么?

    搜索引擎如何确保当有人在搜索栏中输入查询时,他们会得到相关的结果作为回报?该过程称为排名,或按与特定查询最相关到最不相关对搜索结果进行排序。 为了确定相关性,搜索引擎使用算法、过程…

    2022年2月18日
  • 什么是404错误代码?404状态码什么意思?

    当页面不存在时,一定要返回404代码。有的服务器设置有问题,或是站长有意在页面不存在时还返回200状态码,也就是表示页面数据正常,这样将使搜索引擎认为网站上有大量重复内容,多个UR…

    2022年3月15日
  • 百度搜索基础信息设置规范

    一、导言 对于开发者们而言,站点和智能小程序在搜索结果页的展现内容与形式,是吸引用户点击搜索结果访问站点的重要因素。百度搜索会基于网站和小程序的设置,提取对搜索用户有价值的信息展现…

    2022年7月6日 搜索引擎
  • 友情链接交换技巧:友情链接锚文本要多样化

    自然的链接,不可能所有链接的锚文本都是相应页面的核心关键词。为了使链接构建显得更加自然,应该设计多样化的锚文本。可以在一开始做友情链接交换的时候就设置几个核心的锚文本,多个核心关键…

    2022年3月19日
  • 【SEO问答】网站不收录就该这么办?

    【SEO问答】网站不收录就该这么办? 站长1: 1.新站一周了,首页不收录的情况分析和解决办法?答:新站正常情况下一周左右的时间就可以收录首页,如果未收录可以排查一下,是不是因为网…

    2022年3月21日
  • 如何正确识别Baiduspider移动ua

    百度站长平台发布公告宣布新版Baiduspider移动ua上线,同时公布了PC版Baiduspider UA,那么该如何正确识别移动UA呢?我们百度站长平台技术专家孙权老师给出了答…

    2022年2月4日
  • 关键词分为哪些类型?

    只有明确关键词的分类后,才可以根据网站的目的来筛选、布局和重点优化关键词。 关键词的分类有很多种形式,每一种形式都可以指导网站EO策略和方向的规划。不同网站所使用的关键词分类方式也…

    2022年3月3日
  • 谷歌发布2022年度搜索排行榜

    随着我们接近年底,许多科技公司都发表了他们对2022年的总结,以显示年度趋势。YouTube和Spotify为用户进行了个性化的回顾,Google还揭示了整个2022年其YouTu…

    2022年12月12日