搜索引擎是如何进行内容处理的?百度蜘蛛页面处理原理介绍

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

步骤01要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03去除页面噪声

如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此EO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?

步骤04去除内容中的停止词

接下来应该是对剩余文本内容的分词处理,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这

些词也是有丰富的搜索结果的,当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对EO人员的工作并没有太多影响,所以不必深究。经过这些处理后,Spider抓取回来的网页内容就被“洗”干净了,再经过分词处理及去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。

文章为作者独立观点,不代表站长派立场,本文链接:https://zhanzhangpai.com/?p=1083

免责声明:本站部分内容来源互联网整理,如有侵权请联系站长删除。站长邮箱:1245911050@qq.com

(0)
上一篇 2022年2月21日 上午8:14
下一篇 2022年2月21日 上午9:20

相关推荐

  • 什么是次导航?次导航如何优化?

    次导航:在网站的页脚,用首页的目标关键词打上锚文本指向给首页。目的是增加目标关键词的内链,提高URL的权重。 一句话次导航:编辑一句完整话语,在里面出现多个关键词,给每个关键词添上…

    2022年3月15日
  • 什么是domain指令?domain结果是网站的反链吗?

    一、什么是domain指令 在很长一段时间内,domain都被当做查询百度外链的指令。并且大部分站长工具都把在百度使用“domain-域名”的结果数当做该网站在百度中的外链数,这其…

    2022年3月1日
  • 百度spider介绍

    1. 什么是Baiduspider Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。…

    2022年2月6日
  • 【官方说明】站点属性(LOGO)审核原则

    自百度搜索资源平台后台的站点属性设置开通上传网站LOGO功能以来,平台相关工作人员每天都上满了发条对LOGO进行严格审核。通过审核的站点不仅在百度搜索结果页中显示相关图片,还增加了…

    2022年12月29日
  • 网站如何从PC页面重定向到移动页面?

    有很多时候,用户在移动设备上会访问到PC页面的地址,这种情况下,我们需要以极快的速度跳转到对应的移动端页面,尽量减少用户的感知,给用户最好的体验。那么,如何从PC页面重定向到移动页…

    2022年12月30日
  • 如何增加蜘蛛爬取以及高价值url的发现!

    前言: 本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。 蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能…

    2023年1月31日
  • 2022年如何提高谷歌搜索排名?2022年谷歌seo提升关键词排名的6个有效方法

    尽管你一直在努力提高排名,但最令人沮丧的莫过于在谷歌的第十几页才找到你的排名。 因为这个事情在我个人经历了很多次。 有时候,无论你做什么,都感觉无济于事。谷歌似乎很讨厌你的网站,你…

    2022年1月14日
  • 飓风算法2.0详情及算法解读

    算法名称:飓风算法2.0算法内容:打击恶劣采集行为发布时间:2018-09-13原文详情: 为了营造良好的搜索内容生态,保护搜索用户的阅读浏览体验,保障优质内容生产方在百度搜索中的…

    2021年11月5日
  • 网站内容更新的原则是什么?网站内容建设的方向是什么?

    针对依靠SEO起家的网站来说,对SEO有正面作用的内容就是好内容,对SEO没有正面作用的内容就是没有价值的。此类网站大都是主要为搜索引擎制造内容的,搜索引擎是第一位的,用户是第二位…

    2022年3月10日
  • 说说劫持的那些事

    网络安全日益严峻,站长朋友们多多少少都遇到过被黑被劫持的经历,对于老老实实做人,认认真真做站的朋友来说,好不容易做出了一点成绩,一劫持就又回到解放前了,本期我们一起来探讨常见的网站…

    2022年1月29日