搜索引擎蜘蛛的工作原理

  • A+
所属分类:seo快速入门

对于零基础朋友来说,搜索引擎蜘蛛的名词,具体工作原理是什么?以及蜘蛛如何抓取网站内容页面,从seo的角度出发,这些多是一些常见的并且有必要了解的基础知识。以下是我的一些基本认识,希望和大家一起探讨共同进步。

搜索引擎蜘蛛的工作原理

 

那么搜索引擎蜘蛛是什么呢?简单来说蜘蛛:英文spider也叫机器人(bot) 意思是搜索引擎放在互联网上不停爬行抓取网页的一种程序,种类有很多种(如图):百度蜘蛛、谷歌机器人、360蜘蛛、soso蜘蛛、雅虎蜘蛛、有道、必应等等。

搜索引擎蜘蛛的工作原理

搜索引擎蜘蛛工作流程:

第一步,搜索引擎派出蜘蛛,蜘蛛接到命令后就到互联网上到处浏览网页,并且对于一些内容做初步的过滤;第二步:把抓取到一些觉得有意义的内容存放在临时数据库;第三步,经过筛选把一些内容质量较高页面建立索引;第四步,从这些索引里面提出内容进行收录,也就是我们所看到的展示在搜索结果当中的页面。

蜘蛛爬行的方式:

蜘蛛爬行的方法可以分为两种:1、深度优先政策;2、广度优先政策。蜘蛛都是顺着url也就是网页链接一层一层往下爬,直到最后。因此这里就体现了网站内部链接(内链)的重要性,网站建设前期设计中是需要考虑内部链接更好优化,才能让蜘蛛更好的爬行和抓取,通熟一点链接就是蜘蛛在互联网上走的路。

1、深度优先政策。

深度优先就是指蜘蛛到达一个页面后,发现一个url链接,然后顺着这个链接爬行到另个一页面,然后又在另一个页面发现另一个url链接,接着往另一个页面爬,直到最后爬完这个网站。注意点:层次不能太深。如图:A1——首页, A2——栏目, A3——子栏目 , A4——文章页面。

搜索引擎蜘蛛的工作原理

2、广度优先政策。

广度优先就是(即网站内部的链接层次比较浅)蜘蛛到达一个页面后,发现url不是直接进去,而是把整个页面所有都爬行完毕,再一起进入所有锚文本的另一个页面,直到整个网站爬行完毕。如图:

搜索引擎蜘蛛的工作原理

 

发表评论

您必须才能发表评论!