营销知识
您的位置:主页 > 营销知识 >

搜索引擎是如何抓取页面的

网站编辑:红莲 │ 发表时间:2012-03-14 20:39 | 文章标签:搜索引擎抓取

搜索引擎蜘蛛,或者说搜索引擎机器人,利用网站之间的链接在不同的网站和网页之间爬行,收录网站的内容。由于互联网上内容太多,所以许多搜索引擎的网络蜘蛛只是抓取那些它认为重要的网页,那么搜索引擎蜘蛛是根据什么样的策略进行抓取的呢?

在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

由于技术的局限所以搜索引擎蜘蛛不可能抓取所有的网页,所以搜索引擎蜘蛛对一些它认为不太重要的网站,设置了访问的层数。例如,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

 

扫描二维码分享到微信

在线咨询
联系电话

15929322171