新闻动态
您的位置:主页 > 新闻动态 >

百度排名数据截获解读-狗小云首发

网站编辑:红莲 │ 发表时间:2012-04-24 12:19 | 文章标签:百度排名数据

很久,没对百度进行研究了,今天打算更深入一些,对百度进行,深层次的探测,扫描,分析百度页面的代码,引用的路径,在看看引用的路径下,有没有可以查看的东西。直接软件探测这个目录,看看有没有可以下载读取的,再看看百度的URL,每个都有什么含义呢。
 
    声明:我可不是入侵百度服务器,拿到的这些数据的,只能怪百度工程师马虎,暴漏给了我。
                百度排名结果的后台数据,不知道以前有没有人拿到,可能我是第一个发的吧
 

很些收获,发现了很多百度的神秘端口,神秘页面,还有BUG漏洞,哈哈,居然可以有一些比较隐私的竞价推广数据。

           
最重要的发现,要数百度网页排名数据了,收获颇丰,为了分享精神,我分享部分研究心得,
和截获到的,新闻搜索排名数据,
 
 百度页面的排名数据,暂时保密,这个可是我立足的资本啦,慢慢研究。嘿嘿
 
先来看一个百度,关键词数据页面,呵呵,图片
 

 

 

 

 
在来看一个百度新闻排名规则数据  是json数组  格式的
 
我汉化翻译了,这可能是第一次看,除了百度搜索前端界面,以外的排名数据,让我们了解的他的排名数据引用来源。
 

 

 

 

图片

 

 

上面的很好理解了,这个是2011年11月15日,的百度新闻-“抚顺”的搜索排名数据, 

 

 我截取,第19位和第20位的2个数据来说明下

 

图片

 

    上次更新后,居然很多人说看不懂,狗小云我到是,解读出了很多排名信息,重要的是你会不会解读,

 

 

      百度排名算法解读(二)快照相关性归类 

 

 

 

首先我们要理解json数组 ,它是轻量级的数据交换格式,非常适合于服务器与 JavaScript 的交互,他是百度服务器与百度前端页面的搬运工,是个中枢,我们一直查看百度搜索结果的前端页面,他的排名数据来源,就是这个来源这个json文件,这个文件,没有交代更深的排名算法,只是首次让我们知道了,百度前端页面的排名结果来源于哪里,要想了解更深的算法,就需要找json的更下一层,可能交代json这些值是怎么定义的,

 

    不过也透漏了一些信息,首先我们可以知道,百度服务器,有一个非常庞大的词库,这个有点像我们网站的TAG标签,他把抓取的快照贴标签归类,根据隐含语义索引原理,建立一个沙盘,去掉修饰词,分析主词密度,分配类别,定义类别值,先把快照归类

 

 

 

     这个快照归类,就可能会有,人物词库,地区词库,品牌词库,科技名词库等等,假如你的快照,被归类到,地区词库,搜索地区词汇,你就会出现地区排名结果,  进了人物词库,搜人物词汇你就可以出现,如果同时都进了人物和地区词库,   搜某一个地区的名人,你就会优先出现了,所以让百度收录你时,你页面地区词汇和人物词汇的原创密度要足够哦。别和我说还在计算密度已经落伍了,用大脑想想,任何庞大数据的处理,第一步就是分类,这样才能高效,有序处理数据,所以百度处理你快照,第一步就是鉴别和分类,百度又不是人工看你文章,唯一快速处理,就是密度啦。

 

  类别:{

             标签:“人物”

               值:“娱乐明星”

             }

       通过这个命令,我们看到,他分完总类之后,还会继续分类,越分越细,如以下延伸

 

  类别:{

             标签:“人物”

               值:“娱乐明星”

               值:“周杰伦”           

              }

 

   我们来看下,这个命令是具体怎么工作的,首先我们要知道,百度服务器词库,有一个很大的关系网,他把很多相关性,很强的词汇

串联起来, 上面的标签“人物”是总类,值“娱乐明星”是分类,也是一个大词组,他涵盖了,所有和娱乐明星相关的词组如:港台明星,香港明星,台湾明星,大陆明星,等等、”  这个时候我们搜“港台明星”就也可以看到,周杰伦的这条快照了。

 

 

 

     从图片地址我们了解到,百度蜘蛛爬取后,会进行分割,文字,图片,等等,然后进行重组,因为发现很多图片都是不是当前文章的,是其它文章转载后, 配了图片,百度给发布最新的文章配图了。这说明了,即便你转载后文章,页面做的在精美,配图+视频,也不能取代百度认为最先发布的页面,看来 单篇文章的排名和,发布时间很大的关系,这也很容易理解,保障原创者的利益,公序良俗,百度也要维护这样行业的发展, 

 

 

      11月21日更新,抛砖引玉的效果不错,有很多SEO同行联系我,有的人觉得没用,我自己也觉得透漏的信息不多,只是把以前猜测的东西,肯定化了,之前就猜测百度肯定会归类种种,只是没有官方口径说明,这些百度数据,我也就看懂一点点,总是有强人出现,我把数据文件给一个朋友后,人家通过这些数据,都在搞数据库推衍排名了,这就是人跟人的差距啊。

 

   (以下内容是和朋友讨论所得,)

 图片

      

    我们来看这个文件,这个是百度的切词,分词记录文件,可以琢磨并发现百度的分词方法,和隐含类型的判断准则,它就是TAG ,拆分密度词组 ,可以知道百度怎么分拆,如“XBOX360"这个,就拆分成了,"XBOX"  和“360”,我们发现基本是一元词,再多点就是二元词,可以看到,百度的排名之前,还有一道工序,就是通过一元词,或者高频二元词,进行分类,然后通过词来建立索引,搜索的时候,简单理解为将长尾词剖开,将每个一元词索引求并集,这个东西,在程序里面叫做“逆文档频度”

   如:黄金价格,这个词组

在 黄金 中,得分比如3,价格 中得分2  最终不是5,而是3*一个数+2*另一个数,越普遍的词,权值越小,也就是说主词权值高,修饰词权值小

 

我们在来计算长尾词,长尾词是很长的词组的组合。

      一元词几千个吧,记做n,多元词,其实比如3元词,都索引的话相当于n^3个。天文数字了,所以我们可以断定长尾词,在百度的数据库里不是独立存在的,(这里废话了,笨蛋都能理解,每个长尾词都建立权值计算,地球所有服务器给百度也计算不过来)他是,一元词汇和二元词,的公式乘出来的数据, 

 

      长尾词的权值=(一元词汇权值+二元词汇权值X算法公式)

 

    既然长尾词,在百度的数据库不是独立存在,这个时候我们我们又得出结论,长尾词的排名因素是最少的,而一元词汇,会计算,外链,文章质量,跳出率,用户行为,等等因素,因为一元词是基础词汇,独立存在的,百度工程师写代码的时候,可以任意对,一元词这些基础词,赋值,和外链数据对接计算权值,和附加框计算等等。

如:我们搜:周杰伦,可以看到,百度MP3,百度视频,微博,明星资料库等等,我们搜,CEO,WTO,这些可以看到百度词典,我们搜:阿里巴巴,可以出现股票,  比较明显是搜地区名字,如,天津,北京  ,出现地图,天气,政府网站等等,这个时候地区政府网站,的排名机制也被算进去了,

  长尾词不可能向,一元词那么,丰富的拓展,进行数据对接计算等等,如果那样设计程序,是比较臃肿和蹩脚的,海量的长尾词,只能机械化的靠程序去推衍。

 

 

 

先去睡觉,吃饭,明天继续解读。数据比较多,大家给点留言,我好有动力,继续解读,呵呵

 

我手里百度排名文件很多,慢慢解读,直指核心排名算法,而且本人所有推断,来源百度后台数据,准确权威。

 

 

转载的请著名: 狗小云QQ:455873983原创

扫描二维码分享到微信

在线咨询
联系电话

15929322171