百度排名数据截获解读-狗小云首发
网站编辑:红莲 │ 发表时间:2012-04-24 12:19
很些收获,发现了很多百度的神秘端口,神秘页面,还有BUG漏洞,哈哈,居然可以有一些比较隐私的竞价推广数据。
上面的很好理解了,这个是2011年11月15日,的百度新闻-“抚顺”的搜索排名数据,
我截取,第19位和第20位的2个数据来说明下
上次更新后,居然很多人说看不懂,狗小云我到是,解读出了很多排名信息,重要的是你会不会解读,
百度排名算法解读(二)快照相关性归类
首先我们要理解json数组 ,它是轻量级的数据交换格式,非常适合于服务器与 JavaScript 的交互,他是百度服务器与百度前端页面的搬运工,是个中枢,我们一直查看百度搜索结果的前端页面,他的排名数据来源,就是这个来源这个json文件,这个文件,没有交代更深的排名算法,只是首次让我们知道了,百度前端页面的排名结果来源于哪里,要想了解更深的算法,就需要找json的更下一层,可能交代json这些值是怎么定义的,
不过也透漏了一些信息,首先我们可以知道,百度服务器,有一个非常庞大的词库,这个有点像我们网站的TAG标签,他把抓取的快照贴标签归类,根据隐含语义索引原理,建立一个沙盘,去掉修饰词,分析主词密度,分配类别,定义类别值,先把快照归类
这个快照归类,就可能会有,人物词库,地区词库,品牌词库,科技名词库等等,假如你的快照,被归类到,地区词库,搜索地区词汇,你就会出现地区排名结果, 进了人物词库,搜人物词汇你就可以出现,如果同时都进了人物和地区词库, 搜某一个地区的名人,你就会优先出现了,所以让百度收录你时,你页面地区词汇和人物词汇的原创密度要足够哦。别和我说还在计算密度已经落伍了,用大脑想想,任何庞大数据的处理,第一步就是分类,这样才能高效,有序处理数据,所以百度处理你快照,第一步就是鉴别和分类,百度又不是人工看你文章,唯一快速处理,就是密度啦。
类别:{
标签:“人物”
值:“娱乐明星”
}
通过这个命令,我们看到,他分完总类之后,还会继续分类,越分越细,如以下延伸
类别:{
标签:“人物”
值:“娱乐明星”
值:“周杰伦”
}
我们来看下,这个命令是具体怎么工作的,首先我们要知道,百度服务器词库,有一个很大的关系网,他把很多相关性,很强的词汇
串联起来, 上面的标签“人物”是总类,值“娱乐明星”是分类,也是一个大词组,他涵盖了,所有和娱乐明星相关的词组如:港台明星,香港明星,台湾明星,大陆明星,等等、” 这个时候我们搜“港台明星”就也可以看到,周杰伦的这条快照了。
从图片地址我们了解到,百度蜘蛛爬取后,会进行分割,文字,图片,等等,然后进行重组,因为发现很多图片都是不是当前文章的,是其它文章转载后, 配了图片,百度给发布最新的文章配图了。这说明了,即便你转载后文章,页面做的在精美,配图+视频,也不能取代百度认为最先发布的页面,看来 单篇文章的排名和,发布时间很大的关系,这也很容易理解,保障原创者的利益,公序良俗,百度也要维护这样行业的发展,
11月21日更新,抛砖引玉的效果不错,有很多SEO同行联系我,有的人觉得没用,我自己也觉得透漏的信息不多,只是把以前猜测的东西,肯定化了,之前就猜测百度肯定会归类种种,只是没有官方口径说明,这些百度数据,我也就看懂一点点,总是有强人出现,我把数据文件给一个朋友后,人家通过这些数据,都在搞数据库推衍排名了,这就是人跟人的差距啊。
(以下内容是和朋友讨论所得,)
我们来看这个文件,这个是百度的切词,分词记录文件,可以琢磨并发现百度的分词方法,和隐含类型的判断准则,它就是TAG ,拆分密度词组 ,可以知道百度怎么分拆,如“XBOX360"这个,就拆分成了,"XBOX" 和“360”,我们发现基本是一元词,再多点就是二元词,可以看到,百度的排名之前,还有一道工序,就是通过一元词,或者高频二元词,进行分类,然后通过词来建立索引,搜索的时候,简单理解为将长尾词剖开,将每个一元词索引求并集,这个东西,在程序里面叫做“逆文档频度”
如:黄金价格,这个词组
在 黄金 中,得分比如3,价格 中得分2 最终不是5,而是3*一个数+2*另一个数,越普遍的词,权值越小,也就是说主词权值高,修饰词权值小
我们在来计算长尾词,长尾词是很长的词组的组合。
一元词几千个吧,记做n,多元词,其实比如3元词,都索引的话相当于n^3个。天文数字了,所以我们可以断定长尾词,在百度的数据库里不是独立存在的,(这里废话了,笨蛋都能理解,每个长尾词都建立权值计算,地球所有服务器给百度也计算不过来)他是,一元词汇和二元词,的公式乘出来的数据,
长尾词的权值=(一元词汇权值+二元词汇权值X算法公式)
既然长尾词,在百度的数据库不是独立存在,这个时候我们我们又得出结论,长尾词的排名因素是最少的,而一元词汇,会计算,外链,文章质量,跳出率,用户行为,等等因素,因为一元词是基础词汇,独立存在的,百度工程师写代码的时候,可以任意对,一元词这些基础词,赋值,和外链数据对接计算权值,和附加框计算等等。
如:我们搜:周杰伦,可以看到,百度MP3,百度视频,微博,明星资料库等等,我们搜,CEO,WTO,这些可以看到百度词典,我们搜:阿里巴巴,可以出现股票, 比较明显是搜地区名字,如,天津,北京 ,出现地图,天气,政府网站等等,这个时候地区政府网站,的排名机制也被算进去了,
长尾词不可能向,一元词那么,丰富的拓展,进行数据对接计算等等,如果那样设计程序,是比较臃肿和蹩脚的,海量的长尾词,只能机械化的靠程序去推衍。
先去睡觉,吃饭,明天继续解读。数据比较多,大家给点留言,我好有动力,继续解读,呵呵
我手里百度排名文件很多,慢慢解读,直指核心排名算法,而且本人所有推断,来源百度后台数据,准确权威。
转载的请著名: 狗小云QQ:455873983原创
扫描二维码分享到微信