百度排名数据截获解读-狗小云首发_西安红莲科技-抖音短视频拍摄制作，新媒体宣传推广、网络营销、SEO、SEM专家

网站公告

百度排名数据截获解读-狗小云首发

网站编辑：红莲 │ 发表时间：2012-04-24 12:19

很久，没对百度进行研究了，今天打算更深入一些，对百度进行，深层次的探测，扫描，分析百度页面的代码，引用的路径，在看看引用的路径下，有没有可以查看的东西。直接软件探测这个目录，看看有没有可以下载读取的，再看看百度的URL，每个都有什么含义呢。

声明：我可不是入侵百度服务器，拿到的这些数据的，只能怪百度工程师马虎，暴漏给了我。

百度排名结果的后台数据，不知道以前有没有人拿到，可能我是第一个发的吧

很些收获，发现了很多百度的神秘端口，神秘页面，还有BUG漏洞，哈哈，居然可以有一些比较隐私的竞价推广数据。

最重要的发现，要数百度网页排名数据了，收获颇丰，为了分享精神，我分享部分研究心得，

和截获到的，新闻搜索排名数据，

百度页面的排名数据，暂时保密，这个可是我立足的资本啦，慢慢研究。嘿嘿

先来看一个百度，关键词数据页面，呵呵，

在来看一个百度新闻排名规则数据是json数组格式的

我汉化翻译了，这可能是第一次看，除了百度搜索前端界面，以外的排名数据，让我们了解的他的排名数据引用来源。

上面的很好理解了，这个是2011年11月15日，的百度新闻-“抚顺”的搜索排名数据，

我截取，第19位和第20位的2个数据来说明下

上次更新后，居然很多人说看不懂，狗小云我到是，解读出了很多排名信息，重要的是你会不会解读，

百度排名算法解读（二）快照相关性归类

首先我们要理解json数组，它是轻量级的数据交换格式，非常适合于服务器与 JavaScript 的交互，他是百度服务器与百度前端页面的搬运工，是个中枢，我们一直查看百度搜索结果的前端页面，他的排名数据来源，就是这个来源这个json文件，这个文件，没有交代更深的排名算法，只是首次让我们知道了，百度前端页面的排名结果来源于哪里，要想了解更深的算法，就需要找json的更下一层，可能交代json这些值是怎么定义的，

不过也透漏了一些信息，首先我们可以知道，百度服务器，有一个非常庞大的词库，这个有点像我们网站的TAG标签,他把抓取的快照贴标签归类，根据隐含语义索引原理，建立一个沙盘，去掉修饰词，分析主词密度，分配类别，定义类别值，先把快照归类

这个快照归类，就可能会有，人物词库，地区词库，品牌词库，科技名词库等等，假如你的快照，被归类到，地区词库，搜索地区词汇，你就会出现地区排名结果，进了人物词库，搜人物词汇你就可以出现，如果同时都进了人物和地区词库，搜某一个地区的名人，你就会优先出现了，所以让百度收录你时，你页面地区词汇和人物词汇的原创密度要足够哦。别和我说还在计算密度已经落伍了，用大脑想想，任何庞大数据的处理，第一步就是分类，这样才能高效，有序处理数据，所以百度处理你快照，第一步就是鉴别和分类，百度又不是人工看你文章，唯一快速处理，就是密度啦。

类别：｛

标签：“人物”

值：“娱乐明星”

｝

通过这个命令，我们看到，他分完总类之后，还会继续分类，越分越细，如以下延伸

类别：｛

标签：“人物”

值：“娱乐明星”

值：“周杰伦”

｝

我们来看下，这个命令是具体怎么工作的，首先我们要知道，百度服务器词库，有一个很大的关系网，他把很多相关性，很强的词汇

串联起来，上面的标签“人物”是总类，值“娱乐明星”是分类，也是一个大词组，他涵盖了，所有和娱乐明星相关的词组如：港台明星，香港明星，台湾明星，大陆明星，等等、” 这个时候我们搜“港台明星”就也可以看到，周杰伦的这条快照了。

从图片地址我们了解到，百度蜘蛛爬取后，会进行分割，文字，图片，等等，然后进行重组，因为发现很多图片都是不是当前文章的，是其它文章转载后，配了图片，百度给发布最新的文章配图了。这说明了，即便你转载后文章，页面做的在精美，配图+视频，也不能取代百度认为最先发布的页面，看来单篇文章的排名和，发布时间很大的关系，这也很容易理解，保障原创者的利益，公序良俗，百度也要维护这样行业的发展，

11月21日更新，抛砖引玉的效果不错，有很多SEO同行联系我，有的人觉得没用，我自己也觉得透漏的信息不多，只是把以前猜测的东西，肯定化了，之前就猜测百度肯定会归类种种，只是没有官方口径说明，这些百度数据，我也就看懂一点点，总是有强人出现，我把数据文件给一个朋友后，人家通过这些数据，都在搞数据库推衍排名了，这就是人跟人的差距啊。

（以下内容是和朋友讨论所得，）

我们来看这个文件，这个是百度的切词，分词记录文件，可以琢磨并发现百度的分词方法，和隐含类型的判断准则，它就是TAG ,拆分密度词组，可以知道百度怎么分拆,如“XBOX360"这个，就拆分成了，"XBOX" 和“360”，我们发现基本是一元词，再多点就是二元词，可以看到，百度的排名之前，还有一道工序，就是通过一元词，或者高频二元词，进行分类，然后通过词来建立索引，搜索的时候，简单理解为将长尾词剖开，将每个一元词索引求并集，这个东西，在程序里面叫做“逆文档频度”

如：黄金价格，这个词组

在黄金中，得分比如3，价格中得分2 最终不是5，而是3*一个数+2*另一个数，越普遍的词，权值越小，也就是说主词权值高，修饰词权值小

我们在来计算长尾词，长尾词是很长的词组的组合。

一元词几千个吧，记做n，多元词，其实比如3元词，都索引的话相当于n^3个。天文数字了，所以我们可以断定长尾词，在百度的数据库里不是独立存在的，（这里废话了，笨蛋都能理解，每个长尾词都建立权值计算，地球所有服务器给百度也计算不过来）他是，一元词汇和二元词，的公式乘出来的数据，

长尾词的权值=（一元词汇权值+二元词汇权值X算法公式）

既然长尾词，在百度的数据库不是独立存在，这个时候我们我们又得出结论，长尾词的排名因素是最少的，而一元词汇，会计算，外链，文章质量，跳出率，用户行为，等等因素，因为一元词是基础词汇，独立存在的，百度工程师写代码的时候，可以任意对，一元词这些基础词，赋值，和外链数据对接计算权值，和附加框计算等等。

如：我们搜：周杰伦，可以看到，百度MP3，百度视频，微博，明星资料库等等，我们搜，CEO,WTO,这些可以看到百度词典，我们搜：阿里巴巴，可以出现股票，比较明显是搜地区名字，如，天津，北京，出现地图，天气，政府网站等等，这个时候地区政府网站，的排名机制也被算进去了，

长尾词不可能向，一元词那么，丰富的拓展，进行数据对接计算等等，如果那样设计程序，是比较臃肿和蹩脚的，海量的长尾词，只能机械化的靠程序去推衍。

先去睡觉，吃饭，明天继续解读。数据比较多，大家给点留言，我好有动力，继续解读，呵呵

我手里百度排名文件很多，慢慢解读，直指核心排名算法，而且本人所有推断，来源百度后台数据，准确权威。

转载的请著名：狗小云QQ:455873983原创

红莲工作室

网络营销，新媒体营销，网站建设专家