营销知识
您的位置:主页 > 营销知识 >

百度分词原理

网站编辑:红莲 │ 发表时间:2012-03-13 21:05 | 文章标签:百度分词原理

了解百度分词原理对seo非常重要,特别在做长尾关键词的时候更需要熟悉百度的分词原理,一个长尾关键词可以变化出N个长尾关键词,这也就是分词的作用,要了解分词原理,首先我们要知道以下几点:

1、中文核心分词

众所周知,百度算法的核心要素是中文分词,那么按照中文语法的习惯,三个字(包含三个字)以下的文字符是独立精准的词汇,基本上没有重组的必要,所以百度对三个字(包含三个字)以下的字符不会考虑细分,这也是百度算法的第一层,也是响应数量最多的一部分。一般这些文字符更新的时间会满一点,一周或者两周的时间,属于大更新的范畴。

那么四个字符的,百度就不会客气了,把它搞的四分五裂的,比如“网站排名”这个文字串,当用户搜索后,会发现搜索结果里出现的红色文字,已经把这个文字符分成了“网站” “排名”。当然,四个字以上的就更不用说了,可以分成更多的词,这里就不一一举例了。

大概了解了百度的分词原理后,我们要了解的一个重要方面就是字词的匹配问题。如果不知道字词的匹配,做网络优化就是空谈了。

2、百度算法之:最大匹配法

假设自动分词词典(或词库)中的最长词条是y个字,则取被处理材料当前字符串序列中的前y个字作为匹配字段,查找词典,若词典中存在这样的一个y字词,则匹配成功,匹配字段被作为一个词切分出来;如果在词典中找不到这样一个y字词,则匹配失败,匹配字段去掉最后一个字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止。

3、百度算法之:正向最大匹配算法

正向最大匹配法(由左到右的方向)。首先粗分,按照句子把文本切成一个一个句子。然后把每个句子切成单字。字典按照树形结构存储,比如这句话“春天还会远吗”首先查找“春”字开头的词,然后按照字典树形结构往下走一个节点,查找“春”后面一个字是“天”的词,然后又下沉一个节点,找“还”下面是“会”的词,找不到了,查找就结束。

4、百度算法之:反向最大匹配算法

逆向最大匹配法(由右到左的方向);就是朝相反的方向发掘可以匹配的文字,比如网上商城这个文字串,那么会向左延伸在上的前面会出现的结果是区域性的文字,不如上海或者北京等,在商城的前面会出现更精准的定义文字符,不如爱家,女人等专属性强的文字符。

5、百度算法之:双向最大匹配算法

正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。就是向左右纵深挖掘比较匹配的结果值。熟悉了百度分词的方法后,我们就要在网站优化的过程充分的考虑相关联的因素,合理的对你所要向用户推荐的文字串做合理的规范和策划。

上一篇:关于网站描述问题 下一篇:SEO十大技巧

扫描二维码分享到微信

在线咨询
联系电话

15929322171