深圳-1830n 致力于网站优化百度优化百度排名研究,提供百度排名优化服务,是深圳专业百度排名研究站点,为广大爱好者提供百度优化学习资料。在这里你可以找到有关百度搜索优化网站优化排名优化等资料。这些资料可以帮助您的网站提高百度快照排名
当前位置: 首页-> 百度排名优化
百度分词算法-中文分词
作者: 1830n 时间:09月15日 10:17

先,讲讲百度的分词时机或者条件问题,不是所有的字符串百度都会切割的

简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才把这个字符串肢解掉。
 
怎么证明呢?我们向百度提交“百度搜索排名优化”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

那么百度用的是什么方法?我的判断是用双向最大匹配算法。至于怎么推理得出的,以后有时间再讲。

·上一篇:百度分词算法-查询处理
·下一篇:网站优化与SEO的区别
打印文章】【关闭本页

©2007 1830n