深圳-1830n 致力于网站优化百度优化百度排名研究,提供百度排名优化服务,是深圳专业百度排名研究站点,为广大爱好者提供百度优化学习资料。在这里你可以找到有关百度搜索优化网站优化排名优化等资料。这些资料可以帮助您的网站提高百度快照排名
当前位置: 首页-> 百度排名优化
百度分词算法-查询处理
作者: 1830n 时间:09月15日 10:10

用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢?

1、假设用户提交了不只一个查询串,比如“信息检索 理论 工具”。那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:三个子字符串;这个道理简单。

2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“理论 工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理。

3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”baidu排名优化”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待。

首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。

·上一篇:搜索引擎中关于蜘蛛的设计分析
·下一篇:百度分词算法-中文分词
打印文章】【关闭本页

©2007 1830n