|
|
|
|
|
|
双向最大匹配算法-温州企业网站建设制作-【瑞安求实网络公司】温州企业网站推广,平阳百度排名,瑞安百度推广优化知识
|
双向最大匹配算法 |
发布日期:[2012-9-21] 共阅[2895]次 |
|
那么百度用的是什么方法?我的判断是用双向最大匹配算法。至于怎么推理得出的,让我们一步步来看。当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题。
我们提交一个查询“毛泽东北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”毛泽东北京华烟云”,如果是反向最大匹配算法的话,如,www.cnluomu.com , 那么输出应该是:”毛泽东北京华烟云”,我们看看百度的分词结果:”毛泽东北京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串”北京华烟云”,而”北京华烟云”,可以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点,我们提交查询”发毛泽东北”,我们期望两种分词结果,一个是正向最大匹配,一个是上述假设的结果,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等)。www.chinapwq.com 而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。
继续测验,提交查询“古巴比伦理”,如果是正向最大匹配,那么结果应该是,如果是反向最大匹配,那么结果应该是,事实上百度的分词结果是,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询“北京华烟云”,正向最大匹配期望的结果是,而反向最大匹配期望的结果是,事实上百度输出的是后者,这说明可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如何是好呢?www.cn-chuguan.com ,可以从这个角度来考虑。
从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片断越少越好,比如和相比选择后者,和相比选择后者。还有类似的一些例子,这样基本可以解释这些输出结果。
但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?
我们再来看一个例子。提交查询“遥远古古巴比伦”,这个查询被百度切分为,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为“遥远古巴比伦”,此时被切分为“遥远古巴比伦”,这说明词典里面有”古巴比伦”这个词汇,这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥远古古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果。
|
|
上一篇:域名被抢注的损失 |
下一篇:百度分词技术 |
|
|
|
|
|
|
|
|