b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

百度分词技术_百度输入法分词位置_数据处理分词例句(15)

电脑杂谈  发布时间:2017-03-15 12:05:53  来源:网络整理

END

1

系统如何判断用户的输入是有可能发生错误的查询呢?

2

如果判断是可能错误的查询输入,如何提示正确的词汇呢?

3

那么百度是如何做的呢?

百 度判断用户输入是否错误的 标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果 是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇。

4

那么百度是怎么提示正确词汇的呢?

很 明显是通过拼音的方式,比如我输入查询“ 制才”,百度提供的提示词汇为: “:制裁 质材 纸材“,都是同 音字。所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材”,另外还有一 个标注拼音程序,现在能够看到的基本流程是: 用户输入“ 制才”,查词典,发现没有这个词汇,OK,启动标注拼音程序,将“ 制才”标注为拼音“zhi cai”,然后查找同音词词典,发现同音词“ 制裁,质材,纸材”,那么提示用户可能的正确拼写。

5

整体流程看起来很简单,但是还有一些遗留 的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?

比 如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输 出而是选择一定筛选标准,选择其中几个输出。怎么证明这一点?我们看看拼音“liu li”的同音词,紫光输入法提示同音词汇有“ 流丽 流离 琉璃 流利”4个,我们看看百度返回几个,输入“流厉”作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示: “ 琉璃刘丽 刘莉 ”,这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?我能够猜测到的方法是对于用户查询LOG进行 统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索“琉璃”次数比其它的都要高些,次之是“ 刘丽”,再次是“ 刘莉”,看来大家都喜欢查询自己或者认识的人的名字。

6

另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词 条?是否包含一字词?

这 里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?反正只要是汉字就能在词表 里面找到,所以没有判断依据。二字词是包含的,上面有例子,三字词也包含,比如查询 “中城药”百度错误提示:“中成药”,修改查询为“重城药”,还 是提示“中成药” ,再次修改查询 “重城要”,百度依然提示“中成药”。 那么4字词汇呢?

百度还是会给你提示的,下面是个例子:

输入:静华烟云 提示 京华烟云

输入:静话烟云 提示 京华烟云

输入:静话阎晕 提示 京华烟云

7

那么更长的词汇是否提示呢?

也提示,比如我输入: “落花世界有风军”,这个查询是什么意思,估计读过古诗的都知道,看看百度的提示“落花时节又逢君”,这说明什么?说 明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-37623-15.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 艾斌哈里拜
      艾斌哈里拜

      难道真的就这样被践踏吗

    每日福利
    热点图片
    拼命载入中...