b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

百度分词技术_百度输入法分词位置_数据处理分词例句(16)

电脑杂谈  发布时间:2017-03-15 12:05:53  来源:网络整理

但是,如果用户输入的 查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就了,比如输入查询“哀体”,百度提示“艾提 挨踢”,但是。输入为 “我 哀体 ”,则没有任何错误提示。

8

还有一个比较重要的问题:如果汉字是多音字那么怎么处理?

百 度呢比较偷懒,它根本就没有对多音字做处理。我 们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询“俱长”,百度提示“剧场 局长”, “俱长“的拼音有两个:”ju zhang /ju chang“ ,可见如果是多音字则几种情况都提示。.现在我们来看看错误的情况, 我们输入查询”剧常“,百度 提示”:剧场局长“,提示为”剧场“当然好解释,因为是同音字,但是为什么 ”局长“也会被提示呢?这说明百度的同音字词典有错误,说明在”ju chang“这个词条里面包含”局长“这个错误的同音词。让我们顺藤摸瓜,这个错误又说明什么问题呢?说明百度的同音词典是自动生成的,而且没有 人工校对。还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个 词典的词条来标注音节的,所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注。 当然还有另外一种解释,就是”局长“是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人”zh“和 ”ch“等前后鼻音分不清么,那么是这 样的么?我们继续测试到底是何种情况。是百度有错误还是这是百度的先进的算法?

我们考虑词汇”长大 “,故意错误输入为”赃大“,如果 百度考虑到了前后鼻音的问题,那么应该会提示”长大“,但是百度提示是”藏大“。这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错 误。 我们输入查询”悬赏“,故意将之错误输入为”悬桑“,没有错误提示,说明确实没有考虑这种情况。前鼻音没有考虑,那么后鼻音考虑了么,我们 输入”:经常“,故意改为后鼻音 ”经缠“,百度提示为”经产 经忏“,还是没有考虑后鼻音。这基本可以确定是百度系统的错误导致。

技术分享

END

百 度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长。 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式 形成同音词词典。这样的同音词词典显然包含着很多错误。

技术分享

最 后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查 询”china“,不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜。变换一下查询”chine“,会更加意外惊喜的给我们提 示”china“吗?百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了。那么拼音搜索和中文检查错误是否采用同一套同音词词典 呢,让我们来实验一下,搜索”rongji“,百度提示” 榕基 溶剂 容积“,OK,换个中文查询”容机“,百度提示” 榕基 溶剂容积“,看来使用的是同一套 同音词词典。也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已。难道这就是传说中那个百度的”事实 上是一个无比强大的拼音输入法“的拼音提示功能么?


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-37623-16.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 吕琛
      吕琛

      还在这充好人

    • 崔耿
      崔耿

      记着了——浙江财经学院的谢做死教授

    每日福利
    热点图片
    拼命载入中...