b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

百度分词技术_百度输入法分词位置_数据处理分词例句(13)

电脑杂谈  发布时间:2017-03-15 12:05:53  来源:网络整理

5

假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?

比 如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将 中文切分开,这样上述的查询就切为《电影,BT,下载》,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个 整体来对待。至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字,也是如此办理。

6

到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?

归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。

END

1

首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?

2

技术分享

3

那么什么样的字符串才满足被切割的条件呢?

简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉。百度分词技术

4

百度输入法分词位置_百度分词技术_数据处理分词例句

技术分享

5

怎么证明呢?

我 们向百度提交“电影下载”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成《电影,下载》两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。我们来看看三个字符的情况,提交查询“当然择”,看起来这个查询不伦不类,那是因 为我希望看到这个字符串被切分为《当然,择》,返回结果365篇相关页面,翻到最后一页,发现标红的关键字都是” 当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询“当然 择”看看,返回结果1,090,000篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的。但是我倾向于判断百度对于少于3个字符的串没有切分,奥卡姆不是说了么“如无必要,勿增实体”,干吗做无用功呢。 那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照 单词索引,一种是按照N-GRAM索引,至于索引的具体问题,以后在详细论述。

6

技术分享

7

下面我们看看百度是采取的何种分词算法,

现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方 法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点, 一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

8

那么百度用的是什么方法?

我的判断是用双向最大匹配算法。至于怎么推理得出的,让我们一步步来看。当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题。

我 们提交一个查询“胡深东北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识 别的功能,如果是正向最大匹配算法的话,那么输出应该是:”胡深东/北京/华/烟云”,如果是反向最大匹配算法的话,那么输出应该是:”胡/胡/东北/京华烟云”,我们看看百度的分词结果:”胡深东/北/京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”胡深东”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配 的分词结果。这样基本说得通。为了证明这一点,我们提交查询”发胡深东北”,我们期望两种分词结果,一个是正向最大匹配《发胡,深,东北》, 一个是上述假设的结果《发,胡深东,北》,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是 专用词典(人名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-37623-13.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    每日福利
    热点图片
    拼命载入中...