case TONEXT : //把lexeme放入当前branch的相邻分支 if(this.nextBranch == null){ //如果还没有相邻分支,则建立一个不交叠的分支 this.nextBranch = new TokenBranch(null); } this.nextBranch.accept(_lexeme); break; }
return true; }
从代码中可以了解到,作者采用了递归算法(代码中加粗的部分)切分 搜索词。若词存在子词则递归该函数,继续切分。
IK 分词弱点、缺点 分词弱点 弱点、
总体来说,IK 是一个很不错的中文分词工具,但它自身也存在一些缺点,比如: a. 对歧义分词还需要扩展、改进,比如:”湖北石首” 和 “首次访问”,
如果用户搜索”石首”会把”首次访问”也显示出来。 b. 对英文单词的搜索还需改进,比如:”IKAnalyzer”或”UU 音乐”,如果用户输 入搜索关键词”IKAnaly”或”U”则无法搜索出结果。 c. IKAnalyzer.cfg.xml 中关于词典的配置,暂不支持通配符方式,这样导致如果 有大批词典配置文件时会很麻烦。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-36718-3.html
企业大了就是好啊