
英语分词系统
由于英语的基本单位是单词,所以相对简单.
大致分为三个步骤(3S):
根据空格拆分单词(Split)
排除停止词(Stop Word)
提取词干(Stemming)
1. 根据空格分割单词
这是最简单的步骤. 英语句子基本上由标点符号,空格和单词组成. 然后,只需根据空格和标点符号将单词分成数组即可.

例如,“没人知道古代人如何开始使用火”分为{“没人”,“知道”,“如何”,“古代”,“人”,“开始”,“使用”,“火” “}.
2. 排除停用词
停止词由英语单词: stopword翻译而来. 事实证明,在英语中,您会遇到很多单词或带有a,the等的单词,这些单词通常是文章,介词,副词或连词. 如果搜索引擎想要为这些词建立索引,那么几乎每个网站都将被索引,这意味着巨大的工作量. 毫不夸张地说,只要它是英语网站,它将使用a或the. 那么这些英文单词与我们的中文有什么关系?实际上,中文网站上有很多停用词. 我们称它们为停用词. 例如,在我们之前的句子中,单词“在”,“内部”,“是”,“ de”,“它”和“ wei”都是停用词. 由于这些词的使用频率很高,因此它们几乎存在于每个网页上,因此搜索引擎开发人员会全部忽略它们. 如果我们的网站上有很多这样的单词,那等于是浪费了很多资源.
有关常见停用词,请参见附录:
如果{“ Nobody”,“ knows”,“ how”,“ ancient”,“ people”,“ started”,“ using”,“ fire”}}删除停用词并得到{“ Nobody”,“ ancient ,“人”,“开始”分词技术英文,“起火”}
3. 提取茎

词干提取是西方语言所独有的. 例如,英语单词具有单数和复数变体,-ing和-ed变体,但是在计算相关性时,应将它们视为同一单词. 例如,苹果和苹果,doing and done是同一个词,提取词干的目的是将其恢复为最基本的词.
同时,我们可以统一所有大写字母.
{“没有人”,“古老”,“人”,“开始”,“解雇”}被处理为{“没有人”,“古老”,“人”,“开始”,“解雇”}
经过上述三个步骤,基本上完成了一个英语句子.
对于中文,单词是承载语义的最小单位. 单词组成句子,句子组成章节. 但是,中文文本是由连续的单词序列组成的,并且单词之间没有自然的分隔符,因此中文单词的分割比较困难. 目前,中文分词基本上是基于用于分词的词典. 单词和单词由不同的单词组成分词技术英文,然后放入字典中查找.

中文分词面临许多挑战. 第一个问题是模棱两可. 不同的细分方式可能导致不同的含义.
例如: 已婚/ de /和尚/未/已婚/ of和已婚/ de /和/尚未/已婚/ of
另一个重要的挑战是未注册的单词. 在人类语言中,词典中未包含的单词. 这个名字是最简单的例子,网民发明了一些词,例如: “草泥马”,“意识不清”等等.
因此,好的分词词典是确定中文分词质量的关键. 另外,如果要进行中文分词,则必须经常更新它,并与时俱进.
中文分词算法可以大致分为两种类型:
1. 字典分词

简而言之,字典分词就是将句子直接分解成单词,然后将单词和单词组合成字典进行匹配. 该方法简单直接,但是容易引起歧义问题. 例如解霸分词.
2. 基于统计的分词
通过人工注释,对中文进行建模并训练准备好的语料库,然后计算不同阶段的概率,并选择概率最高的案例作为分词的结果.
尽管这种分词方法可以尝试避免由分词引起的歧义,但它需要相当大的性能.
另一种是基于语义的,但是目前还没有很好的解决方案,因此我们不对其进行讨论.
建议在常用词分割中使用第一个词,并为地名,人名等常用和唯一词分别构建一个词库,在词分割之前提取这些词,然后进行词分割. 然后,您可以针对自己的情况构建歧义纠正词汇,并纠正一些分词结果.
如果分词结果为“ Wang / Xiaoming”(此名称尚未登录),但“ Wang Xiaoming”已记录在更正词典中,则最终结果为“ Wang Xiaoming”.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-168140-1.html
马云在体制外演讲
你的阿里巴巴就是死的那一天