首页 > 操作系统 >

英语分词和中文分词

电脑杂谈　发布时间：2020-04-08 11:11:55　来源：网络整理

php 英文分词_分词技术英文_英文分词算法

英语分词系统

由于英语的基本单位是单词，所以相对简单.

大致分为三个步骤（3S）:

根据空格拆分单词（Split）
排除停止词（Stop Word）
提取词干（Stemming）

1. 根据空格分割单词

这是最简单的步骤. 英语句子基本上由标点符号，空格和单词组成. 然后，只需根据空格和标点符号将单词分成数组即可.

英文分词算法_php 英文分词_分词技术英文

例如，“没人知道古代人如何开始使用火”分为{“没人”，“知道”，“如何”，“古代”，“人”，“开始”，“使用”，“火” “}.

2. 排除停用词

停止词由英语单词: stopword翻译而来. 事实证明，在英语中，您会遇到很多单词或带有a，the等的单词，这些单词通常是文章，介词，副词或连词. 如果搜索引擎想要为这些词建立索引，那么几乎每个网站都将被索引，这意味着巨大的工作量. 毫不夸张地说，只要它是英语网站，它将使用a或the. 那么这些英文单词与我们的中文有什么关系？实际上，中文网站上有很多停用词. 我们称它们为停用词. 例如，在我们之前的句子中，单词“在”，“内部”，“是”，“ de”，“它”和“ wei”都是停用词. 由于这些词的使用频率很高，因此它们几乎存在于每个网页上，因此搜索引擎开发人员会全部忽略它们. 如果我们的网站上有很多这样的单词，那等于是浪费了很多资源.

有关常见停用词，请参见附录:

如果{“ Nobody”，“ knows”，“ how”，“ ancient”，“ people”，“ started”，“ using”，“ fire”}}删除停用词并得到{“ Nobody”，“ ancient ，“人”，“开始”分词技术英文，“起火”}

3. 提取茎

分词技术英文_英文分词算法_php 英文分词

词干提取是西方语言所独有的. 例如，英语单词具有单数和复数变体，-ing和-ed变体，但是在计算相关性时，应将它们视为同一单词. 例如，苹果和苹果，doing and done是同一个词，提取词干的目的是将其恢复为最基本的词.

同时，我们可以统一所有大写字母.

{“没有人”，“古老”，“人”，“开始”，“解雇”}被处理为{“没有人”，“古老”，“人”，“开始”，“解雇”}

经过上述三个步骤，基本上完成了一个英语句子.

对于中文，单词是承载语义的最小单位. 单词组成句子，句子组成章节. 但是，中文文本是由连续的单词序列组成的，并且单词之间没有自然的分隔符，因此中文单词的分割比较困难. 目前，中文分词基本上是基于用于分词的词典. 单词和单词由不同的单词组成分词技术英文，然后放入字典中查找.

php 英文分词_分词技术英文_英文分词算法

中文分词面临许多挑战. 第一个问题是模棱两可. 不同的细分方式可能导致不同的含义.

例如: 已婚/ de /和尚/未/已婚/ of和已婚/ de /和/尚未/已婚/ of

另一个重要的挑战是未注册的单词. 在人类语言中，词典中未包含的单词. 这个名字是最简单的例子，网民发明了一些词，例如: “草泥马”，“意识不清”等等.

因此，好的分词词典是确定中文分词质量的关键. 另外，如果要进行中文分词，则必须经常更新它，并与时俱进.

中文分词算法可以大致分为两种类型:

1. 字典分词

分词技术英文_php 英文分词_英文分词算法

简而言之，字典分词就是将句子直接分解成单词，然后将单词和单词组合成字典进行匹配. 该方法简单直接，但是容易引起歧义问题. 例如解霸分词.

2. 基于统计的分词

通过人工注释，对中文进行建模并训练准备好的语料库，然后计算不同阶段的概率，并选择概率最高的案例作为分词的结果.

尽管这种分词方法可以尝试避免由分词引起的歧义，但它需要相当大的性能.

另一种是基于语义的，但是目前还没有很好的解决方案，因此我们不对其进行讨论.

建议在常用词分割中使用第一个词，并为地名，人名等常用和唯一词分别构建一个词库，在词分割之前提取这些词，然后进行词分割. 然后，您可以针对自己的情况构建歧义纠正词汇，并纠正一些分词结果.

如果分词结果为“ Wang / Xiaoming”（此名称尚未登录），但“ Wang Xiaoming”已记录在更正词典中，则最终结果为“ Wang Xiaoming”.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-168140-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

沮渠安固

你的阿里巴巴就是死的那一天

2026年04月02日回复顶转发
杨林

马云在体制外演讲

2026年04月02日回复顶转发
李伟彬

2026年04月02日回复顶转发

每日福利

如果管理员禁用了注册表怎么办？如何打开注册表编辑器

如果管理员禁用了注册表怎么办？如何打开注册表编辑器

对C语言基本知识的理解

对C语言基本知识的理解

全球最快计算机_中国超算中心排名_神威蓝光超级计算机

全球最快计算机_中国超算中心排名_神威蓝光超级计算机

如何修复计算机蓝屏

如何修复计算机蓝屏

热点图片

拼命载入中...

热点排行