本章首先介绍了文本倾向分析中使用的主要方法,然后介绍了本文中使用的算法和系统过程. 文本方向分析方法当前,文本方向分析方法主要使用机器学习中的方法. 尽管分析效果不如文本分类中的应用效果,但优化后效果会有所改善. 以下是一些主要的机器学习方法. Rocchio分类方法Rocchio分类算法是一种非常经典的向量空间模型算法. 基本思想是,给定训练集中的某个类别,所有不属于该类别的文本都标记为负向量. . 然后计算原型向量与训练集中所有文本之间的相似度. 将两个向量之间的相似度定义为两个向量之间的角度的余弦值. 根据计算结果选择合适的相似度作为极限. 如果文本和原型向量之间的相似度大于选定的相似度,则该文本属于此类,否则它不属于此类. Rocchio算法的优点是易于实现. 训练和分类非常简单快捷. 但是,它假设训练数据绝对正确. 它无法测量样本中是否包含噪声,因此容错性非常差,并且线性不可分数据的分类结果也很不令人满意. 因此,它通常用于比较不同算法的优缺点,而不是在实际分类系统中. 朴素贝叶斯算法贝叶斯算法主要用于计算文本属于某个类别的概率.
朴素贝叶斯算法需要计算训练集中每个类别中样本文档的出现概率,以确定样本属于每个类别的概率. 具体的计算公式如下: w1Cj w2Cj wiCj wmCj哈尔滨工业大学硕论文10 Cj-属于j类文档d的概率-样本的空间矢量表示-样本d的出现概率. 空间向量d的第i个元素从公式可以看出,朴素贝叶斯认为向量中的元素是独立的,也就是说,文章中的单词是彼此独立的,并且不受彼此. 这显然是不合理的. 朴素贝叶斯的准确率在一定程度上取决于训练集的大小. 训练集足够,准确率也得到一定程度的保证. 这样,早期工作的成本很高,而后期的计算机性能很高. 但是通过的优化,朴素贝叶斯可以得到很好的分类效果,因此仍然是许多软件的工具算法. 最近邻居分类中的K值选择图K最近邻居算法简称为K最近邻居算法. 英文全名是K Nearest Neior,这是一种惰性学习方法. 分类前无需训练模型. 在给定训练集之后,最近的邻居不是在学习,而是在等待测试文本d的测试文本. 此方法计算d与训练集中的所有文本之间的相似度基于层次结构的多策略中文微博情感分析和特征抽取,并找到与d最相似的K个文本,然后找到K个文本. 具有最大类别标签的类别. 在实际应用中,可以根据不同情况调整算法的输入参数K,这相当于在测试样本点周围扩展球体. K值表示球体的半径.
如图2所示,当K设置为1时,将其分类为黑色. 当K设置为2时,半径中有一个黑白训练样本. 因此,当将K设置为5时,不可能确定黑色样本点大于白色样本. 硕论文11类是黑色类. 本文根据人工标注的语料库文本计算出与d最相似的K个文本,然后将相似度最高的K个文本作为d的类别标签. 最近邻居的主要缺点是计算量很大. 每当有测试文本出现时,都必须使用训练集中的每个文本进行计算,以选择K个最相似的文本. 优点是实施简单,不需要模型训练. 对于离线计算,它更实用. 决策树决策树方法是在训练集中找到每个类别所满足的规则,以对测试样本进行分类. 它是一种通过以自上而下的方式贪婪地遍历所有可能的决策树分支来构建决策树的方法. 它的构造不需要参数设置和领域知识. 它特别适合于探查知识发现,并且它的表示相对直观并且易于理解. 决策树算法的优点是计算速度相对较小,并且可以轻松转换为规则. 可理解性也可以清楚地表明重要功能. 缺点是缺乏可伸缩性. 比较需要很长时间. 分类的分类性能降低. 它不适用于连续属性. 放松程序放松程序RelaxationP与感知器类似,不同之处在于它比感知器算法适应更通用的准则函数.
由于它与感知器算法相似,因此在此不再详细介绍. 我们仅介绍标准函数作为最大熵分类方法. 最大熵原理由E Jaynes在1957年提出. 主要思想是仅掌握未知分布. 对于某些知识,应选择与知识匹配但具有最大熵值的概率分布. 因为在这种情况下,可能存在不止一个与已知知识一致的概率分布. 我们知道,熵的定义实际上是随机变量的不确定性. 当熵最大时,这意味着随机变量是最不确定的. 换句话说,随机变量是最随机的. 准确预测其行为是最困难的. 最大熵方法的特征是尝试将问题与研究问题中的信息熵联系起来,然后将最大信息熵用作有用的假设. 该原理用于研究问题. 因为通过这种方法获得的结果或公式通常与现实相符,所以它促进了这种知识的发展和传播. 中国学者后来去了加拿大. 吴乃龙,袁素云在这一领域取得了成就,并着有《哈尔滨工业大学硕论文十二大熵方法》. 湖南科学技术出版社于1991年出版了一本书. 作了非常全面的介绍. 将最复杂的原理与信息论中的最大熵方法联系起来,既是自然的逻辑推断,又表明最复杂的原理不是孤立的. 这样,过去最大熵方法的所有成就都帮助人们理解了最复杂原理的合理性. 最复杂的原理的引入也使人们摆脱了对熵的神秘概念和熵原理的敬畏.
了解最复杂的原理是从概率公理推导出来后,我们终于了解到,熵的神秘原理本质上是“高概率事物易于出现”这一简单公理的推论. SVM支持向量机支持向量机是解决二进制分类问题的最佳学习分类方法之一. 该方法主要有两个模块. 一种是求解支持向量,即确定两种样本点的最佳分类. 超平面分类的边界上的点是支持向量. 线性不可分问题如图23所示,因此可以在低维空间中解决高维线性空间的求解问题. 第二类采样点及其分类超平面H1,H2和H3的均为分类超平面. H2最优SVM允许空间中的矢量通过分类判别并分为正例或负例. 其中是与培训文本相对应的类别标签.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-162298-2.html
在伊拉克却说你没有和交朋友得自由
那持有的阿里巴巴要不要卖了