基于语料库的方法主要是利用词语之间的连词以及统计特征来判别词语的情感极性。由连词连接的词语的情感极性存在某种关联,比如由连词“和”连接的词语的情感极性相同,由连词“但是”连接的词语的情感极性相反。Yuen等人一。利用Turney的点互信息,用小规模的语料库来判别词语的情感极性。具体算法是将情感极性已确定且情感色彩强烈的词语作为词,通过计算需要判断情感极性的词语与这些词的互信息。张靖等人”。建立基于二元语法依赖关系的情感倾向互信息特征模型,利用特征集合描述情感极性,通过机器学习方法训练分类器,自动判别词语的情感极性。
基于词典的方法是利用中文词典HowNet提供的语义相似度或者层次结构来判别词语的情感极性。朱嫣岚等人【6j提出了基于HowNet的两种词语情感极性判别方法:分别是基于语义相似度和语义相关场的方法。实验表明,基于
文本情感分析是指对包含用户表示的观点、喜好、情感等的主观性文本进行检测、分析以及挖掘。文本情感倾向分析作为一个多学科交叉的研究领域,涉及包括自然语言处理、计算语言学、信息检索、机器学习、人工智能等多个领域。文献[1—3]对文本情感分析的目的、主要任务以及主流技术做j’简要的介绍,但主要是介绍针对英文的文本情感分析,对中文文本情感分析并没有重点介绍。本文主要介绍针对中文文本情感分析的主流方法与研究进展。
收稿日期:201l—05—04;修回日期:201l—07一Cr7。
基金项目:江西省教育厅青年科学基金资助项目(GJJlll78)。
作者简介:魏辚(1983一).男,江两古安人,讲师.博士研究牛.主要研究方向:文本情感分析、数据挖掘;向阳(1962一),男,霞庆人,教授。博士生导师,主要研究方向:决策支持系统、人工智能;陈千(1983一),男,湖北蕲春人,博士,主要研究方向:数据挖掘、主题检测。
万方数据
3322
计算机应用
第3l卷
HowNet语义相似度的方法比基于语义相关场的方法准确率更高,词频加权后的判别准确率可达80%以上。李纯等人¨J利用HowNet中的对词语的定义与描述,建立褒贬倾向比较强烈的词语组成词,并结合上下文的影响,采用一种计算方法来计算普通词与词之间的语义相似度来判别普通词的褒贬极性。杜伟夫等人哺1提出了一个可扩展的词语语义情感极性计算框架,将词语语义情感极性计算问题转化为优化问题。通过基于HowNet提供的语义相似度和基于共现率的语义相似度构建词语的无向网,利用以最小切分为目标的目标函数对无向图进行划分,使用模拟退火算法求解目标函数。实验表明该方法有较高的准确率和较好的扩展性。柳位平等人po挑选常用的情感词构成一个基础情感词语集,并采用词语相似度方法计算出每个词的情感倾向权值,提出的情感词权值计算方法不要求词数量相等。1.2语句的情感分析
叶强等人¨驯在N.POS语言模型的基础上利用卡方(CHI.square)统计方法提取中文主观文本词类组合模式,建立中文双词主观情感词类组合模式2-POS模型来自动地判断中文语句的主观性程度。实验表明采用2-POS模型的分类器对主观句的查准率和查全率接近日前英文同类研究的结果。姚天防等人¨1J利用领域本体来抽取主观句的主题以及它的属性,然后在句法分析的摹础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的情感极性。实验结果显示,与手工标注的语料进行比较,用于识别主题和主题极性的改进后的主谓结构极性传递算法的,度量的性能有所提高。
熊德兰等人¨21提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法利用夹角余弦法对语义倾向进行了改进。党蕾等人¨3j提出采用否定模式匹配与依存句法分析相结合的方法。该方法分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算中文语句的情感倾向,并且在否定模式匹配后改进语句极性算法。实验结果表明该方法取得了良好的效果。中文微博情感分析研究综述
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-35801-2.html
很遗憾