Mutual
Information,PMI)算法和名词剪枝算法对候选评价对象进行
筛选,再通过分析主观句句型归纳相应的分析规则,使用无指
导的方法完成评价对象在主观句中的情感倾向性判断。1.3篇章的情感分析
篇章级的情感分析是指将文本从整体上区分为褒义、贬义或中性。谭松波等人¨引使用中文分词及词性标注工具
万方数据
ICTCLAS解析并标注中文文本,分别采用文本频率、CHI统计量、互信息、信息增益四种特征选择方法,以中心向量法、x近邻、Winnow、朴素贝叶斯和支持向鼍机作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下进行了实验,并对实验结果进行了比较。对比结果表明:采用文档频率特征表示方法优于其他特征选择方法和支持向量机分类方法优于其他分类方法。在足够大训练集和选择适当数量特征的情况下,文本的情感倾向分类能取得较好的效果。但是文本的主题不同对分类的结果有影响。孟凡博等人Ⅲo设计并实现了一个基于关键词模板的文本褒贬倾向判定系统。该系统定义了关键词类别、建立了关键词库、关键词模板库,并设计了模板匹配算法和文本褒贬倾向值算法,对测试文本进行关键词及模板匹配进而判断测试文本的褒贬倾向。李寿山等人¨8’具体研究四种不同的分类方法在中文情感分类上的应用,并且采用一种基于Stacking的组合分类方法,用以组合不同的分类方法。实验结果表明该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。不同类型的中文文本情感分析
文本情感分析的一个重要应用领域是对互联网上出现的
隐含表达了。
2
2.1
上有关四位人物褒贬性的汉语新闻报道进行了分类研究。在研究中,首先通过标记语料库获得文本中的极性元素
(Polar
第12期魏榉等:中文文本情感分析综述
3323
中文文本情感分析评测及资源
随着中文文本的情感分析得到了越来越多的学者和研究
机构的关注,为了推动中文情感分析技术的发展,国内第一个情感分析方面的评测(Chinese
OpinionAnalysisEvaluation,
COAE)m1于2008年举办第一届。COAE目的在于推动中文情感分析理论和技术的研究和应用,同时建立相关的分析语料库。COAE共设置6个任务,可分为3个方面:一是中文评价词语的识别和分析,属于词语级的情感分析评测;二是中文文本倾向性相关要素的抽取,主要是抽取句子中的评价对象,以及对于其观点的倾向性判别,属于语句级的情感分析评测;三是中文文本主客观性及倾向性的判别,属于篇章级的情感分析评测。中文微博情感分析研究综述
中文的评价词词典资源有NTu评价词词典(繁体中文)和HowNet评价词词典。N1'U评价词词典由大学收集,含有2812个褒义词与8276个贬义词。HowNet评价词词典包含9193个中文评价词语/短语,9142个英文评价词语或短语,并被分为褒贬两类。而且该词典提供了评价短语,为情感分析提供了更丰富的情感资源。结语
文本的情感分析与传统的文本分类有着特殊的挑战,主
要体现在自然语言表达的丰富多变使得要计算机自动理解其中蕴含的情感语义比较困难。而中文比英文在语言结构以及句式类型更加复杂,导致针对英文文本情感分析的一些方法在对中文文本情感分析的应用并没有取得理想的结果。文本情感分析作为文本挖掘的一个新的研究方向还有很多值得深入研究的课题,尤其是中文文本情感分析近几年才开始吸引研究者的注意。未来需要深入研究的问题有以下一些:1)对于词语的情感倾向判别不应该局限在形容词,一些名词和动词也具有情感倾向,而且应该结合具体的语境和领域来判别词语的情感倾向;2)针对语句和篇章的情感分析还比较粗粒度,应该更精确地更细粒度地对某一个具体的评价对象进行分析来满足用户的需求;3)需要在自然语言处理等相关领域取得新的突破,开发新的技术和方法来更好地进行文本情感分析。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-35801-3.html
幸好昨天买了一包