首页 > 操作系统 >

中文微博情感分析研究综述_微博情感博主名字_微博情感分析工具(4)

电脑杂谈　发布时间：2017-03-04 23:59:42　来源：网络整理

详细见论文：Theresa Wilson, Janyce Wiebe, and Paul Hoffmann (2005).Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis. Proc. of HLT-EMNLP-2005.

Riloff and Wiebe (2003).Learning extraction patterns for subjective expressions. EMNLP-2003.

Bing LiuOpinion Lexicon：其中包含Positive words: 2006，Negative words: 4783，需要特别说明的是，词典不但包含正常的用词，还包含了拼写错误、语法变形，俚语以及社交媒体标记等，详细见论文：Minqing Hu and Bing Liu.Mining and Summarizing Customer Reviews. ACM SIGKDD-2004.

SentiWordNet：其通过对WordNet中的词条进行情感分类，并标注出每个词条属于positive和negative类别的权重大小，组织结构如下：

详细见论文：Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. 2010SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. LREC-2010

以上给出了一系列可用的情感词典资源，但是，如何选择一个合适的为我所用呢？这里，通过对比同一词条在不同词典之间的分类，衡量词典资源的不一致程度，如下：

对于在不同词典中表现不一致的词条，我们至少可以做两件事情。第一，review这些词条，通过少量人工加以纠正；第二，可以得到一些存在褒贬歧义的词条。

给定一个词，如何确定其以多大概率出现在某种情感类别文本中呢？以IMDB下不同打分下影评为例，最简单的方法就是计算每个分数（星的个数）对应的文本中词条出现的频率，如下图所示为Count(“bad”)分布情况：

使用更多的是likelihood公式：

为了使得不同词条在不同类别下的概率可比，通常使用Scaled likelihood公式代替，如下：

如下图所示，列出了部分词条在不同类别下的Scaled likelihood，据此可以判断每个词条的倾向性。

另外，我们通常会有这么一个疑问：否定词（如not, n’t, no, never）是否更容易出现在negative情感文本中？Potts, Christopher（2011）等通过实验给出了答案：More negation in negative sentiment，如下图所示：

4）Learning Sentiment Lexicons

我们在庆幸和赞扬众多公开情感词典为我所用的同时，我们不免还想了解构建情感词典的方法，正所谓知其然知其所以然。一方面在面临新的情感分析问题，解决新的情感分析任务时，难免会需要结合实际需求构建或完善情感词典，另一方面，可以将成熟的词典构建方法应用于其他领域，知识无边界，许多方法都是相通的。

常见的情感词典构建方法是基于半指导的bootstrapping学习方法，主要包括两步：

Use a small amount of information（Seed）

A few labeled examples