首页 > 操作系统 >

自然语言11_情感分析

电脑杂谈　发布时间：2020-04-03 09:15:53　来源：网络整理

基于层次结构的多策略中文微博情感分析和特征抽取_中文微博情感分析技术研究_基于微博的热点事件挖掘与情感分析

l Google产品搜索可以识别用户对产品各种属性的评价，并从这些评价中选择一个具有代表性的评价，以显示给用户:

lBing Shopping可以识别用户对产品各种属性的评价:

lpTwitter情绪与盖洛普民意调查: 消费者信心的挖掘: 在Twitter上挖掘用户情绪（中文: 微博），这与传统调查，民意测验和其他方法的结果高度一致（例如，以消费者信心和政治选举为例），相关系数达到80％），请参见该文章以了解详细信息: 布伦丹·奥康纳，拉姆纳特·巴拉苏布拉曼扬，布莱恩·鲁特里奇和诺亚·史密斯. 2010. 从推文到民意调查: 将文本情感与舆论时间序列链接. 在ICWSM-2010中. （注: 从2008年到2009年初，互联网用户的情绪低落是由金融危机引起的，自2009年5月以来逐渐恢复. ）

lTwitter情绪: 通过Twitter用户情绪预测库存趋势. 2012年5月，全球首家基于社交媒体的对冲基金Derwent Capital Markets在反复反弹后终于上线. 它立即跟随公众情绪引导下的Twitter投资. 正如该基金的创始人保罗·豪顿（Paul Hawtin）所说: “长期以来，投资者已经广泛认识到金融市场是由恐惧和贪婪驱动的，但我们从来没有一种能够量化人们情感的技术或数据. ”最终，投资者对金融市场的不合理行为感到困惑，他们终于有了一个了解精神世界的窗口. 也就是说，Twitter每天都在飙升推文. 8月的一份报告显示，使用Twitter对冲基金Derwent Capital Markets的第一个月就已经盈利了. 交易，使其他对冲基金的平均收益率为1.76％，相差0.76％. 类似的工作还涉及预测电影的票房和选举结果. 他们将公众情绪与社交事件进行比较，找到一致性，并将其用于预测. 例如，将“ Calm CLAM”的情感指数回移3天和道琼斯工业平均指数DIJA实在令人惊讶. 一致. 有关详细信息，请参阅以下文章: Johan Bollen，毛惠娜，曾晓军. 2011.计算科学学报2: 1、1-8. （注意: DIJA，全名道琼斯工业平均指数）

Twitter上的目标情绪（Twitter情绪应用程序）: 对Twitter中包含给定查询的tweet进行情感分类. 为了使公司了解用户对公司和产品的偏好，并使用它来指导产品和服务的改进，公司还可以基于此发现竞争对手的优缺点. 用户还可以根据网民甚至亲戚朋友的评价来决定是否购买特定产品. 有关详细信息，请参见以下文章: Alec Go，Richia Bhayani，Lei Huang. 2009年. 使用远距离监督进行Twitter情感分类.

情感分析的意义是什么？下面以实际应用为例进行直观说明:

•电影: 此评论是正面的还是负面的？

•产品: 人们对新款iPhone有何看法？

•公众舆论: 消费者信心如何？绝望在增加吗？

•政治: 人们对这个候选人或问题有何看法？

•预测: 根据市场情绪预测选举结果或市场趋势

情感分析的主要目的是确定用户对事物或人的态度和态度（态度: 持久，情感上有色彩的信念基于层次结构的多策略中文微博情感分析和特征抽取，对物体或人的性格）. 主要参与者包括:

中文微博情感分析技术研究_基于层次结构的多策略中文微博情感分析和特征抽取_基于微博的热点事件挖掘与情感分析

态度的持有者（来源）: 态度的目标（方面）: 评估对象态度的类型: 评估角度包含态度的文本: 评估文本，通常是一个句子或整个文档

更详细和深入的内容还包括评估属性，情感词/极地词，评估搭配等，

通常，我们面临的情感分析任务包括以下类别:

最简单的任务: 此文本的态度是正面还是负面？更复杂: 将文本的态度从1到5进行排名高级: 检测目标，来源或复杂的态度类型

以下章节将以“最简单”任务为例.

2）基线算法

本节以电影评论的情感分析为例，向您展示一个简单实用的情感分析系统. 有关详细信息，请参见以下文章: Bo Pang，Lillian Lee和Shivakumar Vaithyanathan. 2002.竖起大拇指？使用机器学习技术进行情感分类. EMNLP-2002，第79-86页.

庞邦和莉莲·李. 2004.A感性教育: 使用基于最小切分的主观性总结进行情感分析. ACL，271-278

我们面临的任务是“极性检测: IMDBmovie审查是正面还是负面？”，数据集是“ Polrity Data 2.0 :;”. 作者将情感分析视为分类任务，并将其分为以下子任务:

标记化: 文本提取，过滤时间，电话号码等，保留以大写字母开头的字符串，保留表情符号和切词；特征提取: 从直觉上讲，我们认为形容词直接决定文本的情感，Pang和Lee实验表明，将所有单词（字母组合）用作特征可以实现更好的情感分类.

其中，否定句子需要特殊对待，例如句子“ Ididn't like this movie”对“我真的很喜欢这部电影”. Unigram只有一个字，但它的含义完全不同. 为了有效处理这种情况，Das和Chen（2001）提出“在否定和随后的标点之间的每个单词中添加NOT_”. 根据此规则，句子“不喜欢这部电影，但我”可以转换为“不喜欢NOT_like NOT_this NOT_movie，但我”.

此外，在提取特征时，我直观地感觉到“单词出现可能比单词频率更重要”. 这是因为最相关的情感词在某些文本片段中仅出现一次，并且词频模型的作用有限，甚至是负面影响，使用多重伯努利模型事件空间代替多项式事件空间，并且实验确实证明了这个. 因此基于层次结构的多策略中文微博情感分析和特征抽取，本文最终选择了二进制特征，即单词的存在或不存在，而不是传统的频率特征. log（freq（w））也是一种值得尝试减少频率干扰的方法.

使用不同的分类器进行分类: 例如朴素贝叶斯，MaxEnt和SVM. 以朴素贝叶斯分类器为例. 培训过程如下:

预测过程如下:

实验表明，MaxEnt和SVM可以获得比朴素贝叶斯更好的结果.

最后，通过案例审查，您可以总结出电影评论中情感分类的难点是什么？

3）情感词汇表

情感分析模型非常依赖于情感词典提取功能或规则. 以下是流行和成熟的开放情感词典资源的列表:

基于层次结构的多策略中文微博情感分析和特征抽取_中文微博情感分析技术研究_基于微博的热点事件挖掘与情感分析

有关详细信息，请参见论文: Philip J. Stone，Dexter C Dunphy，Marshall S. Smith和Daniel M. Ogilvie. 1966年. 一般询问者: 一种用于内容分析的计算机方法. 麻省理工学院出版社

有关详细信息，请参见该论文: Pennebaker，J.W.，Booth，R.J.和Francis，M.E.（2007）. 语言查询和字数统计: LIWC2007. 德克萨斯州奥斯汀

有关详细信息，请参见本文: Theresa Wilson，Janyce Wiebe和Paul Hoffmann（2005）. 在短语水平情感分析中识别上下文极性. 程序HLT-EMNLP-2005的版本.

Riloff and Wiebe（2003）. 学习主观表达的提取模式. EMNLP-2003.

有关详细信息，请参见该文件: Stefano Baccianella，Andrea Esuli和Fabrizio Sebastiani. 2010SENTIWORDNET 3.0: 用于情感分析和观点挖掘的增强词汇资源. LREC-2010

以上是可用的情感词典资源的列表，但是如何选择合适的资源呢？这里，通过比较不同字典中相同条目的分类，可以测量出字典资源的不一致程度，如下所示:

对于在不同词典中出现不一致的术语，我们至少可以做两件事. 首先，查看这些条目并通过少量的手动操作对其进行更正. 其次，您可以获得一些含混不清的条目.

一个词，您如何确定它出现在某种情感文本中的可能性？以IMDB为例，最简单的方法是计算与每个分数（星数）相对应的文本中条目的出现频率. 下图显示了Count（“坏”）的分布: <

使用更多可能性公式:

为了使不同类别中不同术语的概率具有可比性，通常改用Scaled可能性公式，如下所示:

如下图所示，列出了不同类别中某些术语的缩放可能性. 基于此，可以判断每个术语的趋势.

中文微博情感分析技术研究_基于微博的热点事件挖掘与情感分析_基于层次结构的多策略中文微博情感分析和特征抽取

此外，我们通常有一个问题: 否定的情绪文字中是否更有可能出现否定的词语（例如，不是，不是，不，从不）？ Potts，Christopher（2011）等通过实验给出了答案: 负面情绪中的更多否定，如下图所示:

4）学习情绪词汇

尽管我们很感激并赞扬我使用的许多公共情感词典，但我们不禁要了解构建情感词典的方法. 一方面，在面对新的情感分析问题和解决新的情感分析任务时，不可避免地要根据实际需要建立或改进情感词典. 许多方法是相互关联的.

共同情感词典的构建方法基于半引导自举学习方法，主要包括两个步骤:

使用少量信息（），一些带有标签的示例，一些手工构建的模式来引导词典

接下来，通过几篇相关论文，详细阐述构建情感词典的方法. 详细信息如下:

1. Hatzivassiloglou和McKeown: 有关本文，请参见Vasileios Hatzivassiloglou和Kathleen R. McKeown. 1997.预测形容词的语义取向. ACL，174-181，基于这样的语言现象: “由'和'组合而成的形容词具有相同的极性；带有“但是”的形容词不是“”，如以下示例所示:

Hatzivassiloglou＆McKeown（1997）提出了一种基于引导的学习方法，主要包括四个步骤:

初始集包括657个肯定词（例如足够的中央聪明而著名的有名的灵敏苗条……）和679个否定词（例如具有传染性的醉酒无知瘦弱，无精打采的原始刺耳的麻烦，难以解决，毫无疑虑的……）