
l Google产品搜索可以识别用户对产品各种属性的评价,并从这些评价中选择一个具有代表性的评价,以显示给用户:
lBing Shopping可以识别用户对产品各种属性的评价:
lpTwitter情绪与盖洛普民意调查: 消费者信心的挖掘: 在Twitter上挖掘用户情绪(中文: 微博),这与传统调查,民意测验和其他方法的结果高度一致(例如,以消费者信心和政治选举为例) ,相关系数达到80%),请参见该文章以了解详细信息: 布伦丹·奥康纳,拉姆纳特·巴拉苏布拉曼扬,布莱恩·鲁特里奇和诺亚·史密斯. 2010. 从推文到民意调查: 将文本情感与舆论时间序列链接. 在ICWSM-2010中. (注: 从2008年到2009年初,互联网用户的情绪低落是由金融危机引起的,自2009年5月以来逐渐恢复. )
lTwitter情绪: 通过Twitter用户情绪预测库存趋势. 2012年5月,全球首家基于社交媒体的对冲基金Derwent Capital Markets在反复反弹后终于上线. 它立即跟随公众情绪引导下的Twitter投资. 正如该基金的创始人保罗·豪顿(Paul Hawtin)所说: “长期以来,投资者已经广泛认识到金融市场是由恐惧和贪婪驱动的,但我们从来没有一种能够量化人们情感的技术或数据. ”最终,投资者对金融市场的不合理行为感到困惑,他们终于有了一个了解精神世界的窗口. 也就是说,Twitter每天都在飙升推文. 8月的一份报告显示,使用Twitter对冲基金Derwent Capital Markets的第一个月就已经盈利了. 交易,使其他对冲基金的平均收益率为1.76%,相差0.76%. 类似的工作还涉及预测电影的票房和选举结果. 他们将公众情绪与社交事件进行比较,找到一致性,并将其用于预测. 例如,将“ Calm CLAM”的情感指数回移3天和道琼斯工业平均指数DIJA实在令人惊讶. 一致. 有关详细信息,请参阅以下文章: Johan Bollen,毛惠娜,曾晓军. 2011.计算科学学报2: 1、1-8. (注意: DIJA,全名道琼斯工业平均指数)
Twitter上的目标情绪(Twitter情绪应用程序): 对Twitter中包含给定查询的tweet进行情感分类. 为了使公司了解用户对公司和产品的偏好,并使用它来指导产品和服务的改进,公司还可以基于此发现竞争对手的优缺点. 用户还可以根据网民甚至亲戚朋友的评价来决定是否购买特定产品. 有关详细信息,请参见以下文章: Alec Go,Richia Bhayani,Lei Huang. 2009年. 使用远距离监督进行Twitter情感分类.
情感分析的意义是什么?下面以实际应用为例进行直观说明:
•电影: 此评论是正面的还是负面的?
•产品: 人们对新款iPhone有何看法?
•公众舆论: 消费者信心如何?绝望在增加吗?
•政治: 人们对这个候选人或问题有何看法?
•预测: 根据市场情绪预测选举结果或市场趋势
情感分析的主要目的是确定用户对事物或人的态度和态度(态度: 持久,情感上有色彩的信念基于层次结构的多策略中文微博情感分析和特征抽取,对物体或人的性格). 主要参与者包括:

态度的持有者(来源): 态度的目标(方面): 评估对象态度的类型: 评估角度包含态度的文本: 评估文本,通常是一个句子或整个文档
更详细和深入的内容还包括评估属性,情感词/极地词,评估搭配等,
通常,我们面临的情感分析任务包括以下类别:
最简单的任务: 此文本的态度是正面还是负面?更复杂: 将文本的态度从1到5进行排名高级: 检测目标,来源或复杂的态度类型
以下章节将以“最简单”任务为例.
2)基线算法
本节以电影评论的情感分析为例,向您展示一个简单实用的情感分析系统. 有关详细信息,请参见以下文章: Bo Pang,Lillian Lee和Shivakumar Vaithyanathan. 2002.竖起大拇指?使用机器学习技术进行情感分类. EMNLP-2002,第79-86页.
庞邦和莉莲·李. 2004.A感性教育: 使用基于最小切分的主观性总结进行情感分析. ACL,271-278
我们面临的任务是“极性检测: IMDBmovie审查是正面还是负面?”,数据集是“ Polrity Data 2.0 :;”. 作者将情感分析视为分类任务,并将其分为以下子任务:
标记化: 文本提取,过滤时间,电话号码等,保留以大写字母开头的字符串,保留表情符号和切词;特征提取: 从直觉上讲,我们认为形容词直接决定文本的情感,Pang和Lee实验表明,将所有单词(字母组合)用作特征可以实现更好的情感分类.
其中,否定句子需要特殊对待,例如句子“ Ididn't like this movie”对“我真的很喜欢这部电影”. Unigram只有一个字,但它的含义完全不同. 为了有效处理这种情况,Das和Chen(2001)提出“在否定和随后的标点之间的每个单词中添加NOT_”. 根据此规则,句子“不喜欢这部电影,但我”可以转换为“不喜欢NOT_like NOT_this NOT_movie,但我”.
此外,在提取特征时,我直观地感觉到“单词出现可能比单词频率更重要”. 这是因为最相关的情感词在某些文本片段中仅出现一次,并且词频模型的作用有限,甚至是负面影响,使用多重伯努利模型事件空间代替多项式事件空间,并且实验确实证明了这个. 因此基于层次结构的多策略中文微博情感分析和特征抽取,本文最终选择了二进制特征,即单词的存在或不存在,而不是传统的频率特征. log(freq(w))也是一种值得尝试减少频率干扰的方法.
使用不同的分类器进行分类: 例如朴素贝叶斯,MaxEnt和SVM. 以朴素贝叶斯分类器为例. 培训过程如下:
预测过程如下:
实验表明,MaxEnt和SVM可以获得比朴素贝叶斯更好的结果.
最后,通过案例审查,您可以总结出电影评论中情感分类的难点是什么?
3)情感词汇表
情感分析模型非常依赖于情感词典提取功能或规则. 以下是流行和成熟的开放情感词典资源的列表:

有关详细信息,请参见论文: Philip J. Stone,Dexter C Dunphy,Marshall S. Smith和Daniel M. Ogilvie. 1966年. 一般询问者: 一种用于内容分析的计算机方法. 麻省理工学院出版社
有关详细信息,请参见该论文: Pennebaker,J.W.,Booth,R.J.和Francis,M.E.(2007). 语言查询和字数统计: LIWC2007. 德克萨斯州奥斯汀
有关详细信息,请参见本文: Theresa Wilson,Janyce Wiebe和Paul Hoffmann(2005). 在短语水平情感分析中识别上下文极性. 程序HLT-EMNLP-2005的版本.
Riloff and Wiebe(2003). 学习主观表达的提取模式. EMNLP-2003.
有关详细信息,请参见该文件: Stefano Baccianella,Andrea Esuli和Fabrizio Sebastiani. 2010SENTIWORDNET 3.0: 用于情感分析和观点挖掘的增强词汇资源. LREC-2010
以上是可用的情感词典资源的列表,但是如何选择合适的资源呢?这里,通过比较不同字典中相同条目的分类,可以测量出字典资源的不一致程度,如下所示:
对于在不同词典中出现不一致的术语,我们至少可以做两件事. 首先,查看这些条目并通过少量的手动操作对其进行更正. 其次,您可以获得一些含混不清的条目.
一个词,您如何确定它出现在某种情感文本中的可能性?以IMDB为例,最简单的方法是计算与每个分数(星数)相对应的文本中条目的出现频率. 下图显示了Count(“坏”)的分布: <
使用更多可能性公式:
为了使不同类别中不同术语的概率具有可比性,通常改用Scaled可能性公式,如下所示:
如下图所示,列出了不同类别中某些术语的缩放可能性. 基于此,可以判断每个术语的趋势.

此外,我们通常有一个问题: 否定的情绪文字中是否更有可能出现否定的词语(例如,不是,不是,不,从不)? Potts,Christopher(2011)等通过实验给出了答案: 负面情绪中的更多否定,如下图所示:
4)学习情绪词汇
尽管我们很感激并赞扬我使用的许多公共情感词典,但我们不禁要了解构建情感词典的方法. 一方面,在面对新的情感分析问题和解决新的情感分析任务时,不可避免地要根据实际需要建立或改进情感词典. 许多方法是相互关联的.
共同情感词典的构建方法基于半引导自举学习方法,主要包括两个步骤:
使用少量信息(),一些带有标签的示例,一些手工构建的模式来引导词典
接下来,通过几篇相关论文,详细阐述构建情感词典的方法. 详细信息如下:
1. Hatzivassiloglou和McKeown: 有关本文,请参见Vasileios Hatzivassiloglou和Kathleen R. McKeown. 1997.预测形容词的语义取向. ACL,174-181,基于这样的语言现象: “由'和'组合而成的形容词具有相同的极性;带有“但是”的形容词不是“”,如以下示例所示:
Hatzivassiloglou&McKeown(1997)提出了一种基于引导的学习方法,主要包括四个步骤:
初始集包括657个肯定词(例如足够的中央聪明而著名的有名的灵敏苗条……)和679个否定词(例如具有传染性的醉酒无知瘦弱,无精打采的原始刺耳的麻烦,难以解决,毫无疑虑的……)
最后,将输出一个新的情感词典,如下所示(粗体条目是自动挖掘的条目):
2. Turney算法: 有关本文,请参见Turney(2002): 竖起大拇指还是竖起大拇指?语义定向应用于评论的无监督分类,具体步骤如下:
两个术语的PMI公式为:
计算PMI(word1,word2)的常用方法是使用“ word1”,“ word2”和“ word1 NEAR word2”作为查询,然后根据以下公式获得P(word)和P(word1,word2)搜索引擎的搜索结果. ,如下:

P(单词)=点击次数(单词)/ N
P(word1,word2)=匹配(word1 NEAR word2)/ N2
有:
然后,用于计算短语极性的公式为(优劣也可以用其他已知的极性词代替):
在410条评论(来自Epinions)数据集上的Turney算法(其中170条(41%)否定,240条(59%)肯定)达到74%的准确性(基线为59%,均标记为肯定).
3. 使用WordNet学习极性: 有关论文,请参阅SM Kim和E. Hovy. 2004. 确定意见的情感. 2004年COLING,M. Hu和Liu B. Liu. 挖掘和总结客户评论. 在KDD中,2004年. 方法步骤如下:
正词集: 添加肯定词的同义词(“好”)和否定词的反义词
否定集: 添加否定词的同义词(“可怕”)和肯定词的反义词(“邪恶”)
以上方法具有更好的域适应性和鲁棒性. 基本思想可以概括为“使用和半监督学习来诱导词典”,即:
5)其他情感任务
上面介绍了文档级或句子级的情感分析. 但是,实际上,文档(注释)经常提及不同的方面/属性/对象(以下统称为属性),并且可以具有不同的属性. 有不同的趋势,例如“ Thefoodsgreatbuttheservicewasawful”. 评估属性通常通过常用短语+规则来提取,如下所示:
通常,我们仍然面临一个问题: 缺少评估属性. 准确地说,评估属性不在句子中. 这是非常普遍的现象. 此时,上下文需要合并. 例如,电影评论缺少的评估属性基本上是电影名称或演员. 您可以基于具有已知评估属性的句子训练分类器,然后缺少评估属性. 用于属性预测的句子.
Blair-Goldensohn等. 提出了一套基于方面的通用汇总模型,如下所示:
有关详细信息,请参见该文件: S. Blair-Goldensohn,K. Hannan,R. McDonald,T. Neylon,G. Reis和J. Reynar. 2008. 构建用于本地服务审核的情感摘要. 万维网研讨会
此外,与情感分析有关的其他一些任务是:
情绪: 人际关系: 个人特征: 人格
; shareId = 400000000398149(博客首页视频教学主页)
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-162294-1.html
武器在强大