b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

中文微博情感分析研究综述_微博情感博主名字_微博情感分析工具(3)

电脑杂谈  发布时间:2017-03-04 23:59:42  来源:网络整理

另外,在抽取特征时,直观的感觉“Word occurrence may matter more than word frequency”,这是因为最相关的情感词在一些文本片段中仅仅出现一次,词频模型起得作用有限,甚至是负作用,则使用多重伯努利模型事件空间代替多项式事件空间,实验也的确证明了这一点。所以,论文最终选择二特征,即词的出现与否,代替传统的频率特征。log(freq(w))也是一种得尝试的降低频率干扰的方法。

Classification using different classifiers:如Naïve Bayes、MaxEnt、SVM,以朴素贝叶斯分类器为例,训练过程如下:

预测过程如下:

实验表明,MaxEnt和SVM相比Naïve Bayes可以得到更好的效果。

最后,通过case review可以总结下,影评情感分类的难点是什么?

语言表达的含蓄微妙:“If you are reading this because it is your darling fragrance, please wear it at home exclusively, and tape the windows shut.”,“ She runs the gamut of emotions from A to B”。

挫败感表达方式:先描述开始的期待(不吝赞美之词),后表达最后失望感受,如“This film should bebrilliant. It sounds like agreatplot, the actors arefirst grade, and the supporting cast isgoodas well, and Stallone is attempting to deliver agood performance. However, itcan’t hold up.”,“Well as usual Keanu Reeves is nothing special, but surprisingly, theverytalentedLaurence Fishbourne isnot so goodeither, I was surprised.”。

3)Sentiment Lexicons

情感分析模型非常依赖于情感词典抽取特征或规则,以下罗列了较为流行且成熟的开放情感词典资源:

GI(The General Inquirer):该词典给出了每个词条非常全面的信息,如词性,反义词,褒贬,等,组织结构如下:

详细见论文:Philip J. Stone, Dexter C Dunphy, Marshall S. Smith, Daniel M. Ogilvie. 1966.The General Inquirer: A Computer Approach to Content Analysis. MIT Press

LIWC (Linguistic Inquiry and Word Count):该词典通过大量正则表达式描述不同类别的情感词规律,其类别体系与GI(The General Inquirer)基本一致,组织结构如下:

详细见论文:Pennebaker, J.W., Booth, R.J., & Francis, M.E. (2007). Linguistic Inquiry and Word Count: LIWC 2007. Austin, TX

MPQA Subjectivity Cues Lexicon:其中包含Positive words: 2718,Negative words: 4912,组织结构如下图所示:


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-35803-3.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    热点图片
    拼命载入中...