的情感倾向。又如“所以我都不喝蒙牛,一直不喜欢
蒙牛。”,文本中的“不喜欢”表达了负面情绪。在对上述文本的倾向性进行识别时,若能提取与情感表达相关的序列片段,将有助于准确地判断文本的情感极性。基于上述对文本情感表达序列规则的观察,本文提出了利用词典资源构建词向量的方法。不同于word2vec等实数向量的表示方式,本文利用词语本身具有的属性特征来构建词向量。
本文采用表1所示的词语特征。
本文把每一个词语映射到一个k维0,1向量空间,即z
E
R‘,其中k代表词语本身具有的特征个
万方数据
表1情感分类采用的词语特征
特征名称
值是否是正面情感词(0/1)是否是负面情感词(0/1)是否是否定词(o/1)
是否是程度副词(O/1)
是否是名词(0/1)是否是动词
(0/1)是否是形容词
(o/1)是否是副词(0/1)是否是标点符号
(0/1)
数,每一维度的数值用0或1表示,0表示不具有该特征,1表示具有该特征。对于给定的句子,它包含孢个词z。,1≤i≤咒,构成一个咒×k的特征矩阵。本文将句子中第i个词到第J个词组成的短语片段记为XEi,j]。同理,包含rt个词的句子记做Xh。]。3.2基于词向量的卷积神经网络模型
卷积神经网络是一种前馈神经网络,由卷积层和下采样层叠加组合而成。每一层的输出是下一层的输人。卷积层作为特征提取层,通过滤波器提取局部特征,经过卷积核函数运算产生特征图,输出到下采样层。下采样层属于特征映射层,对卷积层产生的特征图进行采样,输出局部最优特征。本文在Kim[5]的卷积神经网络模型的基础上,引入了本文提出的基于词典资源的词向量表示方法。图1为本
文采用的卷积神经网络模型。
本文利用大小为h×k的滤波器对输入特征矩阵进行卷积操作,即:
Ci—f(w?Xi:H一^一1+6)
(1)
其中,ci代表特征图中第i个特征值,.厂(?)为卷积核函数,硼E酞胜为滤波器,h为滑动窗口大小,6为偏置值。X。:汁¨表示由第i行到第i+^一1行组成的局部特征矩阵。因此,特征图C为:
C—Ecl,c2,C3,…C,^+1]
(2)
下采样层采用Gollobert[183提出的max-over—time
pooling方法进行特征采样,得到的特征值为;:
;一撇z{C)
(3)
卷积层和下采样层组成WFCNN模型的特征提取层,WFCNN由多个不同类型的特征提取层(^取不同的值)并列组成,其中每种类型的特征提取层
6期
陈钊等:结合卷积神经网络和词语情感序列特征的中文情感分析
175
孺辚酚:IIII
、
■■■■一●■■■:?。7,,,,夕。/一■■■●
,一7,//■■■■■■■■■、≮7、:÷、7///■■■■●■<、\、、、、一
一/’7■■■■■■■■夕叠/7:
■■■一0,『/|,一一一一暑\、÷琏j菱J云
一——=//
/_//
习≯
=
=
、一
,●
■
震z≮鬟mmmII£i薏窖协
●■/)≮、一、、、、、二————■
煺一\\≤心‰≤≥一t|/一一二星\\l\\、、■■■■■\。、、、:二,/?昌
、、、\、、<、、l
,/?
、\、?、、■l/’
\■,7
?/
各m个,因此全连接层的特征向量V为:个词语进行抽象,选择离散特征来表示其可能的情感极性以及其他可能对情感极性造成反转或增强的
V一[三1,^,,…,;。,^,…,01.^;,…,三f,^,,…](4)其中0M.为第J种类型的滤波器产生的第1个
特征值。期望通过这样的网络结构,可以在本文提出的基于词语特征表示的基础上,进一步提取出与正负面情感标签相关的词语序列特征用于最终的情感分类。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-34703-4.html
国际法