
2016软件2016,Vol. 37,第5卷,第37卷,第5期计算机工程与软件国际IT媒体品牌基金项目: 湖北省教育厅科研项目(No. 2013455),楚天华中农业大学学院项目(No. 20132013,201303)作者简介: 刘艳梅(1981,讲师,硕士,研究方向: 计算机应用)深度学习技术下的中国微博情感分析与研究刘艳梅,武汉工程学院信息工程学院,武汉430205)摘要: 微博的情感分析主要在于发现用户对某些热点事件的看法和态度. 现有研究,例如SVM和CRF等传统算法,付出了昂贵的手动注释的代价. 在情感分析,深度学习等技术研究的基础上,提出了一种新的技术解决方案: 即通过网络爬虫技术对来自微博的部分数据进行爬取,并在对词材料进行预处理后作为输入. 卷积神经网络样本,并建等功能,以满足不同场景下用户的需求.

根据CNNIC对当前社交应用市场的分析,在综合社交领域,典型应用为微博,网民使用率为33.5%. 主要满足用户对兴趣信息的需求,是用户获取和共享“新闻热点”,“兴趣内容”,“知识”和“舆论指导”的重要平台. 同时,它在帮助用户扩展基于共同利益的社会关系方面也发挥了积极作用[1]. 情感分析,也称为观点挖掘,是指在交流信息以做出判断或评估时,分析说话者所隐含的情况,态度和观点[2,5]. 目前,情感分析的主要研究方法仍然是一些基于机器学习的传统算法中文微博情感分析技术研究,例如SVM,信息熵,CRF等. 这些方法有三种类型: 监督学习,非监督学习和半监督学习. 当前基于监督学习的大多数研究都取得了良好的效果. 但是,监督学习依赖大量的人工标记数据,并且由于对人类的不同主观理解,样品标签的标记难以建立,并且难以确保标记样品的质量. 相反,无监督学习不需要手动标记数据来训练模型,从而降低了标记成本[3,4]. 1深度学习简介深度学习的概念最早由G. E. Hinton等人提出. 多伦多大学于2006年提出. 它是指一种机器学习过程,其中包括通过基于样本数据的某种训练方法来包含多个级别的深度网络结构.

深度神经网络分为以下三类(如图1所示). 深度学习中有三个主要环节: 首先,系统是在无监督的情况下进行训练的,即,对大量未标记的样本进行逐层精炼,并且无需指导即可自动形成特征. 此过程类似于人们通过眼睛和耳朵等感觉系统接收图像和声音信息时,刘岩梅自动在大脑中形成: 在深度学习技术下对中国微博情感的分析和研究. @ vip.163.com印象不同类别的信息. 第二,调整. 该过程使用一些标记样本对特征进行分类,并根据分类结果进一步调整系统参数,以优化系统在区分不同类型信息方面的性能. 第三,测试,使用系统尚未看到的样本数据来测试系统的学习效果,例如正确的样本分类率,质量评估与主观评估之间的相关性等[3,6]. 图1深度神经网络的分类结构2深度学习下的微博文本的情感分析对于博客而言,整篇文章的情感倾向通常很明显,其中积极情绪表达赞美类别: 赞美,喜悦,赞美等;负面情绪贬义类别: 贬义,悲伤,嫉妒等. 本章中每个句子的情感倾向可能有所不同[4-9],因此本文提出的研究计划是在深层使用卷积神经网络(CNN). 学习避免显式特征提取和隐式从训练数据中学习.

2.1卷积神经网络训练卷积神经网络是一个多层神经网络,每一层都是一个变换(映射),常用的卷积约定变换和池化变换,每种变换都是在输入上进行的一种数据处理是另一种输入要素的要素表达; CNN网络结构主要由三部分组成: 输入层,隐藏层和输出层. 隐藏层主要分为两类: (1)用于特征提取的卷积层; (2)下采样层,用于特征优化选择. 图2显示了用于训练样本卷积的卷积神经网络的工作流程. 2.2建立分类器在卷积过程之后的模型中,首先使用章节作为训练数据,基于SVM学习章节情感分类器,然后分别学习基于SVM和RNN的两个句子情感分类器. 对于博客中的每个句子,当三个的分类结果一致时,将其确定为情感关键句子,如图3所示. (1)基于SVM的情感分类SVM是有监督的小样本机器学习算法. 所有情感特征都分为两类: 章级特征和句子级特征. 在句子级功能中,使用0、1指示功能是否出现. 在章级要素中,使用要素出现的频率. 训练微博样本预处理样本的随机选择初始化卷积采样卷积采样...反向传播可调整网络权重是否已达到训练时间的终点或小于有限误差模型YNNY图2卷积过程一章(微博)训练样本词句子预处理可提取情感特征,例如情感词,单句提取,句子模式,位置和其他章节特征. 卷积神经网络的训练. 建立分类器以使用SVM对章节进行分类. 使用RNN对章节进行分类. 使用SVM对单个句子进行分类. 图3情感关键句分析过程(2)基于RNN的情感分析递归神经网络(RNN)是最近在深度学习中流行的学习方法. 输入层可以由单词向量和隐藏层表示. 其中的通信信息更加丰富.

传统的机器学习方法通常基于n-gram,并输入与词汇相关的信息作为特征,而RNN使用具有丰富词汇语义和上下文位置关系的向量作为文本特征,然后通过softmax层传递给达到分类的目的. 2.3测试由于在中国没有通用的“微博”数据集,本文通过爬虫程序从“新浪微博”中获取了部分数据. 在对单词材料进行预处理之后,将其用作卷积神经网络的输入样本,第37卷第5期软件24《软件》杂志欢迎推荐的材料: cosoft@vip.163.com并基于SVM / RNN构建分类器. 最后,判断给定测试集(微博句子集中)中每个句子的情感倾向(推荐类别: 赞美,欢乐等;负面情绪代表贬义类别: 贬义,悲伤等). 3实验结果与分析3.1实验数据新浪微博API用于获取有关流行电视剧《假装者》的微博评论. 取消重选后,大约有1000条微博评论被选为语料库,其中积极情感微博数量为526条,负面情感微博200条,中性情感微博274条. 语料库统计数据如表1所示. 3.2实验结果本文将准确率和查全率作为评价指标.
让Mrighti为类别Ci中的微博文本的正确数量,而Mwroingi为其他类别中被错误分类为Ci的微博文本的数量. Malli是类别Ci中实际包含的微博文字的数量. Ci类别的正确率是: rightiirighti misiPrecision 100%M +M(1)Ci类别的召回率是: rightiialliMreacll 100%M(2)为了验证本文方法的有效性,设计了两组实验,分别采用情感词典法和本文提出的方法对中文微博文本的情感进行分析. 实验结果如图4所示. 4结束语随着微博的不断普及,情感分析领域的研究已成为当前关注的热点. 本文简要介绍了相关研究领域,并提出了一套可行的研究方案. 实践证明,该技术方案对于提高微博情感分析的准确性是可行的. 然而,基于情感分析的深度学习方法的研究仍然存在许多问题. 下一步工作将是深入研究,以找到更合适的深度学习算法进行情感分析. 表1语料库训练语料库测试语料库受试者的统计总结果掩盖的阳性总数阴性总数阳性总数阴性总数326 152 100 578 200 122 100 422 1000图4比较实验结果-准确率,查全率参考文献[1] CNNIC. 中国互联网发展状况统计报告[R]. 北京: 中国互联网络信息中心,2016. 1: 57. [2]周生臣,屈文婷,石英,等. 中国微博情感分析研究述评[J]. 计算机应用与软件,2013(3): 161-164. [3]唐慧峰,谭松波,程学奇. 基于监督学习的中国情感分类技术比较研究[J]. 中文信息学报,2007,6(2): 88-94. [4]张冬梅. 文本情感分类与观点汇总研究[D]. 济南: 山东大学. 2012: 6. [5]刘斌. 微博分析研究综述[J]. 河北科技大学学报,2015(36): 100-108. [6]梁军,柴玉梅,袁慧斌,等. 基于深度学习的微博情感分析[J]. 中文信息学报中文微博情感分析技术研究,2014(28): 155-161. [7]王飞. 基于微博的情感新词发现研究[J]. 软件,2015(11): 6-8. [8]张振华,刘瑞芳. 微博社交网络中面向机构的用户挖掘[J]. 软件,2013,34(1): 121-124. [9]卢同强. 基于半监督学习的微博谣言检测方法[J]. 软件,2014,35(9): 104-108.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-221374-1.html
还真想下去吗
一直被模仿从未被超越
小白脸等等