深度学习技术下的中文微博情感的分析与研究
2016-08-30刘艳梅
摘要:微博情感分析主要在于发现用户对某种热点事件的观点和态度,已有的研究,诸如SVM、CRF等传统算法,付出了昂贵的手工标注的代价。本文在研究情感分析、深度学习等技术的基础上,提出了一种新的技术方案:即通过网络爬虫技术从微博上抓取部分数据,经过词料预处理后,作为卷积神经网络的输入样本,并基于SVM/RNN构建分类器。最后在给定的测试集中判断每个句子的情感倾向性,实验结果良好。
关键词:微博情感分析;深度学习;卷积神经网络;分类器
中图分类号:TPl81 文献标识码:A DOI:10.3969/j.issn.1003 6970.2016.05.006
本文著录格式:刘艳梅.深度学习技术下的中文微博情感的分析与研究[J].软件,2016,37(5):22-24
0.引言
随着移动互联网的发展,社交应用也进入到新的阶段,借助LBS、兴趣、通讯录等功能,以解决用户沟通、分享、服务、娱乐等为立足点,满足用户不同场景下需求。根据CNNIC对当前社交应用市场的分析,在综合社交领域,典型应用一微博,网民使用率33.5%。主要满足用户对兴趣信息的需求,是用户获取和分享“新闻热点”、“兴趣内容”、“专业知识”、“舆论导向”的重要平台。同时,在帮助用户基于共同兴趣拓展社交关系方面也起到了积极的作用。
情感分析,也称为观点挖掘,指的是分析说话者在传达信息时所隐含的情况状态、态度、意见进行判断或者评估。目前,情感分析的主要研究方法还是一些基于机器学习的传统算法,例如,SVM、信息熵、CRF等。这些方法归纳起来有3类:有监督学习、无监督学习和半监督学习。而当前大多数基于有监督学习的研究取得了不错的成绩。但有监督学习依赖于大量人工标注的数据,而且由于人的主观理解不同,样本标注的标注很难确立,也很难保证标注样本的质量。相反的,无监督学习不需要人工标注数据训练模型,降低标注的代价。
1.深度学习简介
深度学习的概念最早由多伦多大学的G E.Hinton等人于2006年提出,指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程。深度神经网络分为以下3类(如图l所示)。
深度学习有三个主要环节:第一,用无监督方式训练系统,即用大量未标注样本逐层提炼,无导向自动形成特征。这一过程类似于人通过眼、耳等感官系统接收图像、声音信息后,自动在脑中形成不同类别信息印象。第二,调准。这一过程用一些己标注样本对特征分类,并根据分类结果进一步调整系统参数,优化系统在区分不同类别信息上的性能。第三,测试,用系统未见识过的样本数据检验系统学习效果,例如样本正确分类率、质量评估与主观评估关联度等。