基于深度学习框架的短文本情感分析方法研究
2019-05-14苏秀芝左国才张珏
苏秀芝 左国才 张珏
摘要:随着电子商务的迅猛发展,越来越多的人们喜欢在网上购买商品,商品评论数据也急剧增加,这些评论中含有用户对商品的情感倾向,海量的评论加重了人工管理。本文对商品评论内容进行情感分析,有效帮助商家了解消费者对商品的认可程度,从而提高商品与服务质量。本文通过对Word2vec计算文本词向量,最后应用Keras 下的 LSTM对商品评论文本进行情感分类,实验验证了该方法在互联网商品评论中的有效性和准确性,取得了较好的实验结果。
关键词:Word2vec;情感分析;深度学习
中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2019)02-0080-01
0 引言
随着互联网的飞速发展,越来越多的人热衷于在网上购买商品。为了切实提高顾客满意程度,电商提供客户对购买的商品进行评价的窗口。分析顾客评价的情感倾向,一方面可以为潜在消费者提供借鉴和参考,另一方面能帮助厂商和电家来不断完善商品、提高服务。
1 相关工作
1.1 情感分析
目前,主要的情感分析研究方法分两类。一类是基于情感词典,另一类是基于机器学习。
词典是文本情感分析的核心,通过构造情感词典、程度副词词典等来实现文本情感倾向分析。张成功[1]等提出构建全面、高效的极性词典进行文本情感倾向性分析。杨立月[2]等提出构建开源情感词典、网络情感词典、微博情感词典等。
基于机器学习的短文本情感分析方法是指选取情感词作为特征词,将文本向量化,利用logistic Regression,最大熵,朴素贝叶斯等方法进行文本情感分析。随着深度学习算法的广泛应用, 越来越多的研究者应用深度学习进行情感分析。金志刚等人[3]提出基于卷积神经网络的多维特征微博情感分析新机制,利用词向量计算文本的语义特征,结合基于表情字符的情感特征,利用卷积神经网络挖掘特征集合与情感标签间的深层次关联,训练情感分类器。
1.2 Word2vec
Word2vec是词向量计算的工具,采用的模型有CBOW和Skip-Gram两种。CBOW采用给定上下文信息来预测一个词的战术来训练神经网络,数学表示为:
P(Wt|Wt-k,Wt-k-1,...,Wt+k+1,Wt+k) (1)
Skip-grams采用给定一个词来预测上下文的战术来训练神经网络。数学表示为:
P(Wt-k,Wt-k-1,...,Wt+k+1,Wt+k|Wt) (2)
其中,Wt为语料词典中的一个词,k为窗口大小。
Skip-Gram语义准确率比CBOW模型高,Skip-Gram模型计算复杂度高,模型训练耗时较长。
2 实验
本实验中,数据集是网上下载的商品评论。该数据集拥有1000个短文本,每个短文本带有一个人工标注的标签。
实验步骤如下:
(1)应用jieba對中文文本进行分词,去掉停用词。
(2)利用pandas将数据集分为训练集和测试集,比例为9:1。
(3)构建并规范word2vec模型:
model=Word2Vec(sentences,size=300,window=8,min_count =1,sample=1e-3,workers=2)
(4)网络构建:
model = Sequential()
model.add(Embedding(voc_size, 128,input_length=MAX_ SENTENCE_LENGTH))
model.add(LSTM(64, dropout=0.25, recurrent_dropout=0.25))
model.add(Dense(1))
model.add(Activation("sigmoid"))
model.compile(loss="binary_crossentropy", optimizer= "adam",metrics=["accuracy"])
(5)网络训练:
model.fit(dx_train,dy_train,batch_size=32,epochs=5,validation_data=(dx_test,dy_test))
网络训练结果如表1所示。
由此可见,经过5 个epoch后,在验证集上的正确率已经达到了89%。
(6)网络训练:
用已训练好的 LSTM 去预测已经划分好的测试集的数据,正向极性准确率为85%,负向极性准确率为86%。
3 结语
本文通过对Word2vec计算文本词向量,最后应用Keras下的 LSTM对商品评论文本进行情感分类,实验验证了该方法在互联网商品评论中的有效性和准确性。
参考文献
[1] 张成功,刘培玉,朱振方,方明.一种基于极性词典的情感分析方法[J].山东大学学报(理学版),2012(03):47-50.
[2] 杨立月,王移芝.微博情感分析的情感词典构造及分析方法研究[J].计算机技术与发展,2019(02):13-18.
[3] 李婷婷,姬东鸿.基于SVM和CRF多特征组合的微博情感分析[J].计算机应用研究,2015(04):978-981.
[4] 金志剛,胡博宏.张瑞基于深度学习的多维特征微博情感分析[J].中南大学学报(自然科学版),2018(5):1135-1140.
Research on Emotional Analysis of Short Text Based on Deep Learning Framework
SU Xiu-zhi,ZUO Guo-cai,ZHANG Jue
(Hunan Software Vocational Institute,Xiangtan Hunan 411100)
Abstract:With the rapid development of e-commerce, more and more people like to buy goods on the Internet, and the data of commodity reviews have increased dramatically. These reviews contain users'emotional tendencies towards commodities, and a large number of comments have aggravated the manual management. This paper makes an emotional analysis of the content of commodity reviews to help businessmen effectively understand the degree of consumer recognition of commodities, thereby improving the quality of commodities and services. This paper calculates the text word vector by Word2vec, and finally uses LSTM under Keras to classify the emotion of the comment text. The experiment verifies the validity and accuracy of this method in Internet comment, and achieves good experimental results.
Key words:Word2vec;sentiment analysis;deep learning