基于机器学习的情感分析方法及应用研究综述
2021-09-13李梦楠汪明艳
李梦楠 汪明艳
摘 要:为了进一步了解情感分析方向的发展趋势,通过对基于机器学习的情感分析文献的整理与分析,首先对国内外基于机器学习的情感分析方法进行了梳理,介绍了相关方法的基本原理及算法改进;其次列举了几种方法在电子商务、餐馆评价和灾害管理中的实际应用,对当前情感分析应用中存在的主要困难进行探讨,对相关方法处理能力进行评价;最后得出了上下游任务结合的处理方法值得深入研究的结论,给出了对情感分析未来研究趋势的展望,提出了相关方法改进的挑战。
关键词:情感分析;机器学习;BERT;支持向量机;卷积神经网络
中图分类号:TP391.1 文献标识码:A
文章编号:2096-1472(2021)-09-21-03
Abstract: In order to further understand the development trend of sentiment analysis, this paper proposes first to sort out sentiment analysis methods of machine learning at home and abroad, after sorting and analyzing sentiment analysis literature. Basic principles and algorithm improvement are introduced, followed by the practical application of several methods in e-commerce, restaurant evaluation and disaster management. Difficulties in the current sentiment analysis application are discussed and the processing ability of related methods is evaluated. Finally, it is concluded that the processing method of combining upstream and downstream tasks is worthy of in-depth study, and the prospect of the future research trend of sentiment analysis and the challenges of related method improvement are given.
Keywords: sentiment analysis; machine learning; BERT; support vector machine; convolutional neural network
1 引言(Introduction)
用户在论坛、微博、新闻上分享他们的观点或意见,这些被认为是公众意见的重要来源。在此背景下,情感分析研究应运而生,其目的是分析用户情感。情感分析数据是不同应用领域的相关信息来源,例如在电子商务领域,产品评论是用自然语言写成的,口语化评论更容易阅读,但机器分辨情感极性并不容易;面对突如其来的灾害,灾民会通过社交媒体表达情感[1],救援组织或政府机构可以通过对相关区域社交媒体的分析了解灾害的破坏程度。因此,情感分析是一个需要不同技术组合来进行管理的任务。
学者对基于深度学习的情感分析进行了研究,利用机器学习方法进行了多方面的探索。机器学习模型可以灵活地表示复杂关系,能够估计后验概率,执行时间较短,即使在有噪声数据的情况下,也具备良好的性能。因此,机器学习方法在情感分析中得到了广泛的应用。
本文根据机器学习算法在自然语言处理中的使用,以情感分析视角介绍相关方法的应用和部分算法改进策略,对情感分析的三个重要研究领域进行述评,探讨了现有研究的成果和存在的不足,提出了未來的发展方向和研究挑战。
2 情感分析研究方法(Research methods of sentiment analysis)
2.1 卷积神经网络
卷积神经网络(Convolutional Neural Network, CNN)目前已经成为一种常用的机器学习模型而被许多学者使用。卷积神经网络的特点是模型的非线性特点和区域学习嵌入的能力,它由嵌入层、卷积层、池化层和输出层组成。在嵌入层中,每段文字被嵌入在单词级,并被表示成一个矩阵。在卷积层中,过滤器的宽度固定在单词向量的维数以捕获相邻单词之间的关系。在池化层中,通过max-over-time池化操作提取每个特征映射对应的最大值。在输出层中,提取特征并在全连通层中,该层在输出上具有概率分布。特殊情况时,深度的卷积神经网络可能超过四层:输入层、两个卷积层、两个最大池化层和通过Softmax分类器输出的全连接层。杨锐等[2]研究了基于卷积神经网络的文本分类方法。ZHANG等[3]的研究表明,对于文本分类,基于字符的深度卷积神经网络表现良好。卷积神经网络模型被应用于许多任务中。卷积神经网络可以在文本中提取局部n-gram特征,但有可能无法捕捉到长距离依赖性,而长短期记忆网络(Long Short-Term Memory, LSTM)则可以通过对文本进行顺序建模来解决这一问题。卷积神经网络和循环神经网络通常与基于序列或树状结构的模型结合。实验表明,卷积神经网络是一种可以克服以神经网络高计算量为代价的替代方法,但与其他方法相比,它需要更多的训练时间。
2.2 循环神经网络
由于循环神经网络能够在相对灵活的计算中捕获信息,在供应链管理中得到了广泛的应用。与卷积神经网络相比,循环神经网络(Recurrent Neural Network, RNN)模型有两个重要的特点。首先,卷积神经网络在每一层都有不同的参数,但循环神经网络在每一层都是相同的参数。在循环神经网络中,一个阶段的输出依赖于前一个阶段,需要占用很大内存。因此,循环神经网络在处理顺序信息方面比卷积神经网络更有优势。循环神经网络可以利用这个优势将一个任意长度的序列映射到一个固定长度的向量。由于梯度限制,简单的循环神经网络在其反向传播过程中的训练相对困难,主要有两个问题:梯度消失问题(即梯度数值接近于零)和爆炸性梯度问题,这可能会导致在学习过程中出现不稳定的情况。另外,循环神经网络模型还有一些其他的扩展,如双向循环神经网络[4]。循环神经网络包含一个前向层和后向层,以便从前面和后面的令牌中学习信息。循环神经网络处理文档级情感分类,情感分类要求先建立句子表示,然后将其聚合成文档表示,从而获得层次表示。此外,在GRAVES等[5]学者的研究中,长短期记忆网络与循环神经网络结合产生了双向长短期记忆网络(BLSTM),可以访问所有输入方向上的上下文及更多的信息。MIAO等[6]提出了一种基于BLSTM和wavenet的语音转换方法,以提高语音质量。因此,BLSTM也可以考虑句子间和句子内的联系。
2.3 递归神经网络
递归神经网络(Recursive Neural Network, RNN)是循环神经网络的一种推广,它在有向无环网络上递归地应用相同的权值集,但输入段是树状结构。卷积神经网络模型是由语言驱动的,因为它们探索了树状结构,并尝试学习复杂的组合语义。而递归神经网络的树状结构包括选区树和依赖树。一方面,在选区树中,叶节点表示单词,内部节点表示短语,根节点表示整个句子。另一方面,在依赖树中,每个节点都可以表示一个单词,该单词与其他具有依赖连接的节点相连接。在递归神经网络中,每个节点的向量表示是从它的所有子节点使用一个权重矩阵计算出来的。REN等[7]提出了由两个虚拟单向递归神经网络组成一种新的混合参数递归神经网络算法。
2.4 支持向量機
支持向量机(Support Vector Machine, SVM)作为能够有效分析数据的监督学习模型,是一种基于统计学习理论的新型机器学习方法,用于与机器学习算法相关的回归分析和分类的应用,近年来在机器学习领域,凭借其优秀的学习性能逐渐成为研究热点。支持向量机可以对一些常用的情感表达进行分类。评估是根据测量的准确度、精密度和召回率设置的。一种改进的情绪分析方法与先进的预处理被证明可以提供更好的结果。CAI等[8]提出了一个三层情感词典,它可以将情感词与对应的实体和方面联系在一起,减少情感词的多重含义。该模型从情绪动态特征的描述和计算出发,更全面地预测了描述情绪演化的过程特征。在未来,我们可以使用混合其他模型的分类技术以提高准确性。
2.5 基于变换器的双向编码器表征技术
基于变换器的双向编码器表征技术(Bidirectional Encoder Representation from Transformer,BERT)是一种基于神经网络的自然语言预处理技术。BERT模型可以通过输入层和输出层进行适当的微调,以在各种文本分析任务中创建模型。BERT的核心是采用transformer技术,它非常适用于基于编码-解码模型和注意力机制的自然语言处理任务。相较于支持向量机模型,BERT可以在数据量较大时有更加出色的表现,处理性能会显著提升。例如,当前新冠肺炎疫情已演变为全球性流行疾病。公共卫生问题不仅与公众的预防感染有关,还与经历疫情的公众心理状况有关。因此,分析产生负面情绪的社交媒体数据有助于了解公众在新冠肺炎疫情期间的经历,并为预防其他疾病提供借鉴。WANG等[9]分析了疫情期间情绪随时间的演变及微博中与负面情绪相关的主题。实验表明,BERT具备更优异的特征提取能力,可以提升情感分类的性能和稳定性,加快收敛的速度。可以利用BERT对相同文本的三种语言进行情感分析,李妍慧等[10]为处理多语种文本的情感分析问题提供了有效的解决方案。
3 情感分析研究领域(Research field of sentiment analysis)
3.1 电商用户评论情感分析
网上购物已成为公众消费的主要方式。对电子商务平台上的大量用户评论进行情感分析有助于电商改进产品以提高用户的整体满意度。对于潜在消费者来说,阅读产品评论来决定是否购买该产品可以降低选择难度[11]。因此,产品评论分类也是情感分析研究的领域之一。荣飞琼等学者[12]针对在线产品销售的决策需求,结合各行业在线产品的销量影响因素及卷积神经网络算法优势,构建了适用于在线产品的销量预测模型。通过建立一个四层卷积神经网络模型,嵌入矩阵和其他权重,完成单词的嵌入和特征提取以改善情感分析的效果。洪文兴等[13]对携程网和京东的五种商品及亚马孙的四种商品的评论数据进行分析,依靠卷积神经网络抽取特征向量,通过对公共特征空间进行重构来进行领域自适应,使其在情感分类问题上取得了不错的表现。为了提高产品评论情感分析的准确性,YANG等[14]结合GRU模型、注意力机制、情感词典和卷积神经网络模型的优点,建立了SLCABG模型。但情感类别只有正负两类,对要求情感类别细化的领域并不适用,还需要继续提升情感的细粒度分析。
3.2 消费者餐馆点评情感分析
消费者在前往陌生城市时,往往会在互联网平台寻找分布美食的区域,诸如Yelp、大众点评网等平台提供了这样的餐馆评价服务。用户可以在享用美食后对该餐馆的味道、消费额、环境等进行分数或星级的评价,陌生消费者也可以通过这样的评价确定该餐馆是否符合自身选择条件以进行消费。从餐馆运营者角度来看,可以积累更多的优质评价有助于吸引消费者群体聚集,并提升餐馆的整体形象和营业收入。ZHAO等[15]提出了关系嵌入和子树嵌入两种句法表示方法,以捕获潜在的语义特征。采用递归神经网络对子树嵌入进行建模,然后将子树嵌入和词嵌入相结合,作为句法路径中每个词的增强词表示;采用卷积神经网络对两种类型的语法表示进行整合,从评论中提取情感搭配,在酒店、餐厅等服务领域取得了较好的表现。
3.3 災害地区社交媒体情感分析
社交媒体凭借其使用的低门槛成为灾害信息聚集的可靠平台。部分灾害地区的民众可能会通过在社交媒体发布信息来寻求帮助,表达情感。对灾害地区民众的情感掌握有助于政府或救援组织、机构有效地、快速地提出应对策略,以减小损失。因此,对灾害地区的社交媒体进行情感分析有助于灾害发生过程中的应急管理。一个经历灾害的城市应该解决各种形式的救灾资源分配不平等的问题,而丰富、准确、及时的态势感知可以帮助救援组织减少不必要的资源消耗。
例如,有学者利用地理标记的Twitter数据,通过采用情绪分析、卷积神经网络模型和LDA主题模型来反映飓风佛罗伦萨的态势感知,以此研究社区公平在飓风事件中对态势感知的影响。福岛核电站泄漏期间,人们的情绪状态引起了HASEGAWA等[16]学者的关注。通过使用推文中包含的区域标识符(名词、专有名词、地名、邮政编码、电话号码)按地区进行分类,然后从单个推文中包含的词语(积极或消极)的语义取向来分析民众对这些地区的感受。结果表明,关于辐射的推文数量总体上减少了,人们对辐射的感觉呈积极的趋势。然而,人们对福岛县的负面情绪却变得更加极端。与福岛县无关的原创和转发推文趋于正面情绪,而与福岛县有关的原创和转发推文趋于负面情绪。但有地理标签的推文只占目标数据的0.25%,因此,需要更全面的数据来提升研究质量。此外,由于Twitter用户居住地的年龄构成和地域存在偏差,用户不一定具有代表性。GRUEBNER等[17]利用Twitter提取、分析了2012 年桑迪飓风之前、之中和之后负面情绪数据,评估纽约市人口普查区域的负面情感随地理位置的变化。他们使用了一种名为“在情感可视化中提取简短信息的意义”(EMOTIVE)的高级情绪分析方法对推文进行分析。结果显示,包括恐惧、愤怒和悲伤在内的负面情绪集中在纽约市的一些社区,并随着时间的推移持续存在,在斯塔顿岛最为突出。但这只是针对纽约市的研究,国际化大都市的分析数据可能并不适用于中小型城市或乡村。
4 挑战与未来工作(Challenges and future work)
随着更多学者深入情感分析领域进行研究,机器学习方法在其中的应用也得到相应发展,使用相关方法的精确度和速度在情感分析领域应用前景巨大。但当前也存在一些困难,这些困难为今后该领域的工作提供了潜在的研究价值。
(1)样本的多样性会导致数据处理的精确度无法维持,不同语言的数据集可能会使相同的方法表现出差异。
(2)单一算法的数据分析无法做到绝对理想的效果,如何将不同算法结合以提高处理效率是未来情感分析领域的重点研究内容。
(3)随着BERT模型的逐步应用,下游任务模型和预训练模型的结合会提高处理速度,诸如XLnet模型也对BERT进行了改进,未来上下游任务结合的处理算法是值得深入研究的课题。
5 结论(Conclusion)
本文对基于机器学习的情感分析方法与实际应用进行了综述,回顾了现有情感分析问题所采用的机器学习方法、模型及部分相关算法的改进与优化,比较详细地记录了不同方法在情感分析中的实际应用,总结了自然语言处理在情感分析应用中存在的困难及后续可能的研究方向。随着技术的不断发展,情感分析领域会吸引更多的学者深入研究,用于上下游的机器学习方法会提高情感分析的精确度和稳健性,逐渐成为商业机构、政府等的重要分析工具。因此,机器学习方法在情感分析方向具有重要的研究意义。
参考文献(References)
[1] FAN C, WU F, MOSTAFAVI A. A hybrid machine learning pipeline for automated mapping of events and locations from social media in disasters[J]. IEEE Access, 2020, 8:10478-10490.
[2] 杨锐,陈伟,何涛,等.融合主题信息的卷积神经网络文本分类方法研究[J].现代情报,2020,40(04):42-49.
[3] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in Neural Information Processing Systems, 2015, 1(9):649-657.
[4] 范昊,李鹏飞.基于FastText字向量与双向GRU循环神经网络的短文本情感分析研究——以微博评论文本为例[J].情报科学,2021,39(04):15-22.
[5] GRAVES A, SCHMIDUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5):602-610.
[6] MIAO X, ZHANG X, SUN M, et al. A blstm and wavenet-based voice conversion method with waveform collapse suppression by post-processing[J]. IEEE Access, 2019, 7:54321-54329.
[7] REN H Q, WANG W Q, QU X W, et al. A new hybrid-parameter recurrent neural network for online handwritten Chinese character recognition[J]. Pattern Recognition Letters, 2019, 128(6):400-406.
[8] CAI Y, YANG K, HUANG D P, et al. A hybrid model for opinion mining based on domain sentiment dictionary[J]. International Journal of Machine Learning and Cybernetics, 2019, 10(8):2131-2142.
[9] WANG T, LU K, CHOW K P, et al. COVID-19 sensing: Negative sentiment analysis on social media in China via Bert Model[J]. IEEE Access, 2020, 8:138162-138169.
[10] 李妍慧,郑超美,王炜立,等.一种混合语种文本的多维度多情感分析方法[J].计算机工程,2020,46(12):113-119.
[11] 刘丽娜,齐佳音,齐宏伟,等.在线评论中离散情感的分布研究[J].情报科学,2017,35(08):121-128.
[12] 荣飞琼,郭梦飞.基于卷积神经网络的在线产品销量预测分析研究[J].西北民族大学学报(哲学社会科学版),2019(02):15-26.
[13] 洪文兴,杞坚玮,王玮玮,等.基于公共特征空间的自适应情感分类[J].天津大学学报(自然科学与工程技术版),2019,52(06):631-637.
[14] YANG L, LI Y, WANG J, et al. Sentiment analysis for E-commerce product reviews in Chinese based on sentiment lexicon and deep learning[J]. IEEE Access, 2020, 8:1.
[15] ZHAO Y Y, QIN B, LIU T. Encoding syntactic representations with a neural network for sentiment collocation extraction[J]. Science China(Information Sciences), 2017, 60(11):7-18.
[16] HASEGAWA S, SUZUKI T, YAGAHARA A, et al. Changing emotions about Fukushima related to the Fukushima nuclear power station accident-how rumors determined people's attitudes: Social media sentiment analysis[J]. Journal of Medical Internet Research, 2020, 22(9):1-31.
[17] GRUEBNER O, LOWE S R, SYKORA M, et al. Spatio-temporal distribution of negative emotions in New York City after a natural disaster as seen in social media[J]. International Journal of Environmental Research and Public Health, 2018, 15(10):2275-2297.
作者简介:
李梦楠(1991-),男,硕士生.研究领域:自然语言处理.
汪明艳(1975-),女,博士,教授.研究领域:数据分析,舆论治理,电子商務.本文通讯作者.