基于注意力与Bi-LSTM 混合算法的车企舆情情感分析*
2021-01-27李宸严
李宸严,刘 继
(新疆财经大学 统计与数据科学学院,新疆 乌鲁木齐830012)
0 引言
2020 年7 月,习近平总书记在一汽研发总院调研时指出:汽车制造业国际竞争激烈,要把民族汽车品牌搞上去,如何提升品牌的形象和溢价效应是首要问题。 随着互联网的发展,车企的发展规划、车辆品质、创新水平都受到广泛关注[1]。 网络评论暗含网民丰富的情感,通过对评论情感的挖掘,车企可了解近期的网络舆情,从而采取相应的应对措施。 因此研究车企网络舆情情感,对提高车企形象、维护车企利益具有十分重要的意义。
舆情情感识别的关键在于对文本情感的识别[2]。当前情感识别方法有两类:基于情感词典的方法、基于机器学习的方法。基于情感词典的方法利用情感词能映射情感倾向的特点,通过测度单词与情感标签的关联度来构建情感词典,依据文本中的情感词判断其情感类别[3]。 此方法虽能实现文本的情感分类,但存在三方面问题:(1)网络用语的盛行对情感词典的构建和维护提出了新的挑战;(2)处理二义性的词语时分类效果不佳;(3)无法考虑上下文的语义信息。 基于机器学习的方法逐步成了情感识别领域的主旋律。 PANG B 等[4]人最先在电影评论的情感分析中应用了最大熵、SVM、朴素贝叶斯三种机器学习方法。 大量实验证明,基于机器学习的方法在解决情感识别问题时的性能优秀。
1 文献综述
文献[5-6]提出的Word2vec 模型将单词映射到低维空间,降低了词向量的使用代价,实现了深度学习在文本分析上的应用,明显提高了情感识别算法的效果。KIM Y 等[7]通过CNN 为区分文档中每个句子的情感倾向,并改进词向量的映射规则,提升了词向量的效率。 CAO Y 等[8]在原卷积神经网络基础上, 在分类层用SVM 算法处理卷积核提取的语义信息进行分类,结合了传统机器学习和神经网络的优点。梁斌等[9]利用基于注意力机制的CNN 标识文本,摆脱了模型对外部知识的依赖,与CNN 相比,该模型的分类效果有了大幅的提升。 冯兴杰等[10]利用CNN 和注意力机制的局部分析能力学习文本的情感表达方式。 张玉环等[11]将一种变形的GRU 结构融入到句子级LSTM 情感识别模型中,在反向传播时应用伪梯度下降来更新权值,提高了模型的效率和准确率。
单词对文本情感的贡献不尽相同,情感可能仅受个别词汇影响。 目前基于深度学习的情感识别模型虽有提升,但以发掘词汇语义信息为主的传统神经模型无法将强情感词区别对待。 因此,如何找到并重点分析强情感词是下一步研究方向。 虽然冯兴杰等人[10]应用了注意力机制,但是没有直接提取词语的情感权重,依然是在编码整个文本时学习的。本文提出了一种基于注意力机制与Bi-LSTM 的混合分类算法——At-Bi-LSTM 算法,利用注意力机制在词向量阶段计算词汇对情感的贡献权重,弱化长文本中无关词对分类的影响,以增强Bi-LSTM 的分类效果。
2 网络模型
At-Bi-LSTM 模型如图1 所示。 首先对舆情文本预处理,将得到的向量输入到Bi-LSTM 层。 通过双向LSTM 模型学习单词在文本序列中的关系,从而掌握单词的语义及在序列的情感表达模式。 并利用注意力机制,关注重点词汇对文本的情感贡献,从而使模型对文本情感的学习更加高效和准确。 然后,在舆情判断层使用逻辑回归,将输出值归一化为舆情倾向的概率,把概率值最大的类别确定为文本的舆情倾向。
图1 At-Bi-LSTM 模型示意图
2.1 语义学习层
文本中的单词成序列结构。 为使模型根据单词间的序列关系,学习评论的语义表达模式,本文采用Bi-LSTM 模型作为语义学习层,对网络文本的语义信息进行处理。 Bi-LSTM 由两个顺序相反的LSTM模型组成。LSTM 是改进的循环神经网络,能够携带序列信息跨越多个时间步,使信息灵活出现在需要的位置,防止在数据处理中丢失早期的信号[12-13]。LSTM 的基本结构如图2 所示,共有四个单元:
(1)输入单元,处理当前序列位置的输入
(2)遗忘单元,遗弃信息
(3)更新单元,更新遗弃信息后的状态
(4)输出单元,确定输出值
图2 LSTM 结构
2.2 注意力层
在网络文本中并非每个单词都与整体情感有较强的相关性,因此对文本情感做分类时,只需着重关注部分单词的情感表达[14]。 依据这种处理思路,注意力机制应为重要的强情感词分配更多关注,即赋予较大的权重。 把词向量的加权融入注意力层的输出,即注意力层会自动学习最优参数,如式(1)、式(2)所示。
其中,αi是文本语料中第i 个单词的注意力分配系数,代表对文本情感的影响程度,V、W 均为权重矩阵,b 为 偏 置。
2.3 舆情倾向层
判断舆情倾向的类别是项分类任务,因此舆情判断层实际上是一个分类层。将注意力层的输出作为输入,利用逻辑回归函数(solftmax)对每一舆情类别估算一个概率值,所有概率值组成的向量作为舆情判断层的输出。 向量的每个维度对应类别的概率,将概率值最大的那个类别作为模型的最终结果。 假设一j 维数组V,vi表示V 中的第i 个元素,那么vi的逻辑回归值为
3 数据分析
3.1 结构分析
本文数据来自第四届全国应用统计专业案例大赛,内容为各大门户网站有关汽车及车企的资讯,包括腾讯网、搜狐网、一点资讯、汽车头条等有代表性的主流汽车媒体。 每条数据均为4 部分:
(1)标题表明评论人论述的主旨,能预判评论的观点,为后面的精确判断奠定基础,因此标题所涵盖信息对整篇文章的情感分析有极高的价值。
(2)正文是评论人情感抒发的载体。目前网络资源庞杂,标题多为夺人眼球,可能与正文情感并非完全一致。在区分评论人对于某款汽车或车企的态度时,不可单纯依赖标题,通读全文才能准确判断。
(3)网址可说明评论来源。 因为门户网站的发声立场不同会导致同一网站的评论咨讯出现某种倾向。因此来源网站可以提供一个评论情感的先验信息。
(4)情感类别。 评论咨讯的情感类别,可以使用有监督的机器学习方法进行处理。
3.2 类别分析
数据可根据情感类别分为三类:积极评论、中性评论、消极评论。 其中:积极评论13 439 条,占14%;消极评论14 762 条,占15%;中性评论71 176条,占72%;这三类共99 377 条,占99.99%。 此外,数据中还有一类特殊数据——因缺失情感标签,被称为情感空白数据, 本文将人工标注这11 条评论的类别。
4 实验分析
4.1 分词
中文文本有其特殊的语法规则,计算机无法直接辨别出句子的词语结构,故在验证模型效果之前,需对评论文本进行分词。本文选用jieba 库对句子分词,它作为目前最主流的Python 中文分词组件,针对不同的需求有三种分词方案:精确方案、全方案和搜索引擎方案。 既能将文本的词语进行精确划分,避免了数据冗余,还能得出文本中所有可能的词语。
4.2 数据清洗及词云描述
在分词之后,对“,”、“。 ”等词频较高的符号和虚词,做进一步处理。 这些符号及虚词在词语序列中占据着较大比例,但本身又不代表任何含义,为避免这些标点对模型的计算结果产生影响,在将数据喂入LSTM 模型之前,要把它们一一剔除。 本文采用Python 的string 库对所有分词结果进行扫描,将无用分词全部剔除,最终得到数据清洗的词云图如图3 所示。
图3 词云展示
分析词云图可知,自动、动力、新能源是网友主要关注的功能。 车企须对这些主要需求进行专攻,加大科技研发力度和宣传, 及时推出相应车型,增加品牌知名度和科技感,提升市场份额。 最关注的汽车品牌有:奔驰、宝马、现代、大众、国产。 “电动车”、“自行车”、“汽车”、“发动机”反映出汽车正逐步回归代步工具的初衷,绿色出行和环保意识深入人心。 通过“中国”、“新车”、“国产”等词能发现国产汽车越来越成为人们关注的焦点。
4.3 模型验证与对比分析
通过十折交叉验证,将舆情数据划分为10 个分区,模型在其中的9 个分区上训练,并在剩余的一个分区上进行评估,模型的验证分数等于10 个验证分数的平均值。图4 是LSTM 模型和At-Bi-LSTM模型20 轮训练的表现。
图4 LSTM 和At-Bi-LSTM 的20 轮训练表现
如图4(a)所示,LSTM 模型在验证集的损失值在第2 轮到达最低值,之后不断升高;At-Bi-LSTM模型在第4 轮到达谷值,因此LSTM 比At-Bi-LSTM更早过拟合。 如图4(b)所示,随训练轮次的增加,网络在训练集上的预测能力越来越强。 LSTM 的准确率在第7 轮基本稳定在89.4%,At-Bi-LSTM 在第10 轮到达峰值,且准确率比LSTM 高0.029。 在之后的训练中,模型的准确度虽略有波动,但总体保持平稳。
本文将实验结果按评论的倾向类型进一步细化,使用准确率(Accuracy)和召回率(Recall)两个指标衡量模型的性能,并且又加入了与朴素贝叶斯和SVM 模型的对比。 对比结果见表1。
表1 显示At-Bi-LSTM 作为情感分析模型,可以最高达到92.3%的准确率、91.2%的召回率,效果明显好于朴素贝叶斯、SVM 及LSTM 模型。
表1 四种模型对比结果
为对汽车领域提出针对性建议,模型通过注意力机制对积极评论和消极评论分别筛选出部分注意力权重大的关键词,结果如图5 所示。
图5 评论中高注意力词汇的权重分布
高注意力词汇能体现评论的重点,对情感类别影响较大。 图5(a)显示积极评论一般关注空间、内饰等舒适性元素。图5(b)显示消极评论一般关注驾驶体验及安全等汽车最基本的元素,这印证了4.2小节的结论:对于消费者来说,汽车已经逐步回归于代步工具的初衷。 综合而言消费者十分在意车辆的安全性、舒适性及操纵性,车企应下一步加大对这三方面的研发和宣传力度,更精准地满足消费者需求,从而提高销量。
5 结论
本文提出的At-Bi-LSTM 车企舆情分类模型,在Bi-LSTM 模型基础上加入注意力机制,对单词序列有着较好理解和分析能力,通过对注意力机制提取的强情感词序列进行建模,关注文本中反映情感的标志,生成更准确的情感表示。 实验证明At-Bi-LSTM 模型分类结果较好,能够关注舆情生态系统下的用户负面情绪,为加强车企舆情应对能力提供有效的帮助。 通过分析大量的网络评论,车企今后的工作重点应关注用户的驾驶体验,提高自身的科技实力和影响力。
本文模型对中性评论的识别更加准确,积极和消极评论的准确度相对较低,因此应在后续研究中提取评论更精准的情感特征。 可以考虑更多情感影响因素,如文本发布源等,进一步提高模型应对不同评论时的效果。