基于ALBERT-CNN的外卖评论情感分析
2022-08-28胡胜利张丽萍
胡胜利,张丽萍
(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)
0 引 言
随着互联网技术的发展和外卖平台上商家的不断增加,外卖食品质量参差不齐,外卖评论作为外卖食品质量最直观的工具显得尤为重要。现有的评论情绪分析主要分为两类:基于机器学习和基于深度学习。文献使用动态贝叶斯网络对相关主题的情绪时间序列进行建模,并学习它们之间的关系。文献提出利用卷积神经网络中的邻接矩阵对文本分类进行动态建模。文献利用卷积神经网络自动学习分类特征,并利用递归神经网络提取和记忆微博文本的序列语义关系。文献采用双向GRU 神经网络和注意机制模型对中文文本情感进行分析。文献提出一种融合词性的双注意力机制的双向长短期记忆网络模型。虽然以上介绍的研究方法有一定的优越性,但未能在准确地获取文本位置信息同时捕获更多的情感信息,情感分类的效果会有所欠缺。因此,本文为了解决上述问题提出了一种基于ALBERT-CNN 的外卖评论情感分析模型,以提高情感分类效果。
1 相关技术
1.1 预训练模型ALBERT
为解决bert 训练参数较大、训练成本高等问题,Google提出ALBERT 预训练模型,ALBERT 对词嵌入参数因式分解。首先将one-hot 投影到一个低维空间,大小为,然后再将结果映射到一个高纬空间,大小为,这样就从开始的参数量(·)降到了现在的(·+·),在远远大于时,参数就会减少。但是如果不采用参数共享优化方法此模型效果不大,因此,ALBERT 在全连接层和注意力层共享了参数,即编码器中的所有参数都是共享的,并且是相同的。此外,相比于Lee 等人提出的BERT 模型中的NSP 任务存在的缺点,ALBERT 使用句子顺序预测(SOP)。SOP 比NSP 更复杂,可以学习更多的句子之间的语义关系。ALBERT 模型实现了基于Transformer 框架的编码器-解码器结构,、、…、E表示序列经过多层双向训练编码器,最终得到文本的特征向量、、…、T。其模型结构如图1所示。
图1 ALBERT 模型结构
1.2 CNN
构成CNN 中主要的三个部分分别为卷积层、池化层和全连接层,是一种特殊的前馈式神经网络。CNN 的核心是卷积层,池化层对从卷积层获取的特征值进行采样,本文采取的是最大池化方式,防止过拟合。
1.2.1 卷积层
卷积层的存在是为了提取句子的语义特征。一个卷积核对应于提取特征的一部分。通过卷积运算,可以增强原始信号特性并降低噪声,嵌入层对每个句子矩阵输出进行卷积运算。
输入层接收的文本特征矩阵向量 由输入表示层输出,并使用卷积层进行卷积运算,以准确获取包含在评论文本中的局部情感信息,从而得到新的文本特征 ,卷积层的输出公式:
其中表示第个特征值,表示卷积滑动窗口的大小,⊗表示卷积运算,是由特征映射的偏置值;是卷积核的权重;是ReLU 的激活公式。最后得到的特征向量:
1.2.2 池化层
在卷积运算之后,文本中的局部情绪信息被传输到池化层,进一步减少了参数数量、数据维度和过度拟合,公式为:
外卖评论短文本的局部特征向量通过cnn 卷积层的卷积计算和池层的池化计算得到。将所得到的特征向量连接在一起作为输入矩阵和Albert 语义提取连接在一起。
2 ALBERT-CNN 模型
商品评论情感分析模型如图2所示。
图2 ALBERT-CNN 结构模型
句子首先输入到ALBERT 输入表示层中进行编码,然后经过ALBERT 语义提取层提取文本向量的全局特征,同时增加一个CNN 语义提取层,作用是用来提取外卖评论文本中的局部语义信息,最后连接CNN 和ALBERT 两个网络对外卖评论文本进行情感分析。具体每层功能如下。
2.1 输入表示层
输入表示层主要采用MASK-LM 方法构建,主要思想是随机屏蔽或替换外卖评论文本中的任意单词,然后模型根据左右单词意思推测被遮盖或替换的单词意思。具体的操作是:随机替换掉外卖文本中15%的词,其中被替换的词块中有80%被[MASK]替换,比如:这家菜非常好吃→这家菜非常[MASK];10%可能性被其他此替换,比如:这家菜非常好吃→这家菜非常不错;10%可能性句子不变。对于长外卖评论文本,特殊标签[SEP]将句子分成两句话。输入表示层的最终输出包括标签嵌入、分段嵌入和位置嵌入。
首先输入外卖文本数据={,,…,x},其中x表示该条外卖评论文本中的第个词。文本={,,…,x}再进行序列化为={,,…,E},其中E表示文本中第个词的序列化字符。
2.2 ALBERT 语义提取层
语义提取层是以编码器为基本单元的多层双向解码器。隐藏层中的任何隐藏单元在通过Transformer 编码器中的注意机制后都包含评论文本。利用输入层将商品文本数据输人到模型的ALBERT 语义提取层中,通过多层双向Transformer 编码器训练已经序列化过的外卖评论文本,以此将外卖评论文本表示为动态特征。
文本特征表示={,,…,T},其中T表示评论文本中第个词的向量。通过Transformer 编码器训练出的文本特征可以区分上下文,根据不同的语境判断单词的不同意思,并且Transformer 编码器可以计算出词与词之间相关性大小,然后根据相关性调整每个词的权重,从而得到单词新的表达。
2.3 CNN 语义提取层
在CNN 语义提取层中,将序列化后的文本输入进去,再通过大小为3、4 和5 的卷积核训练文本特征,经过池化降维后,将得到的三个文本向量F,F和F进行叠加得到一个向量F。为了保证池化后的三个向量文本可相互叠加,池层采用全填充的方法,使池后的三个文本向量具有相同的形状。
2.4 全连接层
全连接层主要连接ALBERT 和CNN 的语义提取层。其中加入R_Drop 进行正则化,损失函数公式如下:
其中,1_loss 和2_loss 分别表示两次同样输入的输出的交叉熵损失,kl_loss 代表kl 散度损失。
Dropout 方法由于每次随机丢弃部分神经元,导致每次丢弃后产生的子模型都不一样,所有的操作一定程度上使得训练后的模型是一种多个子模型的组合约束。正由于Dropout 的这种特殊方式对网络带来的随机性,所以R-Drop将进一步对(子模型)网络的输出预测进行了正则约束,对于每个训练样本,R-Drop 使通过Drop 抽样的两个子模型的输出分布之间的双向KL 发散最小化。R_Drop 结构如图3所示。
图3 R_Drop 结构
2.5 情感分类层
使用Softmax 函数对全连接层的输出结果进行归一化,最终得到商品评论文本的情感极性。Softmax 函数具体公式如下:
其中,v表示第个节点的输出值,为分类的类别个数,即输出节点的总个数,通过Softmax 函数可以将输出值分为正负两类。
3 实验部分与结果分析
3.1 数据集
实验数据来自公共数据集,为某外卖平台收集的用户评论。语料库量表总数为12 000 个,其中4 000 条为正面评论和8 000 条负面评论。语料库分为训练集和测试集,在训练集中,3 600 条正面评论,2 800 条负面评论,剩下的语料作为测试集。
数据示例如表1所示(其中负标签为0,正标签为1):
表1 外卖数据集示例
3.2 评估方法
准确率Acc、精确率P、召回率R 和F1 值用于评估情绪分析模型。根据实例的真实类型和ALBERT-CNN 预测类型的组合,将实例分为真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)类型,公式化后得到准确率Acc、精确率P、召回率R 和F1 值,其计算公式分别为:
3.3 实验结果与分析
结果如表2所示。将ALBERT-CNN 模型和SVM 模型、CNN 模型、ALBERT 模型进行比较,在同一外卖文本数据集上的精确率P、召回率R 和F1 值均有所提升,由此得出,相对于SVM 模型,评论文本句子中同一个词通过ALBERT模型提取能够区分在不同语境下所包含的不同含义,使文本情感分析分类效果得到了很好的提升;此外,CNN 模型充分考虑文本的局部信息和语境信息关联,所以总体而言ALBERT-CNN 模型比ALBERT 模型和CNN 模型在外卖文本情感分析中有更好的表现。
表2 对比实验结果
通过对几个模型准确率的对比,结果如图4所示。ALBERT-CNN 模型的准确率可以达到91.3%,均高于其他对比模型,再次证明此模型的有效性。
图4 模型准确率对比
4 结 论
本文提出了一个ALBERT-CNN 外卖评论情绪分析模型。评论文本向量的全局特征由预训练模型ALBERT 所提取,评论文本句子中同一个词通过ALBERT 模型提取能够区分在不同语境下所包含的不同含义,这解决了传统的情感分析方法无法完成的问题;同时通过CNN 提取了评论文本向量局部特征信息;最后再连接到Softmax 层进行分类。通过对不同的情感分析模型使用同一数据集进行对比实验,证明了ALBERT-CNN 模型在外卖文本情感分析任务中的有效性。然而,本文提出的情感分析模型仅依赖于用户外卖评论文本中的信息,用户对外卖商家给出的星级并未考虑到,在下一步研究工作中,将构建一个商品评论情绪分析模型,该模型将商品评论文本与商品星级相结合,从而使该模型更加准确和实用。