APP下载

基于信息增强的中文舆情文本情感分析*

2022-08-23裴贵军

通信技术 2022年7期
关键词:极性舆情编码

魏 刚,裴贵军,张 毅,张 麒

(1.成都融微软件服务有限公司,四川 成都 610213;2.上海三零卫士信息安全有限公司,上海 200030)

0 引言

情感分析是自然语言处理中的经典任务,被广泛应用在各行各业中,发挥了很大作用。目前,我国互联网具有极高的民众普及度,网络成为民众表达观点的主要场所,而互联网上信息庞大,无法使用人工的方法对海量舆情信息进行观点分析。情感分析则可以对舆情文本进行自动分析,及时反馈民众对于事件的情感倾向。

舆情文本情感分析属于篇章级情感分析,其目的是对输入文本自动分析出其整体所具有的正面或负面情感极性。篇章级情感分析可被视为文本二分类问题,类别标签为正面和负面。虽然基于预训练语言模型的方法在多个情感分析任务中取得了最佳的效果,但仍存在一些值得改进的地方,即没有显式地对情感极性信息进行建模,未能突出情感信息在情感分析中的重要作用。因此,本文提出一种基于情感信息增强的情感分析方法,结合预训练模型的优点,同时显式强调情感信息。实验结果表明,基于情感信息增强的情感分析方法在公开数据集ChnSentiCorp及自建的中文舆情情感分析数据集上,均取得了明显的效果提升。

1 相关工作

情感分析的研究由来已久,其方法可以总结概括为情感词典的规则方法、统计机器学习方法及深度学习方法。

基于情感词典的规则方法不需要训练模型,仅制定判定规则即可,因而具有简单、快捷、解释性强的优点,对于情感强烈的文本效果较好。但其无法在进行情感判断时,考虑文本语义的因素,且效果受限于情感词典的规模和质量。虽然在实际应用中存在一些问题,但研究者长期以来一直继续进行这方面的研究[1-2]。

统计机器学习方法首先需要人工设计特征,然后基于这些特征选用机器学习模型进行训练和分类,这类方法的效果往往受特征的影响较大。该方法采用词向量均值作为输入文本的句向量表示,然后采用分类模型实现情感分类的任务,其中,支持向量机是其常采用的分类模型[3]。

深度学习方法不需要人工进行特征提取,神经网络可以自动提取特征并进行分类,其效果优于基于特征工程的统计机器学习方法,其中,TextCNN是经典神经网络方法[4]。近年来,预训练语言模型技术快速发展,如生成式预训练(Generative Pre-Training,GPT)模型、BERT 模型等[5-6],为情感分析任务带来了较大的效果提升。基于预训练语言模型的方法是目前情感分析的最佳方法。

预训练语言模型泛指由多层Transformer 结构组成并提前经过大规模数据训练的语言模型,预训练语言模型的出现开启了自然语言处理的新时代。基于Transformer 结构[7]的预训练语言模型在多项自然语言处理任务中取得了良好的效果,且仅在预训练语言模型后添加全连接层,就可以达到情感分类任务的最佳效果。

ERNIE 是非常具有代表性的预训练语言模型,在2019 年由百度公司提出。该公司受BERT 掩码策略的启发,提出实体级别和短语级别的掩码方式,这种掩码策略更加符合中文的特点,在包括情感分类的5 项中文自然语言处理任务中,创造了当时的最好成绩[8]。

除以上所列方法之外,许多研究者[9-12]也尝试在不同类型文本的情感分析中使用融合的方法,例如预训练语言模型结合深度学习的方法、增加注意力机制的方法等,这些方法都取得了不错的成果,推进了情感分析技术的发展。

2 方 法

舆情文本中包括情感相关与情感无关部分,以情感词和情感短语的形式出现的情感相关部分与文本情感极性高度相关,其他部分则是无关紧要的,甚至会对情感极性的判断造成干扰。因此,本文将输入文本中与情感极性相关的部分称之为情感极性信息,并设计出了一种情感极性信息增强的情感分析模型,以达到显式地突出情感极性信息重要性,提升情感分析效果的目的。

2.1 情感极性信息提取

情感极性信息由情感词、修饰词和否定词构成。情感词类型包括固定成语、形容词、动词、名词、副词、介词及网络产生的新词汇[13],其常搭配修饰词或否定词以组合的方式出现或单独出现。情感词的组成分布如图1 所示。修饰词是对情感词起修饰作用的词汇,常为修饰程度的副词,其可造成情感极性的加强或减弱,而否定词的出现则会造成情感极性的反转。

图1 情感词组成分布

情感极性信息通常具有多种组成结构,其结构不同也会造成情感极性的差异,如“不很好”与“很不好”。通常,否定词加在程度副词之前表示对程度的否定,情感极性不发生变化,极性程度则减轻;否定词加在程度副词之后表示对否定程度的加强,情感极性发生逆转,极性程度则增加。

情感极性信息有以下6 种组成方式:单独的情感词;否定词—情感词组合;否定词—否定词—情感词组合;否定词—程度副词—情感词组合;程度副词—情感词组合;程度副词—否定词—情感词组合。情感极性信息组合方式及示例如表1 所示。情感信息极性强度是衡量信息中所包含情感极性的程度,本文采用张成功等人[13]提出的情感极性强度计算方法。

表1 情感极性信息组合方式

本文研究所用的情感词来自大连理工大学发布的中文情感词汇本体库[14],修饰词采用蔺璜等人[15]所总结的86 个修饰词,否定词采用郝雷红等人[16-17]所总结出的否定词。

考虑到情感信息的组成方式等因素,本文为了在舆情文本中提取极性信息,设计了情感极性信息提取算法。该算法首先对输入中文舆情文本进行分词,分词方法采用百度公司的LAC 工具[18];其次遍历分词结果中的每个词,并判断是否为情感词,若为情感词则判断情感词周围词汇是否为修饰词或否定词,将修饰词、否定词及情感词组成的情感信息提取出来,若情感词单独出现则将其视为情感极性信息提取出来;最后依据情感极性强度排名来提取出前3 位的情感极性信息。例如,在算法中输入文本“这款手机性能不是很好”,得到情感极性信息“不是很好”;在算法中输入文本“这里风景秀丽”,得到情感极性信息“秀丽”。情感极性信息提取算法的伪代码如下:

2.2 模型设计

信息增强的情感分析模型(Enhanced Information Sentiment Analysis Model,EISA)结构如图2 所示。与Transformer 类预训练模型相比,EISA 有两处不同:第一,增加了情感信息提取部分;第二,EISA预训练部分输入由之前的舆情文本变为情感信息+舆情文本。情感信息和舆情文本共同进入到预训练模型中进行双向交互,有利于增强模型中的情感信息。

图2 EISA 模型结构

预训练部分由多层Transformer 编码层组成,即Transformer 类预训练语言模型,其可以有多种选择,如GPT、BERT 和ERNIE 等,此处本文中采用中文版ERNIE 预训练模型,由12 层Transformer 编码层堆叠而成,采用实体级和短语级别的掩码方式进行预训练。

2.2.1 模型输入

模型的输入为中文舆情文本,经过情感信息提取模块后,文本转换为预训练模块的输入,其形式为情感极性信息与输入舆情文本的拼接。然后模型将拼接后的文本按字粒度进行切分,在文本开始处添加符号[CLS],在情感极性信息及文本结束处添加符号[SEP],情感极性信息之间使用英文逗号进行分割,即“[CLS]信息1,信息2,信息3[SEP]舆情文本[SEP]”。

2.2.2 输入信息编码

输入信息的编码由字编码、块编码和位置编码3 部分相加得到。块编码将情感极性信息及其前后的[CLS][SEP]设置为0,舆情文本及其后的[SEP]设置为1,如图3 所示。

图3 模型的输入表示

位置编码采用函数式的相对位置编码[19]。之前研究者已经证实,在预训练模型中,自注意力机制计算时起作用的是相对位置而非绝对位置。本文采用的位置编码方式与相对位置的正弦函数有关,位置编码的每个维度对应不同的正弦曲线,不同维度所对应的正弦函数的波长不同。相对位置编码如式(1)、式(2)所示。

式中:k为维度;dz为隐藏状态特征数量与注意力头数量之比;j-i为相对位置。

3 实 验

3.1 数据集

中文舆情情感数据集是本文所制作的数据集,是通过网络爬虫采集的民众关于某些重大事件、政府政策的评论文本,经过数据清洗后进行正负面的人工标注后得到的数据集,共有1 万条数据。该数据集任务是判断评论文本属于积极情感还是消极情感。按照8 ∶1 ∶1 的比例将数据集划分为训练集、验证集与测试集。ChnSentiCorp 是公开的情感分析数据集,它包括酒店、图书、电子产品多个领域的评论文本,共12 000 条,包含训练集9 600 条、验证集1 200 条、测试集1 200 条。该数据集任务是判断数据集中每段文本属于积极还是消极。数据集示例如表2 所示。

表2 中文舆情文本数据集和ChnSentiCorp 数据集示例

3.2 参数设置

本文采用中文版ERNIE 模型作为预训练部分的模型进行实验,其具有12 层Transformer 层,采用实体级和短语级别的掩码方式进行预训练。

实验中,文本最大长度限制设置为256,批次大小设置为32,用[UNK]来表示未登录词,[PAD]用来对输入文本进行补齐。采用Adam 作为优化算法,学习率设置为2E-5,动量参数分别设置为β1=0.9,β2=0.999,残量ε=10-8。Dropout 概率的值设置为0.2。将训练轮次设置为50,在每个轮次训练结束后自动保存模型参数,并在验证集上进行验证,最后依据每个轮次的验证结果选取最优的模型。

3.3 评价指标

情感分析任务可视为文本分类任务,本文采用精确率P、召回率R及F1 值进行评价。精确率是模型预测正确的正样本数量占模型预测为正样本数量的比例。召回率是模型预测正确的正样本数量占真正的正样本数量的比例。F1 值是精确率和召回率的调和平均值,可以更好地反映模型的真实效果。精确率P、召回率R及F1 值的计算方式为:

式中:TP为真正面情感数量;FP为假正面情感数量;FN为假负面情感数量。

3.4 实验结果分析

在两个情感分析数据集中,分别使用TextCNN、ERNIE 及本文所提出的EISA 模型进行情感分析实验,实验结果如表3 所示。可以看出,基于预训练语言模型的模型(ERNIE 和EISA)相比于TextCNN,在情感分类任务上有很明显的效果提升。基于情感信息增强的模型EISA 比ERNIE 预训练语言模型的F1 值提升了1.1~1.7 个百分点,这说明信息增强机制在情感分析任务中取得了明显的效果提升。

表3 模型结果对比

4 结语

本文提出的EISA 模型解决了预训练语言模型在情感分类任务中,没有显式地对文本中重要情感极性信息进行建模的问题。所提模型在利用预训练语言模型强大的语义表示能力的同时,也显式地对情感信息进行建模,实现了情感极性信息的增强。

在两个情感分类数据集上的实验结果表明,基于信息增强的模型EISA 在情感分类任务中有良好的表现,与预训练语言模型的情感分类方法相比也有明显的效果提升,这说明模型能够有效捕获舆情文本中与情感分类任务高度相关的极性信息,进而提高模型情感分析的能力。

本文所采用的情感信息提取算法属于基于规则的方法,有一定的局限性,未来可采用序列标注的方式进行情感信息自动提取,然后将情感信息与输入文本拼接后输入信息增强的情感分析模型中,进一步提高情感分析的准确性。

猜你喜欢

极性舆情编码
生活中的编码
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
跟踪导练(四)
Genome and healthcare
数字舆情
数字舆情
消费舆情
双极性压缩观测光谱成像技术研究
键的极性与分子极性判断的探究