APP下载

基于LAAE网络的跨语言短文本情感分析方法①

2021-06-28沈江红廖晓东

计算机系统应用 2021年6期
关键词:分类器编码器向量

沈江红,廖晓东,3,4

1(福建师范大学 福建省光电传感应用工程技术研究中心,福州 350117)

2(福建师范大学 光电与信息工程学院,福州 350117)

3(福建师范大学 医学光电科学与技术教育部重点实验室,福州 350117)

4(福建师范大学 福建省光子技术重点实验室,福州 350117)

情感分析[1,2]的主要任务是分析隐含在文本中的感情、态度、观点等深层次信息.近年来,互联网的迅猛发展,给人们的生活带来了巨大的变化.在世界范围内,越来越多的网民在各大平台发表自己的观点,互联网上逐渐出现了不同国家和地区的语言文字,这些非规范的短文本蕴含了大众对事物的褒贬,亦或是自己的需求等信息,不仅在商业界而且在学术界备受关注.比如亚马逊上的商品销往全球,同时商家也会收到不同语言的评论,比如“This skirt is beautiful”,“这个裙子太漂亮了”,“Este vestido es hermoso”等.虽然语言形式不同,但都包含了人们对商家所售商品的褒贬,所以深层挖掘这些评论背后的信息,有利于商家了解市场,并及时作出相应地调整,所以具有很大的研究价值.由于英语的语料资源丰富且有大量的的标注数据集,所以基于英语语境下的研究工作已渐入佳境,而对于语料资源相对匮乏的语种的研究工作则不易开展.跨语言情感分析能够借助资源丰富的源语言标注数据,对标注资源相对匮乏的目标语言数据进行情感分析,所以越来越受到研究者的青睐.

近年来许多研究者投身于跨语言情感分析的研究工作中,并取得了很大的进步.传统的研究方法是基于机器翻译进行的,然而翻译的质量很大程度上影响着分类效果.随着深度学习技术的不断发展,一种基于映射的研究方法应运而生.该方法主要思想是利用深度学习的方法学习一种映射,将源语言和目标语言映射到同一个向量空间,得到跨语言情感向量,然后再进行特征提取和情感分析任务.如何高效地学习得到这个映射并获得高质量的跨语言向量,则是该工作的核心环节.

本文在深度学习的基础上,提出LAAE 网络模型,并将跨语言情感分析任务分成两个部分:第1 部分是通过LAAE 模型获得含上下文情感信息的跨语言向量;第2 部分是进行短文本情感分类,利用双向GRU 进行情感特征提取,并完成情感分类任务.

1 相关工作

1.1 跨语言情感分析

众所周知,进行情感分析工作的前提是收集大量的标注数据.不同于单语言情感分析,跨语言情感分析则是利用资源丰富的源语言标注数据去预测资源匮乏语言的情感,其过程极具复杂性,目前研究方法主要有两种,一是传统的基于机器翻译的方法,二是在深度学习基础上的基于映射的方法.

机器翻译的方法是将目标语言和源语言进行互译,建立语言连接,然后进行后续的情感分析[3].机器翻译使得跨语言文本之间没有共同词项特征的问题得到解决.Duh 等[4]通过实验发现,利用机器翻译,由日文文本翻译得到的英文文本,其与源英文文本之间的词汇重叠率很低,所以机器翻译的质量还有待提升.Zhou 等[5]指出机器翻译还有可能会改变文本的极性,例如,英文文本的“It’s too fragrant to sleep”,通过谷歌翻译,得到的中文译文是“睡的太香了”,属于积极情感.但是在源语言中该文本表达的意思是“太香了而无法入睡”,属于消极情感.唐晓波等[6]通过实验发现翻译的质量会影响分类效果.所以目前通过机器翻译工具翻译的语句,其翻译结果的准确性仍然有待提高.

基于映射的方法[7],主要思想是利用深度学习技术学习一种映射,将源语言和目标语言映射到同一个向量空间,进而得到跨语言情感向量,然后再进行特征提取和情感分析任务,而如何高效地习得这个映射并获得高质量的跨语言向量,则是工作的核心部分.Faruqui 等[8]利用种子词典和平行语料库去学习这样一个线性映射,但建立种子词典和平行语料库这件事本身需要耗费大量的人力和物力.Artetxe 等[9,10]则通过一系列的线性变换,去学习这个映射.Zhang 等[11]通过对抗训练,获得双语词典索引.但王坤峰等[12]指出生成对抗网络(GAN)存在一些难以克服的缺点,比如模型不易训练,生成的数据可解释性不高,模型鲁棒性不高等.Zhou 等[5]利用多个自动编码器来学习这个映射,然后进行跨语言情感分析的研究.

GAN (Generative Adversarial Network)及其变种目的都是学习从零均值、一方差的标准高斯分布到复杂样本分布的映射.本文采用Makhzani 等[13]提出的对抗自编码器(AAE),因为在生成对抗网络中加入自编码器,可促进生成器生成的数据更加贴合输入的数据,从而有效地避免无效数据或噪声的产生,使得模型更加高效.

1.2 深度学习

与传统的特征提取方法相比,深度学习技术擅长自动地提取特征,从而很大程度上节约了人力物力等成本.近年来,因其天然的优势,吸引了大量的研究者投身其中,并且在自然语言处理(NLP)领域,尤其是在情感分析任务中,提出了很多性能优良的模型.

1.2.1 长短记忆网络(LSTM)

由Hochreiter 等[14]提出的长短记忆网络(LSTM)克服了RNN 的长距离依赖的问题,是一种特殊的递归神经网络(RNN).LSTM 的核心结构,如图1所示.其重要结构是3 个门,分别是输入门、遗忘门和输出门,主要用来控制信息的更新与流动.另一个核心结构是细胞状态线,在结构上方像流水线一样地运转,起到存储记忆的作用,并进行信息的传播和更新.

图1 LSTM 结构图

GRU (Gate Recurrent Unit)是LSTM 的一个很特殊的变体,其内部结构如图2所示,相比较于LSTM,GRU 将输入门和遗忘门合并为更新门,使得模型更加简洁,提取特征能力更敏捷且易训练,多用于情感分类任务.

图2 GRU 内部结构图

1.2.2 对抗自编码器(AAE)

对抗自编码器主要由3 个模块组成,分别是编码器、解码器、判别器,其内部结构如图3所示.编码器和解码器两者结合,构成一个普通的自编码器,输入复杂样本,并要求在解码器的输出端重构;判别器输入编码向量,判定它是来自一个真实的标准高斯分布,还是来自编码器的输出.判别器试图区分编码向量的真假,编码器则试图迷惑判别器,编码器和判别器两者相互博弈,最终导致判别器混淆不清,训练完成.

图3 对抗自编码器结构图

1.2.3 迁移学习

领域自适应是一种迁移学习,它将不同领域的数据或特征映射到同一个特征空间,以便于利用其源领域数据或特征来加强目标领域的训练,进而达到更好的训练效果[15,16].Kim 等[17]在迁移学习的基础上,利用不同语言间的共享词向量进行对抗训练,克服了训练过程中不同语言间的差异问题.由于高质量的标注数据的匮乏,且人工标注的成本颇高,迁移学习在NLP领域的众多任务中发挥着重要的作用.

2 研究方法

本文提出的基于LAAE 网络模型的跨语言短文本情感分析方法,主要分为两个部分,第1 部分是跨语言向量的生成,具体步骤是将Word2Vec 生成的各语言文本向量,先经过LSTM 网络,目的是获得含上下文信息的向量,然后再通过AAE 模型学习一个高质量的转换矩阵M,将源语言和目标语言转换到同一向量空间,如图4所示(可视化后,“爱”和“Love”转换到同一空间),最后获得含上下文信息的跨语言向量.第二部分是跨语言情感分类,分类器在源语言上被训练完成,然后迁移到目标语言上,完成对目标语言的情感分类任务.图5是本文研究方法的总体框架图.

图4 向量转换图

图5 LAAE 模型框架图

2.1 含上下文信息的跨语言向量的生成模块

LSTM 网络具有记忆功能,将文本向量通过LSTM网络,可获得含上下文信息的文本向量,提高输入向量的质量,减少噪声.GAN 及其变种目的都是学习从零均值、一方差的标准高斯分布到复杂样本分布的映射.GAN 网络模型生成数据可解释性差,产生很多的无效数据.由Makhzani 等[13]提出的对抗自编码器(AAE),主要思想是在GAN 中加入自编码器,从而使得生成数据更接近于输入数据,避免无效数据的产生,使得模型更加高效.我们利用AAE 学习到转换矩阵M,再将M和源语言向量X相乘,如式(1)所示.得到转换后的矩阵Z,此时的Z和目标语言向量T在同一空间,最终建立了源语言和目标语言之间的联系.

2.2 跨语言情感分类器的迁移模块

BiGRU(Bidirectional Gated Recurrent Unit)分类器模型,如图6所示,其主要是通过两个反向的GRU,分别是向前GRU和向后GRU,进行特征提取工作.例如:输入j个句子的第t个单词的词向量为cijt,通过BiGRU层特征提取后,可以更加充分地学习上下文之间的关系,进行语义编码成hijt,具体计算公式如式(2)所示:

图6 BiGRU 内部结构图

最后利用 Softmax 函数对输出层的输入进行相应计算,同时完成跨语言文本情感分类任务.

目标语言本身可标注资源稀缺,此时迁移学习技术恰到好处地解决这个困难.分类器在源语言上进行训练,然后迁移到目标语言上,完成目标语言的情感分类任务.

3 实验结果及分析

3.1 实验数据集

为了验证本文所提出的分类法的有效性,本文以英语为源语言,中文和德语为目标语言,进行实验验证.1)实验采用Prettenhofer 等[18]提供亚马逊不同类目下的产品评论数据集.该数据集中包含3 个产品领域(书籍、DVD和音乐)和4 种语言(英文、日语、法语和德语)的用户评论数据集.每个领域中的数据分为训练集、测试集和无标注文本,大小分别是27 815、3200和80 000.本文选用了数据集中的英文和德语评论数据集.2) 通过网络爬虫程序从亚马逊中文站爬取书籍、音乐和DVD 类目的中文评论,并作为中文数据集.由于实验设备的性能,以及各领域无标注文档在数量上的差异问题,本文在各领域中统一使用15 000 条无标注文档.

3.2 对比实验

(1) 基于机器翻译,以SVM 作为分类器,简称MTSVM:利用机器翻译,将目标语言翻译成源语言,在源语言上训练分类器SVM,最后利用训练好的分类模型,对翻译成源语言的测试集进行情感分类.

(2) 基于机器翻译,以BiGRU为分类器,简称MTBiGRU:利用机器翻译,将目标语言翻译成源语言,在源语言上训练分类器BiGRU,最后利用训练好的分类模型,对翻译成源语言的测试集进行情感分类.

(3) 基于映射的方法,利用AAE 模型,以BiGRU为分类器,简称AAE-BiGRU:利用对抗自编码器(AAE),学习源语言和目标源之间的转换矩阵,获得跨语言向量,在源语言上训练分类器BiGRU,最后将训练好的分类器迁移到目标语言上,对目标语言测试集进行情感分类.

3.3 实验设计

本实验是在Keras 及TensorFlow 深度学习框架下进行.参数设置如表1所示.

表1 参数设置表

3.4 实验结果

本文实验中,对比实验方法有MT-SVM、MTBiGRU、AAE-BiGRU,将英语设为源语言,中文和德语设为目标语言.模型性能评估指标为各方法在跨语言环境下的文本情感分类的F1 值,结果如表2所示.

表2 不同方法的F1 值(最好的结果已加粗表示)

从表2可以看出,基于的映射方法的F1 值明显高于机器翻译的方法.同样都是基于映射的方法,本文的方法和AAE-BiGRU 相比较,平均F1 值从0.7552 提高到0.7797,可见高质量的跨语言向量,影响分类效果.本文通过LAAE 模型得到含上下文信息的跨语言向量,从而极大地提高了分类效果.通过学习一个映射,将不同语言的评论映射到同一特征空间,从而建立不同语言之间联系,可促进两者之间知识迁移,有利于进行跨语言情感分类工作.

4 结论与展望

情感分析的研究在资源丰富的语言领域已经很成熟,而在资源稀缺的语言领域则有很大的研究空间.本文以跨语言情感分析为任务,在迁移学习基础上,提出LAAE 分析方法,即通过LSTM和AAE 网络模型,获得含上下文信息的跨语言向量,最后利用BiGRU 进行分类任务.通过实验证明高质量的含上下文信息的跨语言向量,可以促进跨语言迁移学习的更好进行,进而提高模型性能.

今后的研究工作可做以下两方面的改进:一方面,我们将重点研究用于迁移学习的新方法,并将目标语言扩展到更多的语言.另一方面,我们会尝试调试我们的模型做更细粒度情感分析,因为除了消极、中立和积极情绪外,还有存在更多的情绪特征.

猜你喜欢

分类器编码器向量
基于ResNet18特征编码器的水稻病虫害图像描述生成
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
向量的分解
学贯中西(6):阐述ML分类器的工作流程
基于AdaBoost算法的在线连续极限学习机集成算法
基于TMS320F28335的绝对式光电编码器驱动设计
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线