多模态情感分析技术的应用研究
2022-08-28赵之文
赵之文
(南京信息工程大学 长望学院,江苏 南京 210044)
0 引 言
情感分析又称为意向挖掘/情感倾向分析,是指检测评估人类对于事件、问题的心理状态,其相关理论和算法设计与人工智能、计算机视觉等多个领域相关,是自然语言处理领域中非常热门的课题。随着互联网的迅速普及以及多媒体的蓬勃发展,人们越来越倾向于在网络上发表自己的言论与见解,大数据的出现使得计算机能够利用文本、图像、音频和视频等媒介去识别人们所表达的情感。近年来,深度学习和机器学习的兴起也使得计算机识别情感成为可能。
模态是指人接受信息的方式。不同于单模态的情感分析,多模态能够融合不同模态的信息,例如图文结合、视听结合,通常是综合两种及以上模态的信息来识别情感。目前的研究中,大多数研究者对于单模态的情感分析已经取得了较为可观的成果。例如在文本情感挖掘方面,文献[4]将情绪词进行分类,通过构建情感词词典的方式对微博词条进行分类统计,并采用C#开发权重计算器进行交叉验证,达到80.6%的准确率。由于只是对单一模态的数据进行训练,单模态情感分析在某些情况下的准确性并不理想,最典型的例子就是“反讽”模式识别,同一语句或图片在不同模态的结合下被识别出的情感表达有可能恰恰相反。因此,虽然多模态情感分析技术正处于起步阶段,但其潜在的研究价值和影响力是不容忽视的,可以应用于商品评价、舆情监测、案件侦查、社交互动等众多领域。本文旨在阐述多模态情感分析技术应用的广泛性及其发展前景。
1 情感分析
随着计算机的日益普及和互联网的快速发展,人们越来越倾向于通过网络社交软件及媒体来表达个人情感。情感分析的目的是对接收到的模态信息进行情感分类,以识别发表意见者的主观意向,确定发表者对某事件的态度,以及各交流对象意欲表达的情感。对数据集进行处理时,通常需要为数据添加情感标签,例如SEED 数据集将情感标签分为三级:积极、中性、消极,MOSI 数据集将情感标签分为-3 至+3七个层级。由于情感分析方面的研究尚处于起步阶段,国内外主流的数据库多是基于单模态,且部分数据因涉及隐私问题而并未完全公开,因此许多研究需要借助各平台的用户数据进行。
2 单模态情感分析
国内外的研究者已经在单模态情感分析领域进行了大量实验,在文本、图像、音频单一模态情感识别中取得了可观的研究成果。主要是基于图片面部表情、文本、语音三种方式进行情感分析。单模态情感分析不需要考虑与其他情感信息的联系,因此获取数据相对容易且有针对性,但单一模态的识别准确性可能会略有逊色,且自身信息的噪声影响和被攻击带来的信息缺失也难以克服。在单模态情感分析方面,大多基于传统的机器学习和深度学习来实现。
2.1 基于面部表情的情感分析
面部表情作为人们表达情感最直接的方式之一,在计算机情感识别方面有着非常重要的研究意义。几年来,随着人工智能的迅速发展,国内外学者逐渐倾向于使用机器学习和深度学习的方法进行人脸面部表情识别分析情感。文献[7]基于卷积神经网络(CNN)提出一种改进的方案ROIKNN,通过对表情图片的切割扩大数据集,解决了神经网络模型泛化能力较弱的问题,有效提高了对面部表情识别的准确性。文献[8]通过微调卷积神经网络,采用渐进式训练策略有效地克服了训练样本的噪声干扰问题,较传统卷积神经网络有显著的提升。文献[9]提出一种图像情感预测框架,将特征脸面部表情作为中级属性加入该框架,提高了情感识别的精确度。
2.2 基于文本语句的情感分析
文本作为人们表达观点最普遍的媒介之一,其所蕴含的情感信息量是巨大的。传统机器学习的流程包括:建立训练集,利用情感标签对训练数据进行标记,然后提取训练数据中的特征(例如抽取语气词汇、特殊语法结构等),再利用训练模型对特征进行文本的情感倾向分析。常用的机器学习方法有支持向量机(SVM)、朴素贝叶斯(NB)、随机森林(RF)、最大熵模型等。
文献[10]检验了将机器学习技术应用于情感分类工作的有效性,最终发现支持向量机模型的识别率相对来说比较理想。文献[11]通过情感词典扩充并从词性、句式、语义等方面提取多种单词的特征,运用支持向量机(SVM)对微博情感进行5 级分类,最终得到的分类准确率高达82.40%。文献[12]采用支持向量机分类器将情感分析分为情感挖掘和观点挖掘两类,以微博短文本作为数据集,识别效果较好。
2.3 基于语音的情感分析
语音情感分析基于语音信号的产生机制来实现分析任务,一般的流程为:提取语音中能够反映情感倾向的特征参数,然后应用合适的识别方法确定语音中所包含的情感。对于语音信号的识别,目前主流的研究方法有马氏距离判别法、神经网络法、主成分分析法(PCA)、隐马尔可夫模型(HMM)、混合高斯模型法(GMM)等。文献[14]采用完整语句作为全局特征进行情感识别,并总结了语音信号的不同情感特征分布规律。文献[15]在4 种情绪语音信号的基础上增加了特征维数,提出一种改进型马氏距离判别式,将情感识别率提高到94%。
3 多模态情感分析
传统的单模态情感分析仅采用文本语句、图像照片、音频这三者中的一项作为识别依据,进行情感分析。通常这种单模态所提取的特征,不足以做到精确的情感分析。例如对于同一段文本数据,在说话者语调不同的情况下,所表达的意思可能是完全相反的。而多模态情感分析则是利用不同模态提取的特征,通过模态融合的方式来实现情感分析,从而克服了单模态的一些局限性,很大程度上提高了情感识别的精确性和稳定性。
近年来,深度学习发展迅速,其在自然语言处理、图像识别和信号处理等领域取得了显著的成果。因此利用深度学习进行多模态分析成为研究者们的不二之选。深度学习的优点在于,其省略了筛选数据特征的步骤,减少了在特征工程上的计算开销,我们只需向网络中输入一定的数据,通过修正参数即可得到较为满意的结果,拥有较为广泛的适用性。其中卷积神经网络(CNN)在跨模态情感分析中取得了不错的成效,实现步骤如图1所示。多模态情感分析中最为重要的是模态融合技术,目前主流的模态融合技术有三种:特征级融合、决策级融合、混合融合。
图1 利用卷积神经网络进行多模态情感分析
3.1 特征级融合
特征级融合又称为早期融合,是指通过提取不同的单模态特征,将它们简单地连接并融合成一个多模态特征向量作为通用特征分析单元进行情感分析。特征级融合的过程如图2所示。
图2 特征级融合
这种方法的优点在于充分利用不同模态特征之间的相关性,由于特征融合在早期已经完成,后续只需要一个分类器即可。然而,这种方法也存在一定的缺陷,因为不同模态特征可能取自不同的媒体文件或语义空间,相互差异较大以至于很难找到恰当的融合方法。
3.2 决策级融合
决策级融合又称为后期融合,其特点是首先独立地抽取每个模态的情感进行分类及分析,再将各个模态特征的分析结果融合。决策级融合的过程如图3所示。
图3 决策级融合
这种方法具有较高的自由性,使用者可以根据需要自由选择不同的模态特征进行学习,对每个模态的学习都是有针对性的,因此学习效果显著,同时还可以自由地选取分类器和提取器。此外,若某一模态缺失,可以利用其他模态的特征来填补空缺。但是,决策级融合并未考虑到各个特征之间的联系,并且需要提取、学习多个模态的特征,这使得时间成本大大提高。
3.3 混合融合
混合融合则是将特征级融合和决策级融合相结合,旨在形成优势互补,扬长避短,结合二者的优点提高分析的准确性和效率,同时克服二者的缺陷,弥补短板与不足。混合融合的过程如图4所示。
图4 混合融合
4 技术应用
虽然多模态情感分析技术尚处于发展阶段,但其所展现出来的应用价值是不容小觑的。目前,在社交平台和多媒体软件上的情感分析应用最为广泛,一方面是因为国内外的数据集尚未完善,而各社交软件可以利用自己平台上的用户数据训练模型,具有一定的针对性;另一方面用户经常在社交软件上发表观点以及相互交流,这使得情感分析成为一种潜在的需求。此外,多模态情感分析并不仅仅局限于社交软件的应用,其在电商平台产品评价、舆论检测、人机交互等方面都有着很大的应用潜力。
4.1 社交软件
近年来,社交软件的用户数量不断攀升,每日生成大量的图文数据,使得研究者们能够利用这些数据进行情感分析,例如,文献[16]结合图文双模态对Getty Image 的样本进行训练,提出一种多模态回归模型,并对图像推文进行大量的实验,得到了较好的结果。文献[17]采用混合融合的方法,利用Facebook 和YouTube 上大量的文本、图像、音频数据进行情感分析,最终在YouTube 的数据集上将识别精确度提高到80%。文献[18]提出一种多通道卷积神经网络的微博情感分析模型,该模型能够很好地挖掘隐藏的语义信息。随着社交软件功能的日益丰富,开发者也期望能够增加人机交互的功能,例如“微信”软件更新的“状态”功能,微博的关键词等功能,因此利用多模态情感分析技术精确识别人们在社交软件上发表的图文所蕴含的情感,成为众多社交软件的重要需求。
4.2 多媒体软件
随着多媒体的发展和短视频的兴起(例如抖音、快手、bilibili 弹幕网的出现),弹幕交互功能不断完善,这使得人们的娱乐方式变得更加丰富,也越来越倾向于就各种多媒体作品发表评论,同样,这些多媒体软件也产生海量的用户数据,因此研究人员开始对多媒体软件的情感分析进行研究。例如,文献[19]采用音频和视频双模态分析方法,设计了交叉投票机制以融合模态信息,其在短视频的情感分析上较其他识别模式有所提升。文献[20]引入MOSI 数据集,基于视频中的面部手势及语音信息进行情感识别,提出一种多模态字典的表示方法。
4.3 电商产品评价
网上购物已经成为人们生活中不可缺少的购物方式,电商的兴起也使得一些不良商家趁机售卖虚假伪劣产品,因此平台向用户提供了产品评价的功能,以使用户能够快速了解产品的优劣。然而,虽然大多数平台提供了评价功能,但是并不能很好地展现该产品的品质,例如好评中经常存在着恰恰相反的差评语句,这是由于某些商家为了减少差评的数量,有意地对评论分类进行了控制,这样就违背了产品评价功能设立的初衷,因此“反讽识别”成为评价功能中不可或缺的一部分。目前就电商产品评价开展情感分析方面的研究相对较少,大多是基于单模态的情感分析技术,例如文献[21]提出了面向产品评价文本的细粒度情感标注体系,以统计大用户群体对产品评价的情感倾向。文献[22]根据旅游在线评论数据进行深度学习的模型训练,通过表情图片、评价文字等多模态融合,验证了多模态情感分析技术的优越性。
然而,可以预见的是,随着产品评价功能的逐渐完善,商家将向用户提供图片、文字、视频等多种评价方式,因此多模态情感分析具有较高的应用性。
4.4 舆情监测
在各类重大事件中,网民的舆论往往对事件的发展起着推波助澜的作用,如何迅速检测到舆论的议论中心点、如何发现持积极观点和消极态度的人群、如何正确疏导舆论方向,都在事件的处理中有着举足轻重的意义。多模态情感分析技术在舆情监测方面同样发挥着重要作用,例如,文献[23]利用多模态融合注意力机制有效减少了模态中的噪声,在舆情识别方面验证了多模态情感分析技术相较于单模态情感分析的优越性。
5 结 论
目前,多模态情感分析技术已经成为研究人员的重点研究课题,其潜在的实用价值也越来越被人们所认可。本文介绍了多模态情感分析的研究现状,阐述了三种多模态融合方法,并分析了其在社交软件、多媒体软件、电商平台等多领域的技术应用。
然而,多模态情感分析仍然面临着许多挑战,存在一些亟须解决的问题。由于国内外尚未建立完善、权威的数据集,研究人员大多是采用网络软件中的用户信息数据,存在一定的主观性,很大程度上影响了情感分析的结果。多模态情感分析并非简单地将不同模态的信息相叠加,我们针对不同的应用场景需要改变选取特征的方式并调整融合方法,而如何充分有效地利用各个模态之间的联系与交互,则需要做更深一步的探索。