面向深度学习的多模态融合技术研究综述
2020-05-20张彩庆李小珍张德海
何 俊,张彩庆,李小珍,张德海
(1.昆明学院 信息工程学院,昆明 650214; 2.云南大学 a.外国语学院; b.软件学院,昆明 650206)
0 概述
近年来,深度学习(Deep Learning,DL)在图像识别、机器翻译、情感分析、自然语言处理(Natural Language Processing,NLP)等领域得到广泛应用并取得较多研究成果,为使机器能更全面高效地感知周围的世界,需要赋予其理解、推理及融合多模态信息的能力,并且由于人们生活在一个多领域相互交融的环境中,听到的声音、看到的实物、闻到的味道都是一种模态,因此研究人员开始关注如何将多领域数据进行融合实现异质互补,例如语音识别的研究表明,视觉模态提供了嘴的唇部运动和发音信息,包括张开和关闭,有助于提高语音识别性能。可见,利用多种模式的综合语义对深度学习研究具有重要意义。深度学习中的多模态融合技术(Multimodality Fusion Technology,MFT)[1]是模型在分析和识别任务时处理不同形式数据的过程。多模态数据的融合可为模型决策提供更多信息,从而提高决策总体结果的准确率,其目标是建立能够处理和关联来自多种模态信息的模型。
MFT主要包括模态表示、融合、转换、对齐技术[2]。由于不同模态的特征向量最初位于不同的子空间中,即具有异质性,因此将影响多模态数据在深度学习领域的应用[3]。为解决该问题,可将异构特征投影到公共子空间,由相似向量表示具有相似语义的多模态数据[4]。因此,多模态融合技术的主要目标是缩小语义子空间中的分布差距,同时保持模态特定语义的完整性,例如利用多模态融合特征,提高视频分类[5]、事件检测[6-7]、情感分析[8-9]、跨模态翻译[10]等跨媒体分析性能。特别是多模态融合近期在计算机视觉、NLP和语音识别等应用中取得的突出性成果[11],已引起学术界和工业界的广泛关注。本文根据多模态融合架构、融合方法、模态对齐方式和公开数据资源等,对面向深度学习的多模态融合技术进行分析与研究。
1 多模态融合架构
多模态融合的主要目标是缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得较优的性能。多模态融合架构分为[2]:联合架构,协同架构和编解码器架构。联合架构是将单模态表示投影到一个共享语义子空间中,以便能够融合多模态特征。协同架构包括跨模态相似模型和典型相关分析,其目标是寻找协调子空间中模态间的关联关系。编解码器架构是将一个模态映射到另一个模态的多模态转换任务中。3种融合架构在视频分类、情感分析、语音识别等领域得到广泛应用,且涉及图像、视频、语音、文本等融合内容,具体应用情况如表1所示。
表1 3种多模态融合架构的应用情况
Table 1 Application situation of three architectures for multimodal fusion
架构应用领域融合内容参考文献联合架构视频分类语音、视频、文本文献[5,12]事件检测语音、视频、文本文献[7]情绪分析语音、视频、文本文献[13-14]视觉问答图像、文本文献[15-16]情感分析语音、视频、文本文献[17]语音识别语音、视频文献[18]协同架构跨模态搜索图像、文本文献[19-20]图像标注图像、文本文献[21]跨模态嵌入图像、视频、文本文献[22-23]转移学习图像、文本文献[24]编解码器架构图像标注图像、文本文献[25]视频解码视频、文本文献[26-27]图像合成图像、文本文献[28]
1.1 联合架构
多模态融合策略是集成不同类型的特征来提高机器学习模型性能,消除不同模态的异质性差异。联合架构是将多模态空间映射到共享语义子空间中,从而融合多个模态特征[2],如图1所示。每个单一模态通过单独编码后,将被映射到共享子空间中,遵循该策略,其在视频分类[12]、事件检测[7]、情感分析[13-14]、视觉问答[15-16]和语音识别[17-18]等多模态分类或回归任务中都表现出较优的性能。
图1 联合融合架构示意图
多模态联合架构的关键是实现特征“联合”,一种较简单的方法是直接连接,即“加”联合方法。该方法在不同的隐藏层实现共享语义子空间,将转换后的各个单模态特征向量语义组合在一起,从而实现多模态融合,如式(1)所示:
(1)
其中,z是共享语义子空间中的输出结果,v是各单模态的输入,w是权重,下标表示不同的模态,通过映射f将所有子模态语义转换到共享子空间。
另一种常用方法是“乘”联合方法,如文献[29]将语言、视频和音频等模态融合在统一的张量中,而张量是由所有单模态特征向量的输出乘积构成,如式(2)所示:
(2)
其中,z表示融合张量后的结果输出,v表示不同的模态,⊗表示外积算子。
尽管“加”联合方法简单且容易实现,但其特征向量语义组合容易造成后期语义丢失,使模型性能降低,而“乘”联合方法弥补了这一不足,通过张量计算使特征语义得到充分融合,例如文献[17]的多模态情感预测模型由包括许多内部乘积的连续神经层组成,其充分利用深度神经网络的多层性质,将不同模态有序分布在不同层中,并在模型训练过程中动态实现向量语义组合。
此外,联合架构对每个单模态的语义完整性有较高要求,数据不完整或错误问题在后期融合中会被放大,一些研究人员通过联合训练或模态相关性来解决这一问题。文献[30-31]通过多模态联合处理某些单模态中的部分数据缺失问题,以便可以利用更多且更完整的训练数据,或者在一种或多种模态数据缺失的情况下,尽量减少对后续训练任务的影响。文献[12]利用各单模态特征之间的相关性(如权重相似性)来发现模态之间的关系,从而对这些特征进行分类使用,该方法在视频分类任务中的实验结果表明其有助于提高机器学习模型性能。
多模态联合架构的优点是融合方式简单,且共享子空间通常具备语义不变性,有助于在机器学习模型中将知识从一种模态转换到另一种模态。其缺点是各单模态语义完整性不易在早期发现和处理。
1.2 协同架构
多模态协同架构是将各种单模态在一些约束的作用下实现相互协同[2]。由于不同模态包含的信息不同,因此协同架构有利于保持各单模态独有的特征和排它性,如图2所示。
图2 协同融合架构示意图
协同架构在跨模态学习中已经得到广泛应用,主流的协同方法是基于交叉模态相似性方法,该方法旨在通过直接测量向量与不同模态的距离来学习公共子空间[32]。基于交叉模态相关性的方法旨在学习一个共享子空间,从而使不同模态表示集的相关性最大化[4]。
交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构,使得相同语义或相关对象的跨模态相似距离尽可能小,不同语义的距离尽可能大,例如文献[23]提出的模态间排名方法用于完成视觉和文本融合任务,将视觉和文本的匹配嵌入向量表示为(v,t)∈D,融合目标函数用一个损失函数f表示,如式(3)所示:
(3)
其中,α是边缘,S是相似性度量函数,t-是与v不匹配的嵌入向量,v-是与t不匹配的嵌入向量,且t-和v-是随机选择的样本。该方法保持了模态间和模态内的相似性结构,同时实现模态之间相互协同。此外,文献[22,33-34]采用其他方法来度量距离,如欧式距离,其目的都是使配对样本距离最小化。除了学习模态间相似性的度量外,跨模态应用的另一个关键问题是保持模态间相似性结构,此类方法通常对模态特征的类别进行分类,使它们在每种模态下具有一定的区分度[19],同时兼顾模态协同和特征融合。由于协同架构的这一灵活特点,使其在语音识别、迁移学习和图像标注等领域都有广泛应用。
协同架构的优点是每个单模态都可以独立运行,这一特性有利于跨模式迁移学习,其目的是在不同模态或领域之间传递知识。其缺点是模态融合难度较大,使跨模态学习模型不容易实现,同时模型很难在两种以上的模态之间实现迁移学习。
1.3 编解码器架构
编解码器架构通常用于将一种模态映射到另一种模态的多模态转换任务中,主要由编码器和解码器两部分组成。编码器将源模态映射到向量v中,解码器基于向量v生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用,如图3所示。
图3 编解码器融合架构示意图
目前,编解码器架构重点关注共享语义捕获和多模序列的编解码问题。为有效捕获源模态和目标模态两种模态的共享语义,主流的解决方案是通过一些正则化术语保持模态之间的语义一致性,需确保编码器能正确检测和编码信息,而解码器能推理高级语义和生成语法,以保证源模态中语义的正确理解和目标模态中新样本的生成。为解决多模序列的编码和解码问题,需训练一个灵活的特征选择模块,而训练序列的编码或解码可以看作顺序决策问题,因此通常需采用决策能力强的模型和方法处理该问题,例如深度强化学习(Deep Reinforcement Learning,DRL),其是一种常用的多模序列编解码工具[35]。
尽管多数编解码器架构只包含编码器和解码器,但也有一些架构是由多个编码器或解码器组成。例如:文献[36]提出一种跨乐器翻译音乐的模型,其中涉及一个编码器和多个解码器;文献[37]是一种图像到图像的翻译模型,由多个内容编码器和样式编码器组成,每个编码器都负责一部分工作。
编解码器架构的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态,并且决策模块设计复杂。
2 多模态融合方法
多模态融合方法是多模态深度学习技术的核心内容,本文将从融合技术的角度出发对早期、晚期和混合融合方法[38-39]进行分析。多模态融合方法如表2所示。
表2 多模态融合方法
将多模态融合方法分为模型无关的方法和基于模型的方法,前者不直接依赖于特定的深度学习方法,后者利用深度学习模型显式地解决多模态融合问题,例如多核学习(Multiple Kernel Learning,MKL)方法、图像模型(Graphical Model,GM)方法和神经网络(Neural Network,NN)方法等。
2.1 模型无关的融合方法
模型无关的融合方法可以分为早期融合(基于特征)、晚期融合(基于决策)和混合融合[11]。如图4所示,早期融合在提取特征后立即集成特征(通常只需连接各模态特征的表示),晚期融合在每种模式输出结果(例如输出分类或回归结果)后才执行集成,混合融合结合早期融合方法和单模态预测器的输出。
图4 3种模型无关的多模态融合方法
2.1.1 早期融合方法
为缓解各模态中原始数据间的不一致性问题,可以先从每种模态中分别提取特征的表示,然后在特征级别进行融合,即特征融合。由于深度学习本质上会涉及从原始数据中学习特征的具体表示,从而导致有时需在未抽取特征之前就进行数据融合,因此特征层面和数据层面的融合均称为早期融合。
模态之间通常是高度相关的,但这种相关性在特征层和数据层提取难度很大。文献[52]认为,不同的数据流所包含的信息之间在较高层次才能具有相关性。文献[53]提出多模态数据的早期融合不能充分展示模态之间的互补性,但可能导致冗余向量的输入。因此,研究人员通常采用降维技术来消除输入空间中的冗余问题,例如文献[54]中的主成分分析(Principal Component Analysis,PCA)方法被广泛应用于多模态深度学习的降维处理中。此外,多模态早期融合方法还需解决不同数据源之间的时间同步问题,文献[55]提出多种解决同步问题的方法,如卷积、训练和池融合等,能较好地将离散事件序列与连续信号进行整合,实现模态间的时间同步。
2.1.2 晚期融合方法
晚期融合方法也称为决策级融合方法,深度学习模型先对不同模态进行训练,再融合多个模型输出的结果。因为该方法的融合过程与特征无关,且来自多个模型的错误通常是不相关的,因此该融合方法普遍受到关注。目前,晚期融合方法主要采用规则来确定不同模型输出结果的组合,即规则融合,例如最大值融合、平均值融合、贝叶斯规则融合以及集成学习等规则融合方法[56]。文献[55]尝试将早期和晚期融合方法进行比较,发现当模态之间相关性比较大时晚期融合优于早期融合,当各个模态在很大程度上不相关时,例如维数和采样率极不相关,采用晚期融合方法则更适合。因此,两种方法各有优缺点,需要在实际应用中根据需求选择。
2.1.3 混合融合方法
混合融合方法结合了早期和晚期融合方法,在综合两者优点的同时,也增加了模型的结构复杂度和训练难度。由于深度学习模型结构的多样性和灵活性,比较适合使用混合融合方法,因此在多媒体、视觉问答、手势识别[57]等领域应用广泛。文献[58]在视频和声音信号融合过程中,先进行仅基于视频信号和声音信号的视听深度神经网络模型训练,分别产生模型预测结果,再将视频信号和声音信号的集成特征输入视听深度神经网络模型中产生模型预测结果,最后采用加权方式整合各模型的预测结果,获得最终识别结果。混合融合方法的组合策略的合理性问题是提高模型性能的关键因素。文献[42]利用混合融合方法实现多媒体事件检测的典型应用,通过早期融合与晚期融合来捕捉特征关系和处理过拟合问题,设计双融合的混合融合方案,达到88.1%的准确率,是目前该领域取得的最优结果。
综上,3种融合方法各有优缺点,早期融合能较好地捕捉特征之间的关系,但容易过度拟合训练数据。晚期融合能较好地处理过拟合问题,但不允许分类器同时训练所有数据。尽管混合多模态融合方法使用灵活,但研究人员针对当前多数的体系结构需根据具体应用问题和研究内容选择合适的融合方法。
2.2 基于模型的融合方法
基于模型的融合方法是从实现技术和模型的角度解决多模态融合问题,常用方法包括MKL、GM、NN方法等。
2.2.1 多核学习方法
MKL是内核支持向量机(Support Vector Machine,SVM)方法的扩展,其允许使用不同的核对应数据的不同视图[59]。由于核可以看作各数据点之间的相似函数,因此该方法能更好地融合异构数据且使用灵活,在多目标检测[43]、多模态情感识别[44]和多模态情感分析[45]等领域均具有非常广泛的应用。文献[60]使用MKL从声学、语义和社会学等数据中进行音乐艺术家相似性排序,将异构数据集成到一个单一、统一的相似空间中,该方法较符合人类的感知。文献[61]在阿尔茨海默病分类中使用MKL进行多模态融合,通过在高斯核上进行傅里叶变换,显式计算映射函数,从而得到一个更简单的解决方案,其是一种较新的多核学习框架。这两个研究成果都具有可扩展性和易于实现的特点,并取得了非常出色的学习性能。
除了核选择的灵活性外,MKL的另一个优势是损失函数为凸,允许使用标准优化包和全局最优解进行模型训练,可大幅提升深度神经网络模型性能。MKL的主要缺点是在测试期间需要依赖训练数据,且占用大量内存资源。
2.2.2 图像模型方法
GM是一种常用的多模态融合方法,主要通过图像分割、拼接和预测对浅层或深度图形进行融合,从而生成模态融合结果。常见图像模型有联合概率生成模型和条件概率判别模型[62]等。早期人们多数使用生成模型进行多模态融合,如耦合和阶乘隐马尔可夫模型、动态贝叶斯网络等,这些模型充分利用联合概率的预测能力进行建模,但不利于实现数据的空间和时间结构。近期提出的条件随机场(Conditional Random Fields,CRF)方法通过结合图像描述的视觉和文本信息,可以更好地分割图像[63],并在多模态会议分割[64]、多视点隐藏[65]、潜在变量模型[66]、多媒体分类任务、连续版本的数据拟合等方面都有较好的融合效果。GM方法利用回归模型对多个连续版本的数据进行拟合,预测后续版本数据的趋势,从而提高多媒体分类任务的性能。
GM融合方法的优点是能够有效利用数据空间和时间结构,适用于与时间相关的建模任务,还可将人类专家知识嵌入到模型中,增强了模型的可解释性,但是模型的泛化能力有限。
2.2.3 神经网络方法
NN是目前应用最广泛的方法之一,已用于各种多模态融合任务中[30]。视觉和听觉双模语音识别(Audio-Visual Speech Recognition,AVSR)是最早使用神经网络方法进行多模态融合的技术,目前神经网络方法已在很多领域得到了应用,例如视觉和媒体问答[67]、手势识别[68]和视频描述生成[69]等,这些应用充分利用了神经网络方法较强的学习能力和分类性能。近期神经网络方法通过使用循环神经网络(Recurrent Neural Network,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)来融合时间多模态信息,例如文献[50]使用LSTM模型进行连续多模态情感识别,相对于MKL和GM方法表现出更优的性能。此外,神经网络多模态融合方法在图像字幕处理任务中表现良好,主要模型包括神经图像字幕模型[70]、多视图模型[71]等。神经网络方法在多模态融合中的优势是具备大数据学习能力,其分层方式有利于不同模态的嵌入,具有较好的可扩展性,但缺点是随着模态的增多,模型可解释性变差。
3 多模态对齐方法
多模态对齐是多模态融合的关键技术之一,指从两个或多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,需找到图像区域与标题单词或短语的对应关系[72]。多模态对齐方法分为显式对齐和隐式对齐。显式对齐关注模态之间子组件的对齐问题,而隐式对齐则是在深度学习模型训练期间对数据进行潜在对齐,如表3所示。
表3 多模态对齐方法
3.1 显式对齐方法
无监督方法在不同模态的实例之间没有用于直接对齐的监督标签,例如:文献[73]提出的动态时间扭曲(Dynamic Time Warping,DTW)方法是一种动态规划的无监督学习对齐方法,已被广泛用于对齐多视图时间序列;文献[74]根据相同物体的外貌特征来定义视觉场景和句子之间的相似性,从而对齐电视节目和情节概要。上述两个研究成果都在没有监督信息的前提下,通过度量两个序列之间的相似性,在找到它们之间的最佳匹配后按时间对齐(或插入帧),实现字符标识和关键字与情节提要和字幕之间的对齐。还有类似DTW的方法用于文本、语音和视频的多模态对齐任务,例如文献[75]使用动态贝叶斯网络将扬声器输出语音与视频进行对齐。尽管无监督对齐方法无需标注数据,可以节省数据标注成本,但对实例的规范性要求较高,需具备时间一致性且时间上没有较大的跳跃和单调性,否则对齐性能会急剧下降。
监督方法是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法旨在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。例如:文献[76]提出一种类似于规范时间扭曲的方法,主要利用现有(弱)监督对齐数据完成模型训练,从而提升深度学习模型性能;文献[77]利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐;文献[78]训练高斯混合模型,并与无监督的潜变量图像模型同时进行弱监督聚类学习,使音频信道中的语音与视频中的位置及时对齐。因此,监督方法的对齐性能总体上优于无监督方法,但需要以标注数据为基础,而准确把握监督信息的参与程度是一项极具挑战的工作。
3.2 隐式对齐方法
图像模型方法最早用于对齐多种语言之间的语言机器翻译及语音音素的转录[79],即将音素映射到声学特征生成语音模型,并在模型训练期间对语音和音素数据进行潜在对齐。构建图像模型需要大量训练数据或手工运行,因此随着深度学习研究的深入及训练数据的有限,该方法已不适用。
神经网络方法是目前解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。例如,图像自动标注应用中在生成连续单词时[80],注意力机制允许解码器(通常是RNN)集中在图像的特定部分,该注意力模块为一个浅层神经网络,其与目标任务一起完成端到端训练。该方法目前已被广泛应用于语音数据标注、视频文本对齐和视频转录等领域[81],但由于深度神经网络的复杂性,因此设计注意力模块具有一定的难度。
4 公开数据集
多模态融合技术作为一个具有极大发展潜力的研究方向,大量研究人员一直对现有模型进行不断创新和探索以完善数据集,提升多模态深度学习模型性能,提高预测准确率。表4列举了常见用于多模态融合技术研究和应用的公开数据集,并给出各数据集目前的最优学习结果,其中包括准确率(Accurary,ACC)、正确分类率(Correct Classification Rate,CCR)、等错误率(Equal Error Rate,EER)和平均精度均值(Mean Average Precision,MAP)。
表4 多模态融合公开数据集
5 多模态融合技术研究展望
现有多模态融合技术可有效提升深度学习模型性能,但仍有一些问题亟待解决,例如跨模态迁移学习、特征间语义鸿沟、模态泛化能力等。
1)多模态融合技术在深度学习等新兴研究领域的进一步应用探索。随着深度学习应用的不断深入,多模态融合技术的优势凸显,如基于传感器数据、人类活动识别、医学研究等多模态融合方面,这些领域会在未来几年获得更多的关注。特别是自主机器人和多媒体两个应用领域中的多模态融合问题正在引起深度学习研究人员的极大关注,例如视频转录、图像字幕、在线聊天机器人等。
2)多模态融合技术为多数据集之间的跨模态迁移学习提供了桥梁,尽管迁移学习已广泛应用于多模态深度学习领域,但由于长期以来人工数据标注成本高和许多领域的标注数据资源稀缺问题,因此基于多模态融合的迁移学习仍是下一步将重点关注的方向。
3)目前深度学习多模态融合中的语义冲突、重复和噪声等问题仍未得到较好解决。虽然注意力机制可以部分处理这些问题,但其主要为隐式运行,不易受到主动控制。解决该问题的一种有效方法为将逻辑推理能力集成到多模态融合技术中,深度学习与逻辑推理的结合将赋予机器智能更多的认知能力。
4)多模态融合技术将在情感识别与分析领域发挥更大作用。目前利用多模态融合进行情感识别研究仍处于部分融合阶段,尚未建立一个情感分析的综合数据库,下一步可将人体的所有特征包括面部表情、瞳孔扩张、语言、身体运动、体温等进行多模态融合,以获得更全面、详细的情感识别结果。
5)多模态融合中的特征间语义鸿沟、模态泛化能力、多模态组合评价标准等关键问题仍将得到持续关注。为解决多模态特征的语义鸿沟,实现各模态信息的无障碍交流互通,需要探索更有效的语义嵌入方法。模态泛化能力是将已有模态上学习的多模态表示和模型推广到未知模态上,使机器具备高效、准确学习数据库外数据的能力。如何高效、规范地组合模态是一个从理论到具体算法都亟待解决的问题,并且还需设计一个更具普适性的评价标准来判定组合形式的优劣。
6)多模态深度学习的目标函数通常为非凸优化函数,目前的深度学习训练算法不能有效避开鞍点,导致寻优过程失败,使得研究人员无法获知是优化过程未找到最优解导致预测结果较差,还是其他模态融合和模态对齐中存在问题。针对该情况,需设计求解非凸优化问题的求解算法。
6 结束语
本文总结了深度学习领域多模态融合技术的研究现状,对融合架构、融合方法、模态对齐等进行重点分析。融合架构按照特征融合方式的不同,分为联合架构、协同架构和编解码器架构。融合方法包括早期、晚期、混合这3种与模型无关的方法以及多核学习、图像模型这2种基于模型的方法。模态对齐是多模态融合技术的难点,其常用处理方式为显示对齐和隐式对齐。近期在模态融合技术上的研究促进了大量新型多模态算法的提出,并且拓展了多模态学习的应用范围。这些模型和算法各有优缺点,可在不同领域应用中发挥优势和作用。多模态深度学习作为一种能使机器具有更多人类智能特性的技术,有望在今后获得长足发展。后续将针对模态语义冲突消解、多模态组合评价、跨模态转移学习等问题进行深入研究,促进多模态融合技术在深度学习等新兴领域的应用与发展。