基于深度学习的数据融合方法研究综述

2020-12-26程传祺徐志刚李建华

计算机工程与应用 2020年24期

张红，程传祺，徐志刚，李建华

1.兰州理工大学计算机与通信学院，兰州730050

2.兰州理工大学机电工程学院，兰州730050

1 引言

在大数据时代，数据的来源越来越广泛，数据类型也越来越多样化。但是，由于大数据的“5V”特性（Volume、Variety、Value、Veracity、Velocity），使人们难以充分挖掘大数据的隐含信息。因此，人们迫切需要有效的手段对多源异构数据进行融合，并挖掘出有价值的信息加以利用。数据融合技术作为一种重要的数据处理手段，有广泛的应用，如目标检测[1-3]、战场评估[4]、医疗诊断[5-7]、遥感测绘[8-10]、故障诊断[11-14]、智能制造[15-16]等。在智能制造领域中，数据融合技术有效地提高了人们对工业大数据的处理能力和利用效率。通过数据融合技术，对海量、高维、多源异构含噪声工业数据进行清洗去噪、集成建模与多尺度分类，为之后的关联分析、性能预测和优化决策提供可靠的数据资源支持。因此，数据融合技术有力地推动了应用领域的发展。

美国Joint Directors of Laboratories（JDL）数据融合小组曾从军事角度对数据融合做出描述：数据融合是一种多层次多角度的信息处理手段。在处理过程中，为了得到精确的状态判定、身份识别以及完整及时的态势与威胁评估，将多源数据进行一系列包括检测、结合、关联、估计和组合等操作[17]。Hall等人[18]认为“信息融合是将不同来源、不同时刻的信息自动或半自动地转换成能够为人为或自动决策提供有效支持的表示形式”。根据研究人员对数据融合技术的不同描述，可以将数据融合总结为：针对多个信息采集设备所提供的不完整、不精确信息，进行一定的综合处理和分析手段，得到对目标较为准确和完善的描述，为决策或判断做支持。在应用场景中，使用数据融合技术对多源数据进行处理存在诸多优势[19]，如多源数据具有对目标描述全面、数据互补的特点，对其进行融合操作能很好地提高决策可信度和模型的抗干扰能力；对多源数据进行融合，能够降低多源数据存在的冗余，减少了对存储资源的浪费，也减少了在传输数据时不必要的资源消耗。

2 研究现状

常用的数据融合方法可分为基于概率融合方法、基于Dempster-Shafer理论的融合方法、基于知识的融合方法等[20]。基于概率融合的方法包括贝叶斯推理[21-23]、卡尔曼滤波模型[24-26]以及马尔科夫模型[27-28]等，这类融合方法的核心数学理论是贝叶斯推理，通过引入概率分布和概率密度函数来表示随机变量之间的依赖关系，从而建立不同数据集之间的关系；基于证据理论的融合方法主要是D-S证据理论，D-S理论通过引入置信度和合理度来表示数据的不确定性，在动态的情况下进行推理，使用规定的融合规则进行数据融合。D-S 理论作为贝叶斯推理的推广形式，相较于贝叶斯推理，具有不需要获取数据的先验概率的优点；基于知识的融合方法包括支持向量机、聚类[29]等方法，这类方法认为数据中包含大量有用的知识信息，寻找数据中包含的知识以及度量知识之间的相关性和相似性，是这类方法的关键。

研究人员意识到常用的数据融合方法在对大数据进行融合时存在诸多弊端，如基于概率的融合方法存在难以获取先验概率、处理高维复杂数据困难的缺点；基于证据理论的融合方法存在质量函数难以估计的缺点；基于知识的融合方法对数据缺失和噪声数据敏感的特点。随着计算机运算硬件和数据处理技术的发展，计算设备的运算能力不再成为深度学习的障碍。这为深度学习在数据融合中的应用带来了新的发展机遇。深度学习能够根据训练数据进行自学习，而无需对每个要解决的问题具体编程实现。深度学习模型旨在对数据进行建模，以获得数据中的深层关联关系并建立知识框架，最终将模型用于预测、分类和特征提取等方面。近年来，研究人员尝试将深度学习运用到数据融合中，希望能够提高融合算法在处理大数据时的性能。

众多学者已经从不同的角度对数据融合方法进行归纳整理。如Alam等人[30]对物联网中数据融合的方法进行综述；Pires等人[31]对移动设备中传感器数据融合技术进行了系统的概述；Gite等人[32]对数据融合技术在上下文感知系统中的应用进行了深入研究；Meng 等人[33]系统地回顾了基于机器学习的数据融合方法在各领域的应用，并对基于机器学习的数据融合方法进行评价；Ding等人[34]从物联网安全和隐私保护角度，回顾了数据融合技术在其中的应用；Khaleghi 等人[35]从以数据为中心的角度，对数据融合方法进行了分类阐述，并且重点介绍了数据融合领域未来的发展方向；Zhang 等人[36]对基于深度学习的数据融合方法在多源异构数据中的应用进行了综述；Liu 等人[37]在对常用数据融合方法进行总结的基础上，概述了基于深度学习的城市大数据融合方法，也简要地讨论了多模式大数据融合存在的困难和一些解决思路。

从以上文献发现，研究人员从各种角度对数据融合方法进行了综述。但是，缺少对基于深度学习的数据融合方法进行系统的概括和总结。尽管Liu等人[37]对基于深度学习的数据融合方法进行了分类，并列举了在城市大数据融合中的应用，但是作者只关注了城市大数据融合背景下的相关文献，也缺少与传统数据融合方法的比较；而Zhang等人[36]仅是简单介绍了深度学习在大数据融合方面的应用，并未对方法进行评价和总结。随着深度学习在数据融合领域的不断发展，深入了解基于深度学习的数据融合方法的应用现状和未来发展趋势是至关重要的。

本文将对基于深度学习的数据融合方法进行详细的阐述和总结。首先，对传统的数据融合方法进行分类阐述，对传统的数据融合方法应用领域、存在的优点和不足进行简要总结；然后按照深度学习模型在数据融合过程中的参与阶段，对基于深度学习的数据融合方法进行归纳分类；最后将传统的数据融合方法与基于深度学习的数据融合方法进行比较，并指出基于深度学习的数据融合方法的难点和未来研究方向。本文的主要贡献如下：

（1）回顾了基于深度学习的数据融合方法在各种场景下的应用，并按照融合性能、资源消耗、模型复杂度等方面将其与传统的数据融合进行对比，着重讨论了两者在不同应用场景下的优劣。

（2）总结了部分基于深度学习的数据融合方法，并按照深度学习在数据融合模型中参与的阶段，将基于深度学习的数据融合方法分为基于深度学习特征提取的数据融合方法、基于深度学习融合的数据融合方法以及基于深度学习全过程的数据融合方法，并介绍了各类方法的结构特点。

（3）讨论了基于深度学习的数据融合方法存在的难点和未来值得研究的一些问题。

3 基于深度学习的数据融合方法

3.1 深度学习概述

深度学习是深度神经网络的统称，是由浅层神经网络发展而来。浅层神经网络通常由一个输入层、一个隐藏层和一个输出层组成，用Wx+b 来计算前一层输入的加权和，其中W 为权重向量，b 为偏置量，之后将加权和通过非线性激活函数，如tanh、sigmod和ReLU等得到后一层的输入。而深度神经网络的隐藏层则包含多个，较低层的隐藏层输出作为较高层隐藏层的输入。因此，深度神经网络能够学习到数据中更有效的特征表示。相较于浅层网络，深度神经网络能够更好地表示复杂的目标函数，具有更好的泛化性能，能够通过多个隐藏层提取数据的多层特征从而获得更多的信息。

深度神经网络比浅层神经网络具有更强的表示能力，由于深度神经网络的网络层增加使得非凸目标函数容易产生局部最优解。反向传播算法基于梯度下降，从初始化点开始寻找最优解，这通常会陷入局部极值，并且随着网络层增加而进一步恶化。因此，不能很好地求解深度神经网络问题，这也导致在20世纪80年代和90年代深度神经网络研究进展缓慢。在2006年Hinton教授[38]提出深度学习概念，并提出求解深度神经网络的贪婪逐层训练算法，这使得深度学习迅速发展，并在目标检测[39]、图像处理[40]、语音[41]等领域广泛应用，而深度学习在数据融合领域中的应用还是相对较新的研究。深度神经网络具有多个隐藏层和大量参数，适合描述不确定的复杂系统。深度神经网络的多层结构使得在海量数据特征提取方面更具优势[42]，并且所提取特征质量要远优于人工标注等方式获得的特征[43]。由于深度学习模型是模拟人类大脑的神经连接结构，在处理图像、声音等数据时通过多个变换阶段分层对数据进行描述，因此更适合处理海量异构数据。

3.2 基于深度学习的数据融合方法分类

深度神经网络（Deep Neural Network，DNN）优秀的特征表示能力，使其在数据融合领域有了较为广泛的应用。文献[36]将现有的基于深度学习的数据融合方法分为三类：基于深度学习输入的数据融合方法、基于深度学习输出的数据融合方法以及基于深度学习双阶段的数据融合方法，但是该文献中综述的模型偏向于对城市大数据的融合，因此该分类方法并不能很好地对基于深度学习的数据融合方法进行分类。本文将在上述文献融合模型分类方法的基础上，提出一种针对基于深度学习的数据融合模型的新的分类方法。该分类方法按照深度学习在数据融合中所参与的阶段，把基于深度学习的数据融合方法分为三种类型：基于深度学习特征提取的数据融合方法、基于深度学习融合的数据融合方法和基于深度学习全过程的数据融合方法，如图1 所示。在基于深度学习特征提取的数据融合方法中，深度学习主要参与数据融合中特征提取的阶段，融合阶段则是使用其他方法完成；基于深度学习融合的数据融合方法中，深度学习主要参与到数据融合阶段；在基于深度学习全过程的数据融合方法中，深度学习模型则是参与了数据融合操作的特征提取阶段和融合阶段，并且通常使用了不同的深度学习模型。

3.2.1 基于深度学习特征提取的数据融合方法

基于深度学习特征提取数据融合方法中，深度学习主要作用是提取数据的特征，融合操作可以在深度学习模型之后（特征级融合或决策级融合）也可以在深度学习模型之前（数据级融合）。

Liu等人[44]提出一种基于非下采样轮廓波变换（Non-Subsampled Contourlet Transform，NSCT）和卷积神经网络（Convolutional Neural Networks，CNN）的X 射线图像骨龄评估多尺度数据融合框架，并在该框架下提出基于特征级融合的回归模型和基于决策级融合的分类模型，分别如图2所示。在基于特征级融合的回归模型中，首先通过NSCT对X射线图像进行4级分解，获得丰富的底层特征；然后将提取出的底层特征输入进卷积模块，该模块由多个VGGNet-16网络构成，每一个由13层卷积层和5 个最大池化层组成，分别处理NSCT 的一级分解，以获得特征图；在融合阶段，将不同VGGNet-16神经网络输出特征图拼接，以实现特征级融合。基于决策级融合的分类模型主要包含4个模块：NSTC分解、分类、融合和估计。NSCT分解模块同样是通过对X射线图像分解得到底层特征；分类模块包含特征提取以及分类决策，在该模块中使用VGGNet-16 神经网络提取特征，然后将特征作为输入通过三层全连接层进行分类；在融合模块中，可以使用不同的融合规则对分类模块中的决策结果进行融合，在该文献中，作者给出了三种融合规则：元素最大值规则、元素均值规则和元素乘法规则。

图1 基于深度学习的数据融合方法分类

图2 基于NSCT和CNN的数据融合框架

元素最大规则：

其中，Pf,j为第j 个元素的融合预测，Pi,j为第j 个元素中第i 个源的预测结果，N 为原预测的个数，i,j ∈{1,2,…,N}。作者最后将该方法与最新的骨龄预测方法进行对比，结果表明该方法具有更好的性能。该方法不同于传统医学图像融合方法以原始图像作为输入，而是使用了NSCT对原始图像进行分解，既解决了医学图像样本少的缺点，同时通过图像分解也获得了图像在多个不同角度的特征，使得对目标的描述更加精确。该模型集成了多个VGGNet-16 卷积神经网络分别对NSCT 所分解的特征进行进一步特征提取，因此，这导致模型的复杂度较高，模型训练时间较长。作者指出基于特征级融合的回归模型和基于决策级融合的分类模型训练所消耗时间分别为14.61 h和4.14 h，测试集平均运行时间分别为22.69 ms 和35.36 ms。该模型为离线训练，因此模型部署后仍具有较好的实时性。此外，该方法虽然只在公开骨龄评估数据集上进行验证，但是同样适用于其他样本较小的医学图像融合，具有较好的扩展性。

Zhang 等人[45]提出一种基于多传感器数据融合和DBN（Deep Belief Network）的滚珠丝杠劣化检测识别方法，如图3所示。首先通过快速傅里叶变换（Fast Fourier Transform，FFT）将多个传感器采集的时域信号转换为对应的频域信号，并通过平行叠加的方式进行融合；然后将融合结果作为输入通过无监督学习的方式对DBN进行训练；最后使用Softmax 分类器进行分类。在该方法中，融合操作在深度学习模型之前，其融合过程如下所示：

步骤1使用n 个传感器采集不同位置的时域信号。

步骤2使用FFT 计算n 组时域信号对应的频谱{f(1)i,f(2)i,…,f(n)i},i=1,2,…,M ，其中M 为每组收集的退化样本数。

图3 基于DBN的多传感器数据融合模型

步骤3将这n 组频谱按照平行叠加的方式进行融合，得到融合后的频谱{Fi},i=1,2,…,M ，其中，Fi=f(1)i⋃f(2)i⋃…⋃f(n)i，然后将融合后的频谱进行归一化。融合后的频谱的维数为n 组频谱维度之和，即dim(Fi)=im(f(j)i)。

为了验证方法的有效性，作者将该方法与使用未融合数据集的DBN 方法进行对比，实验结果显示该方法在训练集和测试集上的表现出较好的准确性和稳定性。相对于单传感器信号，该文献使用的多传感器信号对故障描述更加全面、准确。DBN 从融合频谱中挖掘固有特征，并建立融合频谱和退化特征之间的非线性映射，有效降低了多传感器特征提取的难度，避免了特征提取不充分，导致的准确性较差的问题。同时，模型的深度结构和大量神经元，使得模型的训练时间相对于浅层神经网络等方法更长。若采取离线训练后对模型进行部署，仍能够保证模型的实时性。该方法采用信号处理常用的手段对传感器信号进行处理，因此，在多传感器数据融合领域有较好的扩展性。此外，该方法采取平行叠加的方式对数据进行融合，但是在传感器节点较少的情况下，并不能有效降低某节点传感器数据异常造成的影响。

Zhai等人[46]提出一种基于深度学习融合识别方法，通过合成孔径雷达（SAR）图像数据进行融合以提升目标识别准确度，其模型流程如图4所示。首先通过主成分分析（PCA）对SAR图像数据进行降维，并将其作为输入，通过堆叠自动编码器（Stacked Auto-encoder，SAE）来获取SAR 图像的深层特征；之后将经过预处理的SAR图像数据作为输入，使用CNN网络提取深层特征；然后将SAE提取的特征向量和CNN提取的特征向量直接拼接完成融合；最后将融合特征通过Softmax 分类器进行分类。实验结果表明，该方法能够有效避免噪声、背景和姿态角对目标识别模型的影响，提升了模型的鲁棒性。在该方法中，CNN网络具有较好的平移不变性，能够有效地提取SAR 数据的深层特征，并且对数据的背景和噪音具有较好的鲁棒性；使用PCA 和SAE 网络对添加随机高斯噪声的SAR 图像数据进行降维，使得模型具有较好的抗噪能力。但是，一维的PCA 特征缺失了图像的部分域信息，这导致目标识别的精度有所下降。该方法有效降低了姿态角、背景以及噪声等对检测结果影响，因此该方法在SAR 目标检测中具有较好的适应性和扩展性。

图4 基于SAE和CNN的数据融合模型

除了上述经典深度学习方法在数据融合中的应用，改进的深度学习方法也在数据融合中有广泛的应用。Zheng 等人[47]使用BPNN 和indRNN 提取数据的空间特征和时间特征，并通过全连接层对特征进行融合。该方法通过引入时间特征，大大降低了时间特征对产量预测的影响，降低了预测误差。

3.2.2 基于深度学习融合的数据融合方法

基于深度学习融合的数据融合方法中，深度学习模块的主要功能为对输入的数据进行融合。在实际应用中，该模块的输入数据可能是原始数据集，也可能是经过处理后的数据特征。尽管在此类方法中，深度学习模块主要起到数据融合作用，但是，通常在数据融合操作的同时具有一定的特征提取功能。

Chen等人[48]在故障诊断研究过程中，提出一种基于深度卷积神经网络的数据融合模型（DCNN），其模型结构如图5 所示。由于单个传感器采集的故障数据通常不太稳定且噪声影响严重，因此，作者提出在不同位置安装传感器，分别用来采集水平振动信号数据和垂直振动信号数据，这使得传感器数据对故障特征描述更加全面和准确。首先对水平振动信号和垂直振动信号进行重叠切片，并将同一时刻的切片信号进行组合，作为DCNN模型的输入；然后通过DCNN模型对组合后的切片信号进行融合，并同时完成对数据的特征提取；最后将融合后的数据特征通过Softmax层进行分类。由于使用两个传感器同时采集设备在水平和垂直方向上的信号，能够有效地消除噪声对所采集到数据的影响，并且使得传感器数据对设备状态的描述更加全面。通过对同时刻的传感器信号数据进行切片组合也能很好地保留不同传感器之间的时间相关性。文献通过实验证明了将两个传感器数据融合后进行故障诊断能够获得更好的诊断效果。此外，通过在多个数据集上与支持向量机（Support Vector Machine，SVM）、BP 神经网络（Back Propagation Neural Network，BPNN）等浅层网络对比，结果表明通过引入DCNN 数据融合方法使得检测模型具有更好的检测性能和扩展性。该方法充分体现了基于深度学习数据融合的优势，即DCNN模型具有的非线性映射能力，能够进行特征自动提取并通过数据融合提高模型鲁棒性。但是，DCNN模型的特征学习能力与神经网络层数成正比，而深层网络结构意味着需要更多的训练数据和大量待训练参数，模型的训练时间也会更久。但是通过离线训练后部署模型，仍能够使模型具有不错的实时性。此外，该方法对噪声数据并未进行预处理处理操作，因此该方法有进一步研究的空间。

图5 基于深度卷积神经网络的数据融合模型

Wu等人[49]提出一种基于深度长短时记忆神经网络（Deep Long Short Time Memory，DLSTM）数据融合预测模型，用于对设备剩余使用寿命预测。该模型以LSTM神经单元为基础，多个LSTM神经单元构成LSTM层，DLSTM模型通过多层LSTM层进行叠加构成，其结构如图6 所示。相较于单传感器数据使用多个传感器数据进行预测，能够提高预测的准确性和可靠性。在DLSTM模型中，将多传感器数据构造成为二维矩阵，矩阵中的行数和列数分别为k 和T ，其中k 为传感器数量，T 表示对单个传感器采样数据量。模型的输入层神经元为所选传感器信号的数量，即k。多个LSTM层堆叠构成DLSTM模型对多传感器数据进行融合并提取深层特征，不同的LSTM 层在空间上相连，数据从上层神经元输入到下层神经元，每个LSTM层的LSTM神经元之间进行信息交换。因此，通过在层之间以及神经元之间的连接，DLSTM 模型能够很好地挖掘多传感器数据之间的长期依赖关系。文献通过实验验证了基于DLSTM 数据融合预测模型的预测准确率有明显提高，并且模型的鲁棒性也有很大提高。DLSTM模型层与层之间、神经元与神经元之间的信息交换，使其能够更好地对多传感器数据进行融合。但是，DLSTM 网络结构复杂、待训练参数较多，因此，DLSTM 网络的训练过程较为复杂且漫长，而且对运算设备的计算能力要求更高。该方法的平均在线计算时间为0.18 s，实时性满足实际应用要求，并且该方法具有较好的多传感器融合能力，可以广泛应用于工业领域中，具有较好的扩展性。

图6 DLSTM数据融合模型结构

Li等人[50]为解决在多源数据融合故障诊断中，数据融合困难的问题，提出一种基于卷积神经网络的自适应数据融合方法，该方法基于卷积神经网络的自适应卷积核设计自适应数据融合层，之后提出基于空洞卷积的一维卷积神经网络对融合数据特征进行提取。该方法有效降低了多源数据的融合难度。Fu 等人[51]提出一种基于残差网络的多尺度特征融合卷积神经网络（MCFFCNN），用于车辆颜色识别。MCFF-CNN通过组合不同的网络层的输出特征实现图像特征的多尺度融合，同时将深层网络和浅层网络的输出特征融合，从而获得车辆图像的更深层特征。该方法能够很好地识别出不同光线条件下车辆颜色，方法具有很好的鲁棒性。

3.2.3 基于深度学习全过程的数据融合方法

基于深度学习全过程数据融合方法的特征提取阶段以及数据融合阶段都使用深度学习模型。在该类模型中，特征提取和数据融合既可以使用相同类型的深度学习模型，也可以使用不同类型的深度学习模型。

Du 等人[52]提出一种基于CNN 模型、GRU（Gated Recurrent Unit）模型和自适应多模态联合模型的深度学习框架，用于对短时交通流量进行预测，框架结构如图7 所示。该模型中的CNN 模型用于学习序列数据局部趋势的空间表示，GRU 模型学习长期依赖特征的时间表示，之后将提取出的时间相关特征和空间相关特征，通过带注意力机制融合层进行初步融合。该过程表示如下：

其中，Si和Ti分别表示输入数据集Ii通过N模型C 和GRU 模型G 得到的空间和时间相关特征，MA 表示带有注意力机制的特征融合层，Ri表示时间相关特征和空间相关特征Ti和Si的共享表示。至此，仅完成单一模式数据类型的融合。为了完成多模式数据类型融合，作者提出一种自适应多模态融合层，融合表示如下：

其中，JM 表示自适应深度学习框架，π 表示不同时空相关特征Ri的融合特征表示，i 表示模态数量，Wi和bi表示模型权重和偏置。在该文献中，模型通过CNN和GRU获得交通数据的深层次非线性相关特征并进行融合，充分考虑了不同交通流数据之间的相关性，有效地提高模型的鲁棒性和预测精度。由于模型很好地挖掘数据时间和空间特征，因此在多模式相关数据融合方面具有较好的扩展性。该方法组合多种深度学习模型，具有复杂的网络结构和较多待学习参数，因此，该模型训练较为耗时，并且模型对所部署设备的运算能力要求较高。此外，文献对模型的实时性并未进行评价，但是实时性是短时交通流预测较为重要的指标，因此，还需对模型的实时性做进一步研究。

图7 基于CNN、GRU和自适应多模态联合数据融合模型

Hu等人[53]提出一种基于联合监督损失和多层特征融合的深度学习判别模型（DDFLJM），该模型由两部分构成：特征提取网络（FEN）和特征融合网络（FFN），该模型简易结构如图8 所示。在FEN 中，采用Inception-Resnet-v1作为骨干网络来快速提取输入数据的低维特征表示，并在引入两个降维块（Dimension Reduction Block，DRB）以充分利用深度网络中间层的辅助特征，其中DRB 的输入为Inception-Resnet-v1 网络的中间层输出，在该部分能够得到数据的低维特征表示（嵌入特征）和辅助特征。在FFN 中，特征的融合主要通过MGTNN（Modified Gated Two-stream Neural Network）进行特征融合，MGTNN 是一个八层深度网络，相较于GTNN（Gated Two-stream Neural Network），MGTNN 通过增加MFM（Max Feature Map）激活层来进一步降低嵌入特征和辅助特征的维度，进而减少特征包含的冗余信息，并通过添加ReLU 激活层来增加融合网络的非线性。因此，MGTNN能够充分利用嵌入特征和辅助特征之间的互补信息完成对特征融合，最终获得融合特征。文献通过实验说明了，对嵌入特征和辅助特征进行融合能够有效提高模型的识别精度，并且模型的鲁棒性也有较为明显提高。该方法的网络结构复杂，，参数变化对结果的影响较大，模型训练困难，耗时较长。此外，该模型网络层数较多，对该模型训练时需要较多的训练样本，否则易出现过拟合问题。因此，该方法虽在人脸识别领域有较好的识别效果，但是由于模型自身网络特点限制，该模型的扩展性有限。

图8 DDFLJM数据融合模型

除了上述典型的深度学习模型在数据融合中的应用，很多研究人员对深度学习模型进行改进，将其应用在数据融合领域。Xu 等人[54]为有效融合多传感器数据，基于CNN 模型设计并行卷积神经网络（Parallel Convolutional Neural Network，PCNN）用于多传感器数据的特征提取以及特征融合，然后将融合特征以此通过CNN、ResNet、Bi-LSTM获得时间依赖和空间相关性，从而有效提高融合质量和决策精度。Zhang等人[55]提出医学图像样本偏少，但是含有丰富的信息，使用传统深度学习方法处理已过拟合。为解决该问题，作者提出一种跨模态特征学习框架。通过GAN神经网络来获取图像的不同模态特征，之后通过构建的新型深度神经网络对多模态特征进行深度融合，该方法不仅解决了样本少导致模型训练困难的问题，提高了模型的预测精度，同时模型在医学图像领域具有较好的扩展性。

3.3 总结与比较

通过对上述基于深度学习的数据融合模型分析发现，深度神经网络具有强大的非线性表达能力，使其能够充分挖掘多源数据之间的深层抽象特征，避免了因特征提取不充分导致的影响模型输出精度降低的问题；深度学习具有的自学习能力，使其能自主获得多源信息之间的相关性，并按照相关性进行充分融合；基于深度学习的数据融合方法在计算能力较强的设备上运行时，具有很好的实时性，能够满足相关领域的实时性要求。因此，基于深度学习的数据融合方法相较于传统数据融合方法具有更好的性能。虽然深度学习在数据融合领域具有较好的应用前景，但是，深度学习模型的自身特点也一定程度上限制其应用。目前，大多数深度学习算法为了提高网络的非线性表达能力而增加模型的深度和网络复杂度，但同时也增加了模型的参数和模型的训练难度，运算资源消耗也进一步提高。因此，基于深度学习的数据融合方法在传感器网络节点、可移动终端等小型设备并不适用。最后如表1所示，本文从深度学习方法、融合数据类型、实时性、扩展性以及资源消耗等方面对本节中提到的基于深度学习的数据融合方法进行归纳总结。

表1 基于深度学习的数据融合方法总结

通过对近年来关于数据融合文献的详细阐述和分析，发现无论是传统的数据融合方法还是基于深度学习的数据融合方法都已经得到了广泛应用。传统的数据融合方法和基于深度学习的数据融合方法在算法本质上存在不同，这也导致两者在应用场景、融合思路等方面存在差异。传统的数据融合方法在对数据进行特征提取时，通常采用专家制定提取规则或人工标注等方式进行，因此适合处理小规模数据集。但是人工提取特征会导致提取的特征不全面，无法进一步挖掘多源数据间存在的关联关系，使得决策精度降低。在实时性方面，传统数据融合方法复杂度相对较低，具有更好的实时性。基于深度学习的数据融合方法具有自学习能力和非线性特点，能够自动挖掘数据的相关特征，因此在对海量数据进行融合时具有优势。但是基于深度学习的数据融合方法的复杂度较高，训练模型较为费时并且对计算设备的计算能力要求较高。传统的数据融合方法与基于深度学习的数据融合方法比较总结如表2所示。

4 结论与展望

本文对基于深度学习的数据融合方法进行了较为全面的综述。首先对传统的数据融合方法和深度学习方法进行简单概述；然后，将基于深度学习的数据融合方法按照深度学习在数据融合中所参与的阶段，分为基于深度学习特征提取的数据融合方法、基于深度学习融合的数据融合方法和基于深度学习全过程的数据融合方法，并对每种方法的形式分别进行描述。最后将传统的数据融合方法和基于深度学习的数据融合方法进行对比，并根据基于深度学习的数据融合方法的特点进行分析，提出了其目前存在的难点以及未来需要研究的方向。

表2 常用的数据融合方法与基于深度学习数据融合方法比较

4.1 基于深度学习的数据融合方法难点

在数据量愈加庞大的时代，数据融合技术借助深度学习得到进一步发展。基于深度学习的数据融合也成为最有发展前景的数据融合方法。但是，基于深度学习的数据融合方法仍存在一些难点。

（1）异构数据

多源异构数据通常具有不同的数据表示方式、数据单位、数据密度以及数据分布，这也体现了数据的多模态。目前，融合数据类型较为丰富，包括结构化数据、非结构化数据和半结构化数据。异构数据特征表示的差异性是数据融合的难点。此外，异构数据具有高维或超高维特性，而高维数据的特征表示对数据融合方法也具有挑战性。如何对多源异构数据提取特征并对多模式特征进行融合是需要进一步研究的问题。

（2）数据融合模型训练

基于深度学习的数据融合方法通常具有较为复杂的网络结构，模型复杂度较高。而这些方法在进行训练时，对计算机运算设备的要求也较高，如3.2 节中，模型训练使用的硬件资源有NVIDIA GTX 1080Ti[44]、NVIDIA Tesla K80[52]、NVIDIA Quadro K4200[48]等。因此，基于深度学习的数据融合方法只有在消耗大量计算资源的情况下才能确保有效性，这也导致基于深度学习的数据融合方法在传感器等小型设备上并不适用。目前，关于提升深度学习训练效率的方法主要分为两类：计算优化、硬件优化[56]。计算优化包括模型结构优化、模型剪枝、模型量化等措施，尽可能减少模型计算量，进而寻求模型效果和效率的平衡。硬件优化主要是通过增加硬件计算资源或提高硬件的计算速度来提升训练效率。如何对基于深度学习的数据融合方法进行计算优化减少计算量，从而减少对高性能计算设备的依赖，扩大方法的应用领域，是基于深度学习的数据融合方法未来需要解决的问题。

4.2 基于深度学习的数据融合方法展望

尽管基于深度学习的数据融合方法在应用中还存在一些困难，但是对其进行进一步研究与应用却是至关重要的。通过对基于深度学习的数据融合方法的难点进行分析，从难点的本质入手对其进行进一步研究。

（1）异构数据融合研究

异构性是大数据的主要特征之一，而异构性不可避免会导致数据特征存在差异。如何完成对异构数据的关联、交叉，最终获得数据间的相关关系，这是对异构数据融合研究的重点。通过对基于深度学习的数据融合方法文献的分析后发现，目前已有研究人员对异构数据融合进行研究。例如，Rodrigues等人[57]提出一种针对时间序列数据和文本数据的数据融合模型，使用不同的深度学习模型学习不同数据的特征并融合。在已有研究工作的基础上，可以对异构数据的特点进行分析，通过多模型融合的方式来实现多任务集成的深度学习，并通过挖掘所得的多源异构数据关联关系实现融合，获得数据的共享表示。

（2）基于深度学习的数据融合方法训练效率

深度学习复杂的网络结构使其具有很好的数据处理能力，但是也带来了一系列的问题。例如，训练模型需要大量数据、训练模型对设备的计算能力要求高、训练模型所耗费的时间较长等。这些问题也制约了基于深度学习的数据融合方法发展。目前，关于提高深度学习模型训练效率主要在两个研究方向：其一为增加计算资源，该方法最为有效，但是并不能解决关于模型训练的根本问题；另一个方向为对模型网络结构进行压缩或对网络参数进行量化，这类方法能从根本上解决网络结构复杂带来的一系列问题，但是这类优化操作较为依赖人工经验，费时费力。因此，让模型在训练过程中自动完成对网络结构优化，是提升基于深度学习的数据融合模型训练效率有效的手段，值得进行深入研究。

（3）数据融合评价体系

对数据融合模型的评价应是全面且有充分的依据作为支撑。现阶段大部分数据融合方法的评价是以基于模拟或理想化的假设进行的，这使得很难对模型的实际应用效果做出评价。Laere[58]在有关数据融合模型评价的综述文献中，讨论了在实际应用中数据融合性能评估挑战。在对52 篇数据融合相关文献研究后发现，只有约6%的研究工作是基于实际应用场景对融合模型进行评估的。脱离实际场景对模型进行评价，会使得研究人员更加注重模型在理想化条件下的表现，而忽略模型在实际应用场景中的性能，阻碍数据融合技术的发展与应用。因此，建立合理的数据融合评价体系，对模型评价过程进行规范化是数据融合重要的研究方向。

（4）数据融合模型安全性

目前，大多数针对数据融合的研究注重于提高融合方法的性能，而鲜有对模型安全的相关研究。在数据融合的特殊应用领域，如军事领域，迫切需要安全的模型来完成对军事数据的融合。现阶段，模型的攻击通常发生在模型的训练或预测阶段，攻击者通过不同手段对模型的输入、输出做出恶意修改或通过某种手段窃取模型的内部参数，从而破坏模型的保密性、完整性。保密性攻击手段主要有：通过构造恶意模型窃取敏感信息；根据预测信息破解模型参数，通过模型逆向获得近似原始数据的数据[59]。完整性攻击主要通过对输入数据的修改来影响模型的性能。在模型训练阶段，攻击者对训练数据增加干扰，影响训练过程从而降低模型的准确性，该阶段常见的攻击手段为数据投毒攻击。在模型预测阶段，攻击者也可以对待预测数据进行修改，从而使模型预测出现错误，常用的攻击手段为对抗样本攻击。在设计数据融合模型时，为保证模型的安全性和可靠性，应该考虑会对模型发起攻击的手段以及攻击强度。目前，大多数数据融合模型在设计时并未过多考虑攻击者，使得在实际应用中模型抗攻击能力很弱。因此，模型的安全性是数据融合领域亟待进一步研究的方向。