APP下载

深度融合多视图聚类网络

2023-09-27何子仪张熠玲

计算机应用 2023年9期
关键词:视图编码器特征提取

何子仪,杨 燕,张熠玲

(西南交通大学 计算机与人工智能学院,成都 611756)

0 引言

聚类分析作为机器学习、模式识别、计算机视觉和数据挖掘等领域的一项重要的基本任务,学者们在这一课题上已经做了大量的研究工作[1]。但是随着大数据和科学技术的发展,获取到的数据不只存在一个方面的描述,例如,对于一张图片,可以采用SIFT(Scale-Invariant Feature Transform)、HOG(Histogram of Oriented Gradient)、LBP(Local Binary Patterns)等不同方法进行描述;同理,对于一个人,不同的人也会对他作出不同的评价,这种来自不同角度的描述被视为多视图数据。针对多视图数据进行的多视图聚类(Multiview Clustering)[2]也成为了目前学者们研究的重要领域,其关键之处在于如何利用不同视图数据之间的共识信息和互补信息提高聚类的性能。

共识原则和互补原则是多视图聚类的两个基本概念:一方面,由于多个视图恰好是同一对象的多个映射,共识原则寻求在多个视图中对同一对象的多个预测保持一致;另一方面,由于不同视图的多样性,互补原则旨在综合利用各视图的互补信息,作出更好更全面的预测。传统的多视图聚类方法大多以机器学习为基础,利用浅层线性嵌入函数来获得数据的内在结构,忽略了数据的非线性特征[3]。

随着深度神经网络的发展,学者们从中受到启发,将深度学习应用于多视图聚类,目前的多视图聚类方法可以分为四类:1)基于典型相关性分析的多视图聚类[4-5],关联两个相关视图,探索有利于聚类的信息;2)子空间聚类[6-9],找到一个公共的低维潜在子空间,该子空间捕获了不同视图之间最可能的一致性,从而获得谱聚类的相似度矩阵;3)基于矩阵分解的多视图聚类[10-11],此类方法在非负矩阵分解(non-Negative Matrix Factorization,NMF)框架中结合多视图信息,学习了聚类常用的指标矩阵;4)基于图的多视图聚类方法[12-13],利用多个视图的信息构造用于聚类的图。

在这些多视图聚类方法中,多视图子空间聚类凭借良好的聚类性能和出色的计算效率受到了广泛关注,学者们提出了许多出色的方法,例如基于统一判别学习的深度多视图子空间聚类[14]、基于自表达的深度多视图子空间聚类[15]与基于典型相关性分析的深度多视图子空间聚类[16]。

尽管这些深度多视图子空间聚类取得了令人印象深刻的结果,但仍然面临着两个问题:1)在对单一视图进行特征提取时,只考虑了数据本身的特性,即样本的属性信息,很少考虑数据的潜在结构,而样本之间的关系,即样本的结构信息往往能够揭示样本之间潜在的相似性,为表示学习提供有价值的指导;2)整个模型包含特征提取和聚类两个独立的过程,而这两个过程之间没有设计联系,即聚类任务无法为特征提取过程提供监督信息,导致特征提取的结果不能朝有利于聚类过程的方向优化。

本文提出了一种深度融合多视图聚类网络(Deep Fusion based Multi-view Clustering Network,DFMCN)来解决上述问题。主要工作如下:

1)针对每个单一视图的特征提取过程,结合自编码器和图卷积自编码器的优点,将样本的结构信息和属性信息都应用到自表示学习过程中,有助于获取更好的自表示结果。

2)有效融合多视图信息并设计双层自监督模块,既考虑每个样本之间的互补信息,对每个视图独立监督,又考虑样本之间的共识信息进行整体监督,从而利用聚类过程优化特征提取过程和视图融合过程。

1 相关工作

1.1 深度聚类

传统的聚类方法核心是计算数据之间的距离或者相似性,如K-Means 通过计算给定特征空间中点之间的欧几里得距离进行聚类,这些方法没有利用聚类过程优化特征空间的提取过程。因此,深度嵌入聚类(Deep Embedded Clustering,DEC)[17]被提出,它利用软分配的思想,将KL 散度(Kullback-Leibler divergence)作为发散损失,使自动编码器学习到的表示更靠近聚类中心,提高聚类的内聚性。在此基础上,改进的深度嵌入聚类(Improved DEC,IDEC)[18]将重建损失添加到DEC 的目标中,帮助自动编码器(Auto-Encoder,AE)学习更好的数据表示的约束;结构化深层聚类网络(Structural Deep Clustering Network,SDCN)[19]首次将自动编码器和图卷积网络(Graph Convolutional Network,GCN)模块相结合,在特征提取时融合样本的属性信息和结构信息,以提高聚类性能;深度融合聚类网络(Deep Fusion Clustering Network,DFCN)[20]在SDCN 的基础上,提出了更优秀的信息融合模块来集成和细化AE 和GCN,使来自两个子网络的信息被精细地合并以达成一致,并学习更多的区分表示。

1.2 深度多视图聚类

基于典型相关分析(Canonical Correlation Analysis,CCA)的深度多视图聚类的关键点在于寻找两个最大相关随机向量的线性投影。Andrew 等[4]首次开发了深度典型相关分析(Deep Canonical Correlation Analysis,DCCA)方法,学习两个视图的非线性变换,探索它们之间的线性相关表示;Wang 等[5]在DCCA 基础上进行改进,提出了深正则相关自编码器(Deep Canonically Correlated AutoEncoder,DCCAE)。子空间聚类是多视图聚类方法中关注度较高的研究方向,它的核心思想是从多个子空间组成的数据中发现固有的聚类结构,Abavisani 等[6]将深度学习应用于多模态子空间聚类;Brbić 等[21]提出一种多视图稀疏子空间聚类方法,结合了卷积自动编码器和基于CCA 的自表示模块;Wang 等[14]提出基于统一判别学习的深度多视图子空间聚类,将全局和局部结构与自表示层相结合。此外,在深度多视图聚类领域,学者们还在探索与其他方法结合的可能性,Li 等[22]将对抗学习引入深度多视图聚类,提出深度对抗多视图聚类网络(Deep Adversarial Multi-view Clustering Network,DAMCN);Xu 等[23]提出一种协同训练策略,使所有视图的特征表示和聚类分配通过协作进行学习;Pan 等[24]提出基于对比学习的深度多视图聚类。

本文采用深度聚类方法中利用KL 散度作为聚类损失的思想,设计了一种端到端的深度融合多视图聚类网络(DFMCN),在视图的融合嵌入空间中进行聚类,并在聚类过程中对特征提取过程进行监督。

2 深度融合多视图聚类

2.1 符号与问题定义

给定一个具有v个视图的数据集X={X1,X2,…,Xv},其中:Xv⊂Rdv×n,n代表样本数量,dv表示在第v个视图中样本的维度。DFMCN 包含了一个融合特征提取模块、视图融合模块和一个双层自监督模块,网络模型如图1 所示。其中:EAE、EIGAE分别为自编码器和改进的图卷积自编码器;DAE、DIGAE分别为它们的解码器。

图1 DFMCN的框架Fig.1 Framework of DFMCN

2.2 融合特征提取模块

现有的深度多视图聚类网络在进行特征提取时大多都单独采用全连接的自编码器或者图卷积自编码器,这样得到的结果无法做到既考虑样本的属性信息又考虑样本之间的结构信息,因此在融合特征提取模块,参考DFCN[20],将自编码器与图卷积自编码器相结合,做到融合特征提取。

为了获取样本的结构信息,利用属性信息Xv构造K-近邻(K-Nearest Neighbor,KNN)图。首先计算样本的相似度矩阵S∈Rn×n,矩阵中的每个元素Sij的计算公式如下:

在计算相似度矩阵S后,选择每个样本的前K个相似点作为邻居,构造一个无向K-近邻图,从非图数据中得到邻接矩阵A∈Rn×n代表该样本的结构信息。这种获取非图样本结构信息的方式在文献[19-20]中已经得到了验证。邻接矩阵归一化为,计算公式为:

其中:D∈Rn×n为A对应的度矩阵;I∈Rn×n为单位矩阵。

为了更好地结合样本的属性信息和结构信息,利用一种对称改进的图形自动编码器(Improved Graph AutoEncoder,IGAE)同时重构样本的加权属性矩阵和邻接矩阵,编码器和解码器公式如下:

其中:W(l)和分别代表编码器和解码器的可学习参数;σ为非线性激活函数。为了优化IGAE 的性能,将重构损失设置如下:

其中,γ为超参数,用于平衡两种损失的权重。Lw和La分别为:

最后利用针对DFCN 中提出的结构与属性信息融合(Structure and Attribute Information Fusion,SAIF)模块对每一个视图中提取到的结构信息和属性信息进行融合,得到了不同视图的嵌入空间用于后续多视图聚类。

2.3 视图融合模块

由于视图间存在互补信息,因此设计一种合理的视图融合模块可以有效利用每一个视图中的信息提高后续聚类的性能。考虑到视图之间的数据存在着差异,如果选择简单的平均法可能无法得到有利于聚类的融合嵌入空间,因此需要权衡每一个视图对后续聚类的贡献,使有利于后续聚类的视图获得更高的权重,具体融合公式如下:

其中:wv为可优化的加权系数的初始化依赖于预训练结果,通过预训练结果可以权衡不同视图在融合时可能对融合嵌入空间中进行的最终聚类过程提供有效信息的程度,将wv添加进优化器,随着聚类过程不断更新以获取更有利于聚类的融合嵌入层。

2.4 双层自监督模块

为了使聚类过程与特征提取和视图融合过程产生联系,引入KL 散度作为发散损失,使特征提取和视图融合模块得到的最终嵌入空间能够向更有利于聚类结果的方向优化。首先计算融合嵌入空间上的目标分布,过程如下:

首先,对应式(9),运用t分布计算融合嵌入空间第i个样本到第j个预计算得到的聚类中心uj的相似度,t是t分布的自由度,在实验中将它设置为1,qij是将样本i分配给聚类中心uj的概率,对应图1 中Q,可称它为软分配。为了提高聚类纯度并规范化每个质心的损失贡献,将目标分配定义为pij,对应图1 中P,如式(10),通过这种方式,可以提高数据分布的集中度,提升多视图聚类表示结果。

在计算得到融合视图嵌入空间的软分配qij以及目标分布pij后,再计算每个视图的嵌入空间的软分配和目标分配为了使聚类过程能有效监督特征提取和视图融合过程,引入两种KL 发散损失,即双层自监督机制,其中:第一层为区别自监督层,利用每个视图的目标分布监督自身t分布,可以被视为视图特定聚类损失;第二层为共同自监督层,计算融合嵌入空间中的KL 散度,将它视为公共聚类损失,能在反向传播过程中优化融合嵌入空间,提升融合嵌入空间中的聚类效果。最终公式为:

其中,k为预定义的权重参数,为了使聚类损失着重优化融合嵌入空间的目标分配,提高在融合嵌入空间的聚类性能。

在式(11)中,视图特定聚类损失在反向传播对每个视图嵌入表示进行优化,同时利用公共聚类损失能优化融合嵌入空间的聚类效果,并在反向传播过程中对视图融合过程进行监督。由于目标分布是在没有人工引导的情况下生成,因此将损失函数称为双层聚类损失。

整个模型的损失函数可以总结为:

其中:前两项为重构损失,最后一项为聚类损失;λ为预定义的超参数,为了平衡重构与聚类之间的重要性。

3 实验与结果分析

为了验证DFMCN 的有效性,分别在3 个多视图数据集上,与8 个现有方法进行了对比实验。采用准确率(Accuracy,ACC)[17]、标准化互信息(Normalized Mutual Information,NMI)[17]作为评价方法聚类的效果。

3.1 数据集

为评估DFMCN 的性能,在FM(Fashion-MNIST)[25]、HW(HandWritten numerals)[26]与YTF(YouTube Face)[27]数据集上实验,其中,FM 和YTF 数据集参照Wang 等[14]的处理方法,这些数据集的详细信息如表1 所示。

表1 数据集详细信息Tab.1 Detailed information of datasets

FM:由各类时尚产品组成。使用原始图像特征作为一个视图,提取的时尚产品的边缘特征作为另一个视图。

HW:手写数据集,由2 000 个数据样本组成,从0~9 这10个数字中分为10 个类别,每个类别具有200 个数据。本文采用76 维的字符形状的傅里叶系数和216 维的轮廓相关性作为两个不同的视图。

YTF:选择YTF 数据集的前41 个主题,裁剪图像中的面,然后将它的大小调整为55×55。将原始RGB 图像作为一个视图,原始RGB 图像转换成的灰度图像作为另一个视图。

3.2 对比方法

本实验对比了以下8 种方法。

K-Means:常用的机器学习聚类方法,以样本之间的欧氏距离为衡量标准,距离越近,样本间相似度越高。

DEC[17]:基于软分配思想的深度聚类方法,通过自编码器获得样本的嵌入空间进行聚类,并将KL 散度作为发散损失优化嵌入空间提取过程。

DFCN[20]:结合自编码器与图卷积自编码器,在获取嵌入空间时融合样本属性信息和结构信息,提出三重自监督机制,利用KL 散度优化自编码器、图卷积自编码器以及融合模块。

DMJC(Joint framework for Deep Multi-view Clustering)[28]:定义了一个多视图辅助目标分布,进行多视图融合。

DCCA[4]:一种基于典型相关性分析的深度多视图聚类方法,学习两个视图的非线性变换,探索它们之间的线性相关表示,联合学习两种变换的参数,最大化总相关性。

DCCAE[5]:在DCCA 基础上提出的一种新模型,由两个自编码器组成,并根据CCA 和基于重建的目标,优化了学习的“瓶颈”表示之间的规范相关性组合以及自动编码器重建误差

DMSC[6]:基于CNN 的无监督多模态子空间聚类。

CMSC-DCCA(Cross-Modal Subspace Clustering via Deep Canonical Correlation Analysis)[16]:将相关约束与自表达层相结合,充分利用模态间数据和模态内数据之间的信息。

3.3 实验设置

DFMCN 在PyTorch 1.8 平台和NVIDIA 3070 GPU 上实现,训练包括三个步骤:首先,通过最小化重建损失函数,对每个视图都利用AE 和IGAE 分别进行30 次迭代的预训练;然后,将两个子网络集成到统一的框架中,对每个视图分别再进行100 次迭代,预训练完成后,在完整模型中通过K-Means 算法预计算每个视图的初始嵌入空间聚类中心以及初始融合视图嵌入空间的聚类中心,用于计算目标分配,并在后续聚类过程中通过双层自监督模块的聚类损失优化特征提取得到的嵌入空间从而对特征提取过程进行优化,对整个网络进行至少200 次迭代训练,直到收敛;聚类的最终结果在融合嵌入空间中利用K-Means 算法得到,重复每个实验10 次,并取平均值作为实验结果。参数设置方面,式(5)中的γ参照DFCN[20]中的建议设为0.1;式(11)中的权重参数k设为0.1;式(12)中λ设为10。所有可训练参数均采用Adam优化器优化,对不同数据集的学习率分别设置为:FM 数据集第1、2 视图分别为10-3、10-2;HW 数据集第1、2 视图分别为10-3、10-2;YTF 数据集中第1、2、3 视图分别为10-3、10-2、10-2,3 个数据集在KNN 算法中的相邻节点个数均为5。

3.4 实验结果分析

不同方法在3 个数据集上的对比结果如表2 所示,最优结果加粗表示。可以看出:

表2 不同方法在3个数据集上的聚类效果对比 单位:%Tab.2 Comparison of clustering effects of different methods on three datasets unit:%

1)在FM 数据集上,与次优的CMSC-DCCA 方法相比,DFMCN 的ACC 提高了1.80 个百分点;NMI 取得了较高的结果,比除DMSC 和CMSC-DCCA 的其他对比方法提高了1.26~14.84个百分点。

2)DFMCN 在HW 数据集上的提升最显著,与次优的DMSC 相比,ACC 提升6.11 个百分点。并且DFCN 在该数据集上也展现了良好的聚类效果,而DEC 在该数据集上表现一般,说明样本之间的结构信息具有很重要的价值,验证了在进行特征提取时融合样本属性信息和结构信息的重要性。

3)DFMCN 在YTF 数据集上提升较少,与CMSC-DCCA 相比ACC 只提高了0.10 个百分点。原因在于YTF 数据集中数据的维度很高,融合特征提取模块无法很好地将样本的属性信息和结构信息融合在一起,导致最终得到的嵌入空间不能充分表达原始数据的特征。

图2 展示了DFMCN 中ACC 和NMI 在3 个数据集上随迭代次数变化的趋势。可以看到,在YTF 数据集上ACC 和NMI都具有一定的波动,因为YTF 数据集维度较高,特征提取的鲁棒性不及前两个数据集,并且数据的类数较多,聚类难度高于前两个数据集。

3.5 消融实验

为了探究DFMCN 各部分对深度融合多视图聚类任务的贡献,本文设计了消融实验。消融实验选择在无融合特征提取模块和无双层自监督模块两种情况下进行,并与完整的模型进行对比,结果见表3。可以看出,与完整模型相比,其他缺失模型在聚类效果上均有所衰退,其中,无融合特征提取模块对结果的影响最大,验证了在特征提取过程中融合样本属性信息和样本结构信息的重要性,说明了融合特征提取模块的有效性。

表3 消融实验结果 单位:%Tab.3 Results of ablation experiments unit:%

3.6 参数分析

视图融合模块中对于不同视图权重的设计会对融合视图的聚类性能造成很大的影响,因此本节针对两个双视图数据集展示不同权重设计下的聚类结果,如图3 所示。

图3 不同数据集上不同权重设计下的聚类性能对比Fig.3 Comparison of clustering performance under different weight designs on different datasets

在图3 中:w1代表第1 视图的权重。当w1为1 或0 时分别代表只有第1 视图或只有第2 视图参与聚类;第1 视图为两个视图中在预训练过程中展现出更好聚类效果的视图。从图3 可以看到:当只有第1 视图时的聚类效果明显优于只有第2 视图的聚类效果。因此在融合过程中,当第1 视图获得的权重越大时聚类效果也越好。值得注意的是,融合视图的聚类效果优于只有单个视图的情况,因此也验证了加权融合策略的有效性。

4 结语

本文提出一种深度融合多视图聚类网络DFMCN。首先,利用自编码器与图卷积自编码器结合获得融合了每个视图样本结构信息和属性信息的嵌入空间;然后,通过加权融合得到融合嵌入空间进行聚类,并在聚类过程中利用双层自监督机制优化特征提取过程;最后,在多个数据集上的实验结果验证了DFMCN 的有效性。

本文提出的DFMCN 涉及多方面的理论、方法和技术,还有一些问题需要解决,后续可以针对视图融合过程中的权重更新策略和聚类过程中的自监督策略两个方面作进一步的研究。

猜你喜欢

视图编码器特征提取
基于Daubechies(dbN)的飞行器音频特征提取
基于FPGA的同步机轴角编码器
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
Bagging RCSP脑电特征提取算法
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
基于MED和循环域解调的多故障特征提取