APP下载

多核低冗余表示学习的稳健多视图子空间聚类方法

2021-12-08李骜王卓于晓洋陈德运张英涛孙广路

通信学报 2021年11期
关键词:张量集上视图

李骜,王卓,于晓洋,陈德运,张英涛,孙广路

(1.哈尔滨理工大学计算机科学与技术学院,黑龙江 哈尔滨 150080;2.哈尔滨理工大学仪器科学与技术博士后流动站,黑龙江 哈尔滨 150080;3.哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 150001)

1 引言

随着数据科学的发展与数据形式的多样化,现实世界的对象通常可以通过多个视角进行更完整和充分的描述。例如,图像可以通过颜色、边缘、纹理等进行描述;网页可以通过页面的文本和指向它们的超链接进行描述等,上述类型的数据称为多视图数据。多视图数据的每个视图都是关于同一对象的一种描述,不同视图通常从不同角度描述对象的某种特性,同时分析所有视图并将它们包含的信息进行融合学习的过程称为多视图学习[1]。

子空间聚类是近年来提出的一类应用于高维数据聚类的有效方法,其通过学习高维数据本身固有的子空间结构来表征数据内在关联关系,然后利用子空间表示构造描述数据近邻关系的亲和矩阵,并对其实施图切划分算法获得聚类结果。因此,子空间表示矩阵的优劣是影响子空间聚类性能的关键因素。目前主流的子空间聚类算法中,大多假设每个样本都可以通过自身的线性组合来进行重构,并通过对自表示矩阵施加适当的约束,来有效地学习数据的子空间结构[2]。稀疏子空间聚类(SSC,sparse subspace clustering)[3]是子空间聚类的典型代表之一,该方法认为样本在重构时仅选择少量的近邻样本,因此考虑施加1l范数从而获得具有稀疏性的自表示矩阵。与SSC 相比,低秩表示(LRR,low-rank representation)[4]认为有些样本远离了底层的子空间,并且利用l2,1范数将重构误差矩阵正则化。Fu 等[5]提出了一种基于张量低秩表示和稀疏编码的子空间聚类方法,同时考虑样本的特征信息和空间结构,寻求在所有空间方向上对原始空间结构的最低秩表示。Wang 等[6]提出了一种低秩表示约束的稳健子空间聚类模型,在寻求数据的低秩表示时将监督信息作为硬约束条件,以增强表示的鉴别能力。由于自表示的稀疏性和连通性在有效的子空间聚类中起着重要作用,Yang 等[7]提出了一种后处理技术来优化稀疏性和连通性,利用初始亲和矩阵中包含的相关信息为每个样本找到较好的邻居,重新分配选定的邻居的系数并消除其他值,生成一个新的系数矩阵,进而改善子空间聚类性能。类似地,许多扩展的子空间聚类方法相继被提出,并得到了广泛的应用。

然而,随着数据呈现形式的发展,考虑到单独的视图并不足以全面描述数据的信息,子空间聚类已经被扩展到多视图的情况,以获得性能的进一步提升。多视图子空间聚类是通过融合不同视图数据的自表示重构来学习一个公共的自表示矩阵,该自表示矩阵融合了不同视图的子空间结构信息,进而得到一个从全局角度进行完整数据近邻关系描述的子空间表示。Xu 等[8]提出多视图学习方法应该充分利用共识和互补的原则以确保成功。为了实现共识原则,一个典型的策略是通过子空间学习来获得一个可以由多视图共享的潜在子空间[9]。为了探索不同视图之间的互补信息,Gao 等[10]提出了一种多视图子空间聚类算法,该算法对数据的每一个视图进行子空间聚类,利用一个公用的类指示矩阵来保证数据的一致性。Zhang 等[2]提出了潜在多视图子空间聚类方法,学习基于多视图特征的潜在表示,并生成一个公共子空间表示,探索多视图间潜在的一致性信息。进一步地,Li 等[11]提出针对子空间聚类的灵活多视图表示学习,旨在通过引入希尔伯特·施密特独立标准(HSIC,Hilbert-Schmidt independence criterion),潜在表示可以灵活地编码来自不同视图的互补信息,并探索不同视图之间的非线性关系。张茁涵等[12]通过对隐式子空间表示施加低秩和稀疏约束来探索多视角之间的互补信息。受SSC 和LRR 的启发,Zhang 等[13]提出了低秩张量约束多视图子空间聚类算法,利用不同模态展开的秩约束子空间张量,将基于LRR 的子空间聚类扩展到多视图学习中,很好地探索来自多个源的互补信息,并大幅改进了子空间聚类的性能。该结构的多视图子空间学习策略使这些聚类方法都仅使用原始特征空间中数据的线性子空间,这并不足以捕获真实数据之间复杂的相关性。对此,Abavisani 等[14]提出了一种基于SSC 和LRR 的子空间聚类算法的多模态扩展方法,并利用核学习适应数据的非线性特性。为了解决原始的高维特征向量包含噪声或冗余信息随维数的增加而呈指数级增长的问题,Kang等[15]提出了一种分区级别的多视图子空间聚类方法寻找来自多个分区的共识聚类,这种分区级融合方法可以更好地利用隐藏的聚类结构信息。Liu 等[16]提出一种通过协同训练稳健数据表示进而实现多视图子空间聚类的方法,该方法将聚类与稳健数据表示的生成融合到一个模型中来获得聚类结果。

尽管上述多视图子空间聚类方法取得了一定的效果,但仍存在2 个主要的因素限制了其性能的提升。一方面,真实环境下的数据常常受到噪声的干扰,而这些含噪数据的高维性又会使数据本身以及数据之间存有较大的冗余特性,噪声和冗余会导致自表示过程难以学习到数据本质的子空间结构;另一方面,传统多视图学习方式忽略了视图间的高阶关联性,也没有充分考虑不同视图的差异性结构,导致融合后的子空间表示矩阵性能并不理想。面向上述2 个问题,考虑从噪声和冗余性去除、视图间高阶关联性捕获及各异性结构信息保持2 个角度出发,本文提出一种低冗余稳健表示的多视图子空间聚类方法。为了适应数据的非线性特性,所提方法将数据在核空间进行分析,从局部角度(视图内)构建多核的低冗余稳健表示学习模型,学习适当的数据低维表达,消除噪声干扰和冗余性对子空间结构探究的影响。同时,考虑从全局角度(视图间)充分挖掘视图间的高阶关联结构,采用低秩张量约束,融合多视图信息来寻求不同视图的潜在张量子空间表示矩阵。本文稳健多视图子空间学习算法的总体结构如图1 所示。

2 相关工作

本文主要探究多核低冗余表示学习的多视图子空间聚类方法,下面将介绍本文方法所涉及的一些基础性相关工作及局限性分析。

2.1 子空间聚类

对于给定来自k个类簇的含有n个数据的数据集X∈Rd×n,子空间聚类算法的目的是寻找一个利用样本自身作为字典进行数据重构的子空间表示矩阵Z∈Rn×n,其一般的表示形式为

其中,L(⋅)和Ω(⋅)分别为自表示重构损失函数和正则化约束,λ为正则化参数。大量文献针对式(1)中的表达式设计了相应的重构损失函数和约束形式,以适应不同类型数据的子空间结构约束,不断提升子空间学习的性能。在获得子空间表示矩阵Z后,一般利用其构造对称的亲和矩阵,再将该亲和矩阵送入标准谱聚类算法得到最后的聚类结果。

2.2 多视图子空间聚类

对于给定含有V个视图的数据集合,可以将式(1)简单拓展为如下的多视图子空间学习模型

1) 考虑到多视图数据是相同对象的不同表达形式,因此各视图数据应共享同一子空间结构(如文献[11,14]),基于式(2)中的模型,其共享子空间结构学习可通过式(3)实现。

该方式认为不同的视图数据均共享相同的子空间结构Z,通过对Z施加对所有视图数据的重构约束来融合不同视图对子空间结构的互补性信息,并利用一个统一的正则项Ω(Z) 约束子空间表示矩阵的先验特性。

2) 考虑视图间的异质或多源结构可能引起的表示矩阵差异性,构造满足一致性约束的共享子空间学习模型(如文献[15,17]),其表达式为

区别于式(3)中迫使表示矩阵在各视图中完全相同的做法,式(4)在每个视图学习各自的子空间表示矩阵,再利用约束共享子空间与各视图子空间矩阵的关系来实现多视图信息的融合,更灵活地从不同视图中学习一个共享的子空间表示。

然而,上述基于共享式的多视图子空间学习方法在具体聚类应用中仍存在一定的局限性。一方面,上述方法中直接采用多视图原始数据进行子空间学习,而这些原始高维数据往往存在一定的冗余性,且从真实环境中获取时也不可避免地会受到噪声的干扰。数据的冗余结构和噪声会影响重构损失的自表示过程,进而不能学习到真实的子空间表示结构,导致后续聚类性能的下降;另一方面,上述的2 种子空间共享方法更多地考虑子空间结构的一致性,却忽略了对视图数据异质性而引起的表示矩阵差异性的保持,因此在保持表示矩阵各异性的前提下更好地融合不同视图的近似结构也是本文需要解决的一个关键问题。

3 本文方法描述及其数值算法

3.1 核空间冗余性分析及低冗余表示学习

针对上述相关工作的描述,为了消除原始数据中的冗余信息和噪声,并考虑适应高维数据潜在的非线性特性,本文考虑在核空间学习数据的稳健低冗余表示,并利用其替代原始数据来学习数据的真实的本质子空间结构,实现提高子空间聚类性能的目的。给定核函数集合,第v个视图的第s个核矩阵为

其中,i,j∈{1,2,…,n}表示实例样本索引,表示Xv的第i列数据。由此可知,当有V个视图、S种核映射时,将会产生m=SV个相应的核矩阵。

为了在核空间对数据进行分析,本文选取多项式核函数计算BBC-Sport 数据集中第一个视图数据的核矩阵。然后,对核矩阵进行特征分解,将得到的特征值从大到小排序并进行分布统计。图2(a)展示了特征值分布统计曲线,横坐标表示特征值序号,纵坐标表示当前序号之前的特征值之和与特征值总和的比值。由文献[18]可知,对应于较大特征值的特征向量会携带更多的判别信息。选用特征值大小作为判别信息的近似度量,可以从图2(a)中观察到2 个重要的现象。一方面,尽管特征值总个数超过500,但其前50 个特征值已包含了该数据集中超过60%的主要判别信息;另一方面,BBC-Sport数据集共有5 个类别,若只取前5 个特征向量,其仅包含了35.07%的判别信息。

根据上述现象描述,可以揭示2 个重要结论。首先,数据样本间的关键性判别信息只包含在一小部分大特征值对应的特征向量中,而其他大多数特征向量可认为是冗余信息。类似地,本文将归一化数据加入方差为1 的高斯白噪声,将干扰数据对应的核矩阵也进行特征分解,并利用排序后30%的小特征值及其特征向量重建核矩阵,如图2(b)所示,从图2(b)中可以看出,小特征值重建的核矩阵更偏重于表达数据中由确定数据和随机噪声交叉内积项所产生的噪声分量核。因此,可考虑通过基于核的低冗余学习方式达到去除冗余和噪声的目的。其次,在传统多核聚类方法中将学到的表示特征维度c设为类簇数k的常用做法并不理想(如BBC-Sport中前k=5 个特征值对应的判别信息量仅35.07%),可考虑利用多核来学习满足c>k条件的携带更多判别信息的低冗余表示,并将其替代原始数据进行后续的多视图子空间聚类。

基于上述考虑,采用如下的模型进行核稳健低冗余数据表示的学习。

其中,U∈Rc×n表示数据的低冗余表示特征矩阵,K∈Rn×n表示由原始数据得到的核矩阵,Tr(·) 表示矩阵的迹。式(6)问题的求解是通过选取核矩阵K的前c个特征向量重组而来。根据上述分析,以这种方式得到的数据表示矩阵U不仅可以在去除冗余性的同时保留其主要判别信息,还能够在一定程度上通过丢弃小特征值对应的特征向量来抑制噪声分量的干扰,提高数据表示的稳健性。

3.2 低冗余表示的张量子空间学习

根据3.1 节的分析,考虑到数据的冗余性和噪声会导致自表示重构模型中难以学习到数据真实的本质子空间结构,本文将用低冗余数据表示Up代替原始数据Xp,提出如下基于低冗余表示的子空间学习模型。

其中,Z p为第p个视图的子空间表示矩阵,I为单位阵,λ为正则化参数,为Frobinus 范数。

在获得了每个局部视图数据的子空间表示矩阵Zp后,本文期望能够将多视图信息进行融合,从全局角度建模视图间的关联性。然而,如2.2 节所述,现有多视图子空间学习策略主要是假设各视图间存在一个共享子空间表示矩阵,这种融合策略忽略了视图间的各异性和高维相关性,对于具有二维特性的子空间表示矩阵不能实现其多维的关联性建模。为此,考虑将各视图子空间表示矩阵Zp集成来构造一个3 阶张量矩阵Z,并对Z实施低秩约束来捕获不同视图之间的高阶相关性。一方面,子空间表示系数在一定程度上反映了样本间的相似性关系,由于是相同对象的不同视图,因此不同的Zp应包含相近的相似性信息。另一方面,类簇的数量总是比样本数量要小得多,所以张量Z具有潜在的低秩特性。基于上述两点考虑,提出如下的基于低冗余数据表示的张量子空间学习模型。

式(8)中采用张量低秩约束形式进行多视图信息融合的优势体现在2 个层面。首先,区别于传统共享式模型,张量约束形式不强制要求将不同视图的信息融入一个公共的子空间矩阵中,而是利用低秩来捕获各视图子空间矩阵的一个联合的潜在相关性结构。这个结构仍是一个由多个视图构成的具有相关性的张量体,其在融合一致性结构的同时有效地保持了不同视图的差异化信息。其次,在张量低秩的求解过程中,会对张量立方体从多个维度探寻其低秩相关性信息,相比于共享方式中采用的二维约束形式,能更全面地挖掘视图间的互补性信息,提高多视角融合的多维互补性。

3.3 基于稳健表示学习的多视图子空间聚类方法

联合上述的低冗余学习和张量子空间学习模型,将多核稳健表示学习与张量子空间学习放入统一的学习框架,提出本文稳健多视图子空间学习目标函数。

其中,γ=[γ1,…,γ m]为权重参数。本文方法通过子空间表示学习模型将低冗余表示UP、子空间表示矩阵Zp以及潜在张量子空间表示矩阵Z放入同一目标函数,实现三者的联合学习。从式(9)目标函数中可以看出,低冗余数据表示UP将同时从低冗余表示学习和低秩张量子空间表示矩阵Z中学习而来,视图专属子空间学习过程在挖掘视图内相关性的同时,还挖掘了视图间的高阶相关性。这种来自多视图融合的潜在信息也通过Zp传递到UP的低冗余表示学习的过程,以获得更好的低冗余数据表示。对于潜在张量子空间结构Z的学习,由于本框架Zp在迭代过程中是动态调整的,随着低冗余数据表示质量的提高,模型能够联合学习到更好的视图专属子空间表示及其融合的张量子空间表示,进一步改善模型的稳健性。通过交替的优化低冗余表示、视图专属子空间表示和潜在张量子空间表示,使它们在迭代过程中相互促进,以获得目标函数的联合最优解。

在获得了张量子空间矩阵Z后,利用计算亲和矩阵J(Z(p)表示Z沿视角方向的第p个切片),并将其送入谱聚类算法得到本文方法的聚类结果。

3.4 目标函数数值求解方案

本节设计了一种有效的数值优化算法来求解式(9)中的目标函数。由于变量Z和Zp之间的耦合性,使式(9)目标函数中张量低秩约束的求解具有一定的困难。为了解决变量间的耦合关系,采用交替方向乘子法[19],引入辅助变量Q 使变量可分离,将式(9)转化为

在式(10)的基础上,构造其相应的拉格朗日增广函数,得到下面的可分离优化形式,并采用交替优化技术来计算式(9)的近似解

对于变量Z,可以明显地看出各子空间表示矩阵都是独立的,固定其他变量,式(11)可变为

对于变量Q,固定其他变量,可得到如下的子优化问题

式(16)的张量核范数约束问题可根据文献[20]中基于t-SVD 的张量核范数最小化算法进行求解,得到变量Q 的闭式解。

对于变量U,由于低冗余数据表示在式(11)中是相互独立的,固定其他变量,可分别对每个Up采用式(17)进行优化

为了便于求解,将式(17)改写为

式(18)的迹最大化问题可通过对Mp的特征分解进行求解,其中Up是由矩阵Mp的前c个最大特征值所对应的特征向量组成的。

综上所述,本文提出的目标函数的求解步骤如算法1 所示。

算法1本文提出的目标函数的求解

3.5 参数优化

关于式(9)中的参数β和γ,实际上反映了不同视图的子空间重构损失和低冗余表示学习中的贡献度,传统的经验设定方式不能有效获得目标函数的联合最优解。因此,本文将这2 个参数也看作一种特殊的变量,与其他变量类似,在归一化约束条件下给出如下的参数优化方案。

1) 对于变量β,固定式(11)中的其他变量,关于β的目标函数可以简化为

根据柯西−施瓦兹不等式有

2) 对于变量γ,固定式(11)中的其他变量,关于γ的目标函数可以简化为

与β的求解相似,有

当且仅当γ1/v1=γ2/v2=…γm/vm存在时,式(23)可取得最大值。考虑式(22)中γ的约束条件,可通过式(24)来计算参数γ

4 实验与结果分析

4.1 数据集描述

本文在3 个公开数据集上进行多视图聚类实验,数据集的具体情况阐述如下。

1) BBC-Sport 数据集:由BBC-Sport 网站的737 份文件组成,对应于5 个主题领域的体育新闻,包括田径、板球、足球、橄榄球和网球,共有2 个不同的视图。

2) ORL 数据集:由40 个不同性别的人的400 张面部图像组成,其中每个人有10 张不同拍摄角度的人脸图像。本文将对数据集中的每个样本提取灰度强度(Gray)、局部二值模式(LBP)和Gabor这3 种特征来表示这些人脸图像,共有3 个不同的视图。

3) UCI-Digits 数据集:由对应10 个类别的2 000 个数字图像组成,分别提取傅里叶系数、像素平均和形态学特征3 个不同的特征来表示这些数字图像,共有3 个不同的视图。

4.2 对比实验设置及实验结果与分析

为了证明所提方法的有效性,本文将在上述3 个数据集上与5 种先进的多视图子空间聚类方法进行对比。这5 种方法分别是文献[2]中潜在多视图子空间聚类(LMSC,latent multiview subspace clustering)、文献[14]中多模态稀疏和低秩子空间聚类(MSSC,multimodal sparse and low-rank subspace clustering)、文献[15]中基于划分的多视图子空间聚类(PMSC,partition level multiview subspace clustering)、文献[11]中弹性多视图表示学习的子空间聚类(FMR,flexible multiview representation learning for subspace clustering)以及文献[16]中协同稳健多视图子空间聚类(CoMSC,multiview subspace clustering via co-training robust)。

表1 在BBC-Sport 数据集上进行不同方法的ACC、NMI 和F-measure 比较

从表1~表3 可以看出,本文方法在3 种指标上几乎都优于其他对比方法。在ACC 指标中,本文方法在BBC-Sport、ORL 和UCI-Digits 数据集上相比次优方法依次提升0.9%、1.4%和4.4%;在NMI指标中,本文方法仅在ORL 数据集上略低于MSSC方法,在其他数据集上均优于对比方法,在BBC-Sport 和UCI-Digits 数据集上相比次优方法分别提升4.8%和7.3%;在F-measure 指标中,本文方法在BBC-Sport、ORL 和UCI-Digits 数据集上相比次优方法依次提升2.9%、0.4%和8.3%。上述结果表明,在原始数据上本文方法学习到的低冗余表示能够改善局部视图的子空间学习能力,并通过低秩张量融合多视图信息,提高多视图子空间聚类的性能。

表2 在ORL 数据集上进行不同方法的ACC、NMI 和F-measure 比较

表3 在UCI-Digits 数据集上进行不同方法的ACC、NMI 和F-measure 比较

4.3 噪声条件下实验设置与结果

为了验证对比方法在噪声数据条件下的性能,本文对上述数据集随机选取部分样本添加高斯白噪声进行聚类实验(加噪样本比例是指加噪样本数占样本总数的比例),并通过调整噪声方差和加噪样本比例来验证不同噪声强度下的模型性能。实验中,设置噪声方差分别为0.1 和0.3,加噪样本比例以0.1 为间隔步长从0.1 变化到0.5,所有视图原始数据均进行了范数归一化。

3 种指标在2 种噪声方差下的实验结果分别如图3 和图4 所示。从实验结果可以看出,随着加噪样本比例的不断上升,本文方法在3 种指标上几乎都优于其他对比方法。以不同加噪样本比例下的指标均值考量在BBC-Sport、ORL 和UCI-Digits 数据集上聚类性能的平均水平。当噪声方差为0.1 时,在ACC 指标中,本文方法在3 个数据集上依次高于次优方法20%、2.53%和9.55%;在NMI 指标中,本文方法在 3 个数据集上依次高于次优方法17.26%、2.27%和7.84%;在F-measure 指标中,本文方法在3 个数据集上依次高于次优方法31.7%、6.96%和10.22%。当噪声方差为 0.3 时,本文方法在BBC-Sport 数据集上各评价指标的实验结果均有较明显的优势;对于其他2 个数据集的实验结果,在ACC 指标中,本文方法在ORL 和UCI-Digits 数据集上分别高于次优方法1%和8.5%;在NMI指标中,本文方法在ORL 和UCI-Digits 数据集上分别高于次优方法1.72%和7.1%;在F-measure 指标中,本文方法在ORL 和UCI-Digits 数据集上分别高于次优方法5.14%和8.76%。综合上述验证实验结果,说明了本文方法在噪声干扰下具有有效性和稳健性。

4.4 复杂度与收敛性分析

本文方法由5 个子问题组成,在每次迭代时,变量Z的求解需计算式(15)中逆矩阵,其复杂度为O(n3)。对于变量Q,首先要对n×m×n的三维张量进行快速傅里叶变换和逆变换,复杂度为O(mn2log(n));其次,还要对变换后张量的各切片做奇异值分解,复杂度为O(m2n2)。因此,变量Q的复杂度为O(m2n2+mn2log(n))。在U子问题中,需要对每个视图进行特征分解,复杂度为O(mn3)。优化参数β和γ的时间复杂度为O(cn2)。由于视图数m远小于样本数n(m≪n),因此本文方法进行t次迭代的时间复杂度为O(tmn3)。在实验对比方法中依据其文献描述,LMSC、MSSC、PMSC 以及FMR 的时间复杂度均为O(tn3),CoMSC 的时间复杂度为O(tmn3),可以看出本文方法与CoMSC 方法的时间复杂度略高于其他对比方法。

为了分析本文数值算法的收敛性,以BBC-Sport 数据集为例,以迭代次数和目标函数值分别为横、纵坐标绘制收敛性曲线,如图5 所示。从图5 中可以看出,本文方法在BBC-Sport 数据集上迭代10 次左右即可达到收敛,说明了本文数值算法具有高效稳定的收敛性能。

5 结束语

本文提出了一种核稳健低冗余表示学习的多视图子空间聚类方法。该方法利用多核学习捕获数据的非线性相关性信息,并利用特征分解方法去除数据中的冗余信息和噪声干扰获得了具有低冗余性的稳健数据表示。为了在探索多视图间的互补性信息的同时能够探索多视图间的差异性信息,将每个视图的子空间表示矩阵重组为张量形式,利用张量低秩约束从全局角度挖掘了视图间的高阶相关性且保持了局部视图的各异性子空间结构。将本文提出的多视图聚类方法在3 个公开数据集上与主流的先进多视图子空间聚类方法进行对比实验,并对本文模型的参数和收敛性进行分析,实验结果表明了本文方法的优越性和稳健性。

猜你喜欢

张量集上视图
一类张量方程的可解性及其最佳逼近问题 ①
GCD封闭集上的幂矩阵行列式间的整除性
严格对角占优张量的子直和
一类张量线性系统的可解性及其应用
基于互信息的多级特征选择算法
四元数张量方程A*NX=B 的通解
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
Django 框架中通用类视图的用法