基于子空间字典低秩表示的流形投影学习
2024-11-04冯文熠王喆
摘要:低秩表示(Low-Rank Representation,LRR) 能够将每个数据点表示为若干个基的线性组合,是一种获取样本底层低维结构的方法。然而,大多数LRR 方法使用原始数据集作为字典,这不能揭示数据的真实分割。本文提出了基于子空间字典低秩表示的流形投影学习:该方法学习最优子空间作为LRR 问题的字典,而不是使用原始数据集;利用基数最少的方案,低秩表示矩阵能很好地恢复原始数据;通过对投影矩阵施加行稀疏约束,该方法不仅可以选择鉴别性特征并忽略冗余特征,而且使子空间学习具有很好的解释性。此外,通过引入流形结构保持约束,使得样本的原始表示和距离信息在投影下保持不变。在多个真实世界数据集上的实验结果表明,该方法优于最近提出的一些相关方法。
关键词:低秩表示;无监督投影;子空间学习;特征提取;流形学习
中图分类号:TP391.4 文献标志码:A
低秩表示(Low-Rank Representation, LRR) 是机器学习中的一类重要表示学习方法,其主要思想是学习数据的低秩表示来发现数据内在的低维结构[1]。观测数据可能取自多个不相交的子空间的并集,根据这个假设,LRR 学习方法具有最低秩的数据的表示。由于数据点可以表示为基的线性组合,因此LRR 方法通过选择特定的字典来捕获数据的底层结构。LRR 方法还可以有效地执行子空间聚类和纠错[2]。这意味着, 如果数据受到噪声或离群点的污染,LRR 方法可以准确地恢复行空间和离群点,这些行空间和离群点是由多个线性或仿射子空间[3-4] 用低秩表示得到。
LRR 和投影学习都能发现数据的潜在低维结构,有很多研究[5-8] 将二者有机结合,利用投影矩阵约束LRR 的学习过程。在过去的几十年中,诸如数据挖掘[9]、计算机视觉[10-11] 等问题涉及低秩表示和特征提取,因为矩阵的秩是挖掘嵌入在样本特征中的局部或全局信息的潜在度量,尽管这些低秩投影或低秩嵌入方法具有健壮性,但研究人员在探索高维原始数据中的低维嵌入时存在性能不足的问题。为了解决这个问题,Wong 等[5] 提出了一种称为低秩嵌入的稳健线性降维方法,该方法在特征提取方面具有一定的优势。为了在特征提取中同时保持全局和局部结构,Wen 等[6] 提出了一种基于LRR的投影方法,该方法在学习低秩表示的同时对数据重建误差施加图约束。Lu 等[7] 提出了一种基于重构误差最小化的子空间学习和自适应概率邻域图嵌入的方法,该方法利用自适应图的内在关系来获取数据点之间的相似性。Lu 等[12] 提出一种对称图学习模型,它在集成学习框架中探索数据点的距离信息和数据的表示信息。
虽然上述研究在低秩表示方面取得了一定的成果,但仍有一些问题需要解决。首先,大多数LRR 相关方法利用原始数据集本身作为低秩表示的字典,但这并不是最佳选择[1]。由于原始数据集可能包含噪声和离群点,使用该数据集作为纠错字典将导致低秩矩阵不能反映真实的分割结果。作为线性张成数据空间的基本向量,字典必须能够通过简单的线性组合来表示原始数据集[2]。其次,低秩投影算法不限制投影本身,因此无法提取用于识别的关键特征[13],在投影中考虑区分特征是特征提取或选择的关键[14]。最后,低秩图嵌入方法不能有效地保留非线性高维数据中固有的低维结构,限制了它们的应用。在投影过程中应该保持原始数据的流形结构,这使得投影学习具有更好的可解释性[15]。