一种快速低秩的判别子字典学习算法及图像分类

2021-07-11赵雅王顺政吕文涛王成群

智能计算机与应用 2021年1期

赵雅王顺政吕文涛王成群

摘要：本文提出了一种快速低秩的判别子字典学习算法。在训练阶段，构造一个子字典的低秩约束项和拉普拉斯矩阵正则化项，加入判别字典学习的目标函数中。将原始样本映射到一个新的空间中，使同一类别的相邻点彼此靠近，同时增强子字典对同类样本的重构能力，针对每类样本的判别性特征，学习出相应的学习字典。在测试阶段，利用kNN分类器估计测试样本的类别标签。同时，将算法应用在3种数据集上，与其他的字典学习算法进行比较，取得了较好的分类结果。

关键词：子字典;判别字典;拉普拉斯矩阵;图像分类

文章编号： 2095-2163（2021）01-0051-04 中图分类号：TP391 文献标志码：A

【Abstract】This paper proposes a fast， low-rank discriminative sub-dictionary learning algorithm. In the training phase， the low-rank constraint terms of the sub-dictionary and the Laplacian matrix regularization terms are constructed， and the objective function of the discriminative dictionary learning is added. The original sample is mapped to the new space so that adjacent points of the same category are closed to each other. At the same time， the sub-dictionary's ability is enhanced to reconstruct similar samples， and the corresponding learning dictionary is learnt according to the discriminative characteristics of each sample. In the testing phase， the kNN classifier is used to estimate the class label of the test sample. Finally， the algorithm are applied to three public data sets compare with other dictionary learning algorithms. The proposed algorithm has achieved better classification results.

【Key words】sub-dictionary; discriminant dictionary; Laplacian matrix; image classification

0 引言

判别字典学习是稀疏表示问题的一个研究分支，主要是通过重构训练样本得到样本的学习字典，并通过构造不同的约束项模型来增加字典的判别性能。字典学习包括无监督字典学习和有监督字典学习。其中，无监督字典学习主要是通过所有训练信号重建并优化字典，而不给出任何标签信息。典型的无监督字典学习有KSVD算法[1]，MOD算法[2]等。Zheng等人[3]给出了使用拉普拉斯算子的无监督字典的图形正则化稀疏编码，并验证了其在分类和聚类上的有效性。但该类算法无法有效利用样本的标签信息，分类性能不一定是最佳的。相应地，有监督字典学习根据训练样本的标签信息学习出判别性字典。例如文献[4-7]，就是典型的有监督学习字典。文献[5]提出了一个LSDDL算法，针对样本的局部特征和几何结构，结合样本的标签信息进行字典学习。但该算法容易受到训练样本个数的影响，且该方法仅有一个被所有类别共享的字典，会使字典元素和类别间产生误差。

针对这种情况，研究提出了一种快速低秩的判别子字典学习算法。在判别字典学习的目标函数的基础上，构造一个子字典的低秩约束项和拉普拉斯矩阵正则化项。将原始样本映射到一个新的空间中，使同一类别的相邻点彼此靠近，同时增强子字典对同类样本的重构能力，针对每类樣本的判别性特征，学习出相应的学习字典。然后，利用现有的分类器估计测试样本的类别标签，得到算法的分类准确率。本文在3种数据集上的实验结果证明了该方法的有效性。

1 基本理论

1.1 字典学习

设DC=[d1，…，dK]∈Rn×K表示第C类样本的学习字典。针对样本集，令ZC=[ZC1，…，ZCNC]∈Rn×NC为第C类训练样本，其中ZCi（i=1，…，NC）表示C类样本中具有n维维数的第i个图像样本。同时，令VC=[VC1，…，VCNC]∈RK×NC表示为ZC在DC上的稀疏表示矩阵。可以得到传统的字典学习模型：

模型第一项为训练样本的误差重构项，第二项是稀疏正则项，λ>0为约束系数。‖·‖p为lp范数，当p=1，表示lasso稀疏模型;当p=2，表示岭回归。由于公式（1）中的DC或VC都可以单独得到相关的凸函数，但不能同时得到两者的凸函数，因此通常保持一个变量不变，交替求解另一个变量，通过迭代求得最优解。

1.2 拉普拉斯矩阵

定义一个顶点数量为N的无向图G的拉普拉斯矩阵L为：

其中，W为图G的邻接矩阵，维度是N×N，用于表示节点之间的邻接关系。将邻接矩阵W的每一列元素加起来得到N个数，再以其为对角线构造一个维度是N×N的对角矩阵M，该对角矩阵M则被称为图的度矩阵。由公式（2）可以看出，拉普拉斯矩阵L是一个对称的半正定矩阵，即对于任何向量V，L都能满足VLV′≥0。

2 本文算法

2.1 算法流程

为了设计一个具有判别性的字典，令来自同一类别的样本可以具备更为相近的稀疏表示，提出了一种基于子字典的判别字典学习算法。算法的整体流程如图1所示。

2.2 训练过程

基于上述字典学习算法，本文提出以下判别字典学习算法模型：

其中，前两项为字典学习的基础模型，后两项分别为子字典的低秩约束项和拉普拉斯矩阵正则化项。β>0和γ>0为相应的稀疏系数。

由于目标函数现在是非凸的，因此通过迭代更新字典和稀疏表示得到学习字典。首先固定字典，更新稀疏表示矩阵。即第C类样本的稀疏表示VC有：

2.3 测试过程

在训练过程得到总字典D=[D1，…，DC]后，通过求解岭回归得到测试样本z的稀疏表示V，即：

将训练样本和测试样本的稀疏表示输入kNN分类器中，估计测试样本的类别标签并得到算法的分类准确度。

3 实验结果与分析

本文在3种数据集（http：//users.umiacs.umd.edu/～zhuolin/projectlcksvd.html）上进行实验，具体是：Extended YaleB、AR和织物疵点数据集。根据每个数据集的特征，通过交叉验证对参数进行调整，本文使用的最佳参数设置见表1。同时，将实验结果与FDDL[8]、LC-KSVD[9]、LRSDL[7]、LSDDL[5]算法进行对比。所有实验均在Windows 7 的电脑上进行，电脑处理器Intel（R）Core（TM） i5-6500 CPU@ 3.20GHz，内存4 G，使用的软件为Matlab。下文将对数据集和实验结果进行详细的阐释与分析。

（1）Extended YaleB数据集[10]：由来自38个人在64种照明条件下的2 414张人脸图像组成。所有图像尺寸均调整为192×168。每类图像均选取32张图片进行训练，其他图片作为测试集。随机人脸特征的维数为504，实验重复10次，并将结果的平均值作为分类准确度。实验结果见表2，可以看出，本文提出的方法比FDDL、LC-KSVD、LRSDL和LSDDL算法具有更高的精度。

（2）AR数据集[10]：由126个人的4 000多张彩色人脸图像组成。每人都有26张正面人脸图。本文选用50名女性，50名男性、共2 600张图像，随机选取每类20张作为训练集，其余的用于测试。AR数据集的随机人脸特征维数为540，结果同样由10次重复试验的平均值得到。由表2可以看出，本文所提出的方法获得了更好的性能。

（3）织物疵点数据集：是由20类不同的疵点、共3 300张图像组成。几种典型的织物疵点图像如图2所示。本文选择每类30个样本用于训练，剩余样本用于测试。研究中使用灰度共生矩阵、方向梯度直方图及局部二值模式对该数据集进行特征提取。织物疵点图像的特征维数为108。实验结果见表2，本文的方法再次取得最佳结果。

4 结束语

本文提出了一种基于子字典的判别字典学习算法，并在3个公开数据集中验证了算法的有效性。该算法针对每类样本得到对应的学习字典，加入子字典的重构误差项，同时利用了原始特征的判别结构，通过拉普拉斯矩阵正则化项提高相同类别稀疏表示的相似性。通过仿真实验结果可以看出，本文提出的算法与一些现有算法相比，能够获得更高的分类性能。后续工作可以在对象分类、纹理识别等更广泛的分类任务中，结合多种映射函数进行研究。

参考文献

[1]AHARON M， ELAD M， BRUCKSTEIN A. K-SVD： An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing， 2006， 54（11）：4311-4322.

[2]OLSHAUSEN B A， FIELD D J. Sparse coding with an overcomplete basis set： A strategy employed by V1？[J]. Vision Research， 1997， 37（23）：3311-3325.

[3]ZHENG M， BU J， CHEN C A， et al. Graph regularized sparse coding for image representation[J]. IEEE Transactions on Image Processing， 2011， 20（5）：1327-1336.

[4]毛麗珍，汤红忠，范朝冬，等. 低秩判别性字典学习及组织病理图像分类算法[J]. 小型微型计算机系统， 2019， 40（9）：1881-1885.

[5]GUO Jun， GUO Yanqing， LI Yi， et al. Locality sensitive discriminative dictionary learning[C]// 2015 IEEE International Conference on Image Processing. Quebec， Canada： IEEE， 2015：1558-1562.

[6]LV Wentao， DAI Kaiyan， WU Long， et al. Runway detection in SAR images based on fusion sparse representation and semantic spatial matching[J]. IEEE Access， 2018， 6：27984-27992.

[7]VU T H， MONGA V. Fast low-rank shared dictionary learning for image classification[J]. IEEE Transactions on Image Processing， 2017， 26（11）：5160-5175.

[8]YANG Meng， ZHANG Lei， FENG Xiangchu， et al. Fisher discrimination dictionary learning for sparse representation[C]// ICCV'11：Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona， Spain： IEEE， 2011：543-550.

[9]JIANG Zhuolin， LIN Zhe， DAVIS L S. Label consistent K-SVD： Learning a discriminative dictionary for recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2013， 35（11）：2651-2664.

[10]CHEN Yefei， SU Jianbo. Sparse embedded dictionary learning on face recognition[J]. Pattern Recognition ， 2017，64：51-59.