融合深度学习和聚类分析的自适应图像聚类

2022-02-22杨荣新张英杰

计算机技术与发展 2022年1期

侯青，杨荣新，张英杰，李伟

(1.陕西中医药大学科技处，陕西咸阳 712046；2.长安大学信息工程学院，陕西西安 710064)

0 引言

现阶段利用深度学习相关技术实现图像分类的任务往往是有监督学习的范畴，在对网络进行训练之前首先需要对输入的图片数据集进行人工标注，打上属于某一类的“标签”。所以基于这种方式的图像分类方法很大程度上都依赖于数据集的容量和标签的质量，这也在无形中对人工标注的质量和精度提出了更高的要求。所以减少对标签信息的依赖程度实现对图像数据的分类任务，也成了进一步的研究目标，这也是无监督图像分类的发展方向。传统的无监督图像分类算法主要是基于统计特征或基于规则特征进行分类，这种方法不能直接对原始图像数据进行处理，必须首先对原始图像数据进行特征提取，然后构造合适的分类模型。在特征提取方面，主要包括纹理、颜色、形状等底层视觉特征，尺度不变特征变换、局部二值模式、方向梯度直方图等局部不变性特征，这些人工设计的特征缺乏良好的泛化性能，且依赖于设计者的先验知识，因此这种无监督学习方法对于图片分类的普遍适用性不高而且分类的准确率较低。基于深度学习大致可以分为两种研究方向，一是将聚类算法与深度神经网络相结合，依靠神经网络提取特征，通过聚类算法对提取到的特征进行无监督图像分类。Yang B等人将降维(DR)和聚类两个任务相结合，提出一种联合DR和Kmeans的聚类方法。降维通过DNN来实现，并在低维空间实现聚类，同时以重构的方式来优化DNN的降维损失。Caron M等人提出一种DeepCluster无监督聚类网络，利用Kmeans对特征聚类生成伪标签，并利用该伪标签以监督方式训练分类器。为了弥补特征提取的缺陷，谢娟英等人在深度卷积嵌入网络中加入了两个全连接层作为特征过渡层，同时在编码层中加入下采样结构，减少模型参数，解码层加入上采样层还原下采样导致的细节损失，提出了一种深度卷积自编码图像聚类算法，并验证了改进网络结构的优越性。二是提出改进的卷积神经网络模型，通过对输入图像进行数据集变换和对比学习，实现有语义过滤的特征级别无监督分类。Chang J等人提出一种DAC算法，将图像聚类问题视为二元成对分类任务，判断图像对是否属于同一类别，并通过引入聚类约束，将网络学习到的标签特征趋近于一个one-hot向量，可以被直接用于聚类图像。Ji X等人通过将输入数据集进行变换得到成对图像，以最大化图像对之间的互信息为目标，提出一种IIC网络，使模型在这些成对图像中挖掘出较好的聚类模式。Wouter Van Gansbeke等人基于对比学习，通过利用特征相似性来挖掘每张图像的初始最近邻，并利用最可信样本对网络进行微调，最大化图像与其最近邻之间的点积，实现无监督图像聚类。任雪婷等人将成对学习和图像聚类进行联合，提出一种无监督肺癌亚型识别方法，将CNN不同层的输出特征进行融合，构建了一个高效的CNN特征提取框架，并利用成对学习的方式在每次聚类迭代结果中选取一定的相同聚簇和不同聚簇的CT影像图像对，结合对比损失函数对特征学习和聚类表示进行更新训练，增强了肺癌亚型识别的准确率。深度学习与无监督学习算法融合起来自适应对图像数据进行处理，进而减少甚至去掉数据标注的任务，这将给一系列基于神经网络的有监督任务带来重要的意义，并且在无监督视觉特征学习任务上也是一个重大的突破。

基于此，该文提出一种融合卷积神经网络和聚类分析的自适应图像聚类算法。首先对特征提取网络AlexNet进行结构优化，加入WN归一化层；其次在快速峰值聚类算法中，引入高斯函数对数据点的局部密度进行度量，利用非聚类中心到聚类中心存在明显非线性变化来自适应确定聚类中心；最后将特征提取网络和改进的快速峰值聚类算法融合起来，实现了端到端的无监督图像分类目标，并在常见公开图像数据集上展示了优异的分类性能。

1 融合卷积神经网络的无监督聚类模型设计

1.1 AlexNet网络的结构优化

权值归一化(weight normalization，WN)将权重向量分为向量方向和向量模来实现归一化的操作过程。WN过程示意图如图1所示。

图1 WN权值归一化示意图

WN的过程也可表示为：

(1)

为了验证WN层的加入是否可以起到优化模型性能的目的，本节对无WN层以及有WN层时的模型以同样的图像数据进行实验，训练过程中得到的准确率变化趋势如图2所示。

由图2可知，对加入WN归一化层的模型的准确率较未加入WN层的模型的准确率有了明显提升，模型最终收敛时的准确率较无归一化层的模型的准确率最终提升了将近4个百分点。从参数角度来说，对比LRN层，WN层可以实现利用更少的参数对网络的权重进行更新，这不仅减少了模型的复杂度从而使模型更快地收敛，也在一定程度上提升了模型的分类准确率，达到了对AlexNet的模型结构进行优化的目的。

图2 有无WN层的准确率对比

1.2 改进型的自适应快速峰值聚类算法

为了解决快速峰值聚类算法必须由人为设定截止距离和手动设置聚类中心的问题，本节引入高斯函数对数据点的局部密度进行度量，具体的计算方法如式(2)所示。

(2)

令

={1,2,…,

}，则数据点与高密度点的距离计算公式如式(3)所示。

(3)

另外，快速峰值算法中在一定程度上仅仅依照经验值人为主观地实现距离参数

的选取，使得算法主观性较强的同时稳定性较差，算法的性能也在较大程度上受到了限制。本节将参数

的自适应选取转化为求解一个最优化问题。利用上述经过重新定义的局部密度，可以构造局部密度信息熵，如式(4)所示。

(4)

≤

≤…≤

(6)

(7)

(8)

式中，

为近似于0的正常数。在找出可能的聚类中心点后，算法需要从这些点的集合选取出真正的聚类中心，运行时每次只向后递推一个数据，组成包含2

+1个

值的新的一组，当第一次出现某一组中的2

+1个

值产生跃变时，此时的

+2被选择为聚类中心的阈值，并且将

≥

+2的数据选为聚类中心，即聚类中心点的集合表示如式(9)所示。

∈

≥

+2}

(9)

在自动确定聚类中心之后，非聚类中心点的分配方式仍然是按照定义的距离计算方法将各个非聚类中心点分配到与其距离最近的高密度点所在的类，直到把所有的点全部分配完为止，至此完成了该自适应快速峰值算法的所有步骤。

1.3 无监督图像聚类学习框架

该文将改进型的自适应快速峰值聚类算法与调整过的AlexNet网络进行结合，结合过程的核心思想是对卷积网络学习到的深层特征进行迭代地聚类，并以聚类结果为依据对卷积网络的参数进行更新。模型整体框架和工作的流程图分别如图3和图4所示。

图3 基于AlexNet的无监督学习模型框架

用

表示卷积网络AlexNet从原始图像到固定维度向量空间的映射，其中

是对应的参数集。将这个映射应用到无标签图像数据集上，可以得到对图像信息进行表征的特征向量。对于训练集

,…,

}中的N个图像，希望找到一个参数

，以便映射

产生良好的通用特性。这些参数传统上是通过监督来学习的，即每个图像

都与{0,1}中的标签

1.4 无监督图像聚类训练流程

利用预训练的ImageNet图像分类模型的参数对网络权重的一般参数进行初始化设计。利用训练过大型数据集的网络参数进行初始化有两点好处：(1)经过大量数据的训练，网络学习到了提取图像特征的基本方法；(2)以在大型数据集上学习到的参数进行初始化赋值能加快模型的收敛，并且往往也能达到提高模型准确率的效果。在控制其他各个条件一致的情况下，预训练参数和随机初始化参数的网络性能对比如图5所示。

由图5可以看出，基于预训练参数的一般参数初始化比基于随机参数初始化的模型更快地收敛，这两种模型收敛后的图像分类效果也有着直观可见的差异，并且使用预训练参数的模型在最终性能上有了较大程度的提升。

图5 基于预训练参数和随机初始化参数的模型性能对比

模型训练过程采用GPU模式，并选取小批量梯度下降(MBGD)算法作为损失函数的优化器，具体的训练流程如图6所示。

图6 无监督模型训练过程

2 图像聚类结果与比较分析

2.1 无监督聚类评价指标

提出的无监督图像分类模型是依赖聚类算法对图像进行分类的，所以采用准确率(ACC)和归一化互信息(NMI)来度量聚类结果对无监督图像分类的适用程度。

设数据集的总数量为

，每个数据对应的真实标签为

，每个数据利用无监督模型分得的类标签表示为

，那么可以得到无监督学习得来的类标签映射到真实标签的函数map(

)，则定义ACC如式(14)所示。

(14)

式中，

是计算

和map(

)匹配度的一个函数，表达式见式(15)。

(15)

另外，本节通过标准化互信息(NMI)来衡量同一数据的两个不同赋值

和

之间共享的信息，该信息定义如式(16)所示。

(16)

式中，

表示互信息，

表示熵。此度量可应用于来自集群或真实标签的任何分配。NMI值的变动范围在0到1之间，如果两个集群

和

是完全独立的，则NMI等于0，NMI的值越大，代表两个集群的相似度越高。

2.2 聚类结果与对比分析

以四个常见的公开图像数据集为代表，分析所提出的融合卷积神经网络和聚类分析的无监督网络在各个图像数据集上的表现，并以ACC和NMI两种评价指标来对网络模型的性能进行评价。选取了100个epoch迭代过程之后的收敛过程进行了可视化，分类结果的ACC评价指标如图7所示，分类结果的NMI评价指标如图8所示。

图7 四个数据集在ACC下的分类结果

对图7和图8进行比较分析，可以看出四个数据集在两种模型下训练的NMI和ACC值基本上呈现出相同的变化趋势，这两个性能指标都是在训练过程中逐渐提升并且最终达到收敛状态，但是网络在相同数据集训练下达到收敛时的NMI值都比ACC高。也证明了文中提出的网络模型在无监督图像分类任务中的合理性和可行性。

图8 四个数据集在NMI下的分类结果

同时，为了验证文中提出的无监督分类模型的性能优劣，本节也选取了近年来表现相对优越的5种无监督学习算法分别对这几种公开数据集进行了实验，并将结果进行了横向对比。不同的无监督算法对四种数据集在ACC指标下的分类结果对比如表1所示，不同的无监督算法对四种数据集在NMI指标下的分类结果对比如表2所示。

表1 ACC指标下不同无监督算法的分类结果

表2 NMI指标下不同无监督算法的分类结果

由表1和表2可以看出，文中提出的改进型无监督图像分类模型的结果是最优的，评价指标ACC和NMI值在每类数据下都较现有算法有了较大的提升，特别是在CUB数据集上相较于Chang J等人提出的算法在ACC评价指标上的性能提升了将近7.4%，在NMI评价指标上的性能比Wouter等人的算法的性能提升了将近11%，这也证明了文中提出的无监督模型在不同数据集上进行无监督分类的可行性和有效性。

从理论角度进行分析，对比的五种模型中针对无监督条件下的图像特征提取主要围绕两种方式展开。一是基于编码和解码重构的学习方式，即先构建编码器对输入图像进行特征提取得到隐变量，然后对隐变量特征进行解码重构，以最大化原始图像和重构图像之间的相似度来保证所提取隐变量特征的有效性，最后通过隐变量特征完成图像分类。这种方式虽然能够实现对图像特征的有效提取，但就图像分类任务而言，重构的限制太过于严格，往往不同类别对象间仅依靠某些特定的细节特征就可以分类。二是基于数据集变换的学习方式，即对输入图像进行随机变换，然后以双输入通道的方式，对比网络输出的原始图像特征表示和变换图像特征表示之间的相似性，达到对同一类别图像的特征学习的目的。这种方法能够诱导网络的输出不因对象位置变化而产生差异，可以在一定程度上提高分类的准确性，但是数据集变换方法是有限的，无法完全满足输入图像的各种状态，且随着数据集变换方式的增多，网络复杂度会大幅度上升。

文中所提出的无监督分类模型将卷积神经网络AlexNet和聚类分析相融合，一方面聚类的结果可作为伪标签指导网络的迭代过程，另一方面更新的网络可以重新进行聚类。随着batch批次的不断迭代，聚类产生的伪标签不断向着正确类别逼近，同时也能更好地提升网络的特征提取能力。这两个过程动态化进行，能够充分发挥卷积神经网络的特征提取能力和聚类算法的聚簇能力，且模型设计简单、巧妙，实现了聚类中心的自动选取和整个无监督图像分类过程的自动化。

3 结束语

该文设计了一种融合改进型AlexNet网络与自适应快速峰值聚类算法的无监督学习模型，在对卷积网络学习特征进行聚类的同时以此为依据对网络参数进行更新，两个过程迭代进行，以实现对图像的无监督分类。为了验证该无监督分类模型的可行性和有效性，使用了四个公开的图像数据集进行基准测试，并将最后的分类结果按ACC和NMI两个评价指标进行了展示。另外，引入目前现有的几种无监督分类算法完成同样的分类任务，结果也证明了改进后无监督图像分类模型相较目前比较出色的几种无监督算法的优越性。然而，在实验过程中发现，提出的无监督图像分类模型不适应于数据特征维度较高的情况，在输入到聚类网络之前需要借助降维手段进行处理。分析原因可能是特征维度较高时，基于距离度量的快速峰值聚类算法会失效。如何将网络提取到的高维特征直接运用到聚类算法还有待进一步研究。