联合编码属性图聚类算法研究
2022-06-01刘俊奇
刘俊奇
(国防科技大学计算机学院 湖南 长沙 410073)
0 引言
数据聚类是机器学习、模式识别、数据挖掘等许多领域的基本问题。聚类的主要目的是基于相似性度量将数据分成相似数据点形成的组(簇)。然而,传统的聚类方法的性能高度依赖于输入数据,不同的数据集通常需要不同的相似性度量和分离技术。同时,由于这些方法中使用的相似性度量效率低下,通常在高维数据上表现不佳[1-4]。
深度学习越来越多的应用在各个领域,把学习能力和聚类目标结合起来是深度聚类的主要特征[5],姬强等[6]指出基于深度学习的聚类算法迅速成为研究热点。徐慧英等[7]提出了基于自编码器的多模态嵌入式聚类模型。郭西风[8]通过加入局部保存机制可以使得自编码器学习到更好的数据表示。图卷积网络(GCN)的在处理图数据上的巨大成功[9],然而基于GCN 的聚类方法都忽略了数据本身的属性特征,只利用图结构来学习数据的表示,依赖重构邻接矩阵来更新模型,同时GCN 的过平滑现象限制了这些方法的性能的进一步提升。最近,将自动编码器和GCN 网络进行结合以实现更好的表示学习,在他们提出的网络中,自编码器可以提取数据的属性信息,而GCN 为自编码器提供高阶结构信息,同时信息的融合有助于缓解GCN 的过平滑现象。
1 研究目的
近年来,为了更好的样本表示学习而聚合邻域信息的图卷积网络引起了许多研究人员的关注[10-12]。因此,文中希望能够同时利用传统神经网络和图神经网络的优势,考虑数据的原始特征和样本的结构信息,设计一个专门用于聚类任务的神经网络,从而学习到更有利于聚类任务的特征表示,并且获得更为理想的聚类结果。
为了提取数据自身的属性信息和样本之间的结构信息,分别引入了一个自编码器和图自编码器模块来从数据的原始特征中学习特定的表示。由于自编码器和图自编码器都会输出表示,文中提出一个融合算子将两个表示进行结合。之后获得聚类分配矩阵,并设计了一种监督机制进一步根据t分布定义一个目标分布,利用目标分布提供可靠的指导对网络进行微调。提出的方法可以使用梯度下降和反向传播算法进行优化,大量的实验证明了文中方法的有效性,实验结果说明结构信息有助于提升聚类的效果,将结构信息融合到现有的深度聚类算法能取得比现有的深度聚类更好或者相当的性能。
2 研究方法
2.1 自编码器
学习有效的数据表示对于深度聚类非常重要,为了通用性,文中使用基本的自编码器来学习原始数据的表示,以适应不同类型的数据集。假设自编码器中有L层,l表示层数,则编码器部分第l层学习的表示lH可以用如下公式表示:
其中,Wl和bl分别表示编码器中第l层的权重矩阵和偏置,σ为激活函数,如Relu 或 Sigmoid。Hl表示第l层的隐特征,特别,H0为原始数据X。编码器之后是解码器部分,解码器在结构上与编码器是对称的,通过几个全连接层来重建输入数据,解码器的输出是原始数据X的重构,这部分目标函数如下:
2.2 图自编码器
在现有的文献中,自编码器是一种对称的结构,而图自编码器是一种不对称的结构,典型的图像自编码器的编码器部分是一个图卷积网络,在GAE 中,编码器和解码器中的一层被表述为:
其中,=A+I和。从上式可以看出,第l- 1层的表示Zl-1通过归一化邻接矩阵进行节点间的信息传播以获得第l层的表示Zl。为了最小化加权属性矩阵和邻接矩阵上的重建损失函数,GAE 的损失函数由两部分重构损失组成:
2.3 信息融合机制
为了充分利用自编码器和图自编码器提取的节点属性信息和结构信息,使用一个高效的信息融合模块来整合由自编码器学到的表示和图自编码器学到的表示,融合后的表示包含了属性与结构两方面的信息,旨在获得表征能力更强的,聚类友好的潜在一致表示,以提升聚类任务的性能。具体来说,可以分为如下4 步:
首先,将AE 和GAE 学到的潜在表示进行线性组合操作:
其中,a是可学习参数,ZAE和ZGAE分别表示由AE和GAE 学到的潜在表示。
最后,将考虑了局部连接关系的ZL和融合了全局相关关系的ZG进行线性组合,得到最终的一致表示= ZL+bZG,其中,b是可学习参数,用来平衡两个表示的重要程度。以这个统一的潜在表示Z~ 作为AE 和GAE 解码器的输入,从而分别对两个子网络的输入进行重构。
2.4 聚类损失
经过信息融合模块,自编码器和图自编码器学到的表示已经连接起来,为了设计联合的深度聚类算法,将特征学习和信息融合模块与聚类任务统一在一个框架中,以对这些模块进行端到端的训练。具体来说,对于第i个样本表示和第j个簇中心,使用t分布作为核来度量样本点和簇中心之间的相似性,如下所示:
其中,uj是聚类中心,v表示t分布的自由度,qij可以理解为将样本i分配给第j个簇的概率,即把Q当作所有样本的聚类分配矩阵,对Q经过锐化处理得到目标分布P:
为了在统一的框架中训练网络并提高每个模块的表示能力,对AE 和GAE 两个子网络的潜在嵌入计算相应的软分配Q′和Q′,将三者的平均值和P分布之间的OT距离作为聚类损失,目标分布P可以帮助前面的模块学习到更好的用于聚类的表示,聚类损失即为二者之间的OT 距离:
整体的损失函数由3 部分组成,即AE 和GAE 的重构误差,以及聚类损失:。其中,β是一个预定义的超参数。
3 结果与分析
3.1 数据集描述
对于提出的算法,在如下3 个公共的图数据集(ACM、DBLP 和Citeseer)进行了评估。这些数据集的相关统计信息如表1 所示。本文将提出的方法与K-means、AE、DEC、IDEC、GAE & VGAE、DAEGC、SDCN 进行了比较。
表1 数据集描述
3.2 实验设置与评价指标
对于其他比较方法,我们直接报告SDCN 论文中列出的结果。对于我们的方法,模型的训练包括3 个步骤:首先,对AE 和IGAE 进行预训练(30 次迭代);其次,集成两个子网络到统一框架,再进行100 次迭代;最后,在三重监督策略的指导下,训练整个网络200 次迭代直到收敛。把实验重复做10 次,目的在于减轻随机性的不利影响,并报告平均值和相应的标准偏差。以下4 个指标可以评估所有方法的聚类性能:准确度(ACC)、归一化互信息(NMI)、调整的兰德指数(ARI)和宏观F1-分数(F1)。对于每个指标,较大的值意味着更好的聚类结果。
3.3 实验结果与分析
将提出的方法与几种不同类型的聚类方法进行了比较,以验证其有效性,表2 显示了3 个数据集上的聚类结果。对于每个指标,文中的方法在所有数据集中都取得了最好的结果,通过高效地融合图结构信息和节点属性,充分利用了数据各方面信息,使得学到的共识表示对于聚类更加友好,极大地提高了聚类性能;聚类损失对提高深度聚类性能有重要作用,它提高簇的凝聚力进而提升聚类效果。
表2 在3 个数据集上的聚类结果(x- ± s)
4 结论
本文提出了一种新的基于图卷积神经网络的深度聚类方法,称为联合编码属性图聚类(JEAGC)。在该方法中,通过信息融合模块对来自编码器的信息和图自编码器的信息实现了动态的融合,充分利用了数据的属性和结构双方面的信息,同时三重自监督策略有效地提供精确的网络训练指导,使其学到更好的表示,获得更优的聚类性能。3 个基准图数据集的实验表明,JEAGC 始终优于此前的传统聚类和深度聚类方法。