面向聚类集成的基聚类三支筛选方法
2019-12-23徐健锋邹伟康梁伟程高洁张远健
徐健锋 邹伟康 梁伟 程高洁 张远健
摘 要:当前聚类集成的研究主要是围绕着集成策略的优化展开,而针对基聚类质量的度量及优化却较少研究。基于信息熵理论提出了一种基聚类的质量度量指标,并结合三支决策思想构造了面向基聚类的三支筛选方法。首先预设基聚类筛选三支决策的阈值α、β,然后计算各基聚类中类簇质量的平均值,并把其作为各基聚类的质量度量指标,最后实施三支决策。决策策略为: 当某个基聚类的质量度量指标小于阈值β时,删除该基聚类; 当某个基聚类的质量度量指标大于等于阈值α时,保留该基聚类; 当某个基聚类的质量度量指标大于等于β小于α时,重新计算该基聚类质量,并且再次实施上述三支决策直至没有基聚类被删除或达到指定迭代次数。对比实验结果表明,基聚类三支筛选方法能够有效提升聚类集成效果。
关键词:三支决策;聚类集成;基聚类;三支筛选
中图分类号:TP181
文献标志码:A
Threeway screening method of basic clustering for ensemble clustering
XU Jianfeng1,2,3*, ZOU Weikang1, LIANG Wei2, CHENG Gaojie2, ZHANG Yuanjian3
1.School of Information Engineering, Nanchang University, Nanchang Jiangxi 330031, China;
2.School of Software, Nanchang University, Nanchang Jiangxi 330047, China;
3.College of Electronics and Information Engineering, Tongji University, Shanghai 201804, China
Abstract:
At present, the researches of ensemble clustering mainly focus on the optimization of ensemble strategy, while the measurement and optimization of the quality of basic clustering are rarely studied. On the basis of information entropy theory, a quality measurement index of basic clustering was proposed, and a threeway screening method for basic clustering was constructed based on threeway decision. Firstly,α,βwere reset as the thresholds of threeway decision of basic clustering screening. Secondly, the average cluster quality of each basic clustering was calculated and was used as the quality measurement index of each basic clustering. Finally, the threeway decision was implemented. For one threeway screening, its decision strategy is:1) deleting the basic clustering if the quality measurement index of the basic clustering is less than the thresholdβ; 2) keeping the basic clustering if the quality measurement index of the basic clustering is greater than or equals to the thresholdα; 3) recalculating the quality of a basic clustering and if the quality measurement index of the basic clustering is greater thanβand less thanαor equals toβ. For the third option, the decision process continues until there is no deletion of basic clustering or reaching the times of iteration. The comparative experiments show that the threeway screening method of basic clustering can effectively improve the ensemble clustering effects.
Key words:
threeway decision; ensemble clustering; basic clustering; threeway screening
0 引言
近年來,由于聚类效果及鲁棒性方面的优势,聚类集成算法已经逐步成为无监督机器学习的一种热点研究问题。聚类集成的主要思想是通过融合不同版本的基聚类成员来实现无监督的分类任务[1]。聚类集成的效果主要与该算法的两个主要环节紧密相关: 首先是产生高质量的基聚类成员集合,其次是设计高效的集成策略(一致性函数)。当前聚类集成技术的主要研究内容也围绕上述两个步骤展开。
其中集成策略就是通过有效的组合策略将基聚类成员高效地组合起来。集成策略主要有超图[2-4]、信息论[5]、关联矩阵[6-7]、投票[8]、关联规则[9]等。
而对于基聚类成员产生,主要有如下两种方法:一是采用同一聚类方法设置不同的初始参数[10-11]或者不同聚类方法[12-13]作用于同一数据集来得到不同的基聚类成员; 二是采用同一聚类方法处理同一数据集的不同非等值变形进而得到不同的基聚类成员,变形包括对数据集进行投影[14-16]和采样[17-19]操作处理。这两种方法都以生成高质量的基聚类为研究目标,但是多次反复的基聚类计算过程难免会生成部分低质量基聚类,而针对基聚类质量的度量及其筛选方法的研究文献报道目前还较少。如果能够构造有效的基聚类质量度量,并且根据基聚类质量对基聚类进行优化筛选必然能够提升聚类集成的效果。鉴于基聚类质量的度量是一种典型的不确定问题,本文采用信息熵理论提出了一种基聚类质量度量方法,并且结合三支决策思想[20-22]构造了基聚类三支筛选优化模型。
1 相关技术
1.1 三支决策基本理论
三支决策是来源于粗糙集理论[23-24]的一种重要的粒计算方法[25]。相较于传统的二支决策(正/负决策)而言,三支决策增加了延迟决策作为不能准确作出正负决策时的决策行为,三支决策也合理地解释了粗糙集理论中的三个决策域(正域、负域和边界域)划分行为。
三支决策基本思想是通过评价函数λ对某个数据对象集合D中的元素x∈D进行不确定程度的划分:
当λ(x)≥α时,元素x被划分到集合D的正决策域POS(α, β)(x);
当λ(x)<β时,元素x被划分到集合D的负决策域NEG(α, β)(x);
当β≤λ(x)<α时,元素x被划分到集合D的延迟决策域BND(α, β)(x)。
其中(α, β)为三支决策阈值,通常设定为 0≤β<α≤1。
基于三支决策,全域D可以被划分为3个不相交的区域:
POS(α, β)(D)={x∈Dλ(x)≥α}
BND(α, β)(D)={x∈D|β≤λ(x)<α}
NEG(α, β)(D)={x∈D|λ(x)<β}
1.2 聚类集成
聚类集成的算法流程主要由基聚类的生成和基聚类的集成两个主要步骤构成。其中,生成M个基聚类就是对数据集D执行M次聚类,M次聚类的结果构成的基聚类集合可记作Π={C1,C2,…,CM},其中Ci∈Π表示Π中第i个基聚类。Π的基数Π=M为基聚类成员数量,|*|表示集合的基数。Π中任意基聚类成员Ci∈Π都由若干个簇构成,记作Ci={ci1,ci2,…,ciNi},其中任一cij∈Ci表示基聚类Ci中的第j个类簇,Ci的基数Ci=Ni表示Ci由Ni个类簇构成。Π中的任意基聚类Ci∈Π,Cj∈Π,i≠j,则Ci与Cj的基数可以根据算法设计要求设定为相同或者不同,即Ni=Nj或者Ni≠Nj。
基聚类集成则是使用合适的集成方法对基聚类集合Π进行聚合。其聚合过程可以表示为C′=f(Π),其中一致性函数f为集成方法,C′为最终聚类结果。对于集成方法f,常用的有层次聚类法、投票法、信息论方法和图划分法等方法。
2 基聚类三支筛选
基聚类是聚类集成的基础,基聚类集合的每个成员Ci∈Π的质量对聚类集成结果都有较大的影响。为了降低低质量基聚类成员对聚类集成的影响,本章提出了一种基聚类成员质量评价方法,并且采用三支决策的思想构造一种基聚类成员择优筛选的算法。
2.1 基于信息熵的类簇不确定性度量
在信息理论[5]中,信息熵是对随机变量相关不确定性的度量。在聚类集成中给定任一类簇cni∈Cn,其中Cn∈Π,则cni中的数据对象有可能在另一个基聚类Cm∈Π中被划分在Cm多个簇中。显然,cni中的数据对象最多可以属于Cm中的所有Nm个不同的簇,其中Nm=Cm。基于以上情况,基于信息熵的类簇不确定性度量定义如下。
定义1 在基聚类Π中,对任意cni∈Cn,cmj∈Cm,其中Cn∈Π,Cm∈Π且cni∩cmj≠,则cni相对于cmj的不确定度量为:
H(cni,cmj)=-p(cni,cmj)lnp(cni,cmj)(1)
其中p(cni,cmj)=|cni∩cmj||cni|。
一组随机变量的不确定性通常使用变量的联合信息熵[5]来度量。由于对于Π任一基聚类Cn={ cn1,cn2,…, cnNn} 中的Nn个类簇相互独立,因此根据定义1,Cn中任意一个类簇cni∈Cn相对于另一个基聚类Cm∈Π的不确定性可计为cni中元素出现在Cm中各个类簇样本的概率总和。因此,类簇cni相较于基聚类Cm的不确定性可定义为:
定义2 给定基聚类集合Π,类簇cni相对基聚类Cm的不确定性度量为:
Hm(cni)=-∑Nmj=1p(cni,cmj)lnp(cni,cmj)(2)
其中:Nm是Cm中的類簇数,cmj是Cm中第j个类簇。
定义2给出了每个类簇相对任一基聚类的不确定度量形式。对于i, j,m,p(ci,cmj)∈[0,1],得到Hm(ci)∈[0,+∞)。当ci中的所有数据对象属于cm的同一簇时,ci相对Cm的不确定性达到其最小值(Hm(ci)=0)。当cm的所有簇与ci的交集均不为空集时,ci相对Cm的不确定性将达到最大值。
假定基聚类间相互独立,cni∈Cn相对Π的不确定性可以被表示cni相对Π中所有Π个基聚类的不确定性之和。因此,类簇ci相较基聚类集合Π的不确定性定义为:
定义3 给定基聚类集合Π={C1,C2,…,CM},任一基聚类Cn∈Π的某一类簇cni∈Cn相对Π的不确定性程度计算如下:
HΠ(cni)=∑Mm=1Hm(cni)(3)
其中M是集合Π中基聚类的基数。
任一类簇cni∈Cn相对集合Π的不确定性能够反映出聚类集成结果C′中出现类簇cni可能性。如果每个基聚类中都存在与cni相同的类簇,则可以认为cni一定出现C′中,那么cni相对Π的不确定性达到其最小值,即HΠ(ci)=0。另外,cni出现在C′的概率随ci相对Π的不确定性增大而递减。
为更好地理解不确定性的求解过程,下面给出了一个实例。其中,3个基聚类组成的集合Π={C1,C2,C3}。C1包含3个类簇{c11,c12,c13},C2包含4个类簇{c21,c22,c23,c24},C3包含4个类簇{c31,c32,c33,c34}。每个类簇包含的数据对象见表1。
如表1所示,类簇c11包含3个数据对象,c12包含4个数据对象,c13包含3个数据对象。若要计算C1中3个类簇相对集合Π的不确定性。则按照以下步骤:
根据定义1计算类簇ci相对集合Π中排除自身以外所有类簇的不确定性。以类簇c13为例,即为计算c13与集合Π中除其自身以外的10个类簇间的不确定性,即 H(c13,c21)=-p(c13,c21)lnp(c13,c21)=-(2/3)×ln(2/3)≈0.270-3,同理可得H(c13,c22)≈0.366-2,H(c13,c31)≈0.366-2,H(c13,c32)≈0.366-2,H(c13,c33)≈0.366-2。另外,由于c13与c23交集为空,故H(c13,c23)=0,同理可得H(c13,c24)=0,H(c13,c34)=0, H(c13,c11)=0,H(c13,c12)=0。
根据定义2计算计算类簇ci相对集合Π中基聚类Cm的不确定性。根据定义3计算类簇ci相对集合Π的不确定性, 得到所有类簇相对整个集合的不确定性,结果见表2。
表格(有表名)
至此,聚类集合Π中任一类簇ci∈Π都可以给出对于Π的不确定性, 但由于各个基聚类的类簇个数不同,基聚类质量很难使用联合信息熵衡量。为此,一种用基聚类类簇平均熵来表示基聚类不确定性的方法被提出。
定义4 对于集合Π中的基聚类Cm,约定衡量其不确定性指标为基聚类类簇平均熵Hμ(Cm)。Hμ(Cm)表示基聚类Cm中类簇对基聚类Cm的不确定性貢献程度,计算公式为:
Hμ(Cm)=∑nmi=1HΠ(cmi)/nm(4)
其中: 类簇cmi表示基聚类Cm中的第i个类簇,nm为基聚类Cm中的类簇个数,HΠ(cmi)表示基聚类Cm中类簇cmi的熵值。
因此,基聚类不确定性可以通过定义4中的类簇平均熵衡量。类簇平均熵越大,基聚类的不确定性越强,即基聚类的质量越差; 相反,类簇平均熵越小,基聚类的不确定性越弱,即基聚类的质量越好,故类簇平均熵可以作为衡量基聚类质量的度量指标。
2.2 面向基聚类的三支筛选方法
三支决策思想解决不确定问题的过程符合人类正常决策方式思维模式。因此,基于三支决策理论和定义4,用于三支决策的基聚类质量评价函数λ(Cm)被构建,定义为:
定义5 对于任一基聚类Cm∈Π,其基聚类筛选三支决策的评价函数为λ(Cm)=e-Hμ(Cm),其中,Hμ(Cm)为聚类Cm的类簇平均熵。
评价函数λ(Cm)∈(0,1]是类簇平均熵Hμ(cmi)∈[0,+∞)的归一化形式,通过归一函数使得基聚类质量的度量指标符合三支决策域阈值α、 β的判断范围,便于三支决策。
对2.1节中实例使用定义5中评价函数λ(Cm)进行三支决策。其中计算方法为:
首先根据定义4,C1的类簇平均熵可计算为:Hμ(C1)=∑3i=1HΠ(c1i)/3=(1.735-1+1.732-7+1.735-1)/3=1.734-1。同理可得,Hμ(C2)=1.156-3,Hμ(C3)=1.271-9。
其次根据定义5可得,C1、C2、C3的聚类质量的三支决策评价函数如表3所示。
由定义4可得,Hμ(cmi)∈[0,+∞),因此用于三支决策的评价函数λ(Cm)∈(0,1]。显然,当基聚类Cm的不确定性较小时,λ(Cm)值更大。当基聚类Cm的不确定度达到最小值,即H(Cm)=0时,其λ(Cm)将达到最大值,即λ(Cm)=1。当基聚类不确定性接近无穷大时,基聚类的λ(Cm)接近0。
基于上述基聚类以及三支决策思想,构造如下基聚类三支筛选方法:
首先设定基聚类质量筛选阈值为(α, β),并且0≤β<α≤1,对任一基聚类Cm∈Π,根据三支评价函数为λ(Cm)进行如下三支划分。
1)若α≤λ(Cm),则将基聚类Cm划分到正域区间(优质域),记为Cm∈POS(α, β)(Π);
2)若λ(Cm)<β,则将基聚类Cm划分到负域区间(劣质域),记为Cm∈NEG(α, β)(Π);
3)若β≤(Cm)<α,则将基聚类Cm划分到延迟域区间(不确定域),记为Cm∈BND(α, β)(Π)。
经过上述三支划分后可以确定:POS(α, β)(Π)集合中的基聚类为高质量聚类集合;NEG(α, β)(Π)集合中的基聚类为低质量聚类集合;BND(α, β)(Π)集合中的基聚类的聚类质量无法确定,需要进一步判断决策。
因此本文将保留POS(α, β)(Π)域中的优质基聚类,删除NEG(α, β)(Π)域中的劣质基聚类,同时更新Π=Π-NEG(α, β)(Π)。而对BND(α, β)(Π)域中的基聚类元素,即所有更新后的Π=Π-NEG(α, β)(Π)重新计算基聚类质量,并再次三支决策。
通过上述三支分类步骤的多次迭代直至|NEG(α, β)(Π)|=0(NEG(α, β)(Π)中无元素)或达到指定迭代次数,则此时获得的Π为最优基聚类集合。
基于上述面向基聚类的三支决策筛选思想可获得如下算法。
算法 基聚类的三支筛选算法(ThreeWay Screening Algorithm,3WDSA)。
输入 基聚类集合Π={C1,C2,…,CM},迭代次数R,阈值α、β;
输出 基聚类集合Π。
程序前
1)
for t=1,2,…,R/*对Π基聚类筛选迭代*/
2)
根据定义2~4计算Π中所有基聚类类簇平均熵
3)
for m=1,2,…,|Π|/*对Π基聚类执行三支决策*/
4)
根据定义5计算聚类Cm的评价函数λ(Cm)
5)
if λ(Cm)≥α then
6)
将基聚类Cm标记为POS(α, β)(Π)域
7)
else if β≤λ(Cm) andλ(Cm)<α then
8)
将基聚类Cm标记为BND(α, β)(Π)域
9)
else
10)
将基聚类Cm标记为NEG(α, β)(Π)域
11)
end if
12)
end for
13)
if |NEG(α, β)(Π)| == 0 then
14)
将Π中标记为POS(α, β)(Π)域和BND(α, β)(Π)域的基聚类合并成新的基聚类集合Π
15)
break
16)
end if
17)
刪除Π中标记为NEG(α, β)(Π)域的基聚类
18)
将Π中标记为BND(α, β)(Π)域和POS(α, β)(Π)域的基聚类组成基聚类集合Π
19)
end for
20)
将基聚类集合Π输出为Π
程序后
3 实验结果
本章将使用8组数据集对所提算法进行实验,并通过2种不同的聚类算法评估指标对聚类集成进行评估。本章所有实验在python3.6环境下进行,其中工作站环境为Ubuntu18.04lts,Intel i77820X,32GB内存,IDE环境为pyCharm professional 2017.11。
3.1 基数据集和评价方法
3.1.1 数据集与实验准备
实验通过选取来自UCI machine learning repositor(http://archive.ics.uci.edu/ml)的8个真实数据集,分别是图像分割(Image Segmentation, IS)、字母识别(Letter Recognition, LR)、地球资源卫星(Landsat Satellite, LS)、笔迹(Pen Digit, PD)、手写数字识别(Multiple Features, MF)、光学数字识别(Optical Digit Recognition, ODR)、钢板故障(Steel Plates Faults, SPF)、纹理(Texture)。上述数据集的详细描述如表4所示。
3.1.2 评价标准
为了合理评估不同算法的效果,本实验采用F检验(Fmeasure)[26]和标准化互信息(Normalized Mutual Information, NMI)[11]两个指标来对聚类结果进行评估。
1)F检验。
Fmeasure是一种准确度评估指标。基于数据集的标准聚类Cg中各类簇标签来计算某个被测试聚类C′的准确度P以及召回率R,并以此来进一步算出F检验值。
测试聚类C′中类簇cj′相对标准聚类Cg中类簇cgi的准确率P和召回率R计算为:
P(cgi,cj′)=|cgi∩cj′||cj′|(5)
R(cgi,cj′)=|cgi∩cj′||cgi|(6)
其中:cgi为标准聚类Cg中拥有第i类标签的类簇;cj′为聚类C′中的第j个类簇。
类簇cj′中匹配标准类簇cgi的元素的百分比计算为:
FM(cj′)=2×P(ci,cj′)×R(ci,cj′)P(ci,cj′)+R(ci,cj′)(7)
聚类结果C′相对标准聚类Cg准确度计算为:
FM(C′)=∑kj=1FM(cj′)k(8)
其中k为C′的类簇数量C′。
2)标准化互信息。
NMI检验提供了一组随机变量间的信息互通指数(关联程度),可以通过NMI 进行常规的聚类评价。假设某基数为τ的数据集,若Cg为该数据集标准聚类,C′为待分析的某个聚类,那么C′相当于Cg的NMI指标得分公式为:
NMI(C′,Cg)=∑μ′i=1∑μgj=1υijlogυijτωiθj∑μ′i=1ωilogωiτ∑μgj=1θjlogθjτ(9)
其中:μ′为基聚类C′中的类簇数量C′,μg为真实聚类Cg中的类簇数量Cg。
ωi为元素出现在聚类C′中第i个类簇中元素的基数ci′,θj为标准聚类Cg中第j个类簇中元素的基数cj′。
另外,υij为基聚类C′中第i个类簇和标准聚类Cg中第j个类簇中的公共元素个数ci′∩cj′。
上述F检验与NMI指标的取值范围均为[0,1],且当取值越接近1聚类算法性能越好。
3.2 对比实验分析
本文拟从不同角度设计对比实验,分析不同算法在数据集上的表现。选取k均值(kmeans)、证据累积聚类(Evidence Accumulation Clustering, EAC)[12]、局部加权证据累积 (Locally Weighted Evidence Accumulation, LWEA)[27]、局部加权图划分(Locally Weighted Graph Partitioning, LWGP)[27]作为参与对比的基准算法。使用本文提出的三支筛选算法(3WDSA)优化EAC、LWEA、LWGP得到的3WDSAEAC、3WDSALWEA、3WDSALWGP算法与其他传统方法kmeans、超图分割算法(HyperGraph Partitioning Algorithm, HGPA)進行对比实验。实验迭代次数R设置为5,并在阈值α和β的值域[0,1]上分别选取100个不同的阈值α和β,实验选取基准数据集为DS1。其中100个α和100个β组成的阈值对(α,β)对算法影响如图1所示。
图1中XOY平面的X轴为自然增长的α值,Y轴为自然增长的β值,纵轴为不同阈值下聚类集成算法相较于未筛选结果的提升率。不同阈值调节模型产生优质基础聚类的比率,从而使得最终聚类结果拥有更好的效果。如图1所示,随着阈值变化,算法的提升率发生改变。算法的提升率随阈值对的增加而上升,直至达到最高,随后算法的提升率随阈值对的增加而下降。
阈值α和β在各数据集下最佳取值结果见表5。通过100轮实验,最佳阈值在[0,1]中获得。阈值α和β影响筛选模型的效果,只有取合适阈值时,提出的三支筛选算法才比基准算法有更好的促进作用。
根据表5中的数据,发现8个数据集的阈值α约为0.25,阈值β约为0.55, 所以,用该阈值对进行其他的实验。基于所有基准数据集的性能,本文推荐使用阈值α∈[0.20,0.29]和阈值β∈[0.49,0.58]。
为了验证本文提出的三支筛选算法(3WDSA)的有效性,对比实验设计如下:
1)3WDSAEAC、3WDSALWEA算法与基础kmeans算法的性能对比;
2)3WDSAEAC、3WDSALWEA、3WDSALWGP与EAC、LWEA、LWGP、HGPA之间的性能对比;
最后为了验证不同基聚类集合基数对3WDSA算法的有效性影响,进而实施第3个实验:
3)不同基聚类集合基数M对3WDSAEAC、3WDSALWEA、3WDSALWGP、EAC、LWEA、LWGP、HGPA算法的影响。
3.2.1 与基聚类对比
为了验证3WDSA对聚类集成算法的提升效果,本节对比3WDSAEAC、3WDSALWEA与基础kmeans等算法的性能得分。实验方法为,分别使用3WDSAEAC、3WDSALWEA算法运行100次实验数据,同时计算这100次实验的NMI得分均值作为算法性能得分; 也分别执行了100次基础kmeans、EAC、LWEA算法,并计算各自的NMI平均得分作为基准参考。
实验结果如图2所示, 在所有测试数据集上3WDSAEAC和3WDSALWEA效果显著优于基准kmeans算法; 特别是3WDSALWEA在所有测试数据集上获得了最好的NMI均值得分。在对聚类集成算法不友好的SPF数据集上,3WDSAEAC和3WDSALWEA的算法表现仍然能够优于基准kmeans算法,且效果明显高于基准EAC和LWEA算法。
3WDSAEAC和3WDSALWEA在LR数据集上的NMI均值得分提升效果最为显著,较基准EAC和LWEA分别上升了1.12%和1.36%;在IS、LS、PD等数据集上,3WDSAEAC和3WDSALWEA在基准EAC和LWEA上有明显的效果提升。而在测试数据集MF上,3WDSAEAC和3WDSALWEA比较基准EAC和LWEA效果提升不明显。综上所述,实验数据表明,3WDSA能够提升聚类集成的效果。
3.2.2 与其他聚类集成方法对比
为了进一步验证3WDSA在聚类集成方法上的提升效果,本节对比3WDSAEAC、3WDSALWEA、3WDSALWGP算法与EAC、LWEA、LWGP、HGPA算法之间的聚类F检验与NMI性能得分。其中HGPA为用于衡量对照组准确性的算法。
同时,设定实验在基聚类基数M相同的前提下执行每个算法50次,然后计算平均F检验和NMI得分。
实验结果如表6所示,每个数据集下获得的最好效果均已加粗显示。3WDSAEAC、3WDSALWEA、3WDSALWGP在LR数据集上平均提升效果最好,Texture数据集次之。即使LWEA和LWGP采用了局部权重策略,一定程度上降低了低质量聚类对聚类集成的影响,经过3WDSA优化的3WDSALWEA和3WDSALWGP算法在各数据集上仍有1%~2%的算法效果提升。上述聚类效果的提升是因为3WDSA消除了低质量基聚类对聚类集成结果的消极影响,从而提升了高质量基聚类对聚类集成结果的积极影响。本实验进一步证明了3WDSA在提升聚类集成算法性能上的有效性。
4 结语
本文提出了一种基聚类三支决策筛选方法。该方法在使用信息熵构建基聚类质量度量的基础上进行三支筛选,并且可与任意聚类集成算法相融合。通过多组对比实验证明基聚类三支筛选方法能够有效提升经典聚类集成方法的聚类效果。该研究显示三支决策理论是提升无监督学习效果的一种有效策略。
参考文献 (References)
[1]宋敬环. 聚类集成算法研究[D]. 哈尔滨: 哈尔滨工程大学, 2015:1. (SONG J H. Research on clustering ensemble method[D]. Harbin: Harbin Engineering University, 2015: 1).
[2]STREHL A, GHOSH J. Cluster ensembles: a knowledge reuse framework for combining partitionings[J]. Journal of Machine Learning Research, 2003, 3(3): 583-617.
[3]YU Z, LI L, LIU J, et al. Adaptive noise immune cluster ensemble using affinity propagation[J]. IEEE Transactions on Knowledge and Data Engineering, 2015,27(12): 3176-3189.
[4]HUANG D, LAI J, WANG C. Combining multiple clusterings via crowd agreement estimation and multigranularity link analysis[J]. Neurocomputing, 2015, 170: 240-250.
[5]YANG Y. Elements of information theory[J]. Journal of the American Statistical Association, 2008, 103(3): 429-429.
[6]IAMON N, BOONGOEN T, GARRETT S, et al. A linkbased approach to the cluster ensemble problem[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2396-2409.
[7]WANG T. CATree: a hierarchical structure for efficient and scalable coassociationbased cluster ensembles[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2011, 41(3): 686-698.
[8]TUMER K, AGOGINO A K. Ensemble clustering with voting active clusters[J]. Pattern Recognition Letters, 2008, 29(14):1947-1953.
[9]董彩云, 杜韬, 郭春燕,等. 聚类后的关联规则快速更新算法研究[J]. 計算机应用研究, 2004, 21(11): 30-32.(DONG C Y, DU T, GUO C Y, et al. Research on fast adapting algorithm of association rules after clustering[J]. Application Research of Computers, 2004, 21(11): 30-32.)
[10]TOPCHY A, JAIN A K, PUNCH W. Clustering ensembles: models of consensus and weak partitions [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(12):1866-1881.
[11]STREHL A, GHOSH J. Cluster ensembles: a knowledge reuse framework for combining multiple partitions [J]. Journal of Machine Learning Research, 2002, 3: 583-617.
[12]FRED A L, JAIN A K. Combining multiple clusterings using evidence accumulation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(6): 835-850.
[13]FERN X Z, BRODLEY C E. Random projection for high dimensional data clustering: a cluster ensemble approach[C]// Proceedings of the 20th International Conference on Machine Learning. Palo Alto: AAAI Press, 2003: 187-192.
[14]KUNCHEVA L I, VETRO D P. Evaluation of stability ofkmeans cluster ensembles with respect to random initialization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(11):1798-1808.
[15]MINAEIBIDGOLI B, TOPCHY A, PUNCH W F. Ensembles of partitions via data resampling[C]// Proceedings of the 2004 International Conference on Information Technology: Coding and Computing. Washington, DC: IEEE Computer Society, 2004: 188-192.
[16]DUDOIT S, FRIDLYAND J. Bagging to improve the accuracy of a clustering procedure[J]. Bioinformatics, 2003, 19(9): 1090-1099.
[17]YANG Y, JIANG J. Hybrid samplingbased clustering ensemble with global and local constitutions[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 27(5): 952-965.
[18]ZHOU P, DU L, WANG H, et al. Learning a robust consensus matrix for clustering ensemble via KullbackLeibler divergence minimization[C]// Proceedings of the 24th International Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 4112-4118.
[19]YU Z, LUO P, YOU J, et al. Incremental semisupervised clustering ensemble for high dimensional data clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(3):701-714.
[20]YAO Y. An outline of a theory of threeway decisions[C]// Proceedings of the 8th International Conference on Rough Sets and Current Trends in Computing. Heidelberg: Springer, 2012:1-17.
[21]WANG L, MIAO D, ZHAO C. Chinese emotion recognition based on threeway decisions[C]// Proceedings of the 10th International Conference on Rough Sets and Knowledge Technology. Heidelberg: Springer, 2015:299-308.
[22]XU J, MIAO D, ZHANG Y, et al. A threeway decisions model with probabilistic rough sets for stream computing[J]. International Journal of Approximate Reasoning, 2017, 88: 1-22.
[23]LI W, XU W H. Doublequantitative decisiontheoretic rough set[J]. Information Sciences, 2015, 316: 54-67.
[24]QIAN Y, ZHANG H, SANG Y, et al. Multigranulation decisiontheoretic rough sets[J]. International Journal of Approximate Reasoning, 2014, 55(1) :225-237.
[25]苗奪谦, 徐菲菲, 姚一豫,等. 粒计算的集合论描述[J]. 计算机学报, 2012, 35(2):351-363.(MIAO D Q, XU F F, YAO Y Y, et al. Settheoretic formulation of granular computing[J]. Chinese Journal of Computers, 2012, 35(2): 351-363.)
[26]ABUALIGAH L M, KHADER A T, ALBETAR M A, et al. Text feature selection with a robust weight scheme and dynamic dimension reduction to text document clustering[J]. Expert Systems with Applications, 2017, 84(C):24-36.
[27]HUANG D, WANG C, LAI J. Locally weighted ensemble clustering[J]. IEEE Transactions on Cybernetics, 2016, 48(5):1460-1473.
This work is partially supported by the National Natural Science Foundation of China (61763031, 61673301), the National Key Research and Development Program of China (213).
XU Jianfeng, born in 1973, Ph. D., professor. His research interests include granular computing, rough set, threeway decision, deep learning, ensemble clustering.
ZOU Weikang, born in 1995, M. S. candidate. His research interests include granular computing, rough set, threeway decision, ensemble clustering.
LIANG Wei, born in 1993, M. S. candidate. His research interests include machine learning, granular computing, rough set, threeway decision, deep learning, ensemble clustering.
CHENG Gaojie, born in 1985, M. S., lecturer. Her research interests include granular computing, rough set, machine learning, ensemble clustering.
ZHANG Yuanjian, born in 1990, Ph. D. candidate. His research interests include granular computing, threeway decision, multilabel learning.