基于差分演化的K—means算法在肝脏疾病中的应用
2013-04-29温晓敏唐德玉
温晓敏 唐德玉
摘要:传统的K-均值算法依赖于初始聚类中心的选取,使聚类结果只能收敛于局部最优解;差分演化算法是一类利用随机偏差扰动产生新个体的方式获得非常好的收敛性的结果。为了克服K-均值聚类算法的上述缺点,该文提出基于差分演化的K-均值聚类算法,新算法结合K-均值算法的高效性和差分演化算法的全局优化能力,较好地解决了聚类中心优化问题。实验证明,此算法能够有效改善聚类质量。以肝功能疾病为例对新方法在医学中的应用进行了探讨。
关键词:K-均值算法;聚类;差分演化算法;肝功能疾病诊断
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)08-1900-03
1 概述
随着数据挖掘技术的发展,聚类分析[1]被用作数据分析、数据理解和模式识别的有效工具,其中k均值(K-means)算法是聚类分析中一种被广泛应用的启发式方法,具有简单,快速的优点。但K-means算法对初始聚类中心敏感,存在易陷入局部最优解的缺点。因此本文重点讨论了K-means算法的改进,提出一种基于差分演化算法的K-means算法,以肝功能疾病的诊断为例,对新方法是否改进了K-means算法进行了研究讨论。
2 K-均值(K-means)聚类算法
3.2算法描述
4 实验结果及其分析
为了验证提出的算法的有效性,利用UCI机器学习数据库中的Liver Disorders数据集作为测试样本集。样本集的实验资料是取自英国医学研究有限公司于1990年所建立的肝功能疾病资料集。该资料集是对英国保柏健康小组进行血液测试,并纪录测试结果而得。资料集中共有345个记录样本,6个输入属性为连续性资料,一个类别标记属性(输出属性)status,status的值有0与1两种,当status=1时确定病例。样本集可分为2个种类,这两类样本的个数分别为138、207。
5 结论
通过对K-means算法的研究,提出了基于差分演化算法的K-means算法。实验结果表明,该方法很好地解决了K-means算法易陷入局部最优的问题,得到了较好的聚类效果,在医学诊断方面有很大的帮助。
参考文献:
[1] Han J W, Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.2版.北京:机械工业出版社,2007:251-252.
[2] MacQueen J. Some Methods for Classification and Analysis of Multitvariate Observations [C]. Proceeding of the 5th Berkeley symposium on mathematical statistcs and probability. Berkeley,university of California press,1967:281-297.
[3] Lampinen J.A bibliography of differential evolutionalgorithm[EB/OL]. 2002-10-14.
[4] 龚文引.差分演化算法的改进及其在聚类分析中的应用研究[D].中国地质大学,2010.
[5] 由雪梅,杨连中.求解复杂问题的差分演化算法研究[D].山东:山东大学.2011.