多子群自组织聚合的PSO数据分类
2016-12-23穆华平焦长义
穆华平+焦长义
摘 要 引入多子群动态演化的结构改善PSO算法的收敛性能,在对数据样本进行预处理的基础上,构造了一种适合多子群PSO算法的分类规则编码和适应度函数。通过对UCI的四个数据集的分类实验,验证了该分类方法的性能优势。
关键词 多子群 PSO算法 数据分类 自组织
中图分类号:TP183 文献标识码:A
3仿真实验
3.1数据来源与参数设置
为了验证新算法的数据分类性能,本文选用UCI 数据库中常用的3个数据集进行仿真实验,并将其与PSOC、复合粒子群分类算法和MPSO-HLC的性能进行比较。算法参数设置如下:种群规模 N= 40,Gmax= 500,择优连接概率p取0.4,适应度方差的阈值取0.01,实验数据集的样本数量和特征如表1所示。
3.2实验结果分析
数据分类过程包括规则提取和数据分类两个阶段,因此实验中将数据集随机分成训练数据集和测试数据集两部分,试验中二者的比例取2:3。表2显示了新算法与复合粒子群分类算法以及PSOC在上述四个数据集的分类结果。
从表2的实验结果可以看出,除了MPSO-HLC分类算在Pima数据集上的分类准确率更高以外,本文提出的基于多子群的PSO算法的数据分类方法在准确率上都要明显高于其它三种算法,并且标准差低于较小,这说明该算法具有较好的稳定性。这一方面归功于多子群的引入使得PSO算法的群体多样性得到提高,有利于算法后期的“勘探”和“开采”,提高了算法的收敛精度;另一方面,在分类规则的提取上,采用的是各个子群的最优个体的编码映射,相当于对提取的分类规则进行了择优筛选,因而能够以更高的准确率覆盖数据集。然而,实验中也发现,由于算法增加了算法搜索停滞的判断和群体的动态聚合过程,一定程度上增加了算法的时间复杂度。
4结论
设计了一种适合多子群PSO算法的规则编码,并构造了合适的适应度函数,引入多子群动态聚合模型改善算法,以提高数据分类的准确度。通过UCI的4个标准数据集的实验表明,新算法能够明显提高数据分类的准确率,且稳定性很好。
基金项目:河南省高等学校重点科研项目(项目编号:15B520014)。
参考文献
[1] 张红蕊,张永,于静雯.云计算环境下基于朴素贝叶斯的数据分类[J].计算机应用与软件,2015,32(3):27-30.
[2] 张晓贺.决策树分类器的实现及在遥感影像分类中的应用[D].兰州交通大学,2013.
[3] 黄宇栋.BP神经网络在信息系统数据分类中的应用研究[D].中国地质大学,2013.
[4] Kennedy J,Eberhart R C.Particle Swarm Optimization [C].Proceedings of the 1995 IEEE International Conference on Neural Networks. Piscataway, Perth,NJ,USA:IEEE service center,1995:1942-1948.
[5] 王旸,刘晓东,徐小慧,等.基于粒子群优化的数据分类算法[J].系统仿真学报,2008,20(22):6158-6162+6168.
[6] 曾正良,罗可,邹瑞芝.基于复合粒子群的数据分类方法[J].计算机工程与应用,2009,45(7):156-158.
[7] 王利霞.改进的粒子群优化算法及其在数据分类中的应用[D].西安电子科技大学硕士学位论文,2014.