改进正余弦算法优化特征选择及数据分类
2022-07-05陈亮汤显峰
陈亮,汤显峰
改进正余弦算法优化特征选择及数据分类
陈亮,汤显峰*
(浙江大学 信息技术中心,杭州 310027)(*通信作者电子邮箱txf1213@zju.edu.cn)
针对传统正余弦算法(SCA)处理复杂优化问题时存在易得局部最优和收敛慢的不足,提出一种基于惯性权重与柯西混沌变异的改进正余弦算法IWCCSCA。首先设计了基于指数函数的曲线自适应振幅调整因子更新方法,用于均衡个体的全局搜索与局部开发能力;接着设计了自适应递减惯性权重更新机制,以改进个体位置更新方式,加快算法收敛;还设计了基于精英柯西混沌变异的个体扰动机制,以提升种群多样性,避免局部最优。利用8种基准函数寻优测试验证了IWCCSCA能够有效提升收敛速度和寻优精度。此外,将IWCCSCA应用于数据原始特征集中的特征子集选取问题,提出了基于IWCCSCA的特征选择算法IWCCSCA-FS。通过将正余弦函数的连续优化转换为特征选择的二进制优化,实现了个体位置与特征子集间的映射关系,以同步考虑特征选择量与分类准确率的适应度函数来评估候选解质量。UCI基准数据集的测试结果表明,IWCCSCA-FS算法可以有效选择最优特征子集,降低特征维度,提高数据分类准确率。
正余弦算法;惯性权重;柯西变异;混沌映射;特征选择
0 引言
原始数据通常同时具有高维度、稀疏性等特点,因此,数据挖掘中的特征选择是数据预处理的关键步骤,它不仅可以降低原始数据维度、提升算法学习效率,还可以在原始数据集中筛选对分类器分类性能最佳的特征子集,从而提高分类准确率[1]。目前,常用特征选择方法有两类:过滤法和封装法[2]。过滤法与学习算法无关,主要通过数据的常规内在属性和数据关系标识特征关联,并判断特征优劣,筛选特征子集,属于统计学范畴。该方法简单易行,且效率较高,但选择精度差,冗余特征多,会降低分类准确度。如:互信息法[3]、信息增益法[4]、相关性法[5]、主成分分析法[6]等过滤法应用较广泛。封装法将特征空间与分类器密切关联,能有效剔除冗余特征,提高分类准确性。但当特征量较多时,封装法对特征子集进行穷尽式搜索计算代价太高,难以实现。近年来,学者们利用启发式算法作为封装法的搜索机制,能有效提升特征选择准确率和数据分类准确率。如:粒子群优化(Particle Swarm Optimization, PSO)算法[7]、遗传算法(Genetic Algorithm, GA)[8]、灰狼优化(Grey Wolf Optimization, GWO)算法[9]、鲸鱼优化算法(Whale Optimization Algorithm, WOA)[10]等,均已被用于特征选择领域。正余弦算法(Sine Cosine Algorithm, SCA)是近年来提出的新型启发式优化算法[11],它根据正余弦函数的数学模型振荡寻优,具有参数少、结构简单且易于实现的优点,它的寻优性能优于GA、PSO算法和花授粉算法,并已广泛应用在光谱特征峰定位[12]、无线传感器节点部署[13]、电网故障诊断[14]、图像分割[15]、电力系统调度[16]等领域。然而,与常规启发式算法类似,处理复杂高维问题时,SCA依然存在收敛速度慢、寻优精度低和易得到局部最优的不足。
为此,文献[17]中提出了基于精英反向学习和具有反思能力的改进SCA——MSCA(Modified SCA)。该算法利用精英反向学习构造精英反向种群,利用择优保留优化种群构成;并通过个体反思能力预防盲目的学习行为,使算法在函数优化上表现出了较强的鲁棒性。文献[18]中设计了针对转换参数的抛物线函数和指数函数的变换机制,并验证了改进后的算法PSCA(Parabolic SCA)和ESCA(Exponetial SCA)能够提升算法的寻优精度和收敛速度。文献[19]中提出了基于多正交搜索策略的改进算法MOSCA(Multi-orthogonality SCA),在保留原SCA全局搜索能力的同时,正交搜索极大增强了局部开发能力,加速了算法收敛。文献[20]中将差分进化(Differential Evolution, DE)融入基本SCA,通过差分进化的变异、交叉和贪婪选择机制有效增强了个体的全局搜索能力,使算法能够跳离局部最优,实现全局寻优。文献[21]中提出了基于非线性转换参数和随机差分变异的改进正余弦算法LSSCA(LogiStic SCA),通过提升种群多样性,有效均衡了算法的全局搜索与局部开发能力。
以上研究改进工作针对SCA的某一方面作出了优化,但在局部开发和全局勘探过程的均衡协调、收敛速度提升、避免陷入局部最优以及提升寻优精度等综合性能方面仍然有待深入研究。为了进一步提升SCA的寻优性能,本文设计了基于指数函数的曲线自适应振幅调整因子的更新方法,以均衡个体的全局搜索与局部开发能力;设计了基于自适应的递减惯性权重更新机制,以改进个体位置更新方式,加快算法收敛;设计了基于精英柯西混沌变异的个体扰动机制,以提升种群多样性,避免陷入局部最优解。最后通过基准函数寻优测试,验证了基于惯性权重与柯西混沌变异的改进正余弦算法(improved SCA based on Inertia Weights and Cauchy Chaotic mutation, IWCCSCA)能够进一步有效提升收敛速度和寻优精度。同时,为了验证算法求解实际问题的能力,设计了基于IWCCSCA的特征选择算法IWCCSCA-FS(IWCCSCA-based Feature Selection),并通过基准数据集的测试,验证该算法可以有效选择最优特征子集,降低特征维度,提升数据分类准确率。
1 正余弦算法
其中:max,j和min,j分别为个体在维度上的上下限;(0,1)为(0,1)内的随机量。迭代过程中,SCA将通过目标函数计算个体位置的适应度,寻找全局最优解。同时,个体将不断更新自身位置,具体方式为:
其中:max为最大迭代数;为常量,一般取值2。
SCA寻优示意图如图1,完整的SCA流程见图2。
图1 SCA示意图
图2 SCA流程
2 IWCCSCA
2.1 基于曲线自适应的振幅调整因子
SCA中,1用于平衡全局搜索和局部开发能力。当1>1时,新个体位于目标位置和当前位置之外,主要作全局搜索;当1<1时,新个体介于目标位置与当前解之间,主要作局部开发。全局搜索和局部开发的有效协调和自适应转换决定了SCA能否获得更好的稳定性和更高的寻优精度。式(3)表明,1在区间[0,a]内为迭代数的线性递减函数。因此,较大1使得迭代早期搜索步长更大,全局搜索能力更强,但调整因子递减速率过快,全局搜索不充分,易陷入局部最优;较小1使得迭代晚期搜索步长更小,但递减速率慢,算法无法快速收敛。这种线性的振幅调整因子显然无法有效提升SCA的寻优精度和收敛速度。为此,IWCCSCA设计了一种基于指数函数的曲线自适应振幅调整因子的更新方法,定义为:
其中:为调节系数。根据式(4),1的递减速率随迭代先慢后快,这表明:前期的迭代次数比原始SCA更多,可以相对增强全局搜索能力,而削弱开发能力,这有助于在更大空间内搜寻最优解;而后期1将加速递减,加快算法收敛。
2.2 基于惯性权重的位置更新
其中:max为初始惯性权重,为惯性权重最大值;min为迭代结束时的惯性权重,为惯性权重最小值。新位置更新方式为:
2.3 基于精英柯西混沌变异的个体扰动
柯西分布特征为:两端具有较长尾翼,这种分布使得个体具有更高的概率跳跃至更好位置,脱离局部最优。而分布在中心0处峰值较小,从峰值下降至0趋势平滑,变异范围均匀。一维标准柯西分布的概率密度函数表达式为:
将柯西算子引入当前最优解的位置更新中,利用柯西算子的调节功能,使算法跳离局部最优。基于柯西变异的个体更新方式为:
而基于混沌变异的个体更新方式为:
其中为Logistic混沌值,定义为:
其中为混沌参数,且=4。
综上,将精英个体的变异扰动方式定义为:
其中5为(0,1)内的随机值。
2.4 IWCCSCA步骤及时间复杂度分析
IWCCSCA流程如图3所示。
时间复杂度分析:令IWCCSCA的种群规模为,最大迭代数为max,个体维度为。随机式种群初始化过程的时间复杂度为(),要遍历所有个个体计算其适应度,因此,适应度计算的时间复杂度为(max)。所有种群个体位置更新的时间复杂度为(max)。每次迭代中,需要对精英个体进行扰动变异,该过程的时间复杂度为(max)。综上,IWCCSCA的总体时间复杂度为(max)。该时间复杂度与基本SCA时间复杂度相同,表明IWCCSCA并未增加计算代价。而IWCCSCA所采用的指数函数曲线自适应振幅调整因子更新方法、自适应递减惯性权重更新机制以及精英柯西混沌变异的个体扰动机制对加快算法收敛、提升种群多样性、避免局部最优解方面起到了积极的促进作用,有效提升了算法性能。
图3 IWCCSCA流程
3 基于IWCCSCA的特征选择
3.1 特征选择模型
大规模数据集的特征选择问题是二进制优化问题,解空间限定为{0,1}。对于IWCCSCA,首先需要将连续优化转换为二进制优化。一个特征选择解可表示为改进正余弦算法中的一个搜索个体,个体维度即代表原始数据集的特征属性数量,且个体x∈{0,1}。编码规则为:若x=1,表明个体中特征被选择;若x=0,则表明个体中特征未被选择。图4代表一种特征选择解,即IWCCSCA的一个个体位置,个体维度为7,对应原始数据集特征属性量为8个。其中,x1=x2=x4=x6=1,表明个体将特征1、2、4、6选择在最优特征子集解中;x3=x5=x7=0,表明特征3、5、7未被选择在最优特征子集解。分类器将利用特征1、2、4、6作数据分类。
图4 特征选择解
同时,IWCCSCA利用S形函数将连续优化形式转换为二进制形式,具体函数式为:
其中:转换函数表明特征子集中元素x取值为1的概率。则位置更新方式为:
其中为[0,1]区间的随机数。
数据集的特征选择问题是多目标优化问题,需要在最小化特征选择量的同时,尽可能得到最大的数据分类准确率。特征选择解通过适应度函数评估。为了平衡所选特征数量(最小化)和分类准确率(最大化),将适应度函数定义为:
3.2 IWCCSCA-FS过程
IWCCSCA-FS流程如图5所示。首先,输入初始基准数据集,将数据集按预设比例划分为训练样本集和测试样本集;然后,利用IWCCSCA进行种群初始化,并通过转换函数实现种群个体与特征子集间的映射关系,得到粒子位置;利用适应度函数评估当前粒子位置的适应度,确定全局最优解;更新振幅调整因子和惯性权重,并根据式(6)进行个体位置更新,重新计算全局最优解,并根据式(11)对精英个体作柯西混沌变异扰动;最后,通过算法迭代寻代,运行到最大迭代次数时得到全局最优粒子所代表的最优特征子集。同时,算法将利用选定的数据分类器,评估所选特征子集的质量。
图5 IWCCSCA-FS流程
4 仿真分析
4.1 IWCCSCA仿真实验
4.1.1 实验配置
表1 基准函数
4.1.2 实验结果分析
表2统计了20次实验中函数平均值、标准方差、最小值和最大值,同步观测算法寻优精度和稳定性。从结果看,无论单峰还是多峰情形,IWCCSCA的寻优精度和稳定性都是最好的。基本SCA在全局搜索与局部开发间均衡和如何实现局部解跳离上都有不足,性能最差,寻优性能依然有较大的提升空间。LSSCA和PSCA分别对转换参数进行了非线性调整,仅对搜索与开发间的均衡性做了优化,性能提升较为有限。本文IWCCSCA利用曲线自适应振幅调整因子更新、自适应递减惯性权重更新和精英柯西混沌变异的个体扰动机制对SCA的搜索与开发间的均衡、收敛速度及种群多样性方面进行了优化,有效提升了算法的寻优精度。因此,IWCCSCA在综合性能提升方面是所有算法中最好的,得到最优解也是最多的。
表2 不同算法在基准函数上得到的统计结果对比
图6观察最大迭代为400时算法的寻优曲线变化。可以看出,4种算法的寻优曲线都有下坠趋势,说明都在迭代地向理论最优解位置靠近;但3种对SCA的改进算法明显寻优速度更快,在最终所得到的最优解上的精度也优于基本SCA。但是,3种改进算法的寻优速度和寻优精度具有明显的不同。IWCCSCA明显寻优更快(曲线下坠趋势最为明显);对于单峰函数,IWCCSCA可以比其他对比算法提前50~100轮迭代得到最优解;多峰函数中,IWCCSCA的曲线具有明显的跳跃下坠特点,算法停留在一个位置的精度上后,出现了明显下坠,这表明算法具有跳离局部最优的能力。其他对比算法很快在最优解处停留并无法进一步提升寻优精度,说明此时的最优解是局部最优解,算法无法跳离局部最优。综合8个基准函数的测试结果,IWCCSCA在处理单峰和多峰函数都具有很好寻优效率及稳定性。
表3分析了IWCCSCA中3种改进策略对于标准SCA的改进情况。将仅利用曲线自适应振幅调整因子的改进SCA命名为C-SCA(Curve SCA),将仅利用惯性权重位置更新的SCA命名为I-SCA(Inertia SCA),将仅利用精英柯西混沌变异个体扰动机制的SCA命名为CC-SCA(Cauchy Chaos based SCA)。相关参数延用前文配置,在表1的8个基准函数上进行测试。根据实验结果可以看出,振幅调整因子改进策略下的C-SCA和惯性权重改进策略下的I-SCA对于基本SCA的性能提升比较局限,而针对精英个体的柯西混沌变异扰动策略下的CC-SCA则可以得到最高的精度和寻优性能,在多数基准函数上精度最高,且部分已经求解到最优解,寻优精度与未消融的IWCCSCA最为接近。对于SCA,精英粒子引导着整个种群的寻优方向,精英个体若能够具备更好的多样性,以及更加接近于理论最优解的邻近区域,在融合扰动变异的基础上,势必能够促进种群的寻优,从而更快收敛于全局最优解。
图6 不同算法的收敛曲线
表3 不同改进策略的影响
表4展示了调节系数对IWCCSCA性能的影响,其中取值2、3、3.5、4,其他参数配置同上。由表4可见,调节系数与IWCCSCA的性能并没有直接的线性关系。起初增加值后,IWCCSCA的均值精度略有上升形势,但后期继续增加后又略有下降。在8个基准函数的测试下,取值为3时寻优精度略高些,可确定该值为IWCCSCA的固定取值。导致该结果的原因可能在于:迭代前期更加注重全局搜索固然可行,但若此时进展缓慢,可能降低算法的寻优效率;后期迭代若收敛过快,局部开发则不充分,影响到寻优精度。
表4 调节系数k对IWCCSCA性能的影响
表5 惯性权重对IWCCSCA性能的影响
表6是IWCCSCA相比SCA、PSCA和LSSCA的Wilcoxon秩和检验结果,该结果可以体现算法间的差异性,其中Yes表示具有明显性能优势。将显著性水平参数设置为0.05,即若-value小于0.05,则表明IWCCSCA相比其他对比算法具有明显性能优势;若-value大于0.05,表明算法间没有明显差异性,甚至性能更差。从表3可以看出,IWCCSCA相比其他对比算法的-value均小于0.05,说明算法中所引入的曲线自适应振幅调整因子更新、自适应递减惯性权重更新和精英柯西混沌变异的个体扰动机制对SCA的改进是切实可行的。
表6 Wilcoxon秩和检验结果
4.2 IWCCSCA-FS算法仿真实验
4.2.1 实验配置
4.2.2 评价指标
选择适应度均值、适应度标准方差、平均分类准确率、平均特征选择比例及算法的平均计算时间作为算法性能的评价指标。
其中:为算法运行次数;AC为第次运行时分类准确率的最优解。
式中:为特征选择算法运行次数;()为第次运行时最优解选择的特征量;为原始数据集特征总量。
适应度标准方差(Standard Deviation, SD)定义如下:
其中:Fitness为第次运行的最优解;为适应度均值,计算公式如式(18)。
SD体现最优解的健壮性,其值越小,代表越能收敛至同一最优解处;值越大,则表明算法性能具有较大波动性,不稳定。
表7 测试数据集
4.2.3 实验结果分析
图7是不同算法的平均适应度对比。由定义可知,适应度越小,算法性能越佳。可以看到,IWCCSCA-FS算法在10个数据集中有5个数据集得到最优值,成功率超过50%,是所有算法中最高的,表明IWCCSCA-FS算法无论是寻优精度还是稳定性方面均表现上佳,这得益于对正余弦算法的综合改进,极大提升了算法的综合性能。综合来看,两种混合优化算法SCADE-FS和BGWOPSO-FS在适应度上表现要优于3种未作改进优化的特征选择方法。具体地,SCADE-FS算法在10个数据集中的4个得到了仅次于IWCCSCA-FS算法的平均适应度,说明差分进化机制对于标准正余弦算法在种群多样性上的改进比较有效,寻优精度有所提升;而混合灰狼优化与粒子群优化的BGWOPSO-FS则表现次之。总体上,对群智能优化算法在寻优精度和寻优效率上的改进还是具有比较直观的效果。
图8、9是不同算法的平均分类准确率及标准方差对比。IWCCSCA-FS算法在5个数据集上得到最高的平均分类准确率,是所有算法中最好的。特别是IWCCSCA-FS算法在特征规模较大的Colon数据集和Leukemia数据集上都得到了最高的分类准确率,表明算法有能力处理大规模特征选择问题。且从标准方差值可以看出,算法也具有较好的稳定性,对于不同规模不同类别的特征选择问题,具有较大概率求解最优特征子集,分类准确率更高。SCADE-FS算法在Arrhythmia、Breastcancer和German这3个数据集上得到了最高的分类准确率,表现次之。BGWOPSO-FS算法仅在1个数据集得到了最高分类准确率。WOA-FS算法则仅在BreastEW数据集上得到了最高分类准确率。GOA-GS算法和PSO-FS算法也是仅能在个别数据集上得到最高分类准确率,两种算法稳定性欠佳,并不能确保较高的寻优精度和稳定性。综合来看,IWCCSCA-FS算法无论在数据集上分类准确率最高所占的比例还是处理大规模数据集的特征选择问题上,表现都比其他对比算法更优,且从标准方差上体现出的算法稳定性也比较好。
图7 不同算法的平均适应度对比
图8 不同算法的平均分类准确率对比
图9 不同算法的适应度标准方差对比
图10是平均特征选择比例表现。IWCCSCA-FS算法在6个数据集得到最小的平均特征选择比例。结合前文平均分类准确率结果,IWCCSCA-FS算法在Colon、Lonosphere、Leukemia和Libras四个数据集上同步得到了最大平均分类准确率和最小平均特征选择比例,说明算法在这四个数据集上可以以最小的特征选择规模而得到最高的分类准确率,性能最佳。在Clean1数据集上虽然没有得到最小的特征选择比例,但分类准确率是最高的。SCADE-FS算法在Breastcancer和German两个数据集上同步得到了最大的平均分类准确率和最小的平均特征选择比例。BGWOPSO-FS算法仅在BreastEW数据集上得到了最小的特征选择比例,但其分类准确率并不是最高的。WOA-FS算法在BreastEW和Clean1两个数据集上得到了最小的特征选择比例,但在Clean1数据集上的分类准确率并不高。综合适应度所得值、分类准确率及特征选择比例3个指标来看,本文的IWCCSCA-FS算法可以在最多的数据集上取得最佳性能表现,稳定性较强,说明将本文的改进正余弦算法应用于数据特征选择问题上有效可行,性能较优。
图10 不同算法的平均特征选择比例对比
图11是计算最优解时算法所需平均计算时间对比。IWCCSCA-FS算法在10个数据集中的5个拥有最小的平均计算时间,排名第一,说明算法在寻优效率和收敛速度上优于另外5种算法。SCADE-FS算法和WOA-FS算法均在两个数据集中拥有最小的平均计算时间,但结合图6、8所得的分类准确率和特征选择量方面的表现,显然要差于IWCCSCA-FS算法,IWCCSCA-FS算法同时具有更高的分类准确率和更低的特征选取比例,说明IWCCSCA-FS算法在提升分类准确率和降低特征选择比例的同时,并没有大幅降低算法的寻优效率。综合所有性能指标结果看,IWCCSCA-FS算法的执行效率针对大维度或中小维度特征数据集时依然具有可观的性能表现。
图11 不同算法的平均计算时间对比
进一步引入支持向量机(Support Vector Machine,SVM)作为分类器对IWCCSCA-FS算法的性能进行分析。将算法分别命名为IWCCSCA-KNN和IWCCSCA-SVM,它们在平均分类准确率和平均特征选择比例上的结果如图12所示。其中,柱状图对应左边纵轴结果,折线图对应右边纵轴结果。对于平均分类准确率,IWCCSCA-KNN算法在6个数据集上占优。对于平均特征选择比例,IWCCSCA-KNN算法和IWCCSCA-SVM算法各在5个数据集上占优;而IWCCSCA-KNN算法总共在4个数据集上同步实现了更高的分类准确率和更少的特征选择量,在该组数据集的测试上略占优。
选择Arrhythmia、BreastEW、Colon、HeartEW和Libras这5个数据集观测IWCCSCA-KNN和IWCCSCA-SVM在分类准确率和特征选择比例指标上的箱形图,结果如图13。箱形图可以反映算法结果的分散程度,其顶端横线表示结果的最大值,底端横线表示最小值,箱内横线为中位值。若结果相对分散,跨度较大,说明算法稳定性不足;若箱形体积较小,说明算法的稳定性越好,即使多次测试取均值结果,也可以得到较为稳定的结果。总体来看,两种分类算法各有优势。在分类准确率上,IWCCSCA-SVM算法相对更稳定一些。特征选择比例上,除了在Libras数据集上IWCCSCA-KNN算法的波动比较大,其他4个数据集都比较稳定;而IWCCSCA-SVM算法此时箱形图的体积略大于IWCCSCA-KNN算法,说明在该指标上稳定性不如IWCCSCA-KNN算法。
图12 不同分类器的比较
图13 箱形图对比
5 结语
本文提出了一种基于惯性权重与柯西混沌变异的正余弦算法IWCCSCA及其特征选择算法IWCCSCA-FS。IWCCSCA通过曲线自适应振幅调整因子更新、自适应递减惯性权重更新和精英柯西混沌变异的个体扰动三种机制对传统正余弦算法的全局寻优性能进行了改进。然后在改进正余弦算法的基础进一步设计了基于IWCCSCA的特征选择算法IWCCSCA-FS,并验证了算法求解实际问题的能力。基准函数测试验证了IWCCSCA可以提升正余弦算法的寻优精度和收敛速度,而特征选择算法IWCCSCA-FS测试也该证实算法可以有效选择最优特征子集,降低特征维度,提升数据分类准确率。正余弦算法的个体位置更新方式和适应度函数是影响数据集最优特征选择的关键要素,未来的研究工作可以考虑进一步提高启发式算法的效率、减少迭代次数以接近最优解,同时引入并行化的思路提升寻优效率以满足大数据的处理需求。
[1] LI J D, CHENG K W, WANG S H, et al. Feature selection: a data perspective[J]. ACM Computing Surveys, 2018, 50(6): No.94.
[2] WAN F G, HU L, ZHANG P, et al. Feature selection by integrating two groups of feature evaluation criteria[J]. Expert Systems with Applications, 2018, 110:11-19.
[3] PAUL A K, SHILL P C. Sentiment mining from Bangla data using mutual information[C]// Proceedings of the 2nd International Conference on Electrical, Computer and Telecommunication Engineering. Piscataway: IEEE, 2017:1-4.
[4] GAO Z, XU Y J, MENG F Y, et al. Improved information gain-based feature selection for text categorization[C]// Proceedings of the 4th International Conference on Wireless Communications, Vehicular Technology, Information Theory and Aerospace and Electronic Systems. Piscataway: IEEE, 2014:1-5.
[5] 胡静,华俊,姜羽,等. 一种基于属性关系的特征选择算法[J]. 控制与决策, 2015, 30(10):1903-1906.(HU J, HUA J, JIANG Y, et al. A feature selection algorithm based on relationship between attributes[J]. Control and Decision, 2015, 30(10):1903-1906.)
[6] SINGH T, GHOSH A, KHANDELWAL N. Dimensional reduction and feature selection: principal component analysis for data mining[J]. Radiology, 2017, 285(3):1055-1056.
[7] 李炜,巢秀琴. 改进的粒子群算法优化的特征选择方法[J]. 计算机科学与探索, 2019, 13(6):990-1004.(LI W, CHAO X Q. Improved particle swarm optimization method for feature selection[J]. Journal of Frontiers of Computer Science and Technology, 2019,13(6):990-1004.)
[8] DAS A K, DAS S, GHOSH A. Ensemble feature selection using bi-objective genetic algorithm[J]. Knowledge-Based Systems, 2017, 123:116-127.
[9] HU P, PAN J S, CHU S C. Improved binary grey wolf optimizer and its application for feature selection[J]. Knowledge-Based Systems, 2020, 195: No.105746.
[10] MAFARJA M, MIRJALILI S. Whale optimization approaches for wrapper feature selection[J]. Applied Soft Computing, 2018, 62:441-453.
[11] MIRJALILI S. SCA: a Sine Cosine Algorithm for solving optimization problems[J]. Knowledge-Based Systems, 2016, 96:120-133.
[12] 于坤,焦青亮,刘子龙,等. 基于改进正弦余弦算法的光谱特征峰定位方法[J]. 光学学报, 2019, 39(9):411-417.(YU K, JIAO Q L, LIU Z L, et al. Positioning of characteristic spectral peaks based on improved sine cosine algorithm[J]. Acta Optica Sinica, 2019, 39(9):411-417.)
[13] 何庆,徐钦帅,魏康园. 基于改进正弦余弦算法的无线传感器节点部署优化[J]. 计算机应用, 2019, 39(7):2035-2043.(HE Q, XU Q S, WEI K Y. Enhanced sine cosine algorithm based node deployment optimization of wireless sensor network[J]. Journal of Computer Applications, 2019, 39(7):2035-2043.)
[14] 熊国江,张靖,何宇. 电网故障的正余弦诊断方法[J]. 实验室研究与探索, 2019, 38(9):25-28, 115.(XIONG G J, ZHANG J, HE Y. Power grid fault diagnosis based on sine-cosine algorithm[J]. Research and Exploration in Laboratory, 2019, 38(9):25-28, 115.)
[15] 郎春博,贾鹤鸣,邢致恺,等.基于改进正余弦优化算法的多阈值图像分割[J].计算机应用研究,2020,37(4):1215-1220.(LANG C B, JIA H M, XING Z K, et al. Multi-threshold image segmentation based on improved sine cosine optimization algorithm[J]. Application Research of Computers, 2020, 37(4):1215-1220.)
[16] 熊国江,张靖,何宇. 电力系统经济调度的正余弦优化算法的仿真研究[J]. 实验室研究与探索, 2019, 38(4):76-79, 89.(XIONG G J, ZHANG J, HE Y. Simulation research on power system economic dispatch by sine-cosine algorithm[J]. Research and Exploration in Laboratory, 2019, 38(4):76-79, 89.)
[17] 方旭阳,武相军,游大涛. 具有学习机制的正弦余弦算法[J]. 计算机应用研究, 2020, 37(3):809-813.(FANG X Y, WU X J, YOU D T. Sine-cosine algorithm with learning mechanism[J]. Application Research of Computers, 2020, 37(3):809-813.)
[18] 刘勇,马良. 转换参数非线性递减的正弦余弦算法[J]. 计算机工程与应用, 2017, 53(2):1-5, 46.(LIU Y, MA L. Sine cosine algorithm with nonlinear decreasing conversion parameter[J]. Computer Engineering and Applications, 2017, 53(2):1-5, 46.)
[19] RIZK-ALLAH R M. Hybridizing sine cosine algorithm with multi-orthogonal search strategy for engineering design problems[J]. Journal of Computational Design and Engineering, 2018, 5(2):249-273.
[20] NENAVATH R, JATOTH R K, et al. Hybridizing sine cosine algorithm with differential evolution for global optimization and object tracking[J]. Applied Soft Computing, 2018, 62:1019-1043.
[21] 徐明,焦建军,龙文. 基于Logistic模型和随机差分变异的正弦余弦算法[J]. 计算机科学, 2020, 47(2):206-212.(XU M, JIAO J J, LONG W. Sine cosine algorithm based on Logistic model and stochastic differential mutation[J]. Computer Science, 2020, 47(2):206-212.)
[22] MORADI P, GHOLAMPOUR M. A hybrid particle swarm optimization for feature subset selection by integrating a novel local search strategy[J]. Applied Soft Computing, 2016, 43:117-130.
[23] ABD AZIZ M E, EWEES A A, OLIVA D, et al. A hybrid method of sine cosine algorithm and differential evolution for feature selection[C]// Proceedings of the 2017 International Conference on Neural Information Processing, LNTCS 10638. Cham: Springer, 2017:145-155.
[24] AL-TASHI Q, ABDUL KADIR S J, RAIS H M, et al. Binary optimization using hybrid grey wolf optimization for feature selection[J]. IEEE Access, 2019, 7:39496-39508.
Improved sine cosine algorithm for optimizing feature selection and data classification
CHEN Liang, TANG Xianfeng*
(,,310027,)
To address the shortcomings of the traditional Sine Cosine Algorithm (SCA) in dealing with complex optimization problems with local optimum and slow convergence,an improved SCA based on Inertia Weights and Cauchy Chaotic mutation (IWCCSCA) was proposed. Firstly, a curve adaptive amplitude adjustment factor update method based on exponential function was designed to balance global search and local development capacities; then, an adaptive decreasing inertia weight update mechanism was designed to improve the way of individual position update and accelerate algorithm convergence; and an individual disturbance mechanism based on elite Cauchy chaotic mutation was proposed to enhance the population diversity and avoid falling into the local optimum. IWCCSCA was verified to be effective in improving convergence speed and optimizing accuracy by solving the best solutions of eight benchmark functions. Furthermore, IWCCSCA was used for feature subset selection problem in original data feature set, and a feature selection algorithm based on IWCCSCA was put forward, namely IWCCSCA-FS. The mapping relationship between individual position and feature subset was realized through converting the continuous optimization of sine cosine function to binary optimization of feature selection, and the quality of candidate solutions was evaluated by a fitness function considering feature selection number and classification accuracy simultaneously. Test results on UCI benchmark datasets validate that IWCCSCA-FS can effectively select the optimal feature subset, reduce feature dimension and improve data classification accuracy.
Sine Cosine Algorithm (SCA); inertia weight; Cauchy mutation; chaotic mapping; feature selection
This work is partially supported by National Natural Science Foundation of China (61602141).
CHEN Liang, born in 1980, M. S., engineer. His research interests include artificial intelligence.
TANG Xianfeng, born in 1981, M. S., engineer. His research interests include network information fusion, signal processing, education informationization.
TP393
A
1001-9081(2022)06-1852-10
10.11772/j.issn.1001-9081.2021040555
2021⁃04⁃12;
2021⁃07⁃12;
2021⁃07⁃20。
国家自然科学基金资助项目(61602141)。
陈亮(1980—),男,四川遂宁人,工程师,硕士,主要研究方向:人工智能;汤显峰(1981—),男,重庆人,工程师,硕士,主要研究方向:网络信息融合、信号处理、教育信息化。