特征选择算法综述及进展研究
2020-10-21包芳殷柯欣
包芳 殷柯欣
摘 要:特征选择算法是一种极为重要的数据处理方法,能够有效解决维数灾难问题,也能够实现模型的可理解优化。当前阶段,对于特征选择算法的研究日渐增多,其研究取得了阶段性进展。本文就特征选择算法的研究情况进行分析,希望可以为特征选择算法的研究提供借鉴。
关键词:特征选择算法;研究进展;研究热点
特征选择是非常常见的一种数据降维方法,它要求我们从原始特征集中来挑选出评估标准最佳的特征子集。这种方法是通过评选准则来选取最小的特征子集,来帮助我们把任务更好的进行归类、回归,提高算法的泛化能力,这样也有助于人们对于模型的理解。特征选择算法可以最大限度的降低学习中错误的发生。所以特征选择算法实质上就是对搜索达到最优或者次优子集的优化问题。我们可以通过选择特征的过程,把那些与任务关系不大的特征去除。通常相对简单的数据集其产生的模型会更为精准,在理解上也更容易被人们接受。
一、最优算法研究
尽最大努力来进行搜索工作就是一种最直接的优化方法。毛勇在《特征选择算法研究综述》中表示,通常来讲,特征选择的方法可以被认为是一种搜索寻优的问题。是我们在大小是n的特征集合当中,搜索空间由2n种可能状态构成。即使特征数目比较低,具备较大搜索空间,倘若当n=20,220个为搜索状态,再对特征评估过程开销进行考量,在具体运用过程中,针对存在比较多特征数目条件,一般情况下,不可以运用穷尽式搜索。
二、随机搜索研究
任双桥、傅耀文、黎湘等人在《基于分类间隔的特征选择算法》中对随机搜索法研究表示,通常会对概率或者取样处理方法进行运用,最具代表性的当属Relief方法和其几种变体。在特征选择领域中,遗传算法的应用范围在不断扩大。近段时间,全新的全局优化算法,就是遗传算法,其对生物遗传学观点进行了借用,利用一些作用机制,例如:时晨曦、张敏情在《基于改进增强特征选择算法的特征融合图像隐写分析》就自然选择、变异、遗传等进行详尽陈述,来提高所有个体的适应性。利用这一点,能够将大自然“物竞天择,适者生存”的进化过程表现出来。通过遗传算法,在对有关问题进行解决的过程中,针对需要解决问题的模型结构与参数,应当开展相关编码工作,通过字符串,将其表示出来,促使问题变得符号化与离散化。
三、启发算法研究
对于启发式搜索策略而言,最具代表性的主要包括序列前进法与序列后退法两种。所谓的序列前进法指的是,集合开始于空集C,依据评价标准,每一步根据相关顺序,由特征全集D中,将最好的特征选择,并加入C集合中,直至对停止条件符合。所谓的序列后退法指的是,集合开始于特征空集D,每一步都会将一个具备最小影响的特征去除,一直到与停止条件符合。将序列前进法与序列后退法联系起来,促进了“plus-l-take away-r”方法的产生,该方法开始于空集C,通过序列前进法,各个步骤将l个特征,增加至C中,之后通过序列后退法,r个特征减去。该方法的推广就是浮动序列前进法与浮动序列后退法,相关算法会自主生成l与r的值。局部考虑通常是启发式策略的基础,要想对全局优化方法进行获取,其存在很大难度。
四、子集评价研究
对于所有评价策略而言,都可以划分为过滤式与包装式两类。在对特征子集进行选择的过程中,相比较于包装式方法,过滤式方法具备更高计算效率。由于在对特征子集进行验证的过程中,关于使用特征方面,无需学习器的辅助,就能开展相关验证工作,但是也有可能不能够将最优的特征子集挑选出来。与之相反,关于包装式方法方面,能够以相关训练活动为依托,利用学习器的表现情况,来对特征子集进行挑选,然后,通过训练好的学习器,开展相关验证工作,这样能够实现相关效果的提升。虽然这一过程所花费的时间比较长,但是所获取的特征子集能够与分类器需求相符合。当前,关于应用率较高的过滤式评价策略方面,主要包括四种,即基于距离的检验方法、基于信息的验证方法、基于独立性的检验方法与基于一致性的检验方法。
五、结语
自上世纪90年代以来,在Web文档处理、基因分析与药物诊断等领域中,特征选择的研究范围变得更加广泛,进一步扩大了相关应用。现代社会信息处于高速发展阶段,人类所面临的数据不仅数量在急剧增长,其形式也变得更加多样化,为了能够满足社会需要,需要对更好的特征选择算法进行设计。通过相关特征选择,能够使维数灾难问题得到妥善处理,促进算法泛化能力的提高,实现模型可理解性的提升。
参考文献:
[1]谢琪,徐旭,程耕国,陈和平.新的森林优化算法的特征选择算法[J].计算机应用,2019(10):1-7.
[2]扈晓君,康宁.基于特征选择的SVM选择性集成学习方法[J].电子技术与软件工程,2019(18):143-144.
[3]孙艳歌,邵罕,杨艳聪.基于代价敏感不平衡数据流分类算法[J].信阳师范学院学报(自然科学版),2019(10):1-5.
[4]李克文,謝鹏,路慎强.基于不平衡数据类分布学习的特征选择方法[J].计算机与数字工程,2019,47(09):2257-2261+2272.
[5]高薇,解辉.基于粗糙集与人工蜂群算法的动态特征选择[J].计算机工程与设计,2019,40(09):2697-2703.
作者简介:包芳(1994-),女,汉族,河南周口人,在校研究生,计算机技术专业。
通讯作者:殷柯欣(1975-),女,汉族,吉林长春人,博士,教授,研究方向:网络安全。