分类器集成综述
2022-11-03杨本娟
朱 琳,杨本娟
(贵州师范大学数学科学学院,贵州 贵阳 550025)
0 引言
分类器是利用已知的数据来建立模型,并用这个模型去预测待测数据的类别。在监督学习中,分类问题是基于训练数据样本中提供的已知输出标签来监督的,分类器在学习待测数据的同时,主要目标是尽可能地接近真正的未知函数,减少泛化误差。然而,并不是所有的样本都能被一个单独的分类器很好地学习到,在这种情况下,模型的泛化能力降低,分类器在测试集上表现不佳,所以采用多分类器集成技术为解决该问题提供了思路,若在对同一个样本进行测试时,不同的基分类器的分类结果不同,使用一些策略来结合这些分类器,就可以在一定程度上提高模型的预测能力。Dietterich从统计、计算及表示三个角度分别分析了集成分类器的优点;Hansen 等人将多个单神经网络进行集成,得到集成神经网络,并通过实验证明了其分类效果比任何单一的分类器的更好;刘威等人提出了一种基于遗传算法的神经网络集成方法,通过实验证明该方法得出的学习器泛化能力较好,避免过拟合的问题。多分类器集成就是为了弥补各单一分类器之间的缺点,从而提高最终分类器的泛化能力,此外,多分类器集成也被应用到很多领域如图像分类、医疗诊断预测、目标识别、入侵检测等。本文将从集成分类器优点、多样性产生、应用等方面讨论。
1 集成分类器
集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。对于集成分类器的生成,常用策略有:平均法、投票法和Stacking。对于数值型的输出常用平均法来结合;投票法集成的模型常用于分类问题;当训练数据很多时,运用Stacking 方法,即用次级学习器去学习初级学习器的输出,以得到最终的分类模型。Sagi 等人回顾了集成方法,讨论了集成学习可从改进流行算法、在原有预测准确率的基础上将集成模型转换为更简单全面的模型发展。Schapire证明了弱学习算法与强学习算法的等价性,该方法的提出,使集成学习成为机器学习的一个重要研究领域。Santucci 等人提出通过对给定分类器的参数直接定义合适的概率分布,通过随机抽样其基分类器的参数值,来构建分类器集成;Koziarski等人针对随机子空间法的随机性的不稳定,提出了一种确定性子空间方法,以得到更加稳定的集成分类器。
2 分类器多样性产生
在多分类器集成过程中,构造具有差异性的基分类器可以提高模型分类精度,多样化后的分类器泛化能力较好。以下阐述产生分类器的多样性一些方法:
对于算法参数的操作,在训练基分类器之前,一般需对学习算法的参数进行设置,不同参数的设置训练产生不同的分类器,算法参数的改变也会影响模型的预测精度。Kolen 等人通过实验证明了初始权值的设置不同对反向传播有极高的敏感性。Ren 等人提出一种基于动态权值的多分类器集成方法,以减少不可靠决策信息的干扰,提高融合决策的精度。Y.Liu等人提出了负相关学习法,将单个神经网络都通过其误差函数中的相关惩罚系数同时进行交叉训练,使得集成得到的模型能够更好地学习这个训练数据。
从对训练集的输入操作上来看,研究者们为了获得性能更好的模型,针对不同类型数据的特点,采取了不同的数据处理方法对数据样本进行操作后再训练。Bagging 算法通过对数据集采样方法来获取不同的训练子集,然后来训练个体分类器,采用投票法选出分类效果最好的分类器以作为最终预测的分类器。Melville 等人提出了给训练集人工添加样本的方法,证明了该方法在训练数据有限时的有效性。Ho提出了随机子空间法,将初始属性集中选出多个属性子集,然后基于属性子集训练分类器,对于属性较多的数据集,使用该方法来减少冗余属性,有效训练分类器。
对于输出表示的操作,为减少误差,Breiman提出了翻转法,即随机改变一些训练样本的标记;输出调制法,即对输出表示进行转化。Dietterich 等人提出了纠错输出编码法(ECOC),将多分类问题转化为多个二分类问题,通过编码的方式来纠正由单个分类器引起的偏差,以此提高分类精度。Zhou 等人提出了一种n 元纠错编码方案(N-ary ECOC),将多分类器分解为多类子问题来解决。
3 多分类器集成的应用
3.1 不平衡数据的分类
在现实的数据中,大多数据都是不平衡的,不平衡问题就是在分类时,不同类别的数据它们在数目上的差别较大,对于此类问题,学者们主要从数据的预处理及算法的改进等方面来加以解决。针对不平衡数据的分类问题,Sun 等人通过对数据的随机分组或聚类等方法来将不平衡的数据转化为多个平衡数据,然后通过对多个平衡数据的学习来构建不同分类器,用集成规则来组合分类结果,通过实验证明所提出的方法对解决数据不平衡问题很有效。章少平等人提出了一种优化的支持向量机(SVM)集成分类器模型,来解决不平衡数据集分类问题,根据数据集生成相应SVM 模型,优化生成的模型参数,利用优化后的核函数和惩罚系数并行生成SVM 模型,采用投票法来生成最终预测模型。Zhao 等人提出了加权混合集成方法(WHMBoost),在boosting 算法框架下,通过给采样方法和基分类器分配权值,迭代训练得到最终集成模型。Cao 等人采用代价敏感方法在数据和特征层面学习,通过Stacking方法获得最终分类器。
3.2 图像分类
图像作为一个重要的信息载体,受到不同因素的影响,要准确识别图像中的信息确实是一个难题,对一般图像、遥感图像、医学图像的分类识别,分类器集成技术都有了一定的应用。针对卷积神经网络提取特征信息不完整导致图像分类方法分类精度不高等问题。罗会兰等人提出一种基于集成学习技术的SVM 集成的图像分类方法,与传统的BOW 模型的图像分类方法相比较,采用SVM 集成的图像分类方法明显提高了分类精度,具有一定的稳健性。Zheyun Feng 等人针对图像不能精确地用一种特征来表示,使用不同的分类器(核回归和SVM)对不同的特征,以加权的方式集成分类结果。对医学图像的分类也提高了疾病的诊断率,为疾病的诊断提供更加有效的病灶信息。胡会会等人提出了一种基于CT 图像的集成随机森林模型的肺结节良恶性分类鉴别方法。
3.3 疾病预测
通过对病人的临床数据的学习构建预测模型,对一些疾病的患病率进行预测且取得了显著效果。建立先验模型来识别患者,提前通过药物治疗改善病情,为一些慢性疾病的诊断治疗做出了很大贡献,可辅助医生做出医疗诊断。Bashir 等人用集成模型对糖尿病数据集进行预测,采用三种决策树类型ID3、C4.5和CART作为基分类器,比较了多种集成技术,通过实验证明了Bagging 集成模型表现优于其他模型。蔡莉莉等人提出一种基于K 近邻-随机森林算法的肝病预测集成模型,采用K 近邻和随机森林算法分别构建出预测分类器,利用Voting 策略得到集成肝病预测模型;Domor I Mienye 等提出集成方法预测心脏病风险,将数据集划分为子集,用classification and regression tree(CART)训练子集,基于准确率加权来集成分类器实验结果表明,该方法可以有效地预测心脏病的风险。Dutta 等人用集成分类器预测糖尿病,比较了Voting 和Stacking 两种集成策略生成模型的性能。Yadav 等人用对甲状腺疾病进行预测,算法对甲状腺疾病数据训练后,采用Bagging 集成技术来构建分类器,以提高预测值。
4 总结与展望
分类器集成模型预测性能比单一分类器模型好,但也存在一些问题,随着模型复杂度变高,训练的时间也变长。而且多分类器集成虽然能在一定程度提高模型预测性能,但是基分类器的数量也并不是越多越好,纳入模型的特征也并非越多越好,所以在构建模型之前,选用何种方法进行特征筛选,如何生成基分类器、组合策略等是需要考虑的。此外,对于集成模型,随着其复杂度的提高,特征之间的关联性解释变得更加困难,对于如何解释模型成为一个值得研究的问题。