基于AdaBoost算法的在线连续极限学习机集成算法

2017-06-20蔡静

软件导刊 2017年4期

蔡静

摘要：针对不均衡数据处理问题，提出一种AdaBoost与在线连续极限学习机的集成算法。用在线连续极限学习机（OSELM）作为基分类器，根据AdaBoost集成各个基分类器，用AdaBoost集成分类器的权值，得出最终结果。实验结果表明，该方法具有较高的准确率。关键词：AdaBoost；在线连续极限学习机；集成算法DOI：10.11907/rjdk.162759中图分类号：TP312文献标识码：A

文章编号：16727800（2017）004004902

0引言随着不均衡数据不断涌现，针对不均衡数据分类算法的研究方兴未艾。针对数据分类的主要有基于支持向量机（SVM）[1]、BP神经网络[2]、K最近邻算法[3]、决策树、贝叶树等算法的单分类器模型和多分类器模型。实验过程中往往会忽略少数类、重视多数类。针对这些问题，很多学者对传统算法进行了改进，以提高整体的分类精度。如有采样的方法、代价敏感学习、装袋[4]和提升[5]集成算法等，集成分类器是解决不均衡数据的分类方法。本文提出一种基于Adaboost与在线连续极限学习机的集成算法。

1相关概念

1.1极限学习机极限学习机由输入层、隐含层及输出层3部分构成。其中输入层与隐含层之间有随机产生的连接权值ω、隐含层与输入层之间有随机产生的连接权值β，隐含层输入矩阵为H，输出矩阵为T。具有N个不同训练样本N（Xi，Yj），如矩阵形式Hβ=T，神经网络模型为：

1.3Adaboost

Adaboost是Boosting的一种进化算法。Adaboost主要解决某种算法的学习率，对每个训练样本取相同的权值1/d。对于误分类样本其权重会增加，相反分类正确的样本权重会减少，Adaboost更加关注误分类或难以分类的样本。总样本集分成n个训练集Ni，Adaboost将N个分类器Hi合并成强分类器Y（X），使预测结果更加理想。

2本文算法本文实验数据集来自UCI库。实验主要针对二类不平衡数据问题进行研究，选取数据集具有两个类标签。Adaboost可在保证准确率的情况下很好地处理不平衡问题。K选5，即有5个弱分类器。算法步骤如下：①初始化OSELM权值、阈值。选取m组训练数据，赋予相同的权值Dt（i）=1/m；②根据公式（4）计算初始权值β0，设置m=0；③数据更新得到新训练集后，更新部分隐含层的输出矩阵，计算矩阵βm+1；④根据步骤③，更新分类器βm+1权值；⑤对弱分类器进行预测。训练第t个弱分类器，用训练数据训练OSELM并预测输出的值，得到预测序列g（t）的预测误差和et；⑥计算预测序列权重。根据预测序列g（t）的预测误差et计算序列权重at。权重计算公式为：at=1/2ln（1-et/et）；⑦强分类函数。训练T轮后得到T组弱分类函数f（gt，at），由T组弱分类器f（gt，at）得到强分类器h（x）。h（x）公式为：

3结果与分析不均衡数据中存在类不平衡现象，最能引起关注的是少数类。然而在实验过程中，关注的少数类即正类分布的很少，而相对较多的多数类即负类分布却很多。本文对初始权值与阈值进行随机分配，将强类器结果与弱分类器结果进行比较，对比AdaBoost与ELM集成算法。

其中TP代表真正例，TN代表真负例，FP代表假正例，FN代表假负例。表1、图1为AdaBoost与OSELM集成算法中强分类器与弱分类器的准确率；表2、图2为AdaBoost与ELM集成算法中强分类器与弱分类器的准确率；表3、图3为AdaBoost与OSELM、AdaBoost与ELM集成算法强分类器的准确率。

根据图表对比准确率，可以清楚看出本文提出的AdaBoost与OSELM集成算法中强分类器的准确率明显高于弱分类器，然而在AdaBoost与ELM集成算法对比中，隐含层结点数目逐渐减少，AdaBoost与OSELM集成算法的准确率明显上升，但是在隐含层结点相对较多时，较AdaBoost与ELM集成算法的准确率不相上下，尤其在隐含层结点数为250时，明显低于AdaBoost与ELM集成算法。

4结语本文将在线连续极限学习机作为基分类器，AdaBoost集成各个基分类器，采用AdaBoost集成分类器权值计算得出最终结果。与AdaBoost集成极限学习机作为基分类器的结果进行对比，评估了各种方法的准确率。实验还存在不足之处，如当隐含层节点增加时会出现准确率不理想情况。今后要进行大量的对比试验，以得到更优效果。

参考文献：[1]G M FUNG，O L MANGASARIAN.Incremental support vector machine classification[M].SIGKDD，2001：7786.

[2]Z H ZHOU，X Y LIU.Training costsensitive neural networks with methods addressing the class imbalance problem[J].IEEE Transactions on Knowledge and Data Engineering，2006，18（1）：6377.

[3]S TAN.Neighborweighted knearest neighbor for unbalanced text corpus[J].Expert System and Applications，2005，28（4）：667671.

[4]J BASZCZY′NSKI，JERZY STEFANOWSKI，UKASZ IDKOWIAK.Institute of computing science[Z].Pozna′n University of Technology，ul.Piotrowo，2011（2）：60965.

[5]M FERNANDEZ，GALAR，A BARRENECHEA，et al.A review on ensembles for class imbalance problem：bagging，boosting and hybrid based approaches[J].IEEE Transactions on Systems，Man，and CyberneticsPart C ，2011，42（4）：463484.（責任编辑：杜能钢）