APP下载

基于集成学习的乳腺癌分类研究

2020-12-29邓卓苏秉华张凯

中国医疗设备 2020年12期
关键词:决策树分类器乳腺癌

邓卓,苏秉华,张凯

1. 北京理工大学珠海学院 光电成像技术与系统教育部重点实验室,广东 珠海 519088;2. 北京理工大学,北京 100081

引言

集成学习(多分类器系统)通过将多个弱学习器结合[1-2],获得比单一学习器的泛化能力更加显著的强分类器。目前集成学习根据个体学习器间的关系可以分为两大类[3-4]:一种是学习器之间不存在依赖关系,可以同时生成并行化的方法,例如随机森林[5-6];另一种则是个体学习器之间存在很强的依赖关系,必须串行生成的序列化方法,例如Xgboost[7-8]。所以论文应用集成学习中典型的两类算法模型,研究集成学习在医疗诊断领域的应用方法与实际效果。

目前集成学习于医疗领域的应用尚处于研究阶段,贵州大学医学院的张玉玺等[9]人研究了集成学习在糖尿病预测中的应用,主要应用了集成学习中的随机森林模型,并与传统机器学习的算法做了对比,表明了集成学习算法明显由于传统机器学习算法。济南市中医医院的任雪等[10]人提出了基于主动集成学习的中医智能诊断模型及构建方法,将多个不同的机器学习模型进行集成训练,获得更为准确的中医知识学习模型,试验结果表明,集成学习是一种新型有效的中医诊断模型。广东工业大学的曾安等[11]人提出了基于卷积神经网络和集成学习的阿尔茨海默症早期诊断,实验采用MRI三个维度上的多个二维切片进行集成训练,从而更加充分地利用MRI包含的有效信息。所以将集成学习应用于医疗诊断领域的研究需要进一步探索,加快实现我国智能医疗服务,提高医疗诊断水平。

1 项目模型

本项目首先建立了一个传统的决策树模型,方便与集成学习模型进行对比验证,再利用交叉验证和网格搜索等方法建立了随机森林模型和Xgboost模型,提高了模型的分类能力和AUC指标。

模型训练采用的数据是美国Wisconsin医院William H.Wolberg博士提供的乳腺癌数据样本。经过数据清洗处理后,一共有683个合格的实验样本,其中正例(良性)样本444个,负例(恶性)样本239个,样本共有九个特征值,分别是肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘性、单上皮细胞的大小、裸核、乏味染色体,正常核和有丝分裂。建立模型时,将数据的70%作为实验训练样本,剩余的30%测试样本。

1.1 决策树模型

决策树是利用已知各种情况的发生概率进行决策,求取净现值的期望值大于等于零的概率的一种树形结构模型[4,8]。其结构如图1所示,每棵树都只有一个根节点,底下有多个决策节点,每一个分叉路径代表某个分类的属性值,最终数据根据其属性值的分类全部落到叶子节点,完成数据决策分类。

图1 决策树结构

此项目所用决策树的随机变量的不确定性指标(criterion)是CART决策树用于分类问题时选择最优特征的指标基尼指数(gini);规定每棵叶子节点所含样本个数的最小值(min_sample_leaf)是1,规定每个决策节点所含样本个数的最小值(min_samples_split)是2。

1.2 随机森林模型

随机森林是1995年由贝尔实验室的Tin Kam Ho提出的[12],该模型是根据多个决策树分类器的输出,采用投票取众数的方法进行决策[13,14],其模型结构如图2所示,第一层是弱分类器,每个弱分类器都根据数据做出自己的判断,最后采取投票选择投票最多的结果作为真实输出结果。

图2 随机森林结构

此项目模型利用了10折交叉验证和网格搜索等方法优化模型,提高模型泛化能力和准确度。n折交叉验证就是在训练模型时将训练样本分成n份,其中的1份保留作为验证模型的数据,其余的n-1个样本用来训练,交叉验证重复n次,最终每个子样本都验证一次,然后将n次的结果平均得到一个单一的估测值,可以防止模型过拟合,提高模型的泛化能力。

网格搜索就是列举所有超参数的后选值,通过循环遍历,尝试每一种超参数对模型训练的好坏程度,最终选出最适合模型的参数搭配,可以提高模型准确度。

此模型利用交叉验证和网格搜索方法调节超参数,最终选出最优网络参数。其中弱分类器(estimators)的个数是40,此模型弱分类器采用决策树,多棵决策树集成随机森林,每棵树的最大深度(max_depth)不能超过10,每个决策节点所含样本个数的最小值(min_samples_split)是12,每棵叶子节点所含样本个数的最小值(min_sample_leaf)是4,criterion随机变量的不确定性的指标(criterion)是基尼指数(gini)。

1.3 Xgboost模型

Xgboost(极端梯度提升)是个体学习器之间存在依赖关系的树集成模型,其使用K棵树中的每棵树对样本预测的预测结果的和作为Xgboost模型的预测结果[15,16],其数学定义如式(1)所示。

其中i表示第i个样本, 表示第fk棵树模型,K表示树的数量,yi表示模型的预测值,随着树的数量值增加,模型的预测值越接近实际值。

模型训练的目标函数如式(2)所示。

其中γ是模型惩罚力度,w是叶子节点的分值,T表示每棵树的叶子节点数量,λ是模型超参数。模型训练时,对损失函数做二阶泰勒展开,如公式(5)。

训练时不断寻找最佳的树模型加入到已有模型中,并更新样本预测值。Xgboost模型的训练过程如图3流程所示。

原始数据经过第一个分类器之后输出结果,再根据其结果调整样本分布,使得之前训练器做错的训练样本在后续得到更多的关注,然后基于调整后的样本分布训练下一个弱分类器,以此类推,直到学习器数目达到指定值,然后将这些学习器进行加权求和,正确率越高的弱学习器获得的权重越大。

图3 Xgboost结构

此模型利用交叉验证和网格搜索方法调节超参数,最终选出的最优网络参数。其中模型惩罚力度值(gamma)是0.1,模型的学习率(learning_rate)是0.2,每棵树的最大深度(max_depth)是3,弱分类器的个数(estimators)是28,此模型弱分类器采用决策树,正则化方程的超参数(lambda)是 1。

本项目的Xgboost模型共采用了28个弱分类器集成,每增加一个分类器都朝着优化模型损失函数方向前进,模型效果如图4所示,横坐标是分类器个数,纵坐标是模型的损失函数,从图中可以看出,随着分类器的增加模型的损失函数逐渐减少。

图4 Xgboost模型损失值

2 结果

训练数据训练完模型后,再利用测试数据测试模型性能,此项目的三个模型经过测试集测试的结果如表1所示,其中precision是查准率(P),即分类正确的比例,P=真正例/(真正例+假正例);recall是召回率(R),即类别被正确选出来的比例R=真正例/(真正例+假反例);F1-score是P和R的一种调和平均,F1=2*P*R/(P+R);support是样本个数,根据三个模型的结果性能指标可以看出随机森林模型和Xgboost模型的效果明显好于决策树模型的效果。根据统计,本项目的集成学习模型分类准确率平均值为0.965853,AUC指标均值为0.967601;而传统的决策树模型的分类准确率为0.921951,AUC值只有0.907999。根据实验数据和统计值对比,乳腺癌的二分类问题中集成学习效果明显由于传统机器学习算法。

ROC(Receiver Operating Characteristic)曲线的纵坐标是模型的真正例率(True Positive Rate,TPR),横坐标是模型的假正例率(False Positive Rate,FPR),AUC是ROC曲线下与坐标轴围成的面积,取值在0.5到1之间,值越大模型效果越好,模型的ROC曲线和AUC面积如图5~7所示。

表1 模型结果

图6 随机森林的ROC曲线图

图7 Xgboost的ROC曲线图

从三个模型的ROC曲线可以看出集成学习的分类效果明显由于随机森林算法,尤其是模型的AUC值,均到达了99.7%以上,具有很高的分类效果。

3 讨论

本项目利用集成学习的随机森林和Xgboost模型对乳腺癌诊断做出分类预测模型,模型训练过程中利用了交叉验证和网格搜索等方法提高模型准确率的同时防止模型过拟合,增强模型泛化能力,并和传统的机器学习算法决策树模型进行了对比。根据实验结果可以看出集成学习模型对乳腺癌的分类效果非常好,模型准确度很高,而且各项指标都优于传统机器学习算法。

目前,威胁人类身体健康的主要疾病是癌症,而乳腺癌又是女性疾病的头号杀手,所以提高乳腺癌诊断准确率的研究具有现实意义;利用人工智能技术提高医疗诊断服务是目前的研究热点,将传统的机器学习算法应用于临床辅助诊断效果并不明显,所以将具有高分类能力的集成学习算法与医疗诊断技术相结合的技术研究很有必要;通过本项目实践研究得出,集成学习对乳腺癌的良恶性分类效果很好,且分类能力超过传统机器学习算法的分类能力,所以将集成学习算法应用于医疗诊断服务的研究具有实践价值。可以将集成学习与医疗诊断服务领域交叉,深入研究并应用于实际医疗临床,不仅可以提高诊断效率,还可以减少实际诊断的误诊与漏诊现象,使患者及早诊断及早治疗,提高患者存活率,提高我国医疗服务水平。

猜你喜欢

决策树分类器乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
基于决策树和神经网络的高血压病危险因素研究
基于朴素Bayes组合的简易集成分类器①
基于特征选择的SVM选择性集成学习方法
乳腺癌是吃出来的吗
胸大更容易得乳腺癌吗
决策树和随机森林方法在管理决策中的应用
别逗了,乳腺癌可不分男女老少!
基于差异性测度的遥感自适应分类器选择
决策树多元分类模型预测森林植被覆盖