基于多评价标准融合的医疗数据特征选择算法
2019-05-10崔宇佳张一迪王培志林海静陆起涌
崔宇佳,张一迪,王培志,林海静,陆起涌,2
(1.复旦大学 信息科学与工程学院 电子工程系,上海 200433; 2.复旦大学 信息科学与工程学院 智慧网络与系统研究中心,上海 200433)
目前医疗领域面临的一个巨大挑战是医生可以获得海量的医疗数据,但是缺少时间和有效的工具进行挖掘.因此将数据挖掘和机器学习方法应用于医疗领域,辅助医生诊疗决策已成为医学与计算机学交叉领域研究的热点,这不仅可以降低医疗服务成本而且可以改善服务质量和临床表现[1].在其中实现疾病预测这块,特别是对某些病因复杂且影响严重的疾病,如: 系统性红斑狼疮并发狼疮性肾炎[2],可以提早对患者进行干预,提供更有效的治疗策略[3],从而减轻患者的痛苦.
由于医疗数据大部分以电子医疗病历(Electronic Medical Records, EMR)的形式记录,其中包含诊断、症状、检查、化验、用药等信息,具有维度高、稀疏的特点,并且包含大量不相关和冗余特征.如果不对数据进行有效筛选,直接用于疾病预测,可能会带来以下几方面的问题: 1) 引发维数灾难和过拟合现象[4],导致预测表现不佳;2) 由于特征维数过多,使得预测模型计算量过大,从而影响预测效率;3) 收集过多的特征会大大增加医疗成本,降低临床实用性.如何从海量医疗数据中选择出有效的特征成为实现诊疗决策的关键环节,特征选择不仅可以解决以上问题,而且可以帮助医生或研究人员对疾病的影响因素有更深入的了解.
现有的特征选择方法主要可以分为过滤型方法(Filters Technique)[5]和封装型方法(Wrappers Technique)[6].过滤型方法,是根据数据的固有属性来评价特征与类别的相关性,在多数情况下会计算出一个相关性评分,并删除得分低的特征,之后将这些特征子集作为预测模型的输入,如: 卡方检验[7]、信息增益[7]等方法,其优点是易处理高维数据,计算简单,且独立于分类算法,缺点是忽略了和分类器之间的联系,并且大部分方法是单变量型,忽略了特征之间的相关性;封装型方法,是在分类模型的构建过程中选择了最优的特征子集,可以看作是在特征子集和假设的组合空间中进行选择,如: 基于决策树权重(Absolute Weight of Decision Tree, AW-DT)[8]、基于SVM权重(Absolute Weight of Support Vector Machine, AW-SVM)[9]等特征选择方法,其优点是它与分类模型进行了交互,缺点是特定分类器的评价表现在不同数据集中差异较大.
以上方法均采用单一评价标准进行特征选择,对于不同数据集评价表现具有一定的互补性.鉴于在机器学习方法中,集成多个不相关的弱分类器可以提升分类表现[10-11],本文提出基于多评价标准融合的递归特征消除(Multi-criterion Fusion-based Recursive Feature Elimination, MCF-RFE)算法.该算法应用过滤型特征评价标准进行初步筛选,然后基于特征序列的方法将3种不同封装型特征评价标准的结果进行集成,并结合特征搜索方法实现特征选择,以获得预测表现好的特征子集,旨在从特征选择的角度提升疾病预测表现.在此基础上,构建疾病预测模型,以实现疾病预测.
下面分别介绍MCF-RFE算法融合的多种特征评价标准以及采用的融合和搜索算法.
1 特征评价标准
特征评价标准的选取必须满足差异性,因为具有差异性的特征评价标准产生的结果往往具有互补性,并且可以避免集成的结果被产生相似结果的评价标准所主导.此外,由于医疗数据具有高维、稀疏等特点,综合考虑计算的简便性和高效性,本文首先采用在文本分类中具有较好表现的过滤型特征评价标准卡方检验对特征进行初步筛选,然后融合3种嵌入型特征评价标准: AW-SVM标准、AW-DT标准、基于线性回归权重(Absolute Weight of Linear Regression, AW-LR)标准对特征进行再次筛选.
1.1 卡方检验标准
卡方检验适用于高维数据,计算简单,可用于评价两个事件是否独立,例如在特征选择中用于评价类别和特征是否相互独立.可以应用式(1)计算卡方检验.
CHI2(t,c)=∑t∈{0,1}∑c∈{0,1}(Nt,c-Et,c)2/Et,c,
(1)
其中:t代表特征;c代表类别;N代表实际的特征t和类别c同时出现的频次;E代表当两者独立时期望的同时出现频次.卡方检验衡量期望值E和实际观察值N之间的偏离程度.卡方值越大,说明相关性越强,特征需要保留;卡方值越小,说明越不相关,特征需要去除.
1.2 AW-SVM标准
ωTx+B=0,
(2)
其中:ω为最优超平面的权值向量;B为阈值.SVM的核心思想是使两个类别具有最大间隔,从而使得分隔具有更高的可信度和泛化能力,将问题转化为式(3)的优化问题:
(3)
式(3)中:ζi为松弛变量;C>0为惩罚参数,控制对误分类的惩罚程度.通过引入拉格朗日乘子,得到如下式所示的特征权重:
(4)
其中αi是拉格朗日乘子.
1.3 AW-DT标准
AW-DT是根据决策树(Decision Tree, DT)[13]得到的按特征权重ω绝对值大小对特征进行排序.决策树的构造过程不依赖领域知识,其基本流程遵循“分而治之”的策略.本文采用ID3算法[14],该算法的核心思想是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂.设D为用类别对训练元组进行的划分,则D的熵(entropy)表示式如下:
(5)
其中pi表示第i个类别在整个训练元组中出现的概率.假设将训练元组D按属性A进行划分,则A对D划分的期望信息为
(6)
信息增益即为两者的差值:
gain(A)=info(D)-infoA(D).
(7)
1.4 AW-LR标准
AW-LR是根据线性回归(Linear Regression)[13]得到的按特征权重ω绝对值大小对特征进行排序.线性回归模型是对于一个样本xi,它的输出值是其特征的线性组合,即
(8)
其中ωm是特征权重.线性回归的目标是预测结果尽可能地拟合目标类别,其损失函数
(9)
其中:y是类别标签;X是样本特征.应用梯度下降法进行求解,得到ω的表达式为
(10)
2 融合方法描述
2.1 基于特征序列的多评价标准融合方法
本文采用基于特征序列方法将以上多种特征评价标准的结果进行融合.该方法首先基于每个特征评价标准分别得到1个特征序列,每个特征都有一个序列号;然后运用序列结合方法得到最终的特征序列,其流程如图1所示.
图1 基于特征序列的多评价标准融合方法Fig.1 Feature ranking-based multi-criterion fusion
现有的序列结合方法中,Borda Count[15]方法是一种简单、有效的基于特征序列的投票方法.假设有m个投票者(特征选择方法),f个候选者(特征),在Borda Count算法中,每个投票者首先给每个候选者生成一个得分Vij,其中排在第1位的候选者给予f分,排在第2位的候选者给予f-1分,以此类推.每个候选者的最终得分是m个投票者给分之和,如下式所示:
(11)
按照降序对Vij进行排列,得到融合后的特征排名.
2.2 递归特征消除搜索方法
好的特征不一定构成好的特征子集,因此为了获得一个有好的预测表现的特征子集,需要将特征评价标准与特征搜索方法相结合[14].Guyon等基于AW-SVM特征评价标准与递归特征消除(Recursive Feature Elimination, RFE)搜索方法[16],提出了SVM-RFE特征选择方法[16],其中RFE搜索过程(见图2)如下:
(1) 初始化特征集F0,设置i=0;
图2 MCF-RFE流程图Fig.2 The procedure of MCF-RFE
(2) 计算在特征集Fi中每个特征的重要性;
(3) 从特征集Fi中去掉最不重要的特征,得到特征集Fi+1;
(4) 令i=i+1,回到步骤(2),直到满足停止条件.
RFE搜索过程产生一系列嵌套的特征集,例如:F0⊃F1⊃F2….
本文将多特征评价标准融合方法与RFE搜索方法结合提出MCF-RFE算法,该算法首先应用过滤型特征评价标准卡方检验对特征进行初筛;然后,应用特征序列方法对3个嵌入型特征评价标准AW-SVM、AW-LR、AW-DT的结果进行集成;最后,结合递归特征消除搜索方法进行特征选择,得到特征子集.MCF-RFE算法流程如图2所示.
3 实验与实验结果分析
3.1 数据集来源
本研究的数据集由国内13家三甲医院风湿免疫科提供,包含10627例患有系统性红斑狼疮(Systemic Lupus Erythematosus, SLE)[2]患者的EMR数据,其中5033例为SLE并发狼疮性肾炎患者,5594例为SLE未并发狼疮性肾炎[2]患者.以上EMR数据集共有2204项特征包含: 症状、诊断、化验、用药特征,并且每项信息包含相应的时间戳.实验中以风湿免疫科临床医生诊断结果作为金标准,考虑SLE并发狼疮性肾炎诊断之前出现的信息,实现SLE并发狼疮性肾炎疾病的预测.
3.2 实验设计与评价标准
为了验证不同特征选择方法选出的特征子集对提升预测狼疮性肾炎表现的有效性,本文将疾病预测问题抽象为一个二分类问题,分别调用Scikit-learn工具包[17]中的逻辑回归(Logistic Regression, LR)方法[13]和SVM方法进行疾病预测模型的训练和测试.实验中采用十折交叉验证方法,对于每一次验证,只使用训练数据进行特征选择,采用各特征选择方法选出的特征构建分类器,然后用测试数据进行评价,最终结果是10次结果的平均值.实验评价指标采用受试者工作特性曲线(Receiver Operating Characteristic, ROC)下的面积(Area Under the Curve, AUC)、精确率(precision,P)、召回率(recall,R)、F1值、准确率(accuracy,A),计算公式定义如下:
(12)
其中:TP,FP分别指预测模型将是狼疮肾炎的患者正确预测和错误预测的人数;TN,FN分别指预测模型将不是狼疮肾炎的患者正确预测和错误预测的人数.
3.3 实验结果与分析
为了更直观地了解本文算法对提升狼疮性肾炎预测表现的有效性,分别对比应用AW-SVM、AW-LR、AW-DT、SVM-RFE方法以及本文提出的MCF-RFE方法筛选出的前400个特征,在LR与SVM模型下进行疾病预测,其AUC值的对比结果如图3,图4所示.
图3 LR分类器中5种算法AUC值对比Fig.3 AUC comparisons among 5 algorithms using LR classification
图4 SVM分类器中5种算法AUC值对比Fig.4 AUC comparisons among 5 algorithms using SVM classification
通过图3、图4可以发现,MCF-RFE方法在2个分类器中表现均优于其他4种方法,其中SVM-RFE方法表现优于AW-SVM方法.例如,在LR分类器中(图3),当选择50个特征时,MCF-RFE方法得到的AUC值为0.884,AW-DT方法的AUC值为0.852,SVM-RFE方法的AUC值为0.822,AW-SVM方法的AUC值为0.747,AW-LR方法的AUC值为0.708.随着特征数增加,本文选择集成的AW-SVM、AW-DT、AW-LR 3种评价标准的预测结果具有互补性,并且逐渐趋向稳定.由于以上特征选择方法是在卡方检验筛选出的500个特征的基础上再次进行筛选,因此随着特征数增加,各特征选择方法筛出的特征子集包含越来越多的共同特征,使得各方法的AUC值差距逐渐减小.
下面对比5种特征选择方法分别在LR、SVM预测模型下,选择阈值为0.5,特征数为100时,进行十折交叉验证后精确率、召回率、F1、准确率的平均值,结果如表1所示.
通过表1可以发现,在2种分类器下,MCF-RFE方法在P、R、F1、A的综合表现均优于其他4种方法,其中在LR预测模型采用MCF-RFE特征选择方法时预测表现最佳,其中精确率为0.79,召回率为0.80,F1值为0.79,准确率为0.80.
综合以上实验结果,表明MCF-RFE方法相比于只选用一种评价标准的特征选择方法能够有效提升疾病预测表现.原因在于不同特征选择方法的筛选结果具有互补性,并且结合RFE搜索策略可以更好地处理特征选择的过程,从而提升预测表现能力.
4 结 语
本文结合疾病预测的实际应用,提出一种集成多种评价标准的医疗数据特征选择算法.该算法首先应用过滤型特征评价标准对特征进行初步筛选;然后,采用特征序列方法对多个特征评价标准的结果进行集成;最后,结合递归特征消除方法进行特征选择.将筛选出的特征子集作为预测模型的输入,实现疾病预测.实验在LR与SVM预测模型下,将本文的MCF-RFE方法与AW-SVM、AW-DT、AW-LR、SVM-RFE方法进行对比,结果表明本文的预测表现最优.验证了本文的提出观点: 与采用一种特征评价标准相比,集成之后可以有效提升疾病预测表现.将数据挖掘应用于医疗领域,辅助医生诊疗决策具有深远的意义,如何从海量的医疗数据中筛选出关键信息起着至关重要的作用.本文提出的方法仅在一个疾病的医疗数据中进行了疾病预测研究,对于该方法在其他领域的扩展有待进一步研究.
致谢:感谢上海翼依信息技术有限公司提供相关医疗数据,并联系风湿病领域专业医生与技术人员对医疗数据处理提供相关的医学指导和技术帮助.