基于蚁群路径优化决策树及逻辑回归的慢性肾病进展概率预测模型
2018-05-09綦小蓉
冯 苗,綦小蓉,李 智
(1.四川大学电子信息学院,四川 成都 610065; 2.四川大学华西第二医院,四川 成都 610041)
0 引 言
CKD是一种隐匿性疾病,临床上根据肾小球滤过率(Glomerular Filtration Rate, GFR)的范围,将CKD分为5期,随着病情的进展恶化,患者将出现肾衰竭,最终形成尿毒症[1]。CKD早期不易被发现,难以引起患者的重视,若能及早发现问题,接受干预治疗,可延缓CKD进程,提高患者生存率,因此构建一种预测CKD早期进展情况的模型是有必要的。
目前针对CKD进展阶段概率预测的研究较少,方法体系还不成熟[2]。近年来,已有学者在CKD进展风险因素分析及预测方面进行了研究,如林丽娟等[3]将患者分为4组,利用SPSS中的多因素分析方法研究了血压控制对CKD老年患者病情进展的影响,得到老年CKD肾损伤风险增加与收缩压水平有相关性;Chase等[4]利用朴素贝叶斯、逻辑回归方法预测CKD患者由3期向4期进展的概率,但未对缺失值处理,而是直接去掉数据缺失的样本;Khannara等[5]利用ANN,KNN,NB方法通过分析共同风险因素,研究了高血压、糖尿病对CKD进展的影响。此类研究多使用单一的统计或机器学习模型,由于数据多样性和样本异质性,单一模型无法充分挖掘其中的信息;现有统计分析方法对历史数据完整性和准确性要求很高,大多数统计资料只反映历史情况,可靠性差。
本文结合逻辑回归和蚁群路径优化决策树算法,对CKD数据进行分类得到高精确率和召回率,从而计算CKD患者由3期进展到4期或5期的概率,同时分析不同特征数目下不同算法对概率预测的影响,构建进展风险模型,从而帮助医生及患者及早发现问题,进行诊断干预以延缓CKD进程,提高患者生存率。
1 基本原理及方法
1.1 实验数据
本文选取2006年1月到2016年11月共9843例CKD患者的临床检查与检验数据进行研究,每个样本包含21个特征,分别为跟踪时间(FUP)、年龄(Age)、身体质量指数(BMI)、收缩压(SBP)、舒张压(DBP)、肌酐(SCr)、白蛋白(ALB)、血红蛋白(HB)、尿素氮(NS)、尿酸(UR)、钙(Ca)、磷(P)、钠(Na)、钾(K)、镁(Mg)、氯(Cl)、二氧化碳结合律(CO2)、血糖(GLC)、超敏C反应蛋白(CRP)、性别(Sex)、是否进展(PR)。
1.2 基本原理
1.2.1 逻辑回归
逻辑回归[6]用于评估可能性,实际上是对已知公式的未知参数进行估计。目前常用的二分类逻辑回归模型,主要用于概率预测或分类,如寻找疾病危险因素,预测是否患某种疾病,判断患者患某类疾病的概率等[7]。逻辑回归分类时计算量小,速度快,易于实现。当样本特征较多时,易发生过拟合或欠拟合现象,准确率不高;对多重共线性问题较敏感,需要用聚类或因子分析法对初始特征进行筛选,减少输入特征间的相关性[8]。
针对以上问题,本文引入蚁群路径优化决策树算法(DTAPO),该算法充分利用蚁群方法的启发信息,经过2次剪枝降低树的规模,避免过拟合并提高预测准确率[9]。本文首先利用DTAPO对患者样本进行分类,得到较高的精确率、召回率,再结合LR的分类准确率对进展过程中的概率进行预测。
1.2.2 蚁群路径优化决策树
DTAPO算法即利用蚁群路径[10]优化J48[11]决策树,算法基本流程如图1所示。
图1 DTAPO算法基本流程
1)数值型(连续型)特征离散化处理,使输入特征适于决策分类。数值型特征离散化[12]即将数值型特征的取值范围划分为若干区间,从而将该特征作为分类型特征来处理,这些区间即为该分类型特征的取值。由于J48决策树使用信息增益比来筛选特征,因此本文采用基于熵的数值型特征离散化算法[13]:先将一个数值型特征的取值范围划分为若干区间,每个区间对应一个不重复的值;然后将2个毗邻区间进行合并,合并前后的熵差要达到最小[9]。通过离散化,可以将除CKD分期及性别以外的其他属性由连续型转换为离散型,落在不同区间。
2)计算启发信息,采用信息增益比和信息素结合来选择特征节点。
3)决策树生成及优化,通过信息素更新方法优化初始决策树,并进行2次剪枝:替代剪枝及悲观剪枝[14],避免过拟合,提高准确率。
4)得到全局最优决策树,提取分类规则,对测试集进行分类。
2 概率预测模型
概率预测模型的建立:首先对数据进行预处理,筛选出进展患者(Progressors, P)与非进展患者(Non-Progressors, NP);然后设计概率预测算法流程,以构建进展概率预测模型。
2.1 数据预处理
数据预处理过程,即通过数据筛选、缺失值处理及回归分析,筛选出进展患者(P)与非进展患者(NP),以便后续研究2组患者在进展过程中GFR[15]与各特征间的相关性。数据预处理流程如图2所示。与已有研究不同,本文数据筛选过程中,保留了部分含缺失值的样本数据及特征数据,并对缺失值进行分析替换,以充分挖掘利用该部分数据中隐藏的有价值信息。
图2 数据预处理流程
2.1.1 数据筛选
本文首先对9843例患者数据进行数据筛选。去掉样本数据中含80%缺失值的样本及特征数据中含60%缺失值的特征,同时由于肌酐用于衡量GFR,因此,去掉含肌酐缺失值的样本。经过图2的数据筛选过程,最终得到119例3期患者样本。
2.1.2 缺失值处理
经过数据筛选后得到的样本特征中存在缺失值。为保证数据完整性,便于后续分析,需要判断缺失值类型并替换。缺失值处理的方法很多,不同的缺失值处理方法有不同的适用条件。不同的缺失值处理方法对实验结果会造成不同的影响,若缺失值处理方法不恰当,会降低实验结果的偏性或不能充分利用实验数据,从而降低实验结果的有效性[16]。缺失值类型包括完全随机缺失、随机缺失、非随机缺失[17]。本文利用单变量统计对缺失值进行描述。对21个特征进行统计,有13个特征包含缺失值,其中9个特征缺失值比例小于5%,缺失值对全局影响不大,用均值替换其缺失值。剩余4个含缺失值的特征ALB,HB,GLC,CRP则需经过缺失值分析,以合理替换。
将剩余4个特征分别分为2组:缺失与未缺失,用T检验比较2组的均值差别,若2组数据均值相差不大,则该特征取值是完全随机缺失,用该特征所包含的未缺失数据的均值代替;若均值相差较大(差值为其中一组较大均值的1/3以上),则该特征取值不是完全随机缺失,利用插值法确定。经缺失值分析可得,ALB是完全随机缺失,其缺失值用未缺失样本中该特征的均值代替,HB,GLC,CRP是不完全随机缺失,其缺失值用插值法[18]确定。
本文研究的是进展过程概率预测,属于回顾性研究,因此缺失值替换完成后,要对患者初始GFR及选取的终点GFR进行分析,即GFR随跟踪时间FUP变化的斜率,利用该斜率将患者分为P与NP这2类。统计3期患者的斜率,根据其数值正负将患者分为2类,第一类患者斜率为负,即P类,第二类患者斜率为正,即NP类。因此P的GFR随时间推移而下降,NP的GFR随时间推移上升或保持稳定,这也符合医学事实,进一步统计得到二者的均值与标准差如表1所示。
表1 P与NP的GFR随跟踪时间变化斜率的均值与标准差
是否进展样本数占比/%均值标准差NP3630.253.84313.84943P8369.75-2.57882.59660总计119100-0.63604.22566
由表1可得NP样本数为36,其人口统计特性为3.84±3.85;P样本数为83,其人口统计特性为-2.58±2.60。
2.2 概率预测算法
图3 概率预测算法流程
本文具体概率预测算法设计流程如图3所示。首先,对筛选得到的样本进行特征差异性对比及相关性分析,根据设置的显著性水平对不同特征进行筛选及分组;将各组特征分别作为输入,利用J48,LR,DTAPO对样本数据集进行分类,得到分类精确率、召回率,比较不同方法下二者的大小;选取高精确率计算进展概率;分析不同特征数目下不同算法对概率预测的影响,构建进展概率预测模型。
2.2.1 特征选取及分组
为了筛选有效特征,首先对P与NP这2类患者的特征差异性进行对比,统计2类患者各特征的最小值、最大值、平均值,并比较各值的偏差。由偏差值可得,P与NP的最大值、最小值及平均值都有所差异。由于不同特征指标量纲不一致,利用公式(1)对它们进行归一化处理,其中x表示2类患者各特征指标值,xmin,xmax分别为2类患者各特征的最小值和最大值。结合偏差值及归一化数据,得到P与NP差异较大的特征有SCr,UR,Na,Cl,CRP,HB,ALB,NS,CO2。
(1)
完成特征差异性对比后,接着利用皮尔逊相关系数(Pearson)、斯皮尔曼相关系数(Spearman)、肯德尔相关系数(Kendall)这3种相关性分析方法对特征进行相关性分析。由于GFR是表征CKD进展的唯一参数,故只需判断各特征与终点GFR的相关性。通过相关性分析并结合特征差异性对比结果及医生建议,将特征根据不同程度的显著性水平分为4组,如表2所示。
表2 根据显著水平得到的特征输入分组
组别特征数输入的特征120所有特征(除Sex)213FUP、SCr、ALB、UR、Ca、K、HB、SBP、NS、P、CO2、GLC、CRP311FUP、SCr、ALB、UR、Ca、K、HB、SBP、NS、P、CO246FUP、SCr、ALB、UR、Ca、K
2.2.2 数据分类
利用J48,LR,DTAPO对不同特征输入的样本数据集进行分类,分为P与NP这2类,得到精确率(P)、召回率(R)如表3所示。图4、图5分别表示不同输入特征下不同算法的分类精确率和召回率对比。由图可得,相比其他算法,DTAPO算法的分类精确率一般较高,LR算法的召回率一般较高。
图4 不同特征数目下不同算法的分类精确率对比
图5 不同特征数目下不同算法的分类召回率对比
表3 不同特征数目下不同算法的分类精确率、召回率
特征数J48LRDTAPOP1/%R1/%P2/%R2/%P3/%R3/%2091.0089.6091.9789.8693.0272.731389.4087.5093.4390.4698.8491.671191.7091.7093.3392.6494.1975.00689.4087.5094.0394.0394.1975.00
2.2.3 概率计算
由文献[19]可知,CKD患者由3期进入4期的发生率约为0.4,以此为基础,结合分类得到的精确率和召回率来计算患者由3期进展到4期或5期的概率。本文利用公式(2)即贝叶斯公式[20]对概率展开计算。
(2)
其中,P(A)表示事件A发生的概率,P(B)表示事件B发生的概率,P(A|B)表示已知B发生后,事件A发生的概率,P(B|A)表示已知A发生后,事件B发生的概率。
设只有2类患者:P与NP,记患者由3期进入4期或5期为事件B1,未由3期进入4期或5期为事件B2,则P(B1)=0.4, P(B2)=0.6;假设某患者被看做P(进展患者),记作事件A,则事件A发生的概率P(A)如公式(3),式中P(A|B1)表示发生率已知情况下,患者被正确分类为P的可能性,其值与表3所得的分类精确率的值相同,式中的P表示分类精确率。
P(A)=P(A|B1)P(B1)+[1-P(A|B1)]P(B2)
=P·P(B1)+(1-P)P(B2)
(3)
患者被看做P的条件下,确实由3期进入4期或5期的概率记作P(B1|A),其计算公式为公式(4),式中P表示分类精确率。
P(B1|A)=P(B1)P(A|B1)/P(A)
=P(B1)·P/[P·P(B1)+(1-P)P(B2)]
(4)
3 实验结果与分析
根据表3及公式(4),计算得到概率结果如表4所示,图6为不同输入特征数目下不同算法所得进展概率的对比。
表4 不同特征数目下不同算法进展概率计算结果
特征数J48J48-LRLRDTAPODTAPO-LR200.87080.88420.88420.89880.8988130.84900.90460.90460.98270.9827110.88050.90320.90320.91530.915360.84900.91300.91300.91530.9153
图6 不同特征数目下不同算法的进展概率对比图
由图6可得,相比其他算法,DTAPO-LR和DTAPO算法得到的预测概率更高。结合表3可得,虽然2种算法有相同的预测概率,但DTAPO-LR效果更好,该方法充分发挥了逻辑回归算法和蚁群路径优化算法的优势,不仅分类效果好,而且预测的进展概率高,更具说服力,因此最终选取DTAPO-LR方法构建进展概率预测模型。
4 结束语
本文将逻辑回归和蚁群路径优化决策树算法结合应用于CKD患者进展概率预测模型的构建,预测患者由3期到4期或5期的进展情况。通过实验分析,当特征数目为13时,其分类精确率为98.84%,由该精确率预测得到患者确实由3期进展到4期或5期的概率为0.9827。结果表明,本文提出的CKD进展概率预测模型,可以很好地识别风险患者,辅助医生决策,并引导患者及早治疗,提高患者生存率,在CKD诊断及治疗中具有良好的应用前景。
参考文献:
[1] 刘迅,唐骅,汤颖,等. 中国肾小球滤过率评估方程在慢性肾脏病患者的应用评价[J]. 中华肾脏病杂志, 2009,25(3):165-169.
[2] Vijayarani S, Dhayanand S. Kidney disease prediction using SVM and ANN algorithms[J]. International Journal of Computing and Business Research (IJCBR), 2015,6(2).
[3] 林丽娟,陈兴强,吴琳虹,等. 血压控制对老年慢性肾病患者病情进展的影响[J]. 中国现代医学杂志, 2015,25(31):78-81.
[4] Chase H S, Hirsch J S, Mohan S, et al. Presence of early CKD-related metabolic complications predict progression of stage 3 CKD: A case-controlled study[J]. BMC Nephrology, 2014,15, doi: 10.1186/1471-2369-15-187.
[5] Khannara W, Iam-On N, Boongoen T. Predicting duration of CKD progression in patients with hypertension and diabetes[M]// Intelligent and Evolutionary Systems. Springer, 2016:129-141.
[6] Liang Yong, Liu Cheng, Luan Xinze, et al. Sparse logistic regression with a L1/2penalty for gene selection in cancer classification[J]. BMC Bioinformatics, 2013,14, doi: 10.1186/1471-2105-14-198.
[7] Aqlan F, Markle R, Shamsan A. Data mining for chronic kidney disease prediction[C]// Proceedings of the 2017 Industrial and Systems Engineering Research Conference. 2017:1789-1794.
[8] 孙颖,杨君慧. Logistic回归与分类树模型的比较[J]. 西安工业大学学报, 2014,34(9):689-692.
[9] 李瑞红,李智,童玲. 蚁群路径优化决策树在慢性肾病分期诊断中的应用[J]. 软件导刊, 2017,16(2):135-138.
[10] Dorigo M, Di Caro G. Ant colony optimization: A new meta-heuristic[C]// Proceedings of the 1999 Congress on Evolutionary Computation. 1999,2:1470-1477.
[11] Quinlan J R. C4.5: Programs for Machine Learning[M]. San Mateo: Morgan Kaufmann Publishers, 1993:17-42.
[12] Dorigo M, Di Caro G, Gambardella L M. Ant algorithms for discrete optimization[J]. Artificial Life, 1999,5(2):137-172.
[13] 贺跃,郑建军,朱蕾. 一种基于熵的连续属性离散化算法[J]. 计算机应用, 2005,25(3);637-638.
[14] 张宇. 决策树分类及剪枝算法研究[D]. 哈尔滨:哈尔滨理工大学, 2009.
[15] Ma Yingchun, Zuo Li, Chen Jianghua, et al. Modified glomerular filtration rate estimating equation for Chinese patients with chronic kidney disease[J]. Journal of the American Society of Nephrology, 2006,17(10):2937-2944.
[16] 花琳琳,施念,杨永利,等. 不同缺失值处理方法对随机缺失数据处理效果的比较[J]. 郑州大学学报(医学版), 2012,47(3):315-318.
[17] 沈琳,陈千红,谭红专. 缺失数据的识别与处理[J]. 中南大学学报(医学版), 2013,38(12):1289-1294.
[18] Peres P L D, Bonatti I S, Borelli W C. The linear interpolation method: A sampling theorem approach[J]. Sba Controle & Automação Sociedade Brasileira de Automatica, 2003,14(4):439-444.
[19] Baek S D, Baek C H, Kim J S, et al. Does stage III chronic kidney disease always progress to end-stage renal disease? A ten-year follow-up study[J]. Scandinavian Journal of Urology and Nephrology, 2012,46(3):232-238.
[20] Peng Chenglin, Xiao Shouzhong, Nie Zhiwei, et al. Applying Bayes’ theorem in medical expert systems[J]. IEEE Engineering in Medicine and Biology Magazine, 1996,15(3):76-79.