基于机器学习对2型糖尿病肾病预测模型的构建及验证
2024-07-13王娴刘霞明陈曼玉赵君王立东
王娴 刘霞明 陈曼玉 赵君 王立东
作者单位:1承德医学院研究生院(邮编067000);2承德市中心医院内分泌科
作者简介:王娴(1996),女,硕士在读,主要从事糖尿病发病机制的基础及临床方面研究。E-mail:1772575329@qq.com
△通信作者 E-mail:whlfdjs@126.com
摘要:目的 寻找2型糖尿病(T2DM)患者糖尿病肾病(DKD)的独立预测因子,构建DKD发病风险的最佳机器学习(ML)模型并进行验证。方法 以2019年10月—2020年9月于承德市中心医院内分泌科住院治疗的528例T2DM患者为研究对象,随机分为训练集(370例)和验证集(158例),训练集依据是否合并DKD分为DKD组(89例)和非DKD组(281例)。单因素分析患者的一般资料和辅助检查,将其中有意义的变量通过最小绝对收缩和选择算法(LASSO)回归筛选最佳预测因子,将LASSO回归筛选出的最佳预测因子通过Logistc回归(LR)、K近邻(KNN)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、朴素贝叶斯(NB)、人工神经网络(ANN)和极致梯度提升(XGBoost)8种ML算法,经3重交叉验证建立预测模型,通过比较受试者工作特征(ROC)曲线、Delong检验、GiViTI校准曲线选择最佳预测模型。采用决策曲线分析(DCA)评估模型的临床实用性。结果 年龄、丙氨酸转氨酶(ALT)、肌酐(Cr)、甘油三酯(TG)、胱抑素C(Cys-C)、25羟基维生素D[25(OH)D]、单核细胞计数(Mon)是DKD的独立预测因子。8种ML模型中,ANN模型表现最佳。GiViTI校准曲线提示模型具有较好的准确度(P>0.05),决策曲线显示预测模型曲线在0.027~0.612的阈值概率区间具有临床实用价值。结论 本研究构建的预测DKD发生风险的ANN模型有助于早期识别DKD的高危T2DM患者。
关键词:糖尿病,2型;糖尿病肾病;机器学习;单核细胞;神经网络,计算机;预测模型
中图分类号:R587.24文献标志码:ADOI:10.11958/20231584
Construction and verification of prediction model of type 2 diabetic
nephropathy based on machine learning
WANG Xian1, LIU Xiaming1, CHEN Manyu1, ZHAO Jun1, WANG Lidong2△
1 Graduate School of Chengde Medical University, Chengde 067000, China;
2 Department of Endocrinology, Chengde Central Hospital
△Corresponding Author E-mail: whlfdjs@126.com
Abstract: Objective To search for independent predictive factors of diabetic kidney disease (DKD) in patients with type 2 diabetes mellitus (T2DM), construct and validate an optional machine learning (ML) model for the risk of DKD. Methods A total of 528 patients with T2DM, hospitalized in the Endocrinology Department of Chengde Central Hospital from October 2019 to September 2020, were selected as the study objects, and patients were randomly divided into a training set (370 cases), and a validation set (158 cases). The training set was divided into the DKD group (89 cases) and the non-DKD group (281 cases) according to whether DKD existed. The general data and diagnostic examination of patients were performed by univariate analysis, in which variables with statistical differences were used to screen the best predictors by least absolute shrinkage and selection operator (LASSO) regression analysis. The best predictors were used to establish eight ML algorithms by three cross-validation methods, including Logistic regression (LR), K-nearest neighbor (KNN), support vector machine (SVM), decision tree (DT), random forest (RF), naive Bayes (NB), artificial neural network (ANN), and extreme gradient lift (XGBoost). The optimal prediction model was selected by receiver operating characteristic (ROC) curve, Delong test and GiViTI calibration curve. Decision curve analysis (DCA) was used to evaluate the clinical practicability of the model. Results Age, alanine aminotransferase, creatinine, triglyceride, cystatin C, 25-hydroxy vitamin D and monocyte count were independent predictive factors of DKD. Eight ML models were established based on the above 7 predictors, and the ANN model performed best in the 8 ML models. The GiViTiI calibration curve indicated that the model had good accuracy (P>0.05), and the DCA showed that the prediction model curve had clinical practical value in the threshold probability range of 0.027-0.612. Conclusion In this study, the ANN model constructed in this study to predict the risk of DKD is helpful for early discrimination of high-risk T2DM patients with DKD.
Key words: diabetes mellitus, type 2; diabetic nephropathy; machine learning; monocytes; neural networks, computer; prediction model
随着人口老龄化的加剧及居民生活方式的改变,2型糖尿病(type 2 diabetes mellitus,T2DM)已成为我国常见的慢性病之一。糖尿病肾病(diabetic kidney disease,DKD)是T2DM常见的微血管并发症之一,其患病率高达30%~40%[1]。DKD已成为我国慢性肾脏病和终末期肾病的首要原因,严重影响患者的生活质量和预期寿命[2]。因此,构建T2DM患者进展为DKD的风险预测模型,早期识别DKD高危人群并及时采取干预措施,对改善T2DM患者的预后尤为重要。机器学习(machine learning,ML)算法是一种广泛应用于多种疾病预测模型的新型技术,在多项研究中均表现出良好的预测性能[3-4]。本研究通过分析T2DM患者的临床资料,寻找发生DKD的危险因素,建立DKD的多种ML模型,并找出最佳的预测模型,为筛查DKD的高危人群提供参考。
1 对象与方法
1.1 研究对象 回顾性收集2019年10月—2020年9月承德市中心医院内分泌科住院治疗的528例T2DM患者的临床资料。T2DM的诊断符合中国2型糖尿病防治指南(2020年版)诊疗标准[5];以《中国糖尿病肾脏病防治指南(2021年版)》[6]为DKD的诊断标准:肾小球滤过率(eGFR)<60 mL/min和(或)尿白蛋白/肌酐比值(urine albumin to creatinine ratio,UACR)>30 mg/g,根据慢性肾脏病流行病学合作研究(chronic kidney disease epidemiology collaboration,CKD-EPI)公式计算eGFR。排除标准:(1)肾小球肾炎、肾小管间质病变、遗传性肾病等其他原因导致的慢性肾脏病。(2)有导致UACR测定假阳性因素者。(3)妊娠期。(4)恶性肿瘤。(5)合并自身免疫疾病者。(6)18岁以下。(7)实验室检查资料缺失者。为对构建的ML模型进行验证,本研究采用R语言caret包中的caretDataPartition函数将患者随机分为训练集(370例,70%)和验证集(158例,30%)。训练集依据T2DM患者是否合并DKD分为DKD组(89例,24%)和非DKD组(281例,76%)。
1.2 方法
1.2.1 一般资料收集 收集患者的性别、年龄、既往病史、糖尿病病程、糖尿病家族史、吸烟史、饮酒史、体质量指数(BMI)。既往病史包括高血压病、冠心病、脑血管病和痛风史。
1.2.2 实验室指标检测 嘱患者禁食、禁水8~10 h,入院次日清晨5:00抽取肘正中静脉血3 mL,应用ABX120全自动血细胞分析仪检测血常规,记录淋巴细胞计数(Lym)、单核细胞计数(Mon),试剂盒购自Sysmex公司。
另取晨起空腹肘正中静脉血5 mL,使用株式会社日立高新技术公司7600全自动生化分析仪进行生化检测,丙氨酸底物法检测丙氨酸转氨酶(ALT),天冬氨酸底物法检测天冬氨酸转氨酶(AST),尿酸酶法检测尿酸(UA),肌氨酸氧化酶法检测肌酐(Cr),葡萄糖氧化酶法检测空腹血糖(FPG),CHOD-PAP法检测总胆固醇(TC),GPO-PAP法检测甘油三酯(TG),直接法-过氧化氢酶清除法检测高密度脂蛋白胆固醇(HDL-C)和低密度脂蛋白胆固醇(LDL-C),乳胶免疫比浊法检测胱抑素C(Cys-C),以上检测试剂盒均购自maccura公司。根据空腹TG(mmol/L)和FPG(mmol/L)计算甘油三酯葡萄糖指数(Triglyceride glucose index,TyG),TyG=ln[(TG×88.6)×(FPG×18)/2]。
通过HPLC法检测糖化血红蛋白(HbA1c),检测试剂盒购自Bio-Rad公司;电化学发光法检测空腹C肽(FC-P),检测试剂盒购自美国罗氏公司;电化学发光法检测甲状旁腺激素(PTH)和25羟基维生素D[25(OH)D],检测试剂盒购自美国罗氏公司。留取入院次日清洁中段晨尿,使用雅培(上海)诊断产品销售有限公司的特种蛋白干式免疫散射色谱分析仪检测UACR。
1.2.3 其他指标检测 采用SL-3G型裂隙灯显微镜检查眼前节,TX-20非接触式眼压计测量眼压,使用复方托吡卡胺滴眼液对患者进行散瞳,充分散瞳后使用眼底照相机Kowavx-10a进行眼底检查,以上由2位经验丰富的眼科副主任医师完成并分别对检查结果进行评估,有争议时与另一位经验丰富的眼科主任医师共同商议后决定,最终的检查报告分为无糖尿病视网膜病变(no diabetic retinopathy,NDR)、糖尿病视网膜病变(diabetic retinopathy,DR),DR进一步分为非增殖性糖尿病性视网膜病变(non-proliferative diabetic retinopathy,NPDR)和增殖性糖尿病性视网膜病变(proliferative diabetic retinopathy,PDR)。另外,由一名经验丰富的超声科副主任医师使用美国Philips EPIQ5超声诊断仪进行脂肪肝的诊断。通过生物电阻抗分析法(设备型号HDS-2000,品牌为欧姆龙)测量内脏脂肪面积(visceral fat area,VFA)。
1.3 统计学方法 使用SPSS 27.0和R 4.3.1软件进行数据分析。正态分布的计量资料用[x] ±s表示,2组间比较采用独立样本t检验;非正态资料用M(P25,P75)表示,组间比较采用Mann-Whitney U秩和检验。计数资料用例(%)表示,组间比较采用χ2检验或秩和检验。采用最小绝对收缩和选择算子(LASSO)回归筛选预测因子,选择最适λ值,经K重交叉验证(K=3)建立Logistc回归(Logistic regression,LR)、K近邻(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、决策树(decision tree,DT)、随机森林(random forest,RF)、朴素贝叶斯(naive bayesian,NB)、人工神经网络(artificial neural network,ANN)和极致梯度提升(eXtreme Gradient Boosting,XGBoost)8种预测模型。采用Delong检验比较模型在两数据集受试者工作特征(ROC)曲线下面积(AUC),选择最佳预测模型。绘制GiViTI校准曲线评估模型的一致性,决策曲线分析(decision curve analysis,DCA)评估模型的实用性。P<0.05为差异有统计学意义。
2 结果
2.1 DKD组与非DKD组临床资料的比较 2组患者高血压病、糖尿病病程、BMI≥24.0 kg/m2、脂肪肝、DR分期,及年龄、ALT、AST、UA、Cr、TG、Cys-C、25(OH)D、Mon、TyG比较差异有统计学意义(P<0.05)。2组间性别、冠心病、脑血管病、痛风、糖尿病家族史、吸烟史、饮酒史比例,及VFA、HbA1c、FC-P、TC、HDL-C、LDL-C、PTH、Lym水平,差异均无统计学意义(P>0.05),见表1。
2.2 T2DM患者发生DKD的预测因子筛选 为避免变量间共线性的影响,将单因素分析中差异有统计学意义的15个变量纳入LASSO回归分析。基于5折交叉LASSO回归得到7个有临床意义的变量,分别为年龄、ALT、Cr、TG、Cys-C、25(OH)D、Mon,见图1。
2.3 预测模型在训练集和验证集中的ROC曲线比较 将上述7个预测变量全部纳入预测模型中。应用8种机器学习算法建立T2DM患者发生DKD的风险预测模型,通过ROC曲线评估模型的区分度和预测效能。8种ML模型在训练集和验证集中的ROC曲线见图2。经Delong检验评估同一模型在训练集和验证集中的AUC,结果显示LR、SVM、NB、ANN模型的AUC在训练集和验证集间的比较,差异无统计学意义(P>0.05);KNN、DT、RF、XGBoost模型的AUC在训练集和验证集间的比较,差异有统计学意义(P<0.05)。与LR、NB、ANN模型相比,SVM模型的AUC值在训练集和验证集中均最大,见表2。在训练集中,仅ANN模型与SVM模型的AUC值差异无统计学意义(P>0.05);在验证集中,LR、NB、ANN模型与SVM模型的AUC值比较,差异均无统计学意义(P>0.05),见表3。因此,SVM模型与ANN模型均有较好的区分度。
2.4 模型的校准能力比较 SVM模型的GiViTI校准曲线带的80%CI和95%CI均穿过45°对角线(P<0.001),提示该模型校准曲线与实际观测概率相差较大;ANN模型的GiViTI校准曲线带的80%CI和95%CI均未穿过45°对角线(P=0.739),提示该模型校准曲线与实际观测概率接近,见图3。因此,选择ANN模型为最终预测模型。
2.5 模型的决策曲线分析 DCA曲线提示,当预测概率值在2.7%~61.2%时,ANN模型对T2DM患者发生DKD的风险预测具有临床实用价值。
3 讨论
DKD起病隐匿,常无明显的临床症状或体征,多在体检时发现,且治疗方法有限,其早期诊断和治疗是一个相对棘手的问题。高血糖、高血压、血脂代谢异常、超重及肥胖被认为是DKD的常见危险因素[7]。然而,在实际临床工作中仍有部分血糖、血压、血脂、体质量控制达标的糖尿病患者发现合并DKD,提示尚存在其他影响DKD发生的危险因素。研究表明,经早期干预可预防DKD的发生[8]。因此,早筛查、早诊断、早治疗的一体化综合管理对DKD的防治具有重要意义[6]。
本研究发现年龄、ALT、Cr、TG、Cys-C、25(OH)D、Mon可用于预测T2DM患者DKD的发生风险。在预测模型选择方面,本研究选用8种ML模型建立预测模型,通过Delong检验评估模型的AUC,发现SVM和ANN模型有较好的区分度;GiViTI校准曲线表明ANN模型具有较好的校准度。因此, ANN模型可作为最佳预测模型,且DCA曲线表明该模型具有较高的临床实用性,有利于筛选出DKD的高危患者,为DKD的防治提供一定的帮助。
3.1 ALT与T2DM患者DKD的关系 已有切实可靠的循证依据表明,年龄、Cr、TG、Cys-C等与DKD发生密切相关[9-10]。然而,ALT、25(OH)D、Mon对于预测DKD发生风险的证据尚不充分。ALT是反映肝功能的重要指标之一,同时也可作为反映肾功能的标志物,其水平降低会增加DKD的发生风险[11]。本研究发现,DKD患者ALT水平明显低于非DKD患者,与上述研究结论一致。分析原因可能与DKD组老年人所占比例较大、肝脏老化程度较重、功能性肝细胞比例减少,导致ALT总体水平偏低有关[12]。
3.2 25(OH)D与T2DM患者DKD的关系 本研究发现血清25(OH)D降低是DKD的危险因素,与Felício等[13]研究结论一致。Xu等[14]发现DKD患者普遍存在维生素D缺乏,在校正了年龄、性别、种族、BMI、文化程度、家庭收入、血脂、肌酐等混杂因素后,发现25(OH)D水平与死亡风险呈显著负相关。此外,25(OH)D还可以通过抑制足细胞损伤和凋亡、肾脏炎性介质的表达和释放、系膜细胞增殖、上皮细胞间充质转分化和肾素-血管紧张素-醛固酮系统的激活等途径对抗氧化应激和肾脏纤维化,起到保护肾脏细胞和调节肾脏免疫的作用[15]。
3.3 Mon与T2DM患者DKD的关系 Mon是机体重要的免疫细胞。研究发现慢性炎症和免疫细胞浸润是DKD发病的重要机制[16-17]。本研究表明,Mon是发生DKD的预测因子,DKD患者Mon水平明显高于非DKD患者。高血糖诱发的糖脂毒性通过诱导巨噬细胞活化促进糖酵解,激活炎症反应和氧化应激,进而引起肾损伤[18-19]。有研究表明,高血糖可刺激与Mon呈正相关的吲哚胺2,3-双加氧酶1(IDO1)表达上调,进而促进单核巨噬细胞的活化,使足细胞功能受损,最终导致肾损伤和不良预后的发生[20]。因此,Mon可能是反映肾脏损伤的重要指标,对于Mon水平升高的T2DM患者应及时关注其肾脏功能。
本研究尚存在一定的局限性:(1)作为横断面研究,不可避免地存在一定的回忆性偏倚和病例选择偏倚。(2)所纳入的临床数据资料均来自同一医疗中心,且样本量相对较小,缺乏外部验证,可能会降低预测模型的鲁棒性和外推性。(3)DKD结局指标设定为二分类变量,即进展为DKD和未进展为DKD,过于简单,未来的研究可将结局变量进一步分层。
本研究基于年龄、ALT、Cr、TG、Cys-C、25(OH)D、Mon等变量构建的ANN模型可较为准确地预测T2DM患者发生DKD的风险,为临床工作者及时识别DKD的高危人群提供参考。
参考文献
[1] VARGHESE R T,JIALAL I. Diabetic Nephropathy[M]. StatPearls. Treasure Island(FL):StatPearls Publishing Copyright? 2023,StatPearls Publishing LLC,2023.
[2] ZHAO Z H,HUO L L,WANG L Y,et al. Survival of Chinese people with type 2 diabetes and diabetic kidney disease:a cohort of 12-year follow-up[J]. BMC Public Health,2019,19(1):1498. doi:10.1186/s12889-019-7859-x.
[3] YUE S R,LI S S,HUANG X Y,et al. Machine learning for the prediction of acute kidney injury in patients with sepsis[J]. J Transl Med,2022,20(1):215. doi:10.1186/s12967-022-03364-0.
[4] ABEGAZ T M,BALJOON A,KILANKO O,et al. Machine learning algorithms to predict major adverse cardiovascular events in patients with diabetes[J]. Comput Biol Med,2023,164:107289. doi:10.1016/j.compbiomed.2023.107289.
[5] 中华医学会糖尿病学分会. 中国2型糖尿病防治指南(2020年版)[J]. 中华糖尿病杂志,2021,13(4):315-409. Chinese Diabetes Society. Guideline for the prevention and treatment of type 2 diabetes mellitus in China(2020 edition)[J]. Chin J Diabetes Mellitus,2021,13(4):315-409. doi:10.3760/cma.j.cn115791-20210221-00095.
[6] 中华医学会糖尿病学分会微血管并发症学组. 中国糖尿病肾脏病防治指南(2021年版) [J]. 中华糖尿病杂志,2021,13(8):762-784. Microvascular Complications Group of Chinese Diabetes Society. Clinical guideline for the prevention and treatment of diabetic kidney disease in China(2021 edition)[J]. Chin J Diabetes Mellitus,2021,13(8):762-784. doi:10.3760/cma.j.cn115791-20210706-00369.
[7] PERKINS B A,BEBU I,DE BOER I H,et al. Risk factors for kidney disease in type 1 diabetes[J]. Diabetes Care,2019,42(5):883-890. doi:10.2337/dc18-2062.
[8] XU B,LI S Q,KANG B,et al. The current role of sodium-glucose cotransporter 2 inhibitors in type 2 diabetes mellitus management[J]. Cardiovasc Diabetol,2022,21(1):83. doi:10.1186/s12933-022-01512-w.
[9] ZOU Y T,ZHAO L J,ZHANG J L,et al. Development and internal validation of machine learning algorithms for end-stage renal disease risk prediction model of people with type 2 diabetes mellitus and diabetic kidney disease[J]. Ren Fail,2022,44(1):562-570. doi:10.1080/0886022x.2022.2056053.
[10] LIU W,DU J,GE X X,et al. The analysis of risk factors for diabetic kidney disease progression:a single-centre and cross-sectional experiment in Shanghai[J]. BMJ Open,2022,12(6):e060238. doi:10.1136/bmjopen-2021-060238.
[11] YANAGAWA T,KOYANO K,AZUMA K. Retrospective study of factors associated with progression and remission/regression of diabetic kidney disease-hypomagnesemia was associated with progression and elevated serum alanine aminotransferase levels were associated with remission or regression[J]. Diabetol Int,2021,12(3):268-276. doi:10.1007/s13340-020-00483-1.
[12] PETROFF D,B?TZ O,JEDRYSIAK K,et al. Age dependence of liver enzymes:an analysis of over 1,300,000 consecutive blood samples[J]. Clin Gastroenterol Hepatology,2022,20(3):641-650. doi:10.1016/j.cgh.2021.01.039.
[13] FEL?CIO J S,DE RIDER BRITTO H A,CORTEZ P C,et al. Association between 25(OH)vitamin D,HbA1c and albuminuria in diabetes mellitus:data from a population-based study (VIDAMAZON)[J]. Front Endocrinol (Lausanne),2021,12:12723502. doi:10.3389/fendo.2021.723502.
[14] XU F,LU H Y,LAI T W,et al. Association between vitamin D status and mortality among adults with diabetic kidney disease [J]. J Diabetes Res,2022,2022:9632355. doi:10.1155/2022/9632355.
[15] HUANG H Y,LIN T W,HONG Z X,et al. Vitamin D and diabetic kidney disease[J]. Int J Mol Sci,2023,24(4):3571. doi:10.3390/ijms24043751.
[16] NISHAD R,MUKHI D,KETHAVATH S,et al. Podocyte derived TNF-α mediates monocyte differentiation and contributes to glomerular injury[J]. FASEB J,2022,36(12):e22622. doi:10.1096/fj.202200923R.
[17] 许莉敏,谢燕. 外周血单核细胞DNMT1及血清IL-6在糖尿病肾脏病中的表达及意义[J]. 天津医药,2023,51(2):194-198. XU L M,XIE Y. Expression and significance of peripheral blood mononuclear cell DNMT1 and serum IL-6 in diabetic nephropathy[J]. Tianjin Med J,2023,51(2):194-198. doi:10.11958/20220812.
[18] ZENG H X,QI X M,XU X X,et al. TAB1 regulates glycolysis and activation of macrophages in diabetic nephropathy[J]. Inflamm Res,2020,69(12):1215-1234. doi:10.1007/s00011-020-01411-4.
[19] OPAZO-R?OS L,MAS S,MAR?N-ROYO G,et al. Lipotoxicity and diabetic nephropathy: novel mechanistic insights and therapeutic opportunities[J]. Int J Mol Sci,2020,21(7):2632. doi:10.3390/ijms21072632.
[20] YU K P,LI D R,XU F P,et al. IDO1 as a new immune biomarker for diabetic nephropathy and its correlation with immune cell infiltration[J]. Int Immunopharmacol,2021,94:107446. doi:10.1016/j.intimp.2021.107446.
(2023-10-27收稿 2024-02-06修回)
(本文编辑 李鹏)