基于随机生存森林构建中医药干预的IgA肾病蛋白尿风险预测模型*
2023-12-28翁雪莹卢登勇石晓冬吴慧敏陈宇珊左金巾
翁雪莹,卢登勇,石晓冬,吴慧敏,陈宇珊,左金巾,罗 芳,钟 建
(1. 广西中医药大学研究生院 南宁 530001;2. 广西中医药大学第一附属医院 南宁 530023)
IgA 肾病为我国常见慢性肾小球疾病之一,其病理特征表现为IgA 免疫复合物沉积在肾小球系膜区,常见临床症状为蛋白尿、血尿、高血压以及肾损害。IgA 肾病作为一种免疫性疾病,其预后差异大,约30%的患者会自发达到临床缓解[1-2],约30-40% IgA患者经确诊后可于10-20 年进展至终末期肾病[3]。由于IgA肾病预后差异较大,众多学者[4-6]对其风险因素开展相关研究。已有研究表明蛋白尿不仅是IgA 肾病临床表现之一,同时也是引起IgA 肾病患者肾功能进展重要风险因素[7]。尿蛋白可直接损伤肾小管上皮细胞及足细胞、激活补体引起肾小管间质纤维化,从而加速肾小球硬化病变[8]。因此,KDIGO 指南[9]指出严格控制蛋白尿是延缓IgA 肾病肾功能进展的重要措施。然而经治疗后部分患者蛋白尿未能得到有效缓解甚至发展为肾衰竭。因此,亟待采取有效的手段探索IgA 肾病蛋白尿预后风险因素并在此基础上进行预测,以便早期辨识其重要风险因素,为临床治疗提供参考。
目前大多风险预测模型为基于Logistic 回归构建的Cox比例风险模型,当不满足诸如等比例风险、变量与结果呈线性关系等限定条件时,其结果的准确性则会受到影响。此外鲜有研究报道将中医药干预作为预后影响因素之一构建风险预测模型,而中医在治疗IgA 肾病具有的独特优势和特色不可忽视[10-13],特别是在减轻蛋白尿、改善激素副作用、延缓肾功能进展等方面,且该类模型亦不适用于预测经中医药干预的IgA肾病患者蛋白尿预后。
随机生存森林[14]是随机森林算法在生存分析的衍生,其随机特性能处理高维复杂特点的医学数据,且不易过度拟合,具有良好分类、预测以及分析变量间复杂关系的优势,有研究表明其性能优于或等同于Cox 比例风险回归模型[15]。本研究利用随机生存森林探索与IgA 肾病蛋白尿预后相关风险因素,构建中医药干预的IgA 肾病患者蛋白尿风险预测模型,为临床随访监测及治疗方案提供一定参考意义。
1 研究方法
1.1 研究对象
收集2018 年1 月-2021 年1 月在我院首次行肾活检确诊为IgA 肾病患者。经筛选,符合以下纳排标准患者共129例。
纳入标准:①肾组织病理结果符合IgA 肾小球疾病诊断标准[16],且肾组织中肾小球数目≥10 个;②明确诊断为IgA 肾病后定期至我院门诊随诊时间1 年以上,并在专业医生指导下用药治疗;③肾活检前未进展至ESRD或行肾脏替代治疗。
排除标准:①其他肾性疾病,如膜性肾病、糖尿病肾病、狼疮性肾炎、乙型肝炎病毒相关性肾炎等;②合并危急重症(如休克、急性心衰、消化道大出血)、恶性肿瘤、妊娠等;③临床资料不完整。随访时间<12月。
1.2 资料采集
一般资料(患者确诊为IgA 肾病初始时间、年龄、性别、血压、BMI)、生化指标(血红蛋白、白蛋白、尿酸、总胆固醇、甘油三酯、24 hUPRO、血肌酐)、肾脏病理资料(Lee 分级情况、肾小球硬化比例)。所有肾组织处理方法为HE、PAS、PASM、Masson 染色及直接免疫荧光法,病理分级均参照1982年Lee分级标准执行[17]。
1.3 中医药干预
收集患者有无使用中医药治疗,包括减少蛋白尿的中成药(如黄葵胶囊、百令胶囊、金水宝胶囊、雷公藤多苷片等)、延缓肾衰竭的中成药(如尿毒清颗粒、肾衰宁颗粒、海昆肾喜胶囊等)及其他中药汤剂。以上中医药干预均需在中医辨证下使用,西医治疗遵循2012 年KDIGO 提出的IgA 肾病诊疗指南,规范使用ACEI/ARB、糖皮质激素及免疫抑制剂等治疗[18]。
1.4 随访内容
根据患者肾组织病理结果明确诊断IgA 肾病当日为随访起点,随访时间为1 年,期间患者每隔3-6 个月至门诊复查24 hUPRO、肾功能等检查评估病情,记录24 hUPRO、血清肌酐结果、eGFR。借鉴KDIGO[19]制定的尿蛋白缓解标准,将随访的终点事件定义为治疗后蛋白尿达到有效缓解,即24 hUPRO 小于0.3 g·d-1或较初始值减少50%以上,且eGFR 保持在初始值50%以内,上述指标持续3 个月以上。若随访时间截止蛋白尿仍未缓解或加重,随访结局统一记为持续蛋白尿。
1.5 相关定义
高血压:收缩压≥140 mmHg 和/或舒张压90≥mmHg。高尿酸血症:血尿酸(男)≥420 μmol·L-1或血尿酸(女)≥360 μmol·L-1。肥胖:BMI≥24 kg·m-2。贫血:血红蛋白(男)≤120 g·L-1或血红蛋白(女)≤110 g·L-1。低蛋白血症:白蛋白≤40 g·L-1。血脂异常:总胆固醇≥6.2 mmol·L-1和/或甘油三酯≥2.3 mmol·L-1。eGFR采用CKD-EPI 公式计算。肾小球硬化比例指肾小球硬化数目占全片肾小球总数的比例。
2 统计学分析
采用SPSS 20 软件进行统计学分析。符合正态分布的连续变量以均数±标准差(±s)表示,以两独立样本t检验进行组间比较;符合偏态分布的连续变量采用四分位数间距表示,即M(P25,P75),组间比较利用Wilcoxon秩和检验;分类变量采用χ2检验,当P<0.05认为差异有统计学意义。使用R语言“randomForestSRC”数据包构建随机生存森林预测模型,采用“timeROC”数据包绘制tdROC曲线。
3 随机生存森林模型
3.1 数据预处理
将年龄、eGFR、肾小球硬化比例记为连续变量,其余指标BMI、血压、血红蛋白、白蛋白、尿酸、总胆固醇、甘油三酯、24 hUPRO、Lee分级、中医药干预、随访结局转换成分类变量并赋值,具体见表1。
表1 纳入变量及其赋值
3.2 构建风险预测模型
随机生存森林[14]的基本原理为bootstrap 抽样,即在训练集有放回地随机抽取k 个样本,从纳入模型变量中随机选择m 个变量(mtry)作为根节点,选取生存差异最大变量作为子节点不断分裂构成生存树,分裂停止时的子节点称为终末节点(Terminal node)。通过以上方法不断训练出n棵生存树组成随机生存森林,最后综合多棵生存树的表决结果对结局进行分类、预测。每次抽取样本平均有37%排除在外的数据称为袋外数据(OUT of bag data,OOB data),用于验证模型输出结果的准确性。通过网格搜索可确定mtry 和nodesize最优组合条件下训练集袋外错误率达到最低,根据该参数组合可确定该模型最稳定的棵数ntree。
3.3 筛选危险因素及重要性排序
本研究选用VIMP(Variable importance)法筛选与预后相关的风险因素,并对其重要性进行排序。VIMP法[14]数学原理为将袋外数据应用到建好的预测模型中,计算原始错误率和新错误率的差。VIMP 值小于0表示该变量降低了预测结果的准确性,大于0 时表示该变量提高了预测结果的准确性,值越大表示该变量对于结局影响越大,即与预后的关系越密切。
3.4 评估模型预测准确度
除构建模型时给出的袋外错误率外,还可采time-dependent ROC 曲线(tdROC)来评估模型预测性能。首先利用在训练集建好的模型分别计算出训练集、测试集的IgA 肾病患者的预后风险分数,并在此基础上分别绘制训练集和测试集于随访时间1-12 月的tdROC 曲线,当曲线下面积AUC 等于0.5 时则表示该模型无预测能力,0.5-0.7 表明模型预测效能一般,AUC 大于0.7 表示模型具有良好的预测性[20],AUC 处于0-1之间。
4 结果
4.1 IgA肾病患者纳入情况及基线资料
本研究共纳入了129例患者,截至随访时间结束,达到蛋白尿有效缓解共89 例,持续蛋白尿40 例。将纳入病例分别按照60%、40%的比例随机划分成训练集(n=78)和测试集(n=51)。训练集与测试集的基线资料见表2,两组比较均无统计学意义(P>0.05),两组数据无显著差异,说明分组符合随机分组抽样的要求。
表2 IgA肾病训练集和测试集的基线资料
4.2 建立随机生存森林风险预测模型
使用R 语言“randomForestSRC”数据包构建随机生存森林风险预测模型,以mtry=1,ntree=5000 颗树为基础不断训练棵树构建模型。如图1 所示,通过网格搜索可知当mtry=6,nodesize=1 袋外错误率达到最低(12.3%),并且在3000 棵生存树时袋外错误率几乎趋向稳定,见图2。
图1 随机生存森林风险预测模型的调优参数图
图2 随机生存森林风险预测模型的袋外错误率曲线图
4.3 变量的重要性
本研究采用VIMP(Variable importance)法对变量重要性排序,结果显示本研究纳入变量的VIMP 值均大于0,重要性排序依次为eGFR、高血压、中医药干预、24 hUPRO>1 g、肾小球硬化比例、Lee 分级、肥胖、血脂异常、高尿酸血症、低蛋白血症、贫血、年龄、性别。具体见图3。
图3 模型中纳入各变量的VIMP值
由于随机生存森林无需满足如Cox比例风险中假设变量与结局呈线性关系的前提,因此还可以探究肾小球硬化比例与eGFR 两个连续变量对IgA 肾病蛋白尿转归的非线性效应。如图4 所示,当eGFR 处于0-90(mL∙min-1∙1.73 m-2)范围内,患者发生持续蛋白尿风险率随着eGFR 的增加持续缓慢下降,呈非线性负相关,而当eGFR 大于90(mL∙min-1∙1.73 m-2)后持续蛋白尿风险率明显降低。从图5 可知,当肾小球硬化比例小于0.3 时曲线趋于平滑,持续蛋白尿风险率未见明显变化。当肾小球硬化比例大于0.3 时,患者发生持续蛋白尿风险率逐渐增加,根据曲线斜率显示近似线性正相关。
图4 eGFR与持续蛋白尿风险率的非线性效应
图5 肾小球硬化比例与持续蛋白尿风险率的非线性效应
4.4 风险预测模型的评价
采用“timeROC”数据包绘制随访时间1-12 月训练集和测试集的tdROC曲线以评估该风险预测模型的预测能力。结果显示随着月份增加,训练集和测试集tdROC 曲线下的AUC 值亦随之下降。训练集1-12 月的AUC 值均在0.9 以上,原因可能为该预测模型基于训练集建立,因此预测性能较高;测试集于9月以内的AUC 值大于0.7,9-12 月AUC 值逐渐降至0.675,表明该模型于9 月以内具有良好的预测效果,而随访时间结束的12月预测性能一般。训练集于6月、9月、12月的tdROC 曲线的AUC 值分别为0.977、0.964、0.935,如图6 所示。测试集于6 月、9 月、12 月的tdROC 曲线的AUC 值分别为0.824、0.750、0.675,如图7 所示。通过图6、图7可反映tdROC曲线随时间和其他因素增加其预测性能逐步降低的特点。
图6 训练集6月、9月、12月的tdROC曲线
图7 测试集6月、9月、12月的tdROC曲线
5 讨论
目前高血压和eGFR 作为IgA 肾病蛋白尿进展的危险因素已被得到广泛认可[21]。本文通过随机生存森林筛选出居于首位的危险因素为eGFR。通过研究发现eGFR 与发生持续蛋白尿为非线性负相关。当eGFR 处于90(mL∙min-1∙1.73 m-2)时,曲线斜率变化明显,而90 恰好为诊断慢性肾衰竭的临界值,说明进入慢性肾衰竭的患者蛋白尿的转归较差。此外本研究筛选出高血压为第二大危险因素,因其可通过引起肾小动脉病变,加剧动脉硬化、血管管壁增厚以及继发管腔狭窄,导致肾组织缺血缺氧,出现肾损伤,而受损的肾脏组织反过来可进一步促进血压升高,因此KDIGO指南明确指出首选ACEI/ARB 类降压药来控制血压,进而降低蛋白尿。此外也有研究报道其他危险因素,如24 Hupro>1 g、低蛋白血症,伴高血压、贫血、高脂血症、高尿酸血症、肥胖的IgA 肾病患者疾病加重的可能性大[22-23],亦与本文研究结果基本相同。众多危险因素之间可相互影响,大量蛋白尿可以导致eGFR 下降,甚至进入ESRD;肥胖人群易出现高血脂、高尿酸血症等全身性代谢性疾病,此类因素可影响肾脏血流动力学改变、加速血管硬化从而加速肾功能损害。因此积极改变以上可逆因素,如控制血压、纠正贫血、补充营养、降血脂、尿酸等可有效改善IgA 肾病患者的预后。
IgA 肾病病理指标可在一定程度上反映病情和评估预后[24]。目前我国应用较为广泛的IgA 肾病病理分型系统有Lee分级、Hass分类法及牛津分型,但不同病理分级系统均各有所缺陷[25]。Lee分级依据肾小球、肾小管和肾间质、新月体划分病变严重程度,这种病理分类方法己被证实对预后具有较好的预测价值[26]。因Lee 分级分类简便实用得以在我国地区广泛应用,然而Lee氏分级也具有不足点,如未将肾小球硬化量化,而肾小球硬化是各种病因导致肾组织损害形成的最终不可逆病理特征,表现为系膜区炎症细胞浸润、免疫复合物沉积。肾小球硬化比例越大肾损伤越重[27],因此我们在Lee 分级的基础上,纳入肾小球硬化比例构建随机生存森林模型,结果提示Lee 分级和肾小球硬化比例对预后具有一定的影响。当肾小球硬化比例大于0.3 时,其与发生持续蛋白尿风险率呈近似线性正相关,因此早期治疗宜积极保护剩余肾小球、延缓其硬化速度、减少肾损伤。
古代虽无IgA 肾病病名,但结合其临床症状可归属于“尿血”、“水肿”、“肾风”等范畴,中医认为其核心病机为正虚邪实,后世医家结合实际临床提出分期治疗(急性发作期、慢性持续期、激素使用期以及激素减量期)的治疗原则[28],讲究辩证论治,随证治之。据《灵枢·经脉》言:“肾足少阴之脉,……从肾上贯肝膈,入肺中,循喉咙,挟舌本”,古代医家认为咽肾具有密切的关系。结合临床中不少IgA 肾病患者常伴咽痛咽痒症状,因此有医家提出“咽肾相关”理论,运用清热利咽或滋阴养咽之法治疗[29-31],往往获得不错的疗效[32]。此外现代药理学研究表明部分中成药具有降压、减轻蛋白尿、保护肾功能,起到协同疗效的作用,如有研究[33]证实百令胶囊可通过提高自身免疫,改善炎性水平,进而抑制蛋白尿的产生,同时可抑制纤维化效应,促进肾小管细胞修复;雷公藤多苷片中的酯类化合物及生物碱具有抗炎、延缓肾小球纤维化、保护足细胞以减少蛋白尿的药理作用[34],熊冲等[35]结合网络药理学探索了雷公藤干预IgAN的有效靶点,为雷公藤治疗IgAN 药效机制提供理论依据;黄葵胶囊可调节TGFβ1致纤维因子表达减少尿蛋白漏出,一定程度上可保护肾功能[36]。在本研究中,中医药干预对IgA 患者蛋白尿预后影响位居第三,表明中医药干预在改善IgA肾病蛋白尿预后具有重要治疗价值,运用中医药治疗IgA 肾病已然成为当前该病治疗的大趋势。临床中应基于西医治疗的基础上根据患者的分期及证型用药治疗,采用中西医结合治疗以提高蛋白尿缓解的疗效、延缓肾衰竭的进展速度。
综上所述,随机生存森林模型具有一定的准确度,不仅可用于预测中医药干预的IgA 肾病蛋白尿转归,还可对变量进行识别及分析变量与结局相关性,能够很好地帮助临床医师预判IgA 患者蛋白尿转归,从而提供个体化治疗方案。由于病例收集条件的限制,本研究为回顾性、单中心研究,病例较少,且可能未纳入其余潜在危险因素,希望后续能开展多中心、大样本、前瞻性队列研究以进行外部验证,挖掘更多潜在危险因素,进一步提高模型预测精度,为临床治疗提供一个有效的测评工具。