APP下载

Logistic回归模型和随机森林模型诊断糖尿病周围神经病变效能的比较

2022-05-25桑祎莹黄仕鑫

广西医学 2022年5期
关键词:决策树重要性森林

桑祎莹 黄仕鑫 易 静 曾 庆

(1 重庆市卫生健康统计信息中心统计与政策研究部,重庆市 401120,电子邮箱:1341475734@qq.com;2 重庆市渝北区人民医院,重庆市 401120;3 重庆医科大学公共与卫生管理学院,重庆市 401120)

糖尿病周围神经病变(diabetic peripheral neuropathy,DPN)在糖尿病患者中的发生率为41%~91%,是糖尿病常见的慢性并发症之一,可严重影响糖尿病患者的生活质量[1-2]。DPN的发病机制十分复杂,目前主要认为氧化应激、神经炎症和细胞凋亡在DPN的发病机制中起着关键作用[3]。早期诊断、早期治疗是延缓DPN发展、改善患者预后的关键[4]。

近年来,数据挖掘技术已经被广泛应用于零售、金融、保险、电信、生物信息、医疗卫生等领域中,在医疗卫生领域,随着医学的进步和信息技术的发展,数据挖掘技术在疾病的相关因素分析、预后预测、诊断等方面得到了良好的应用[5]。在慢性病学研究中,Logistic回归模型简单易用,而随机森林模型算法稳健,对纳入模型的数据结构不做要求、不存在共线性与过拟合[6],因此两者用途非常广泛。本研究采用Logistic 回归模型和基于机器学习理论的随机森林模型建立DPN诊断模型,并比较这两种模型诊断DPN的效果,为计算机辅助早期诊断DPN提供参考,从而改善患者的预后。

1 资料与方法

1.1 临床资料 纳入2016年1~12月在重庆医科大学附属第二医院内分泌科确诊为DPN的患者(共计2 199例)为病例组,同时采用简单随机抽样法从同期体检对象中选取2 610例非DPN的体检人群作为对照组。病例组纳入标准:(1)均为2型糖尿病患者[7];(2)符合DPN的诊断标准。对照组纳入标准:(1)无糖尿病及神经疾病病史;(2)神经系统检查无阳性体征;(3)本次体检中未发现有高血脂、高血压、高血糖。两组研究对象排除标准:(1)其他病因引起的神经病变;(2)严重动静脉血管性病变;(3)化疗药物及其他药物引起的神经损伤;(4)有严重心、肝、肾功能障碍者;(5)临床检验指标缺失率>40%[8]。

1.2 DPN的诊断标准[7](1)有明确的糖尿病病史。(2)诊断糖尿病时或之后出现的神经病变:有临床症状 (疼痛、麻木、感觉异常等)者,5项检查(踝反射、针刺痛觉、震动觉、压力觉、温度觉) 中任意1项异常;无临床症状者,5项检查(踝反射、针刺痛觉、震动觉、压力觉、温度觉)中任意2项异常。(3)需排除其他病因引起的神经病变、严重动静脉血管性病变、药物引起的神经毒性作用,以及肾功能不全相关的代谢毒物所致的神经损伤。

1.3 数据收集 本研究仅纳入19个临床检验指标进行分析,包括超敏C反应蛋白、糖化血红蛋白、LDL、HDL、三酰甘油、总胆固醇、总胆红素、总蛋白、白蛋白、ALT、AST、碱性磷酸酶(alkaline phosphatase,ALP)、γ-谷氨酰转肽酶、尿素、尿酸、血红蛋白、钙、钾、钠。病例组的临床指标为住院患者入院时检测,由信息科导出病案数据。

1.4 统计学分析

1.4.1 数据预处理:采用K-means法对19个临床检验指标进行缺失值填补,以改进数据的质量,并提高数据分析的可行性和准确性。应用R 3.6.0软件有放回地重复随机抽取全部样本的70%作为训练样本(共3 395例),余下的30%的样本作为测试样本(共1 414例)。

1.4.2 Logistic回归模型的建立:应用SPSS 22.0统计软件对4 809例观察对象涉及的19个临床检验指标进行单因素分析,计量资料以(x±s)表示,组间比较采用t检验或t′检验,以P<0.05为差异有统计学意义。以单因素分析筛选出的差异有统计学意义的临床检验指标作为Logistic回归模型的自变量,以是否患有DPN作为二分类Logistic回归模型的因变量。应用SPSS 22.0统计软件对训练样本和测试样本进行逐步Logistic回归(α入=0.05,α出=0.15)分析,以P<0.05为差异有统计学意义。

1.4.3 随机森林模型的建立:利用训练样本生成随机森林模型,其中需设置两个重要参数,包括以模型误判率最低的变量个数作为随机森林模型树节点预选变量个数,以及以模型误差趋于稳定的决策树数量作为随机森林模型中树的数量。采用逐一增加变量的方法从19个临床检验指标变量中选出模型误判率最低的树节点变量个数,结果显示训练样本生成节点变量个数为4,决策树数量为400时随机森林模型误差趋于稳定。因此,本文构建了决策树节点处变量个数为4,决策树数量为400的随机森林模型,并利用多数投票的方式对测试样本的类别做出预测,判定是否为DPN。同时,随机森林模型具有评估变量重要性的功能,变量的重要性评分越高说明该变量对模型判别情况的影响越大。

1.4.4 模型诊断效能的评价:采用R 3.6.0软件绘制受试者工作特征(receiver operating characteristic,ROC)曲线评价模型的诊断效能,其中曲线下面积越接近1说明其诊断价值越高。

2 结 果

2.1 多因素Logistic回归模型 将19项临床检验指标进行单因素分析,对照组与病例组之间19项指标的差异均有统计学意义(均P<0.05),见表1。将这19项临床指标作为Logistic回归模型的自变量(均以连续型变量纳入),以DPN的诊断结果(DPN=1,非DPN=0)作为因变量进行多因素Logistic回归分析。通过逐步法剔除变量后,最终有14项临床检验指标纳入回归模型,见表2。经测试集样本验证,模型正确率为81.4%,ROC曲线下面积为0.882,见表3。

表1 单因素分析结果(x±s)

表2 Logistic回归分析结果

2.2 随机森林模型 将19项临床检验指标纳入分析,随机森林模型中各变量相应的重要性评分,见图1。训练样本3 395例,节点处变量个数为4,决策树数量为400,基于此参数对测试集样本(1 414例)的数据进行分类;经测试集样本验证,模型正确率为96.7%,ROC曲线下面积为0.963,见表3。

表3 Logistic回归模型与随机森林模型的诊断效能评价结果(n=1 414)

图1 随机森林模型变量重要性评分

注:仅展示前15个指标;Mean Decrease Accuracy代表的是随机森林模型预测准确性的降低程度,该值越大表示重要性越大;Mean Decrease Gini代表的是通过基尼指数计算每个变量对分类树每个节点观测值的异质性的影响。

3 讨 论

DPN多起病隐匿,进程缓慢,患者开始无自觉症状,待其临床症状出现时,周围神经已出现不可逆的病理改变,这给治疗带来较大困难,因此,早期诊断和早期治疗显得尤为重要[9-10]。传统检测方法对DPN早期患者的检出率比较低,诊断存在片面性和延误诊断等不足[11]。

随机森林模型以建立N棵决策树为基分类器,进行集成学习后得到一个组合分类器,结合了Bootstrap随机重采样技术和随机子空间方法,通过自助法重采样技术以有放回的方式抽取多个不同的训练集样本,在每一个样本数据集上训练决策树分类器,决策树集成产生之后,采用多数投票的方式对未知样本的类别做出预测。与Logistic回归模型相比,随机森林模型不仅训练速度快而且容易实现,稳健性较高,同时可以自动辨别模型的相关变量,避免了单独观察某一个指标的片面性和主观性,且不易出现过度拟合的情况[12-14]。张晓林等[15]分析采用随机森林算法和Logistic回归法构建的首发缺血性脑卒中患者出院90 d的复发预测模型的预测效果,结果显示随机森林模型的准确性、灵敏度、约登指数分别为89.2%、81.3%、0.425,均高于多因素Logistic回归分析模型;梁冰倩等[16]采用随机森林预测模型和Logistic回归预测模型对高尿酸血症进行预测,结果显示随机森林预测模型的ROC曲线下面积、灵敏度、特异度、准确率分别为0.759、97.2%、54.5%、0.920,均优于Logistic回归分析模型。以上结果说明随机森林模型对疾病的预测效果较Logistic回归模型有显著优势。因此,本研究除采用Logistic回归模型外,还采用随机森林模型建立DPN的诊断模型,并对两种诊断模型的效能进行比较。

本研究中,经测试样本验证,Logistic回归模型和随机森林模型的正确率分别为81.4%、96.7%,灵敏度分别为72.5%、98.3%,特异度分别为89.2%、95.2%,ROC曲线下面积分别为0.882、0.963,提示随机森林模型对DPN的早期诊断能力优于Logistic回归模型。因此,基于机器学习理论的随机森林模型,或可为计算机辅助早期诊断DPN提供一种客观可靠的方法。同时,随机森林模型的分析结果给出了各个变量指标的重要性评分,从随机森林变量指标的重要性可以看出,超敏C反应蛋白、糖化血红蛋白、尿酸、白蛋白等变量的重要性更靠前。其他学者也发现,超敏C反应蛋白、糖化血红蛋白、尿酸、白蛋白等实验室指标对于早期识别、预防和治疗DPN有积极作用[17-19]。以上重要性靠前的变量或可作为研究DPN风险因素的重点关注指标。

总之,随机森林模型对DPN的诊断效能优于Logistic回归模型,同时随机森林模型的分析结果给出了各个变量指标的重要性评分,可为DPN的早期诊断提供重要的依据。本研究的不足之处:仅采集了实验室指标作为变量,且实验室指标的采集不全面;同时由于某些指标数据的缺失值大于40%,未纳入分析,故可能遗漏某些早期诊断DPN的关键特征因素。DPN的影响因素繁多,利用模型进行诊断仍存在很大的挑战,因此,下一步将使用更全面的样本集对本研究中的模型进行验证和改进,从而建立更准确的诊断模型。

猜你喜欢

决策树重要性森林
“0”的重要性
论七分饱之重要性
幼儿教育中阅读的重要性
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
哈Q森林
哈Q森林
哈Q森林
基于决策树的出租车乘客出行目的识别
读《边疆的重要性》有感