随机森林模型和Logistic回归模型在高尿酸血症预测中的应用效果比较
2020-05-09梁冰倩黄志碧赖银娟莫海娟陆华媛陈青云
梁冰倩 黄志碧 赖银娟 莫海娟 陆华媛 陈青云
(1 广西医科大学公共卫生学院, 南宁市 530021,电子邮箱:289059086@qq.com;2 广西医科大学第一附属医院体检中心, 南宁市 530021)
高尿酸血症是一种常见且具有广泛危害的代谢性疾病,可引起人体多器官系统的损害,且与多种心脑血管疾病有关[1]。目前,我国高尿酸血症患病率高达13.0%,男性和女性患病率分别为18.5%和8%,男性患病率高于女性[2]。但是,我国高尿酸血症的知晓率、治疗率都很低[3],成为严重影响我国人民身体健康的公共卫生问题。因此,预防和控制高尿酸血症具有重要意义。
在医学信息化的今天,医疗大数据内在信息价值的挖掘成为服务临床的一门技术。机器学习技术在医疗领域应用广泛[4],随机森林是一种集成学习算法的机器学习之一,具有精度高、抗噪声、不受共线影响和不存在过拟合等优点[5],在数据分析和挖掘中具有较高的应用价值,且可以很好地克服线性回归模型存在的缺陷。本研究将数据挖掘技术引入到高尿酸血症患病风险预测研究中,基于多因素Logistic回归分析和随机森林算法构建高尿酸血症风险预测模型,为高尿酸血症的预防控制工作提供科学依据。
1 资料与方法
1.1 临床资料 选择2016年9月至2017年2月期间在广西医科大学第一附属医院体检中心进行体检的2 754例体检个体作为研究对象。纳入标准:(1)年龄18~85岁,男女不限;(2)同意进行问卷调查并签署知情同意。排除患有恶性肿瘤、先天性肝肾功能不全、遗传病、传染性疾病、药物性疾病者。其中,男性1 044例(37.9%)、女性1 710例(62.1%);年龄20~84(52.79±11.83)岁,20~<45岁616例(22.4%)、45~<60岁1 177例(42.7%)、≥60岁961例(34.9%)。
1.2 高尿酸血症诊断标准 根据血尿酸水平进行诊断,男性血尿酸水平>420 μmol/L,女性血尿酸水平>357 μmol/L,即诊断为高尿酸血症[6]。
1.3 调查内容 收集的数据资料包括问卷调查资料、体格测量资料、实验室检测指标3部分。共27项指标:性别、年龄、教育水平、糖尿病史、高血压史、吸烟史、饮酒史、蔬菜食用情况、水果食用情况、肉类食物食用情况、锻炼情况、腰围、体质指数、舒张压、收缩压、糖化血红蛋白、白细胞计数、尿素氮、餐后2 h血糖、血红蛋白、尿酸、空腹血糖、LDL-C、血小板、HDL-C、三酰甘油、血肌酐。其中,依据《中国慢性病及其危险因素监测报告,2010》[7]对吸烟、饮酒指标进行定义:吸烟定义为每天至少吸20支烟且持续时间为半年以上;饮酒定义为在一年时间内,每天饮用啤酒、白酒、糯米酒等其中一种酒类50 mL及以上。肉类食物食用情况以每天100 g以上为很多、50~100 g为一般、50 g以下为很少;蔬菜食用情况以每天600 g以上为很多、300~600 g为一般、300 g以下为很少;水果食用情况以每天500 g以上为很多、200~500 g为一般、200 g以下为很少;锻炼情况以每周1~3次为偶尔锻炼,每周0~1次为不锻炼,每次正常步行30 min及以上。
1.4 统计学分析 采用SPSS 24.0和R 3.6.0软件进行统计分析。根据诊断标准,将研究对象分为高尿酸血症组和非高尿酸血症组,将两组对象进行编号,然后采用单纯随机抽样的方法,从两组中分别随机抽取80%的样本量组成训练集样本用于构建模型,其余20%样本量作为测试集用于评价模型效能。在所有研究对象中先将27项指标采用单因素分析方法进行筛选,服从正态分布的计量资料以(x±s)表示,比较采用独立t检验,不服从正态分布的资料以中位数(M)和四分位数间距(Q)表示,比较采用秩和检验;分类变量以率或构成比表示,比较采用χ2检验。将单因素分析中P<0.05的变量,采用训练集数据分别建立Logistic回归预测模型和随机森林预测模型。最后,根据测试集数据应用两种预测模型对高尿酸血症患病风险进行预测,采用受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)比较两种预测模型预测效果的差异。
1.4.1 随机森林预测模型的建立:运用R 3.6.0软件进行分析和建模,根据训练集数据,调用Random Forest包进行随机森林模型的训练,并对重要参数ntree和mtry进行调试。经测试集检验,当ntree=500、mtry=6时,随机森林模型达到最优。
1.4.2 Logistic回归预测模型的建立:在训练集数据上,使用R语言中的glm函数构建Logistic模型,并利用step函数对构建的初始Logistic模型进行基于AIC准则的逐步回归变量筛选。
1.4.3 验证模型: 采用简单交叉验证,根据拟合出的两个预测模型,采用测试集数据绘制ROC曲线,根据ROC曲线及AUC对模型预测的优劣进行评价。
2 结 果
2.1 高尿酸血症检出情况及单因素分析结果 2 754例研究对象中,共检出454例高尿酸血症,阳性检出率为16.49%。其中,男性患者249例,阳性检出率为23.85%(249/1 044),女性患者205例,阳性检出率为11.99%(205/1 710)。单因素分析结果显示,在所分析的27个指标中,15个指标差异有统计学意义(均P<0.05),见表1。
表1 单因素分析结果
2.2 随机森林预测模型分析结果 训练样本为2 212例,ntree=500,mtry=6,基于此参数设置对测试集数据进行分类;经测试集检验,模型预测的准确率为92%。随机森林模型袋外错误率为10.05%,说明模型泛化性较好,不存在过拟合。随机森林模型中各变量重要性排序见表2,其中0和1列分别显示各个变量对预测为非高尿酸血症和高尿酸血症的贡献大小,平均基尼降低值显示变量对最终预测的重要程度。
表2 随机森林预测模型分析结果
2.3 Logistic回归模型分析结果 以是否患高尿酸血症为因变量,以体质指数、性别、年龄、糖尿病史、高血压史、饮酒史、吸烟史、腰围、总胆固醇、尿素氮、空腹血糖、LDL-C、HDL-C、三酰甘油、血肌酐等15个指标为自变量进行多因素非条件Logistic回归分析,采用后退法筛选变量,变量进入模型的水准α=0.05,变量剔出模型的水准α=0.10,分析的变量及其赋值方法见表3。结果显示,男性、腰围和体质指数增加,以及三酰甘油、血肌酐水平升高均增加高尿酸血症发生的危险性(均P<0.05),见表4。
表3 分析变量及赋值方法
变量赋值方法高尿酸血症无=0,有=1性别男=0,女=1年龄20岁~=0,45岁~=1,60岁~=2糖尿病史无=0,有=1高血压史无=0,有=1吸烟史无=0,有=1饮酒史无=0,有=1腰围(cm)连续型变量体质指数(kg/m2)连续型变量总胆固醇(mmol/L)连续型变量尿素氮(mmol/L)连续型变量空腹血糖(mmol/L)连续型变量LDL-C(mmol/L)连续型变量HDL-C(mmol/L)连续型变量三酰甘油(mmol/L)连续型变量血肌酐(μmol/L)连续型变量
表4 影响高尿酸血症发生的多因素Logistic回归分析结果
2.4 两种模型的预测效果比较 将建立的预测模型应用于测试集,比较两种模型对高尿酸血症的预测效果。Logistic回归预测模型的AUC为0.658(P<0.001,95%CI:0.647~0.669),随机森林预测模型的AUC为0.759(P<0.001,95%CI:0.746~0.772)。随机森林预测模型的AUC大于Logistic回归预测模型的AUC(P=0.002)。选择正确指数最高的点作为最佳临界点,此时Logistic回归预测模型的灵敏度、特异度、准确率分别为87.7%、43.9%、82.3%,而随机森林预测模型的灵敏度、特异度、准确率分别为97.2%、54.5%、92.0%,见图1。
图1 两种模型预测高尿酸血症发生的ROC曲线
3 讨 论
随着我国社会经济的发展和城市化进程的加快,高尿酸血症的患病率明显增加,且发病呈年轻化的趋势,预测高尿酸血症患病风险有助于及早发现和实施干预措施,从而提高人群健康水平。
目前,随机森林模型应用领域非常广泛,特别在金融学、医学以及生物学等领域均获得不错的评价[8],可以用于疾病发生风险的预测。该模型虽结构复杂但却容易使用,需要假设的条件比Logistic回归模型要少。同时,随机森林也不需要检验变量的非线性作用和交互作用是否显著[9]。随机森林模型通过随机选取一个特征子空间,再选取具有最佳Gini值的特征因子作为分割[10],其不仅具有优越的预测能力,而且可判别各影响变量的重要性程度。
本研究建立了随机森林预测模型和Logistic回归预测模型,并比较两种模型对高尿酸血症的预测效能,结果显示,随机森林预测模型的AUC为0.759, 提示其对高尿酸血症有一定的预测效能,且其AUC、灵敏度、特异度、准确率均优于Logistic回归预测模型,表明随机森林模型对高尿酸血症的预测能力优于Logistic回归预测模型。随机森林预测模型最大的优势是能够分析复杂非线性关系的数据以及对预测变量的数目没有限制[11],且能在变量个数大于样本个数的数据中进行判别和分类[12];同时,其能提供各个自变量对模型预测的重要性分析,可以作为高尿酸血症影响因素的重点观察指标。Logistic回归模型是常用的概率预测模型,使用方法简单,预测能力较强,但是不能给出各个自变量对模型预测的重要性,Logistic回归预测模型优势在于可以直观解释影响因素的相对危险度。
本研究在随机森林模型特征变量的重要性分析中,排名前5位的变量依次是血肌酐、三酰甘油、腰围、体质指数、尿素氮;而Logistic回归分析显示,性别、腰围、体质指数、三酰甘油、血肌酐是高尿酸血症发病的重要影响因素。两种模型的分析结果相似,说明预测结果稳定可靠。结果提示,男性人群以及血肌酐、三酰甘油、腰围、体质指数、尿素氮异常者发生高尿酸血症的风险增加(P<0.05),需注意监测血尿酸水平,防止高尿酸血症的发生。
综上所述,随机森林模型对高尿酸血症预测效果较好,可以作为Logistic回归预测模型的补充,充分发挥两种预测模型的优越性。男性人群以及血肌酐、三酰甘油、腰围、体质指数、尿素氮异常者,应定期进行尿酸水平检测,如发现这些指标异常增高,应尽早采取相应的干预措施,以期降低高尿酸血症发生的风险。