基于Logistic回归与决策树的心脏病确诊因素分析
2023-06-25张小胡
摘 要:通过利用加州大学欧文分校数据库的心脏病数据集,通过建立logistic模型和决策树模型分析确诊心脏病的危险因素。采用ROC曲线和AUC面积作为标准来评价模型预测效果,结果显示两种模型对于数据的拟合都表现不错。与此同时两种模型显示胸痛类型、静息血压、荧光染色法测定的主要血管数和是否患地中海贫血症对于最终是否确诊心脏病有显著影响。
关键词:逻辑回归;决策树;logistic模型
中图分类号:TP391;O212.1 文献标识码:A 文章编号:2096-4706(2023)07-0117-04
Abstract: By using the heart disease data set of the University of California Irvine database, the risk factors of diagnostic heart disease are analyzed by establishing the Logistic Regression model and Decision Tree model. The ROC curve and AUC area are used as criteria to evaluate the prediction effect of the model. The results show that the two models perform well in fitting the data. At the same time, the two models show that the type of chest pain, resting blood pressure, the number of main blood vessels measured by fluorescent staining and whether or not suffering from thalassemia has a significant impact on whether the final diagnosis of heart disease occurs.
Keywords: Logistic Regression; Decision Tree; logistic model
0 引 言
心脏病是由于心脏发生病变的而引起的心脏功能受损或异常的一种疾病,心脏病轻则影响各器官功能异常或身体的相关疾病,重则出现心脏性猝死危及生命,因此对心脏病的诊断则显得至关重要[1]。传统的对于心脏病的诊断主要是心电图和彩超两种方式,王敏红和尹巧绵[2]追踪了2006年—2009年首都医科大学附属儿童医院2016孕妇的彩色多普勒超声心动图和新生儿先天性心脏病的情况,发现彩色多普勒超声心动图对于先天性儿童心脏病能起到早期诊断的效果。陈井英[3]采用同样的技术彩色多普勒超声心动图与心电图检查进行比较,对比得到彩色多普勒超声心动图对于诊断心脏病比心电图更有效。相比于传统法式,谢金华和陈冠民[4]用Logistic回归模型对糖尿病并发心脏病的危险因素进行分析,结果显示体重指数大、心理评分较高、舒张压高及血脂高,其发生心脏病的风险增加。程颖等[5]利用PCA的决策树算法对心脏病诊断进行了研究。在此基础上,文章利用常规的身体检查例如血清胆汁和空腹血糖等建立Logistic回归模型与决策树模型,分析确诊心脏病的危险因素。
1 资料与方法
1.1 资料来源
心脏作为人体最重要的器官之一,对于心脏的检查必须慎之又慎,医生的工作便是根据
检查的结果作出正确的医学判断并给出相应的治疗方案。文章是引用加州大学欧文分校数据库的心脏病数据集,通过对数据清洗与整理后得到了303个样本,每个样本包括13个相对应的变量。
1.2 资料处理
在获得的303个疑似心脏病患者的检测样本中,由于有6个样本中存在缺失数据[6],可以先进行删除,确诊心脏病的有137例,占总人数的46.13%;未患病的有160例,占总人数的53.87%。在每个样本中已经对每个疑似心脏病患者进行了13项统计和检测,其中包括:年龄、性别、胸痛类型、静息血压、血清胆汁、空腹血糖、静息心电图结果、达到的最大心率、是否有运动心绞痛、运动引起的ST下降、峰值运动ST段的斜率、荧光染色法测定的主血管数以及是否患有地中海贫血症。
1.3 研究方法
事实上预测是否患心脏病的方法有很多,但预测的结果有时与真实情况却是大相径庭,这事关患者能否得到及时的医治甚至事关患者生命,故作出正确的预测或者判断对于患者至关重要。本研究通过采用Logistic回归和决策树[7-9]两种方法对上述取得的资料中的样本进行对应的处理,通过两种模型拟合得到的结果进行比对分析,比较两种模型的拟合效果等,进而得到确诊心脏病的主要影响因素。其次对于Logistic模型和决策树模型的拟合分析选用的辅助软件为R软件。
2 逻辑回归(Logistic Regression)
2.1 模型概述
逻辑回归属于概率型回归模型,属于广义线性模型的一种,被广泛的用于概率预测与分类[10,11],主要用于二分类问题或多分类问题与一组解释变量之间的關系,在解释变量中,解释变量可以是二分类变量或者多分类变量,也可以是连续变量或者离散变量。在本模型当中就是通过13项体检结果对病人是否患有心脏病这一二分类问题进行估计。
式中的Y表示被解释变量,具体在Logistic回归模型中表示是否确诊心脏病,X表示解释变量,在模型中具体表现为对是否患有心脏病的影响因素,例如是否患地中海贫血症或者静息血糖等,β为待估计的参数,它的大小和符号表征影响因素对于被解释变量的贡献程度以及作用方向。
2.2 变量赋值
在所选取的变量中,既包括年龄和心率等连续型的变量,也包括是否罹患地中海贫血症和峰值运动ST段的斜率等离散型变量,因此需针对模型中所涉及的相关变量进行赋值,具体赋值情况如表1所示。
2.3 重要变量解释
血清胆汁:血清胆汁为人体胆汁中的重要组成部分,是胆固醇经肝组织代谢的最终产物,测定血清胆汁对于肝脏疾病的诊断有重要作用。
峰值运动ST段的斜率:指心电图结果中的一段特殊阶段的变化情况,一般心电图ST段变化都预示着心脏部位存在一定的问题,常见的有ST段斜率为上坡、平缓和下坡三种情况,而上坡常见于急性心肌梗死和心肌缺血的患者,下坡常见于稳定心绞痛患者。
地中海贫血:地中海贫血又称珠蛋白生成障碍性贫血,是一种遗传性的血液疾病,大体上可以分为正常、可逆缺陷与固定缺陷三种类型。患地中海贫血会影响血红蛋白的正常合成,并发后会伴随着典型的一些贫血症状,例如头晕、乏力、胸闷、气短和气促等,患者由于溶血会间接引起胆红素升高,就会出现黄疸等一些临床表现。
2.4 因变量统计
对因变量即数据中心心脏病确诊的相关情况进行了简单的描述性统计分析,具体分析情况如表2所示。
2.5 Logistics回归结果
通过将13个影响心脏病判定的因素纳入自变量,然后进行二项Logistics回归,回归结果整理后如表3所示,表3给出了参数β的估计值,以及β对应自变量的均方误差,除此之外还给出了p值和OR值,其中当p<0.05时我们认为该影响是显著的(注:由于篇幅原因仅将显著的变量归纳于表3中),OR值为某一事件发生的概率与不发生概率的比值,在本文中表现为在某一自变量下确诊心脏病与未确诊心脏病的比值,最后在给出OR值的同时还给出了OR值在置信度为95%下的置信区间。
2.6 Logistics回归结果解读
由表3的回归结果可知:性别、胸痛类型、是否患有地中海贫血症、荧光染色法测定的主血管数、峰值运动ST段的斜率和静息血压对于最终确诊心脏病有统计学意义(p<0.05),是最终确诊心脏病的危险因素。相反年龄、血清胆汁、空腹血糖是否>120 mg/dl、静息心电图结果、达到的最大心率、运动诱发心绞疼和运动引起的ST下降对于最终是否确诊心脏病无显著影响(p<0.05),不是最终确诊心脏病的危险因素。
根据Logistic回归的结果显示性别对于最终确诊心脏病有显著影响,即男性确诊心脏病相较于女性更容易确诊心脏病,这可能与男性和女性不同的生活方式有关,例如男性抽烟酗酒的比例远大于女性等;根据回归系数的正负可得到,胸痛类型为1(典型心绞痛)、2(非典型心绞痛)和3(非心绞痛)时,对于确诊心脏病作用方向为负,即有上述症状反而不易确诊心脏病;此外静息血压、峰值运动ST段的斜率为平缓、荧光染色法测定的主血管数和有可逆性的地中海贫血症对于确诊心脏病有正向的作用,即有上述症状会在不同程度的影响最终心脏病的确诊。
以Logistic回归模型的预测值为状态变量作出的ROC曲线如图1所示,曲线显示在截断值为0.296时,Logistic回归的特异度达到了0.863,灵敏度为0.825,决策树模型的ROC曲线下面积为0.866,说明在Logistic回归模型对于本文中所用的心脏病数据具有非常不错的预测效果,对于后续用于相关病例数据的预测具有指导意义。
3 决策树模型
3.1 决策树模型介绍
决策树模型最早由Hunt等人于1966年提出的一种既可用于分类又可用于回归的一种监督机器学习方法,决策树模型相对于其他模型的原理更容易理解且建模时容易实现,并且能够在短时间内对大数据进行很准确的分析与预测。
3.2 建立决策树模型
利用相关数据和建模规则构建的确诊心脏病风险预测图如图2所示。
该树形图总计有4层,共13个节点,7个终端节点。根据决策树模型可知地中海贫血症、胸痛类型、荧光染色法测定的主血管数、静息血压和运动引起的ST下降是影响最终是否确诊心脏病的重要影响因素。
3.3 决策树模型解读
1)当胸痛类型<1(即为无症状),荧光染色法测定的主血管数≥1时确诊心脏病的概率达到了95%。
2)当胸痛类型<1(即为无症状),熒光染色法测定的主血管数<1,运动引起的ST下降≥1.6时,确诊心脏病的概率达到了88%。
3)当胸痛类型<1(即为无症状),荧光染色法测定的主血管数<1,运动引起的ST下降<1.6,静息血压≥141时,确诊心脏病的概率为71%。
4)当胸痛类型≥1(即为典型心绞痛、非典型心绞痛和非心绞痛),地中海贫血症检查显示为可逆缺陷,峰值运动ST段的斜率为2和3(即为平或下坡)时,确诊心脏病概率达到63%。
决策树模型的ROC曲线如图3所示,曲线显示在以0.562为截断值时,决策树模型的特异度为0.925,灵敏度为0.759,决策树模型的ROC曲线下面积为0.883,具有很好的预测效果,能够很好的对于后续心脏病诊断提供有别于Logistic回归的另外一种估计方法,也可两种方法同时使用,提高预测结果的可信度。
4 结 论
文章利用Logistic回归和决策树两种不同的模型对影响心脏病的13个变量进行建模分析,两种模型都显示是否患地中海贫血症、胸痛的类型、荧光染色法测定的主血管数和静息血压是心脏病确诊的危险因素。根据两种模型的ROC曲线下面积可知,两种模型对于心脏病的预测都有不错的表现,这对于临床上患者心脏病的诊断有十分重要的指导意义。最后在基于两种模型预测的基础上若能结合心电图和彩色多普勒超声心动图对病情进行进一步分析,相信能为医生和患者争取到宝贵的时间挽救病人的生命。
参考文献:
[1] BARKHUIZEN M,ABELLA R,VLES J S H,et al. Antenatal and Perioperative Mechanisms of Global Neurological Injury in Congenital Heart Disease [J].Pediatr Cardiol,2021,42(1):1-18.
[2] 王敏紅,尹巧绵,孙艳丽,等.胎儿及新生儿先天性心脏病的筛查经随访后的确诊和结局 [J].中国医刊,2012,47(12):72-74.
[3] 陈井英.心脏彩色多普勒超声在高血压心脏病诊断工作中的应用分析 [J].中国实用医药,2022,17(16):103-105.
[4] 谢金华,陈冠民,陈华.Ⅱ型糖尿病并发心脏病危险因素的logistic回归分析 [J].医学新知杂志,1999(3):124-125+148.
[5] 程颖,崔运涛.基于PCA的决策树算法在心脏病诊断中的应用 [J].计算机与数字工程,2009,37(10):171-174.
[6] 曹雨,王峰,黄沃,等. 应用统计学 [M]. 北京:人民邮电出版社,2013:246.
[7] 任海燕,梁雨,左彭湘.基于logistic回归与决策树模型的母乳喂养影响因素分析 [J].中国卫生统计,2019,36(4):532-534.
[8] 刘兵,李苹,朱玫烨,等.决策树模型与logistic回归模型在胃癌高危人群干预效果影响因素分析中的应用 [J].中国卫生统计,2018,35(1):70-73.
[9] AMINI P,AHMADINIA H,POOROLAJAL J,et al. Evaluating the high risk groups for suicide:a comparison of logistic regression,support vector machine,decision tree and artificial neural network [J].Iran J Public Health,2016,45(9):1179-1187.
[10] 张宇瑶,葛榕榕,孙刚.基于二元logistics回归的患者过度医疗检查认知及影响因素研究 [J].中国卫生事业管理,2020,37(12):893-895+899.
[11] 严进锦,邬海,韩斌德.结核性脓胸术后残腔形成的危险因素多因素Logistics回归分析 [J].中国医学创新,2020,17(18):128-131.
作者简介:张小胡(1995—),男,汉族,四川宜宾人,硕士研究生,研究方向:数理统计。