分类树模型与logistic回归在高血压危险因素预测中的应用分析
2017-11-27杨宏辉朱利杰高传玉
杨宏辉 朱利杰 高传玉
分类树模型与logistic回归在高血压危险因素预测中的应用分析
杨宏辉 朱利杰 高传玉
目的 拟利用我市2013年居民健康档案相关数据,探讨logistic回归和分类树模型在高血压危险因素中的应用前景,并分析高血压的相关危险因素。方法 抽取在我市25岁以上且居住5年以上的普通人群的代表性样本9 950例,按照预设调查内容开展问卷调查,利用logistic回归模型和分类树模型分析高血压危险因素。结果 本次调查共抽取居民健康档案9 950例,调查问卷经筛查后有效问卷9 778份,有效率98.27%,满足研究条件。logistic回归分析显示,女性及轻中度职业人群是高血压的保护因素,而BMI高、未婚(独居)、大于25岁年龄组、有高血压家族史是高血压的危险因素。分类树分析显示,其危险因素主要有年龄、性别、高血脂、吸烟、饮酒、中心型肥胖、超重。高危人群主要分布在第4、6、9、11、12共5个节点内:终点6表现为中心型肥胖+超重+饮酒者;终点12表现为高血脂+超重者;终点9和11表现为中心型肥胖+超重+高龄及男性烟民;终点4表现为吸烟+饮酒+中心型肥胖者。logistic回归与分类树分析预测效果中等。结论 中心型肥胖、超重、饮酒、高龄、高血脂症是高血压的危险因素,分类树模型和logistic回归模型都适合于高血压危险因素的判断,且前者的判断能力更好、更直观。
分类树模型;logistic回归模型;高血压;危险因素
1 资料与方法
1.1 调查对象
采用整群抽样的方法,所有受试者均来自于2013年6—12月进行的2个社区横断面调查。抽取在我市25岁以上且居住5年以上的普通人群的代表性样本9 950例,签署知情同意书后,完成筛查问卷。
纳入标准:(1)无明显精神障碍、无听力障碍和认知障碍;(2)截至调查之日,于我市居住至少五年或以上的常住居民。
排除标准为:(1)有重症疾病,无法配合调查患者;(2)继发性高血压及严重的肝肾疾病的患者。
1.2 研究方法
1.2.1 调查内容 对研究对象的基本人口学特征如:性别、年龄、吸烟、饮酒、家族史等情况进行调查。
1.2.2 体格检查 高血压检测根据《中国高血压基层管理指南(2014年修订版)》[4]中推荐的方法,选择符合标准的水银柱式血压计,连续测量2次,取两次测量数值的平均值作为最终血压值;BMI=体质量(kg)/身高2(m2)。高血压:采用1992年WHO/ISH推荐标准,舒张压≥90 mmHg和/或收缩压≥140 mmHg,或有既往高血压史、目前正在服用抗高血压药物且血压已低于上述标准者。
1.3 质量控制
所有调查人员均经过技术指导小组严格的培训,其通过相关测试合格后才能进行调查;每份调查问卷在完成后由专人进行审核,以便及时发现错误并予以纠正。
1.4 统计学分析
采用SPSS 18.0统计软件进行数据分析,用CART 6.0软件进行分类树分析,多因素logistic回归分析高血压病的相关危险因素,计算比值比(OR)及95%可信区间,P<0.05,表示差异具有统计学意义。
2 结果
2.1 一般情况
本次调查共抽取居民健康档案9 950例,调查问卷经筛查后有效问卷9 778份,有效率98.27%,满足研究条件。平均年龄为(45.6±16.1)岁,男性4 537例,占46.4%;女性5 241例,占53.6%。9 778例有效调查对象中,已婚人群占绝大多数,有7 816例,占79.9%。人群文化程度以初中及以上为主,占81.3%,文盲和小学文化水平占18.7%。此次调查对象主要是机关事业单位和工人群体,占比68.7%,其次是个体/经营户,占比16.1%,待业及其他合计占比15.2%。见表1。
表1 9 778例调查对象人口学特征
表2 高血压危险因素的二分类logistic回归分析
表3 高血压危险因素分类树分析
图1 logistic回归与分类树分析的ROC曲线图
2.2 高血压危险因素的相关分析
对BMI、家族史、文化程度、职业、年龄、睡眠时间、锻炼、吸烟及饮酒等因素进行统计学分析,发现各危险因素(吸烟除外)与高血压之间存在相关关系。
2.3 高血压危险因素的logistic回归分析
将可能的危险因素如年龄、性别、文化程度、婚姻状况、职业、饮酒、吸烟、家族史、BMI、睡眠时间共10个变量纳入多因素二分类logistic回归方程进行分析,结果见表2。其中女性及轻中度职业人群是高血压的保护因素,而BMI高、未婚(独居)、大于25岁年龄组、有高血压家族史是高血压的危险因素。
2.4 高血压危险因素的分类树分析
将9 778例(其中高血压患者2 898例,对照6 880例)调查对象纳入分类树模型分析,共有12个终结点,11个中间节点。以BMI为参照,根据变量的相对重要性预测分数排序得知,高血压的危险因素主要有年龄、中心型肥胖、性别、高血脂、吸烟、饮酒、超重。高危人群主要分布在第4、6、9、11、12共5个节点内:终点6表现为中心型肥胖+超重+饮酒者;终点12表现为高血脂+超重者;终点9和11表现为中心型肥胖+超重+高龄及男性烟民;终点4表现为吸烟+饮酒+中心型肥胖者。5个结点的病例数占总病例数的80.91%。见表3。
2.5 分类树和logistic回归分析模型的比较
ROC曲线的诊断界值是充分利用试验结果的每一个值作为参考,以相应的灵敏度作为纵坐标,以特异度为横坐标绘制而成的曲线,模型的合适与否根据曲线下面积的大小作为判断标准。图1显示,logistic回归及分类树分析的预测值曲线都远离参考线,其ROC曲线下面积都位于0.7~0.9。
3 讨论
研究结果表明,高血压的主要危险因素有中心型肥胖、超重、饮酒、性别、年龄、高血脂症,这与其他研究相一致[5]。第8及第9终结点内患病率分别是12.50%和30.19%,其以甘油三酯是0.898为界。说明甘油三酯、胆固醇及高密度脂蛋白对高血压有独立的影响。高血压分类树研究显示,其高危人群主要分布于四大人群:中心型肥胖+超重+饮酒者;中心型肥胖+超重+高龄及男性烟民;高血脂+超重者;吸烟+饮酒+中心型肥胖者。吸烟没有纳入本研究中的logistic回归分析模型中,分类树中吸烟变量的相对重要性也比较低,提示其可能与本研究采用吸烟的标准有关。过往研究表明中心型肥胖对心血管疾病的影响大于BMI,而高血压的影响因素却是BMI强于中心型肥胖[6]。有研究显示,血压与BMI密切相关,而血脂与中心型肥胖密切相关,这与研究结果类似。各危险因素之间存在密切相关关系,其可能并不止单一的线性关系,还可能存在多重共线性关系,直接应用logistic回归分析将使分析误差增加。
logistic回归主要用于探讨多个自变量对分类因变量回归过程,是目前用途最广泛的多元统计分析方法之一。根据因变量的分类性质,可以分为二分类回归模型、多分类回归模型和配对回归模型,本研究采用二分类回归模型探讨高血压的高危因素。多元logistic回归模型显示的因变量变异较少,不能很好的解释存在的问题,该模型中高血压的决定系数R2达到了0.401,其正确识别高血压患者的能力仅为35.62%。近年来,大量研究致力于建立新的回归技术解决经典回归中假设过于严格的问题,包括方差齐性、反应变量的正态性、预测变量与反应变量的线性关系等。分类树分析是一种新的多因素分析方法,其结果易于解释、简洁、明了,在缺失数据及变量之间的共线性的处理方面有独到优势,且对资料分布无任何要求。研究表明[7],分类树模型对同一资料的分析结果好于logistic回归。当前的心血管疾病危险因素研究中,树形分析应用得比较少,logistic模型应用得比较多,这可能与小样本分类树分析不稳定有关,直接导致模型结果失真,但是本次问卷调查属于大样本的研究,涉及人群超过9 000人,模型的稳定性有保障。但是分类树分析也有不足的地方,其是对每层固定来分析,导致所有的变量不是在同一个层面上进行比较,De'Ath等[8]认为这种结构的算法存在“顺序偏差”,其应该与其他模型相结合而用。
综上所述,中心型肥胖、超重、饮酒、高龄、高血脂症是高血压的危险因素,分类树的模型和logistic回归模型都适合于高血压危险因素的判断,且前者的判断能力更好、更直观。
[1] 隋辉,陈伟伟,王文. 《中国心血管病报告2015》要点解读[J].中国心血管杂志,2016,21(4): 259-261.
[2] 黄燕惠,余昌泽,王家骥,等. 中山市镇区成年人高血压患病影响因素分析[J]. 中华疾病控制杂志,2014,18(10): 940-943.
[3] 王文. 中国高血压基层管理指南(2014年修订版)[J]. 中华高血压杂志,2015,30(1): 18-40.
[4] Ostovar A,Vahdat K,Raiesi A,et al. Hypertension risk and conventional risk factors in a prospective cohort study in Iran: the Persian Gulf Healthy Heart Study[J]. Int J Cardiol,2014,172(3):620-621.
[5] 胡文斌,张婷,史建国,等. BMI与高血压关联强度剂量-反应关系分析[J]. 中国卫生统计,2015,32(6): 971-974.
[6] 胡莉华,雷仁生. 某农村社区肥胖与高血压、高血糖、高血脂的相关性[J]. 现代预防医学,2014,41(15): 2753-2754,2775.
[7] 张芬,余金明,王家宏,等. Exhaustive CHAID分类树与logistic回归在脑卒中危险因素中的应用[J]. 中国预防医学杂志,2011,12(7): 573-576.
[8] De'Ath G,Fabricius K E. Classification and Regression Trees:A Powerful Yet Simple Technique for Ecological Data Analysis[J].Ecology,2000,81(11): 3178-3192.
Application of Classification Tree Model and Logistic Regression in Prediction Risk Factors of Hypertension
YANG Honghui ZHU Lijie GAO Chuanyu Department of Cardiology,People's Hospital of Zhengzhou University, Zhengzhou He’nan 450003, China
Objective To explore the application prospect of logistic regression and classification tree model in the risk factors of hypertension,and to analyze the related risk factors of hypertension by using the related data of the residents' health records in 2013. Methods 9 950 representative cases of the general population sample over 25 years old in our city at least 5 years of living were sampled and surveyed according to the preset questionnaire. Logistic regression model and classification tree model were used to analysis of risk factors of hypertension. Results In this survey,9 950 cases of residents' health records were selected and 9 778 valid questionnaires were taken after screening with the effective rate 98.27%.Logistic regression analysis showed that female and mild to moderate occupational population were the protective factors of hypertension, while high BMI, unmarried, older than 25 years old, and the family history of hypertension were the risk factors of hypertension. Classification tree analysis showed that the main risk factors were age, gender, hyperlipaemia,smoking, alcohol drinking, central obesity and overweight. High risk population was mainly distributed in 4, 6, 9, 11, 12, a total of 5 nodes:the end of 6 showed central obesity+overweight+drinkers; the end of 12 showed hyperlipidemia+overweight; the end of the 9 and 11 showed the central obesity+overweight+elderly and male smokers; the end of 4 showed smoking+alcohol+central obesity. The efficacy of predict the logistic regression and classification tree analysis were medium. Conclusion The risk factors for hypertension include central obesity, overweight, drinking,old age and hyperlipidemia. Classification tree model and logistic regression model are suitable for judgment of the risk factors for hypertension and the former model is better at judgment ability and more intuitive than the late model.
classification tree model; logistic regression model;hypertension; risk factor
R181
A
1674-9316(2017)24-0007-04
10.3969/j.issn.1674-9316.2017.24.004
河南省郑州市郑州大学人民医院心内科,河南 郑州 450003
高血压是一种常见的慢性疾病,以动脉血压升高为主要特征。高血压是引起慢性疾病死亡的最常见的危险因素,其与中风、心脏病和其他严重疾病的风险增加有关,年龄、性别、吸烟、饮酒、高体质量指数(Body mass index,BMI)等构成高血压的危险因素。世界卫生组织(World Health Organization,WHO)全球疾病现状报告显示,55岁及以上的老年人高血压的患病率为40%,每年近750万人(占比12.8%)死于因高血压相关疾病。最新研究显示[1],成年高血压患者的数量从1975年的5亿9 400万增加到了2015年的11亿3 000万,高血压人数增加在很大程度上发生在低收入和中等收入国家。2015年中国心血管病报告表明,1958—1959年、1979—1980年、1991年和2002年共进行过4次全国范围内的高血压抽样调查显示,中国15岁以上人群高血压患病率分别为5.1%、7.7%、13.6%和17.6%,呈上升趋势[2]。
目前,关于人群高血压的相关影响因素及流行情况的针对性研究很多,其分析所运用的统计方法主要是多元相关分析、多元回归分析、因子分析、路径分析等[3]。分类树模型与logistic回归分析在研究因子间的交互作用和混杂因素方面也有运用,logistic回归分析作为应用频率较高的模型,其变量共线性一直不佳,而分类树模型因其应变量为分类变量,作为一种非参数回归分析方法,能很好的解决变量间的共线性问题。本研究拟利用我市2013年居民健康档案相关数据,探讨logistic回归和分类树模型在高血压危险因素中的应用前景,并分析高血压的相关危险因素。