APP下载

2型糖尿病风险评估模型和风险评分表的建立*

2019-03-19朱高培许小珊吴学森王素珍

中国卫生统计 2019年6期
关键词:评分表切点决策树

朱高培 孙 娜 许小珊 李 娟 吴学森 王素珍△

【提 要】 目的 构建社区居民2型糖尿病风险评估模型及风险评分表。方法 利用logistic回归模型结合决策树的方法,针对2015蚌埠市龙子湖区慢性病调查的数据,构建2型糖尿病风险评估模型,并由正确指数制定风险评分表的切点。结果 决策树结合logistic回归模型预测2型糖尿病的AUC=0.828(95%CI:0.808-0.855),大于单纯采用logistic回归模型AUC=0.816(95%CI:0.793-0.838)及单纯采用决策树AUC=0.809(95%CI:0.787-0.831)。同时,决策树结合logistic建立的风险评分表的特异度和灵敏度分别为0.840和0.778,总分值范围为-9~56分,筛查高危人群的推荐切点为19分,筛查效果优于logistic回归模型、《2013年糖尿病防治指南》风险评分表、芬兰模型Lindstrom版。结论 logistic回归结合决策树模型比单一模型在糖尿病风险评估方面有更好的表现,制定的2型糖尿病风险评分表可以作为糖尿病筛查一线工具。

国际糖尿病联盟资料表明,2045年全世界糖尿病平均患病率将会达到10%,全世界将拥有6.93亿糖尿病患者[1],糖尿病成为损害人类健康的重要疾病之一。鉴于2型糖尿病的患者基数巨大,起病隐蔽,无明显的早期症状,致使约有50%的糖尿病患者未被早期诊断或发现[2],发现时患者身体已经受到伤害,引发沉重的身体和经济负担。有研究表明[3],尽早筛查出糖尿病高危人群,可有效降低减缓糖尿病的发生和发展。所以,在无症状人群中开展2型糖尿病的筛选非常有必要。

糖尿病的筛查分为介入性筛查和非介入性筛查。介入性筛查受到患者自身条件、检测费用、HbA1c检测未标准化等因素的影响,不宜作为糖尿病高危人群快速筛查的一线工具[4]。非介入性的筛查方法,依据糖尿病风险评估量表确定糖尿病高危人群、筛选糖尿病可疑患者。该法具有简便、快速、易于开展等特点[5],逐渐引起研究者关注。虽然2013 年《中国 2 型糖尿病防治指南》中给出了糖尿病风险评分表[6],但在乌鲁木齐人群中筛查糖尿病的效果一般(AUC=0.770)[7],也未见在大规模人群中应用及验证。目前,糖尿病风险评估工具的数量众多,但由于种族特异性、国家、地区间的文化背景、生活习惯、饮食、糖尿病危险因素的多样性等,不同糖尿病风险评估工具的适用人群也大不相同[8],所以尚需构建适应于社区的2型糖尿病快速筛查工具。

开发糖尿病风险评分模型,评估人群中糖尿病的发病风险,快速高效地筛选出患有糖尿病高危人群,增加糖尿病的检出率,已成为当前医学界的重要研究内容之一。本研究结合数据挖掘和logistic回归构建2型糖尿病风险评估模型和风险评分表,通过该简易糖尿病风险评分表尽早发现糖尿病高危人群,及时制定防控措施,有效降低糖尿病的发病率或减缓糖尿病的发生,并能一定程度降低卫生负担。

对象与方法

1.研究对象

采取多阶段分层随机抽样的方法,按照城区、农村共分两层,每层随机抽取3~4个社区服务中心,每个社区服务中心随机抽取2~5个社区服务站,共调查3354个居民。由经过专业培训的调查人员和社区服务中心(站)医务人员对参与本研究的对象开展问卷调查和体检,记录空腹血糖、身高、体重、腰围、血常规、生理生化等体检指标。每个调查对象签署了知情同意书。

纳入、剔除标准:依据蚌埠市龙子湖区公安人口信息,满足18岁及以上的常住居民(在蚌埠市居住5年及以上)作为抽样人群;剔除不能理解和回答问题的对象、其他地区生活的蚌埠市户籍调查对象。

用于本研究的2型糖尿病诊断标准为:(1)明确有糖尿病的诊断史;(2)新发糖尿病:FPG>7.1mmol/L。

2.研究方法

(1)模型构建过程

①logistic回归构建2型糖尿病风险评估模型的原理

以是否患有2型糖尿病为因变量,以人均收入、水果摄入频率、是否喜好甜食、婚姻状况、糖尿病家族史和年龄等作为自变量纳入模型,其中年龄等定量资料分析时进行了分类。经logistic回归筛选出最终进入模型的变量,并依此构建2型糖尿病多因素logistic回归模型,以P值代表发生2型糖尿病的概率。基于此模型可以给出调查对象患2型糖尿病的风险,进而确定糖尿病高危人群。

②决策树结合logistic回归建立2型糖尿病模型风险评估模型的过程

以是否患有2型糖尿病为因变量,人均收入、水果摄入频率、是否喜好甜食、婚姻状况、年龄等自变量以原始数据的形式纳入决策树模型。经决策树分析,得到2型糖尿病决策树图,根据非叶子节点的分类属性,确定用于分类的主要变量以及连续变量分割截断值,将原有的数据的所有变量转化成分类变量,并依此用转换后的数据构建2型糖尿病logistic回归模型,以P确定发生2型糖尿病的概率,进而确定糖尿病高危人群。

③糖尿病风险评分模型的构建过程

首先建立2型糖尿病筛查决策树模型,据非叶子节点处的最佳分类对应的属性,确定主要变量以及连续变量分割截断值,将原有的数据的所有变量转换成分类变量;然后用转换后的数据构建2型糖尿病logistic回归模型;最后将回归系数乘以10再取整,给出风险评分表。

(2)风险评估模型及风险评分表的评价

使用ROC曲线、AUC(ROC曲线下面积)和符合率来综合比较模型预测、筛查效果,并通过正确指数确定糖尿病风险评分表的筛查高危人群的推荐切点。

结 果

1.一般情况

总共调查3354人,其中357人患2型糖尿病,患病率为10.6%。本次研究对象的年龄在18~91岁之间,平均56.10±15.3岁。男性1468人,女性1886人,男女性别比例为1:1.28,其他基本信息详见表1。

表1 研究对象的基本情况描述

2.logistic回归模型构建2型糖尿病风险评估模型

经多因素logistic回归分析,获得2型糖尿病的影响因素:糖尿病家族史、高血压史、水果摄入频率、喜好甜食、年龄、腰臀比、体质指数和收缩压和年龄。多因素logistic回归模型预测2型糖尿病的AUC=0.816(95%CI:0.793~0.838),最佳切点处的灵敏度和特异度分别为0.684和0.792。

3.决策树构建2型糖尿病风险评估模型

经决策树分析获得2型糖尿病的决策规则,详见图1。该决策树的叶节点有10个,非叶子节点8个,进入该决策规则的变量为年龄、糖尿病家族史、收缩压、水果摄入频率、体质指数。决策树模型预测2型糖尿病的AUC=0.809(95%CI:0.787~0.831),最佳切点处的灵敏度为0.703,特异度为0.771。

表2 2型糖尿病多因素logistic回归分析

图1 2型糖尿病决策树分析图

决策树模型对定量资料进行了分割,比如年龄被决策树划分为(18~51]岁,(51~60]岁,(60~72]岁,(72~101]岁四段,其他变量分割详见表3。

表3 决策树模型给出了定量资料的分割点信息

4.决策树结合logistic回归模型构建2型糖尿病风险评估模型

根据决策树模型中的分类变量以及定量资料的分割信息,对这些变量进行重新的分类和赋值,如年龄、收缩压、体质指数等是根据决策树重新截断的分组数据。将新定义的变量统一纳入logistic回归模型。该模型即为决策树结合logistic回归预测模型,详见表4。该模型预测2型糖尿病的AUC=0.828(95%CI:0.808~0.855),最佳切点处的灵敏度为0.840,特异度为0.778。

表4 基于决策树结合logistic回归模型的2型糖尿病风险分析结果

5.糖尿病风险评估模型的效果评价

比较logistic模型与决策树模型、决策树结合logistic回归模型评估2型糖尿病风险的效果,最佳切点处的灵敏度和特异度,logistic模型与决策树模型的特异度较高,而结合模型的灵敏度更高。糖尿病风险评估模型间的AUC拟合优度检验结果显示:决策树结合logistic回归模型预测2型糖尿病的效果优于logistic模型(Z=3.328,P<0.001),决策树结合logistic回归模型的效果优于决策树模型(Z=6.718,P<0.001),logistic回归模型的AUC大于决策树模型(Z=4.950,P<0.001)。详见表5。

表5 糖尿病风险评估模型之间效果比较

6.基于决策树结合logistic回归模型的2型糖尿病风险评分表

将重新构建的logistic回归模型的回归系数乘以10并取整,如无糖尿病家族史赋值0分,有糖尿病家族史赋值17分,具体赋值详见表6。该评分表在蚌埠市人群的范围为-9~56分,切点在19分处,筛查2型糖尿病高危人群效果最佳。决策树结合logistic回归风险评分表筛查2型糖尿病的AUC=0.828(95%CI:0.808~0.855),其灵敏度、特异度分别为0.840和0.778。据此制定了糖尿病风险评估问卷,用于糖尿病的筛查工作,详见表7。

表6 决策树结合logistic回归构建的2型糖尿病风险评分表

表7 2型糖尿病风险评估调查问卷(表)

*:本问卷(调查表)判断糖尿病的最佳切点为19分,得分≥19的确定为患糖尿病高危人群;建议对总得分≥19分受试者应进行口服葡萄糖耐量试验,以明确诊断。

7.糖尿病风险评分表之间的效果比较

比较2013年糖尿病防治指南评分表、芬兰模型评分表以及logistic回归模型评分表、决策树结合logistic回归风险评分表筛查2型糖尿病,发现ROC曲线下面积分别有差异,决策树结合logistic评分表筛查效果最好,如与logistic评分表筛查效果之间差异有统计学意义(Z=4.111,P<0.001),且决策树结合logistic评分表筛查符合率最高。评分表之间具体的比较详见表8。

讨 论

建立单一模型时,决策树模型在特征变量识别方面有优势,而logistic回归模型在可以获得OR值等信息和模型解释方面优势明显,若分别使用logistic回归或决策树构建的预测模型则各有优劣[9]。本研究结果表明通过联合建模的方式使模型预测效果和灵敏度、特异度等方面都有提升。

表8 几种常用的风险评分表之间的效果比较

多因素logistic回归结果提示水果摄入为保护性因素,适当增加水果摄入频率可以降低糖尿病发病风险[10]。喜好甜食会增加患2型糖尿病的风险,在饮食上面应该控制甜食的摄入[11]。基于logistic回归构建的预测模型具有较高的特异度和较低的灵敏度[12],发现潜在患有糖尿病(即高危人群)的性能较差,不适合糖尿病的初步筛查。本研究中CART决策树模型预测的效果稍差于logistic回归模型(Z=4.950,P<0.001),目前这两种模型的效果比较结论不一致,这与决策树模型的剪枝水平、样本量以及协变量之间的关联有关[13-15];由于决策树不受分布以及线性、共线性等影响,所以在选择特征变量方面很有优势[16]。 logistic回归与决策树结合起来构建风险预测模型效果最优,且具有较高的特异度和灵敏度。该方法既可以弥补logistic回归模型的缺点,又可以筛选出更加合理的特征变量,建议使用该方法构建糖尿病风险评估模型,并用于筛选社区糖尿病高危人群。

决策树结合logistic回归风险评分表、logistic回归风险评分表和《2013年糖尿病防治指南》风险评分表筛查糖尿病的效能优于芬兰模型,考虑为人种糖尿病危险因素及体检指标分类标准的差异[17],比如欧美与亚洲人超重、肥胖标准不同,相应的风险评分也会不同。芬兰模型将每日是否食用蔬菜纳入模型,本研究将水果摄入频率纳入模型,这考虑了与西方饮食习惯、烹饪方式的不同,中国人饮食中普遍有蔬菜但缺乏水果,不同人群糖尿病的危险因素存在差异[18]。由于本研究充分考虑了危险因素及其分类标准的种族差异,所以制定的糖尿病风险评分表更适用于中国人 2 型糖尿病的风险评估及筛查。

糖尿病风险评估模型是从疾病的筛查角度出发,需要较高的诊断灵敏度。糖尿病风险评分表作为一个有效的、便宜的替代诊断性检测的工具,可以在短期内对大量的人群进行糖尿病的筛查。以非实验室数据为基础的决策树结合logistic回归的评分表,诊断灵敏性、准确性均较优,是一种非侵入性的筛查 2 型糖尿病高危人群的可靠工具。在糖尿病患病率高且仍持续增长而卫生资源相对稀缺的中国,运用糖尿病风险评估工具对实现早期检查和诊断、提高生存质量有十分重要的临床意义。我们推荐联合建模方法和制定风险评分表在社区居民糖尿病筛查工作中的应用。

猜你喜欢

评分表切点决策树
抛物线的切点弦方程的求法及性质应用
本年度谁是冠军
一种伪内切圆切点的刻画办法
决策树和随机森林方法在管理决策中的应用
改良GRACE评分表在急诊急性胸痛患者中的应用
椭圆的三类切点弦的包络
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
基于肺癌CT的决策树模型在肺癌诊断中的应用
新旧《建筑施工安全检查标准》中起重机械的区别