亚洲2型糖尿病发病风险预测模型的系统评价

2022-10-14贺婷袁丽杨小玲叶子溦李饶古艳

中国全科医学 2022年34期

贺婷，袁丽，杨小玲，叶子溦，李饶，古艳

2型糖尿病（T2DM）是患病人数最多的糖尿病类型，随着病程进展容易引起各种并发症，是导致失明、肾功能衰竭、心脏病发作、卒中和死亡的主要原因［1］。国际糖尿病联盟发布的第九版“全球糖尿病地图”数据显示，2019年全球约有5.37亿成人糖尿病患者，糖尿病患病率达10.5%，其中约90%为T2DM［2］。过去十年，亚洲人群糖尿病患病率大幅上升，中国和印度是全球糖尿病患者人数最多的两个国家，亚洲糖尿病的患病总人数占世界糖尿病患病人数的55%［2-3］。研究结果显示，有超过50%的糖尿病患者未得到及时诊断和治疗，T2DM的诊断延迟不仅会使个体医疗保健支出大幅度增长、疾病负担加重，还可能增加其出现严重并发症，甚至死亡的风险［4-5］。基于T2DM发病风险预测模型的预测结果，医务人员可早期发现未得到诊断的T2DM患者，以及T2DM高危人群，并通过采取针对性、个体化的预防/干预策略，降低T2DM发病概率/减缓病情进展。在过去的几十年里，国内外研究者开发了多种基于亚洲人群的预测模型来预测其T2DM发病风险，然而研究者对模型的构建策略报告不够明确，大多数预测模型使用受限，预测效果仍有待深入验证。本研究通过系统性地分析、评价亚洲T2DM发病风险预测模型的开发过程和效能，旨在为T2DM发病风险预测模型的选择和深度开发提供依据与参考。本研究已在PROSPERO登记注册并审核通过，注册号为CRD42021244563。

1 资料与方法

1.1 文献纳入和排除标准纳入标准：（1）研究对象为亚洲人群且基线时无糖尿病；（2）研究内容为T2DM发病风险预测模型（不包括诊断模型），并且研究描述了模型的建立、验证和评价过程；（3）研究类型为队列研究；（4）英文文献。排除标准：（1）细胞、分子及基因水平研究；（2）观察对象为儿童/青少年/特定患病人群（如肥胖、高血压患者）的研究；（3）预测结果包括T2DM，但不限于T2DM（如心血管疾病）的研究；（4）未采用回归法（如神经网络或决策树）构建预测模型的研究；（5）对既往开发的模型进行验证的研究；（6）国际会议摘要、二次研究；（7）模型包含的预测因子数＜2；（8）重复发表的文献。

1.2 文献检索策略于2021年4月，计算机检索PubMed、EmBase、the Cochrane Library获取有关亚洲T2DM发病风险预测模型的研究，检索时限均为建库至2021-04-01。此外，追溯纳入文献的参考文献，以补充获取相关文献。检索词包括：type 2 diabetes mellitus、ketosis-resistant diabetes mellitus、non-insulin-dependent diabetes mellitus、stable diabetes mellitus、NIDDM、slowonset diabetes mellitus、adult-onset diabetes mellitus、prediction model、risk stratification model、risk factor score、risk score、risk assessment、algorithm。以 the Cochrane Library为例，具体检索策略请扫描本文二维码获取。

1.3 文献筛选与资料提取 2名研究者独立筛选文献、提取资料并交叉核对，若存在分歧，则征求第3方意见。文献筛选时，首先阅读文题和摘要（初筛），在排除明显不相关的文献后，进一步通读全文根据纳入和排除标准以最终确定是否纳入（复筛）。基于预测模型研究偏倚风险及适用性评估的要素和资料提取内容制订标准化表格［6］。资料提取内容主要包括第一作者、发表年份、国家（地区）、研究类型、研究对象年龄、样本来源、样本量（不包含缺失数据）、发生结局事件的患者数、随访时长、观察终点、连续变量处理方法、缺失数据数量及处理方法、建模方法、变量选择方法、验模方法、受试者工作特征曲线下面积（AUC）、拟合优度、过度拟合情况、模型包含的预测因子、模型呈现形式、局限性（模型/研究）。

1.4 纳入文献的偏倚风险及适用性评估由2名研究者独立采用预测模型偏倚风险评估工具（PROBAST）对纳入文献的偏倚风险和适用性进行严格评估，若存在分歧，则征求第3方意见。PROBAST由MOONS等［7］、WOLFF等［8］于2019年推出，包含研究对象（2个问题）、预测因子（3个问题）、结果（6个问题）和数据分析（9个问题）4个领域。每个领域的评估结果分为“低”“高”“不清楚”3个等级。每个问题采用“是/可能是”“可能不是/不是”或“没有信息”进行回答。若4个领域的偏倚风险评估结果均为“低”，则整体偏倚风险被判断为“低”；若有≥1个领域的偏倚风险评估结果为“高”，则整体偏倚风险为“高”；若有领域的偏倚风险评估结果为“不清楚”，而其他领域的偏倚风险评估结果均为“低”，则认为整体偏倚风险为“不清楚”。此外，对于模型构建研究，即使所有领域的偏倚风险评估结果均为“低”，若模型未经过外部验证，则整体偏倚风险仍为“高”。PROBAST主要从前3个领域对适用性进行评价，适用性评价方法与偏倚风险评价方法相似。

1.5 统计学方法采用描述性分析法对模型的基本特征及纳入研究的偏倚风险与适用性评价结果进行总结、分析。

2 结果

2.1 文献筛选流程及结果通过检索得到相关文献12 550篇，经过逐层筛选，最终纳入研究31项［9-39］。文献筛选流程见图1。

图1 文献筛选流程Figure 1 Literature screening flowchart

2.2 纳入文献的基本特征纳入的31项研究主要来源于中国（n=15）、日本（n=6）和韩国（n=4）；17项［9-11，14-18，20-21，26，28，30，34-35，37-38］为前瞻性队列研究，14项［12-13，19，22-25，27，29，31-33，36，39］为回顾性队列研究；样本量（不包含缺失数据）为1 851～366 009，发生结局事件的患者数为144～38 718例。30项［9-10，12-39］研究将空腹血糖（FBG）≥ 7.0 mmol/L作为观察终点，12 项［18-20，22，25，30-31，33，35-38］研究将糖化血红蛋白（HbA1c）≥6.5%作为观察终点，13项［9，11，14-17，19，25，29，31，34，36，38］研究将餐后 2 h 血糖（2 h-PG）≥ 11.1 mmol/L 作为观察终点，3 项［22，33，36］研究将随机血糖≥11.0 mmol/L作为观察终点，见表1。

表1 纳入的亚洲T2DM发病风险预测模型研究的基本信息Table 1 Basic characteristics of included studies on risk prediction models for T2DM in Asian adults

2.3 纳入预测模型的基本特征

2.3.1 模型的建立与验证 3项［26，34，37］研究保持了连续变量的连续性，2项［18，31］研究保持了部分连续变量的连续性，26 项［9-17，19-25，27-30，32-33，35-36，38-39］研究将全部连续变量转化为分类变量。数据缺失及其处理方法方面，3项［14，19，38］研究存在着较为严重的数据缺失现象（缺失率＞30%），RHEE等［39］采用多重插补法处理缺失值，ASGARI等［37］使用单一插补法对缺失数据进行填补，22 项［9-11，14，17-24，27-30，32-36，38］研究采用了完整个案分析法。纳入研究多采用Cox回归、Logistic回归建立模型。WANG等［34］在采用Logistic回归建立模型的同时，建立了矩阵多项式模型；LIU等［24］通过建立亚分布风险模型，避免数据竞争；ASGARI等［37］在采用Cox回归建立静态预测模型的同时，建立了基于混合效应模型和Cox模型的纵向和生存数据联合模型。20 项［10，12-14，16-19，22-23，25，27，29-35，39］研究报告在筛选变量时采用了逐步选择法，7 项［9，15，19，21，24，28，38］研究采用了单因素分析，SHAO 等［36］则基于LASSO算法进行变量筛选。4项［11，16，31，34］研究建立了基于性别的 T2DM 发病风险差异化预测模型。模型验证方面，5 项［9，15，17-18，31］研究仅对模型进行了外部验证，22 项［10-14，16，19-21，23-30，32-33，35，38-39］研究仅对模型进行了内部验证，4项［22，34，36-37］研究采用内部验证与外部验证相结合的方法对模型进行了验证。纳入模型的AUC为0.62～0.92，提示模型预测性能较好。15 项［10，14，19-21，23-24，26-27，30，32，34，36-38］研究考虑了模型的过度拟合情况，并对其进行了校准，见表2。

表2 亚洲T2MD发病风险预测模型建立和验证的基本特征Table 2 Basic characteristics of development and validation included risk prediction models for T2DM in Asian adults

2.3.2 模型中的预测因子及其呈现形式模型包含的预测因子数量为3～24个，预测因子可主要分为人口学因素、体格检查指标、实验室检查指标三类。其中人口学因素以年龄、性别和糖尿病家族史较为常见，体格检查指标以体质指数（BMI）和腰围较为常见，而实验室指标以FBG、HbA1c和三酰甘油（TG）较为常见。模型呈现形式主要以风险评分和风险计算公式为主，3项［23，34，36］研究采用列线图的方式呈现模型，见表3。

表3 亚洲T2MD发病风险预测模型的预测因子、呈现形式及其局限性Table 3 Predictors，presentation and limitations of included risk prediction models for T2DM in Asian adults

2.4 纳入文献的偏倚风险和适用性评价结果

2.4.1 纳入文献的偏倚风险评价结果纳入研究均存在较高的偏倚风险。

2.4.1.1 研究对象领域 4项［10，33-34，36］研究将特定人群，如心血管疾病、癌症、卒中患者、妊娠者排除在研究对象之外，这可能会对T2DM发病率的准确性造成不利影响，故此4项研究在该领域的偏倚风险评估结果为“高”，其余研究均为“低”，见表4。

2.4.1.2 预测因子领域 XU等［21］和 NANRI等［22］的研究为多中心研究，但各中心对预测因子采用的测量方法有差异；WANG等［23］的研究则未报告预测因子测量相关信息。2项［21-22］研究在该领域的偏倚风险评估结果为“高”，1项［23］研究为“不清楚”，其余研究均为“低”，见表4。

2.4.1.3 结果领域 2项［16，28］研究中，FBG既是T2DM的诊断标准，亦是模型中的预测因子，但此2项研究均未明确基于FBG的模型适用条件。NANRI等［22］、YATSUYA等［30］、HU等［33］的研究中，接受降糖治疗的定义及结局变量的测量方法在各中心间有所不同。OH等［38］的研究中，对于葡萄糖耐量试验和HbA1c数据缺失的个案，仅凭借FBG诊断T2DM，这可能会导致诊断性偏倚。上述 6 项［16，22，28，30，33，38］研究在该领域的偏倚风险评估结果为“高”，其余研究均为“低”，见表4。

（续表2）

（续表3）

2.4.1.4 数据分析领域除3项［23，27，29］研究在该领域的偏倚风险评估结果为“不清楚”，其余研究均为“高”。10 项［9-10，12，14，16-18，21-22，24］研究在转化连续变量的过程中未检验连续变量间是否存在非线性关系或未对分类变量进行标准的定义，故在相应问题上被评价为“否”。10项［10，14，18，22，25，29，30，35-37］研究未将所有的研究对象纳入分析（研究数据多来源于数据库，或为登记数据），这可能会导致结果出现偏差。采用完整个案分析法处理缺失数据的研究中，4项［9，14，20，24］研究对剔除样本与纳入分析样本的基本特征进行了组间比较分析，发现差异无统计学意义，该处理方法相对合理；而其余研究在采用完整个案分析法处理缺失数据后，在不确定数据缺失是否完全随机的情况下，并未对剔除样本的特征进行分析，可引起偏倚。仅1项［24］研究明确表示考虑了数据竞争问题，在相应问题上被评价为“ 是 ”。16 项［10-13，15-16，18-19，24，26-27，32，34，35，38］研究由于未报告模型的校准度，或仅以H-L拟合优度检验的统计量值和P值反映模型的校准度而未能提供校准图等因素，在相应问题上被评价为“否/可能否”，见表4。

2.4.2 适用性评价结果纳入模型总体及在各领域上的适用性较好，见表4。

表4 纳入文献偏倚风险及适用性评价结果Table 4 Results of the assessment of risk of bias and applicability of included studies on the risk prediction model of T2DM

3 讨论

3.1 亚洲T2DM发病风险预测模型的研究尚处于发展阶段本研究系统检索了亚洲T2DM发病风险预测模型相关研究，经过逐层筛选，最终纳入了31项研究。纳入模型的AUC为0.62～0.92，其中12 项［12-14，18，22，25，33-37，39］研究开发的 40 个模型的AUC＞0.8，2 项［18，36］研究中的 2 个模型的 AUC＞0.9，提示模型预测性能较好。所有纳入的研究均存在高偏倚风险，主要原因为对连续变量的处理不合理、对缺失数据的处理不合理、存在乐观偏差、忽略了模型的过度拟合问题、未规范地对模型进行评价及缺乏外部验证等。

3.2 亚洲T2DM发病风险预测模型存在同质化现象 T2DM发病风险预测模型包含的预测因子以年龄、性别、糖尿病家族史、BMI、腰围、FBG、HbA1c和血脂指标为多见。一方面提示临床医务工作者应重视上述指标对T2DM发病的预警作用，加强对其的评估；另一方面也说明T2DM发病风险预测模型存在较为严重的同质化问题。探索新的、个性化预测因子可能有助于突破现有发展“瓶颈”，提升模型的预测性能，提高个体化治疗水平［40-42］。流行病学研究结果表明，心理因素、饮食习惯、贫困、受教育程度、职业压力水平、睡眠障碍与T2DM发病高风险相关［43-44］。但由于上述部分指标缺乏统一的评估标准且主观性较强，少有研究者将其列为候选预测因子或将其纳入预测模型。下一步，可探究上述因子对模型预测性能提升的影响。同时考虑到T2DM发病率具有性别与年龄差异［45-46］，故也可深入开发基于性别、年龄的T2DM发病风险差异化预测模型。

3.3 亚洲T2DM发病风险预测模型存在高偏倚风险PROBAST是由Cochrane协助组推荐的预测模型研究偏倚风险评估工具。研究均于该工具发布前实施、模型开发过程中应注意的细节问题较多可能是导致偏倚风险较高的原因之一。未来，研究者可按照PROBAST开展T2DM发病风险预测模型的开发与验证工作，并严格遵循多变量预测模型报告规范，进而尽可能地减少研究中存在的偏倚。

3.3.1 连续变量与缺失数据处理本研究中，83.9%（26/31）的研究对连续变量进行了分类处理，但此方法可能导致重要信息丢失、变量间的关系被破坏及模型预测能力的下降［47］。有研究者认为，对于连续变量，宜保持其连续性，若连续变量间存在非线性关系，可运用分段多项式函数（如样条函数）处理数据［48］。除了未报告缺失数据处理方法的研究外，91.7%（22/24）的研究采用完整个案分析法处理缺失数据，该方法虽简单易用，但可能会消减数据特征、降低数据和研究的效力［49］。多重插补、单一插补法的运用能有效降低数据缺失对统计分析、模型稳定性造成的不利影响，提高研究精度和结果可靠性，是合适的数据缺失处理方法［50］。

3.3.2 模型的过度拟合和存在的乐观偏差模型的不确定性和参数的不确定性可导致模型的过度拟合，连续变量的离散化处理、基于单因素分析的变量筛选方法等可使模型出现乐观偏差的可能性增高，而两者（模型的过度拟合、模型出现乐观偏差）均可致使预测模型的泛化能力下降［51］。本文纳入的研究中，48.4%（15/31）的研究考虑了模型的过度拟合问题，这也提示研究人员对模型过度拟合问题及其存在的乐观偏差重视程度不够。随机将数据集拆分为两个子集并将其中一个子集用于内部验证，已经被证实为一个不太恰当的测量乐观偏差的方法［52-53］。今后，在开发T2DM发病风险预测模型时，可使用自举法、交叉验证法等对模型拟合进行校验，校验时须重复整套建模流程，包括变量转换、缺失值处理、变量筛选和模型拟合，否则可能无法衡量模型存在的实际乐观偏差水平［54］。此外，开发动态预测模型也可能是解决模型过度拟合的有效方法，如ASGARI等［37］通过使用纵向数据（即重复测量数据，如FBG）和事件发生时间数据进行联合建模，使开发的T2DM发病风险预测模型具备了动态性。联合模型的原则是先定义两个子模型，即混合效应模型和Cox模型，然后使用其共同的潜在结构将其链接起来。下一步，研究者可深入开发基于混合效应模型和Cox模型的纵向和生存数据联合模型，尽量做到将纵向数据与事件发生时间数据联合起来进行分析，进而使参数估计的偏差进一步减小，提高统计推断的效率。

3.3.3 模型验证与应用本研究发现，29.0%（9/31）的研究对模型进行了外部验证（其中4项研究采用内部验证与外部验证相结合的方法对模型进行了验证），大部分模型仍处于内部验证阶段，这使得现有模型的转化率较低且偏倚风险较高。外部验证和重新校准有助于增强模型的泛化能力，与开发新模型相比，具有更高的成本效益。医务工作者可基于本研究结果选取高质量的T2DM发病风险预测模型并对其进行外部验证（大样本、多中心数据）后，将其应用于临床；或通过开展多中心、跨国预测模型构建研究，提高T2DM发病风险预测模型的临床应用率、转化率。也可基于电子病历系统构建自动化的T2DM发病风险预测工具；或将传统预测工具与计算机技术相结合，如基于网络的交互式列线图，使模型可以与电子病历系统相结合的同时，也可借由网页在移动设备、个人计算机上呈现，进而：（1）同时满足医务人员和社区糖尿病患者对T2DM发病风险预测工具的使用需求；（2）使模型在得到复杂算法支撑的同时，减少人工计算的工作量；（3）使模型更易于理解，用户使用模型的积极性得以提高。

本文存在一定的局限性。首先，受限于文献纳入与排除标准，本研究纳入的文献可能不够全面，存在一定的选择偏倚；其次，由于纳入文献在研究对象及方法上存在明显的异质性，本研究未对纳入研究进行定量分析。

作者贡献：贺婷负责文章的构思、设计与撰写，并对文章整体负责，监督管理；贺婷、叶子溦、李饶负责文献、资料的收集与整理；贺婷、袁丽，杨小玲负责文献偏倚风险和适用性评估、论文的修订；贺婷、古艳负责文章的质量控制及审校。

本文无利益冲突。