基于机器学习的2型糖尿病视网膜病变预测模型研究

2021-07-25冯沁祺彭博雅李雅儒翟兴

中国中医药信息杂志 2021年6期

关键词：决策树视网膜分类

冯沁祺，彭博雅，李雅儒，翟兴

中医药信息学

基于机器学习的2型糖尿病视网膜病变预测模型研究

冯沁祺1，彭博雅2，李雅儒2，翟兴2，3

1.北京中医药大学第一临床医学院，北京 100007；2.北京中医药大学管理学院，北京 100029；3.中国人民大学信息资源管理学院，北京 100872

通过构建提升决策树、决策森林、神经网络、支持向量机等9个常用机器学习模型对2型糖尿病并发糖尿病视网膜病变进行风险预测，进行模型评价。采用国家人口健康科学数据中心（临床医学）的糖尿病数据集数据，采用SPSS20.0软件进行统计分析，通过卡方检验和检验筛选糖尿病视网膜病变相关因素进入预测模型。对数据进行预处理后，使用Azure Machine Learning Studio构建9种二分类模型，采用十折交叉验证方式测试算法效能，以准确率、精确率、召回率、F1得分、AUC值为指标对模型进行评价。通过卡方检验和检验得到糖尿病视网膜病变的影响因素，共筛选出年龄、血肌酐等32项计量资料指标的已有编号、指标名与结果字段进入预测模型。指标评价结果显示，提升决策树模型具有明显优势。提升决策树模型在9种预测模型中具有明显优势，可为2型糖尿病视网膜病变高危人群的筛检与干预研究提供一定帮助。

2型糖尿病；糖尿病视网膜病变；机器学习；风险预测

糖尿病影响着全球约4.15亿成年人的生命健康，预计到2030年糖尿病患者可达5.52亿，2040年为6.42亿[1]。其中，2型糖尿病（type 2 diabetes mellitus，T2DM）患者约占90%～95%[2]。中国糖尿病患病率高，且男性高于女性[3]。随着生活方式的改变及社会老龄化，我国糖尿病患病率呈快速增长趋势。糖尿病视网膜病变（diabetic retinopathy，DR）是糖尿病最常见、最严重的微血管并发症之一，严重影响患者生活质量。DR损伤视网膜微血管系统，出现毛细血管肿胀变形、血-视网膜屏障破坏、渗出，发生黄斑水肿、视力下降，若病情进一步发展，新生血管可致视网膜微血管系统扭曲，导致视网膜脱离，甚至失明[4]。若能早期诊断并采取适当预防措施，可在一定程度上减少DR所致的视力损害。

本研究以国家人口健康科学数据中心（临床医学）提供的数据为对象，研究T2DM并发DR的相关影响因素，构建9种常用机器学习模型，对T2DM并发DR进行风险预测，并对模型测试结果进行分析和评价，以期为降低T2DM并发DR发病率及其早期诊断提供参考。

1 资料

1.1 数据来源

3000条数据均来源于国家人口健康科学数据中心（临床医学）提供的糖尿病数据集（http://101.201. 55.39/#/resource/2356），包含基本信息表、诊断表、检查表、医嘱表、费用表、生化检查表、糖化检查表、尿常规检查表等。

1.2 一般情况

3000例患者基础数据完整。男性1874例（62%），女性1126例（38%）；年龄≤20岁1例，＞20～30岁31例，＞30～40岁125例，＞40～50岁500例，＞50～60岁1006例，＞60～70岁910例，＞70～80岁343例，＞80～90岁83例，＞90岁1例。T2DM并发DR者，男性933例，女性567例，年龄45.7～67.5岁，平均年龄56.6岁。数据分为T2DM组和T2DM并发DR组，各1500例。

2 方法

使用机器学习的方法建立预测模型，实质上是采用有结果标签的训练集对模型进行训练，然后对模型的准确性等各项评价指标进行测试和优化，实现对未知结果的分类。本研究采用十折交叉验证法测试算法效能，研究流程见图1。

2.1 数据分析

图1 研究流程图

2.2 数据预处理

2.2.1 缺失值处理

由于数据存在较多缺失值，故利用基于链式方程的多重插补方法将缺失值替换成替补值，即在填充缺失值之前，使用数据中的其他变量有条件地对每个具有缺失数据的变量进行建模。

2.2.2 特征归一化

2.2.3 离群值

本研究2组样本均为1500条数据，离群值较少，故未进行类别不均和离群值的处理。

2.3 模型构建与评价

使用Azure Machine Learning Studio（https:// studio.azureml.net/）构建预测模型。预测模型的标签变量（即是否患病）属于二分类变量，故采用Azure Machine Learning Studio中的9种二分类模型进行实验比较，各模型均使用默认参数。公共参数见表1。

表1 Azure Machine Learning Studio模型构建公共参数

参数名称参数介绍参数值创建训练器模式指定训练模型的方式；单个参数：如果您知道如何配置模型；参数范围：迭代提供的多种组合单个参数随机数种子键入一个整数值作为种子，确保实验在所有运行中都具有可重复性2020 允许未知分类级别为训练和验证集中的未知值创建一个组。对于已知值，该模型可能不太精确，但可以为新（未知）值提供更好的预测是

2.3.1 二分类提升决策树

二分类提升决策树（two-class boosted decision tree）是一种集成学习方法，基于多个决策树的整体进行预测，其中第二棵树纠正第一棵树的错误，第三棵树纠正第一棵树和第二棵树的错误，依此类推[5]。参数设置见表2。

表2 二分类提升决策树参数

参数名称参数介绍参数值每棵树的最大叶数可以在任何树中创建的最大终端节点（叶）数。通过增加该值，可能增加树的大小并获得更好的精度，但有过度拟合和较长训练时间的风险20 每个叶节点的最小样本数指定在树中创建任何终端节点（叶）所需的案例数。通过增加该值，可增加创建新规则的阈值10 学习率输入介于0和1之间的数字，该数字定义学习时的步长0.2 已构建的树数在集合中创建的决策树的总数。通过创建更多的决策树，可能获得更好的覆盖范围，但训练时间会增加100

2.3.2 二分类逻辑回归

二分类逻辑回归（two-class logistic regression）通过将数据拟合到逻辑函数来预测事件发生的可能性，模型中最常使用梯度下降法获得代价函数的最小值，通过给予一定的优化条件，使方法得到更好的分类界限[6]。参数设置见表3。

表3 二分类逻辑回归参数

参数名称参数介绍参数值优化公差优化模型时要使用的阈值1E-07 L1正则化权重正则化参数L1的值1 L2正则化权重正则化参数L2的值1 L-BFGS的内存大小用于L-BFGS优化的内存量20

2.3.3 二分类贝叶斯点机

贝叶斯分类器通过某个对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类别的概率，贝叶斯分类预测模型则返回每个类别的预测概率，选择具有最大后验概率的类作为该对象所属的类[7]。二分类贝叶斯点机（two-class Bayes point machine）通过选择一个“平均”分类器贝叶斯点，有效地近似了线性分类器的理论上最优的贝叶斯平均值。参数设置见表4。

表4 二分类贝叶斯点机参数

参数名称参数介绍参数值训练迭代次数指定消息传递算法迭代训练数据的频率，通常应设置为5～100范围内的值30 包括偏差是否将恒定特征或偏差添加到训练和预测中的每个实例是

2.3.4 二分类平均感知器

二分类平均感知器（two-class average perceptron）是神经网络的早期和非常简单的版本，根据线性函数将输入分类为几个可能的输出，然后将其与从特征向量派生的一组权重结合在一起[5]。参数设置见表5。

表5 二分类平均感知器参数

参数名称参数介绍参数值最大迭代次数算法检查训练数据的次数10 学习率指定的值的学习速度1

2.3.5 二分类决策森林

二分类决策森林（two-class decision forest）是基于一般原理的集成方法，由几种决策树的预测组合成一个最终的预测，其原理为应用集成思想提高决策树准确率，不依赖单个模型，而是通过创建多个相关模型并以某种方式组合它们，可以获得更好的结果和更通用的模型[8]。参数设置见表6。

表6 二分类决策森林参数

参数名称参数介绍参数值重采样方法选择用于创建单个树的方法。可选择BAGGING或复制法BAGGING 决策树数可在集合中创建的最大决策树数。通过创建更多的决策树可能获得更好的覆盖范围，但训练时间会增加8 决策树的最大深度限制任何决策树的最大深度。增加树的深度可能会提高精度，但存在过度拟合和训练时间增加的风险32 每个节点的随机分割数树的每个节点要使用的分割数128 每个叶节点的最小样本数在树中创建任何终端节点（叶）所需的最小案例数1

2.3.6 二分类决策丛林

二分类决策丛林（two-class decision jungle）由一组决策有向无环图（DAG）组成，是决策森林的一种拓展[5]。参数设置见表7。

表7 二分类决策丛林参数

参数名称参数介绍参数值重采样方法选择用于创建单个树的方法BAGGING 决策DAG的数量可在集合中创建的最大图形数量8 决策DAG的最大深度每个图的最大深度32 决策DAG的最大宽度每个图的最大宽度128 每个决策DAG层的优化步骤数建每个DAG时要对数据执行多少次迭代2048

2.3.7 二分类局部深度支持向量机

二分类局部深度支持向量机（two-class locally deep SVM）用于将数据点映射到特征空间的内核函数，以减少训练所需的时间，同时保持大部分分类的准确性[5]。参数设置见表8。

表8 二分类局部深度支持向量机参数

参数名称参数介绍参数值树的深度可以由本地深度内核学习SVM（LD- SVM）模型创建的树的最大深度3 LAMBDA W正则化项的权重0.1 LAMBDA THETA区域边界和最近的数据点之间应保留多少空间0.01 LAMBDA THETA PRIME控制模型的决策边界中允许的曲率量0.01 SIGMOID清晰度用于缩放参数Σ的值1 迭代次数算法应使用示例的随机子集更新分类器参数的次数15 000

2.3.8 二分类神经网络

二分类神经网络（two-class neural network）是一组相互连接的层，输入是第一层，并通过包含加权边和节点的非循环图连接到输出层。神经网络可以运用于分类和回归问题，具有极强的容错性和鲁棒性[9]。参数设置见表9。

表9 二分类神经网络参数

参数名称参数介绍参数值隐藏层规范要创建的网络体系结构的类型完全连接隐藏节点数隐藏节点的数目100 学习率每次迭代所采取步骤的大小0.1 迭代次数算法应处理训练案例的最大次数100 初始学习权重直径在学习过程开始时指定的节点权重0.1 动量在学习过程中应用于先前迭代的节点的权重0

2.3.9 二分类支持向量机

二分类支持向量机（two-class SVM）是最早的机器学习算法之一，所有输入示例均以该空间中的点表示，并映射到输出类别，以使类别被尽可能宽地分隔并消除空白[10]。支持向量机使用核函数将非线性问题变换为线性问题，其本质是计算2个观测数据之间的距离，所寻找的是能够将样本间隔最大化的决策边界，因此又被称为大间距分类器。参数设置见表10。

表10 二分类支持向量机参数

参数名称参数介绍参数值迭代次数构建模型时使用的迭代次数1 LAMBDA用作L1正则化的权重0.001 是否投影到单位空间在训练之前，数据点以0为中心并缩放为具有1个单位的标准偏差否

3 结果

3.1 数据资料分析

对2组数据资料中的86个因素进行分组描述，并进行差异性检验。其中，BUN、FIBRIN、M1_M2、TH2字段出现＜30的情况，经假设检验，与结果无相关性，予以剔除。2组数据一般资料比较见表11，实验室指标比较见表12。

计数资料中，性别、民族、婚姻状况及动脉粥样硬化、颈动脉狭窄、肝硬化、其他慢性肝病、胰腺外分泌疾病、神经系统疾病、心功能不全及心力衰竭等患病率组间比较差异无统计学意义（＞0.05）；T2DM并发DR组患者高血压、高脂血症、脑卒中、脂肪肝、肾病、肾衰竭、冠心病、心肌梗死、下肢动脉病变、血液病、风湿免疫疾病、其他内分泌疾病、内分泌腺瘤、消化系肿瘤、泌尿系肿瘤、妇科肿瘤、肺部肿瘤及其他肿瘤共18种相关疾病的患病率更高，差异有统计学意义（＜0.05）。

计量资料中，身高、体质量、心率、BMI、PL、PLT、LPS、TG、HDL_C、LP_A、GSP、CA199、INS、PTA、UCR共15项指标组间比较差异无统计学意义（＞0.05）。T2DM并发DR组收缩压、舒张压、SCR、SUA、BU、LDH_L、TC、LDL_C、GLU、GLU_2H、HBA1C、ESR、FBG、ALB_CR、UPR_24共15项指标高于T2DM组，年龄、PCV、GLO、ALB、TP、DBILI、IBILI、TBILI、ALP、GGT、ALT、AST、HB、CRP、CP、APTT、PT共17项指标低于T2DM组，差异有统计学意义（＜0.05）。

将上述18种相关疾病和32项指标作为T2DM并发DR的危险因素纳入预测模型。

表11 2组数据一般资料比较（n＝1500）

项目T2DM组T2DM并发DR组t/χ2值P值男性[n（%）] 941（62.7） 933（62.2）0.9100.763 汉族[n（%）]1419（94.6）1401（93.4）2.1400.144 已婚[n（%）]1470（98.0）1466（97.7）0.2550.613 年龄（±s，岁） 59.0±11.2 56.6±10.95.9300.000 身高（±s，cm）166.5±6.3 166.4±8.30.3510.725 体质量（±s，kg） 73.0±13.4 73.2±12.5-0.3480.728 收缩压（±s，mmHg）135.0±20.0142.4±21.4-9.7270.000 舒张压（±s，mmHg） 79.0±11.9 82.0±11.8-6.9590.000 心率（±s，次/min） 80.4±32.7 76.1±23.50.9220.358 BMI（±s）26.1±4.026.4±3.6-1.3590.174 高血压[n（%）] 953（63.5）1093（72.9）30.1250.000 高脂血症[n（%）] 407（27.1） 249（16.6）48.7050.000 动脉粥样硬化[n（%）] 791（52.7） 752（50.1）2.0300.154 脑卒中[n（%）] 76（5.1）148（9.9）25.0100.000 颈动脉狭窄[n（%）] 56（3.7） 73（4.9）2.3420.126 脂肪肝[n（%）] 437（29.1） 500（33.3）6.1600.013 肝硬化[n（%）] 29（1.9） 18（1.2）2.6150.106 其他慢性肝病[n（%）] 210（14.0） 199（13.3）0.3430.558 胰腺外分泌疾病 [n（%）] 26（1.7） 22（1.5）0.3390.561 胆道疾病[n（%）] 197（13.1） 230（15.3）2.9740.085 肾病[n（%）] 347（23.1） 903（60.2）381.5540.000 肾衰竭[n（%）] 24（1.6） 159（10.6）106.0600.000 神经系统疾病[n（%）] 97（6.5） 79（5.3）1.9560.162 冠心病[n（%）] 611（40.7） 374（24.9）84.9000.000 心肌梗死[n（%）] 123（8.2） 67（4.5）17.6210.000 心功能不全及心力衰竭[n（%）] 110（7.3）102（6.8）0.3250.569 心律失常[n（%）] 95（6.3） 79（5.3）1.5620.211 呼吸系统疾病[n（%）] 250（16.7） 222（14.8）1.9710.160 下肢动脉病变[n（%）] 119（7.9） 357（23.8）141.4420.000 血液病[n（%）] 117（7.8） 327（21.8）116.5780.000 风湿免疫疾病[n（%）] 66（4.4） 37（2.5）8.4550.004 妊娠哺乳期[n（%）] 6（0.4） 4（0.3）0.4010.526 其他内分泌疾病 [n（%）] 398（26.5） 604（40.3）63.5910.000 内分泌腺瘤[n（%）] 65（4.3） 43（2.9）4.6490.031 多囊卵巢综合征 [n（%）] 2（0.1） 1（0.1）0.3340.564 消化系肿瘤[n（%）] 119（7.9） 34（2.3）46.7600.000 泌尿系肿瘤[n（%）] 22（1.5） 9（0.6）5.5090.019 妇科肿瘤[n（%）] 69（4.6） 30（2.0）15.8880.000 乳腺肿瘤[n（%）] 7（0.5） 3（0.2）1.6050.205 肺部肿瘤[n（%）] 46（3.1） 9（0.6）25.3560.000 颅内肿瘤[n（%）] 11（0.7） 5（0.3）2.2620.133 其他肿瘤[n（%）] 173（11.5） 73（4.9）44.2810.000

表12 2组数据实验室指标比较（±s，n＝1500）

注：值为Pearson相关系数，“－”代表Pearson相关性检验＞0.05

3.2 模型预测结果与分析

以准确率、精确率、召回率、F1得分、AUC值为指标对9种机器学习模型测试结果进行评价，结果见表13。可以看出，二分类提升决策树模型AUC值最高，达0.984，其余各指标在9种模型中均最高，表明其预测T2DM并发DR具有突出优势。

表13 9种模型测试结果评价指标比较（±s）

3.3 模型发布

Azure AI Gallery是一个社区驱动的站点，用于发现和共享使用Azure AI构建的解决方案。该库包含各种可用于开发的分析解决方案的资源。本实验已发布于Azure AI Gallery（https://gallery.azure.ai/Experiment/ DR）。

4 讨论

通过文献调研发现，以往针对糖尿病的预测模型研究较多，有关DR进展的相关危险因子研究也逐渐增多，采用数据挖掘算法对DR预测模型的研究与应用已有一定的基础。从研究对象来看可分为两大类：一类是根据眼底相机或多焦视网膜电流图等收集到的图像对DR进行智能诊断及对DR进展程度的评估，如徐宏[11]根据彩色眼底图像进行基于眼底图像的DR智能诊断，Schneck[12]根据多焦视网膜电流图隐式时间和糖尿病的潜在危险因素，建立和测试模型预测非增生性糖尿病视网膜病变局部斑块的发展；另一类是根据DR的影响因素建立不同模型，或选用一系列临床数据研究，或重点研究某一个因素，或建立验证模型，多为回顾性数据研究。一般来说，研究大部分采用logistic回归模型，也有基于Meta分析logistic回归模型的研究[13]，较少使用其他模型，如Adaboost- FSVM模型[14]、COX回归模型[15]等；少部分研究如眼底图片预测模型研究对不同模型进行了对比，AUC值提示随机森林模型预测效果优于logistic回归模型[16]。总体来说，DR预测模型的研究更多集中于图像研究，而基于相关指标预测DR的研究较为缺乏，或因数据搜集困难，或研究数据样本量较小。DR相关危险因子的研究数据实证不够充分，选用模型方法较为单一，对于预测模型的比较研究更为稀少。

本研究数据分析显示，T2DM并发DR受到年龄、收缩压、舒张压的影响，而SCR（血肌酐）、SUA（血尿酸）、BU（血尿素）、LDH_L（乳酸脱氢酶）、TC（血清总胆固醇）、LDL_C（低密度脂蛋白胆固醇）、GLU（空腹血糖）、GLU_2H（餐后2 h血糖）、HBA1C（糖化血红蛋白）、ESR（红细胞沉降率）、FBG（纤维蛋白原）、ALB_CR（尿微量蛋白和尿肌酐比值）、UPR_24（24 h尿蛋白定量）与T2DM并发DR呈正相关，PCV（红细胞比积）、GLO（球蛋白）、ALB（白蛋白）、TP（总蛋白）、DBILI（直接胆红素）、IBILI（间接胆红素）、TBILI（总胆红素）、ALP（碱性磷酸酶）、GGT（谷氨酰转肽酶）、ALT（丙氨酸氨基转移酶）、AST（天冬氨酸氨基转移酶）、HB（血红蛋白）、CRP（C反应蛋白）、CP（慢性胰腺炎）、APTT（部分凝血活酶活化时间）、PT（凝血酶原时间）与T2DM并发DR呈负相关。查阅文献发现，通过统计分析筛选出的与DR相关因素大部分已有切实可靠的循证依据，暂未发现CP、GLO、ALB、TP、ALP、ALT、AST与DR相关研究，有文献提示肝功能对DR的发生无明显影响[17]，上述7项指标的临床应用价值尚需前瞻性研究进一步证实。

在预测模型选择方面，提升决策树模型的准确率达93.3%，精确率93.1%，召回率93.6%，F1得分0.933，AUC值0.984，各项指标明显优于其他模型，具有明显优势，可较好地应用于T2DM并发DR的预测，实现对未知结果的分类。建立并选用合适的预测模型对降低DR发病率、早期诊断和预防意义重大，本研究可为T2DM并发DR高危人群的筛检与干预研究提供一定帮助，并为构建T2DM并发DR的模型预测提供参考依据。

本研究尚存在一些不足：①部分具有研究意义的项目可能由于字段＜30而在数据模型中未予采用，如BUN、FIBRIN、M1_M2、TH2字段经假设检验提示与结果无相关性，仍需临床大样本数据检验。今后应不断改进研究设计，采取更优方式筛选更为合适的影响因素数目，以期得到更为准确的结果，提高预测的敏感性和特异性。②很多因素未显示与T2DM进展为DR的强相关性，在建立模型时未人为进行因素筛选，建立的模型准确度与精确度均较好，但存在影响因素过多的问题。由于并无明显强相关影响因素，人为筛选可能遗漏较多影响因素，进而影响研究结果，可以考虑更改纳入影响因素的值等改进实验设计。③数据资料未包含病程，而糖尿病微血管并发症与糖尿病病程相关性较大[3，18]，不同病程患者的疾病状态不同，会对数据产生一定影响。今后搜集临床资料时应注意患者病程，或在建立预测模型时选用更合适的样本。④本研究未将研究结果用于实际预测，今后可根据模型进一步制作app或小程序提供给潜在患者，使研究结果服务于临床。

致谢：感谢国家自然科学基金（81603499）资助及国家人口与健康科学数据中心（临床医学）提供的数据支持。

[1] OGURTSOVA K, DA ROCHA FERNANDES J D, HUANG Y, et al. IDF Diabetes Atlas：Global estimates for the prevalence of diabetes for 2015 and 2040[J]. Diabetes Research and Clinical Practice,2017,128：40-50.

[2] Classification and diagnosis of diabetes：standards of medical care in diabetes-2019[J]. Diabetes Care,2019,42(Suppl 1)：S13-S28.

[3] 中华医学会糖尿病学分会.中国2型糖尿病防治指南(2017年版)[J].中国实用内科杂志,2018,38(4)：292-344.

[4] CALDERON G D, JUAREZ O H, HERNANDEZ G E, et al. Oxidative stress and diabetic retinopathy：development and treatment[J]. Eye (London, England),2017,31(8)：1-6.

[5] Machine learning modules in Azure Machine Learning Studio[EB/OL].(2019-06-05)[2020-01-28].https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/machine- learning-modules.

[6] 邢秋菊,赵纯勇,高克昌.基于GIS的滑坡危险性逻辑回归评价研究[J].地理与地理信息科学,2004,20(3)：49-51.

[7] 吴新玲.基于贝叶斯方法的分类预测[J].计算机工程与应用, 2004(33)：195-197.

[8] 黄海新,吴迪,文峰.决策森林研究综述[J].电子技术应用,2016, 42(12)：5-9.

[9] 王春峰,万海晖,张维.基于神经网络技术的商业银行信用风险评估[J].系统工程理论与实践,1999(9)：24-32.

[10] 王蕴韬.人工智能算法梳理及解析[J].信息通信技术,2018,12(1)：63-68.

[11] 徐宏.基于眼底图像的糖尿病视网膜病变智能诊断[D].成都：电子科技大学,2019.

[12] SCHNECK M E, BEARSE JR M A,杨建刚.糖尿病视网膜病变进展的定位预测模型的形成和评估[J].世界核心医学期刊文摘：眼科学分册, 2005(4)：44.

[13] 刘小钰.基于Meta-分析Ⅱ型糖尿病并发症发病风险的Logistic回归模型研究[D].重庆：第三军医大学,2016.

[14] 何禹德.基于数据挖掘技术的糖尿病临床数据分析[D].长春：长春工业大学,2016.

[15] 孟祥英.2型糖尿病患者心脑血管疾病风险评分模型的构建及意义[D].上海：第二军医大学,2016.

[16] 曹文哲,应俊,陈广飞,等.基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J].中国医疗设备,2016, 31(3)：33-38,69.

[17] 彭晓智,黎宗保,吴佩娴.心肌酶谱与糖尿病视网膜病变相关性及其临床诊断价值研究[J].临床军医杂志,2018,46(8)：961-963.

[18] SARTORE G, CHILELLI N C, BURLINA S, et al. Association between glucose variability as assessed by continuous glucose monitoring (CGM) and diabetic retinopathy in type 1 and type 2 diabetes[J]. Acta Diabetologica,2013,50(3)：437-442.

Study on Prediction Model of Type 2 Diabetic RetinopathyBased on Machine Learning

FENG Qinqi1, PENG Boya2, LI Yaru2, ZHAI Xing2,3

To conduct risk prediction for type 2 diabetes complicated with diabetic retinopathy by constructing 9 commonly used machine learning models such as improving decision trees, decision forests, neural networks, support vector machines; To evaluate the model.The diabetes data set of National Health Science Data Center (Clinical Medicine) was used for statistical analysis with SPSS20.0 software, and the chi-square test andtest were used to screen the relevant factors of diabetic retinopathy into the prediction model. Azure Machine Learning Studio was used to build 9 binary classification models, and 10-fold cross-validation was used to test the algorithm performance. The model was evaluated with accuracy, precision, recall, F1 score, and AUC value as indicators.The influencing factors of diabetic retinopathy were obtained by chi-square test andtest. A total of 32 existing indicators such as age, SCR and other measurement data indicators were selected, and the indicator names and result fields were entered into the prediction model. It showed that the decision tree model has obvious advantages.In the 9 prediction models, the improved decision tree model has obvious advantages, and can provide some help for the screening and intervention research of high-risk population with type 2 diabetes complicated with diabetic retinopathy.

type 2 diabetes mellitus; diabetic retinopathy; machine learning; risk prediction

R259.872；R2-05

1005-5304(2021)06-0022-07

10.19879/j.cnki.1005-5304.201912483

国家自然科学基金（81603499）；中央高校基本科研业务费项目（2020-JYB-ZDGG-070）

翟兴，E-mail：zhaix@bucm.edu.cn

（2019-12-29）

（2020-02-08；编辑：陈静）