2 型糖尿病患者亚临床动脉粥样硬化的多层人工神经网络分类预测模型的构建
2021-11-15汪奇刘尚全
汪奇,刘尚全
国际糖尿病联盟资料显示,近年来我国糖尿病患者数量逐年增多,现有糖尿病患者数量已达1.14 亿[1]。研究表明,动脉粥样硬化性心血管疾病(atherosclerotic cardiovascular disease,ASCVD)是导致2 型糖尿病(type 2 diabetes mellitus,T2DM)患者死亡的主要原因,而动脉粥样硬化是ASCVD 的主要病理改变,早期预防及发现动脉粥样硬化可降低T2DM 患者ASCVD 发生率,延长T2DM 患者生存期[2]。
颈动脉为动脉粥样硬化好发部位,而颈动脉内-中膜厚度(carotid intima-media thickness,CIMT)增加或斑块形成可作为亚临床动脉粥样硬化的诊断依据[3-4],但由于亚临床动脉粥样硬化早期常无明显临床症状,因此很多T2DM 患者出现临床症状或就诊时已进展为严重动脉粥样硬化,对其长期生存期已造成影响[5]。美国心脏病协会相关指南指出,CIMT 不仅是脑梗死的危险因素,也是无ASCVD 人群发生ASCVD 的重要预测因子[6]。
《中国2 型糖尿病防治指南(2017 年版)》[7]虽强调尽早对新诊断的T2DM 患者进行微血管并发症筛查,但未明确大血管病变并发症的筛查时间[5]。基于机器学习方法[8]可构建分类或回归模型,而依托大数据学习可根据多项生理指标预测T2DM 患者亚临床动脉粥样硬化发生风险且不需要额外的检查手段,这或可作为一种低成本、辅助性T2DM 患者亚临床动脉粥样硬化发生风险评估工具。目前,机器学习模型中的Logistic模型已被广泛用于多变量分类和回归分析[8-10]。本研究旨在依据多项指标构建预测T2DM 患者亚临床动脉粥样硬化的多层人工神经网络分类模型并验证其预测准确性。
1 对象与方法
1.1 研究对象 选取2010 年1 月至2016 年12 月在安徽医科大学第三附属医院〔合肥市第一人民医院(含滨湖院区)〕住院的T2DM 患者3 627 例,均符合《中国2 型糖尿病防治指南(2017 年版)》[7]中的T2DM 诊断标准,行双侧颈动脉超声检查且血脂指标数据完整。排除标准:(1)糖尿病急性并发症及其他内分泌疾病;(2)冠心病、脑梗死;(3)恶性肿瘤;(4)严重肝、肾功能异常及感染性疾病;(5)妊娠。
1.2 亚临床动脉粥样硬化的判断标准 以双侧颈动脉彩色多普勒超声检查发现任意一侧CIMT>0.09 cm 或斑块形成为亚临床动脉粥样硬化。本研究在3 627 例T2DM 患者中共检出亚临床动脉粥样硬化者2 196 例(观察组),未检出亚临床动脉粥样硬化者1 431例(对照组),检出率为60.55%。
1.3 观察指标
1.3.1 一般资料 收集所有患者一般资料,包括性别、年龄、病程、身高、体质量、血压(包括收缩压、舒张压)、吸烟情况(包括吸烟史、吸烟时间、吸烟量)、饮酒情况(包括饮酒史、饮酒时间、饮酒量)、糖尿病家族史、高血压病史;计算体质指数(BMI)。
1.3.2 实验室检查指标及脂肪肝发生情况 抽取所有患者禁食8~12 h 后晨起空腹静脉血并采用全自动分析仪完成实验室检查指标检测,包括总胆红素、直接胆红素、间接胆红素、总蛋白、白蛋白、球蛋白、丙氨酸氨基转移酶、天冬氨酸氨基转移酶、总胆汁酸、尿素氮、肾小球滤过率、血肌酐、血尿酸、胱抑素C、尿微量白蛋白排泄率、三酰甘油、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、三酰甘油/高密度脂蛋白胆固醇比值、低密度脂蛋白胆固醇/高密度脂蛋白胆固醇比值、白细胞计数、中性粒细胞计数、淋巴细胞计数、红细胞计数、血红蛋白、促甲状腺激素、游离三碘甲状腺原氨酸、游离甲状腺素、糖化血红蛋白、空腹血糖、空腹C 肽、稳态模型评价(homeostasis model assessment,HOMA)-C 肽指数。分析所有患者脂肪肝发生情况并判断脂肪肝严重程度(分为不严重和严重两类)。
1.4 多层人工神经网络分类模型 本研究Logistic 模型只有1 个输入层和1 个输出层,没有中间的隐藏层,可视为最简单的人工神经网络(图1A)。多层人工神经网络分类模型即带有多个隐藏层的人工神经网络(图1B),是一种深度学习模型,可将输入变量映射到高维非线性空间、学习到多个输入变量之间的复杂相关性,进而提高预测准确性[11]。
图1 Logistic 模型和多层人工神经网络分类模型示意图Figure 1 Diagrammatic drawing of Logistic model and multi-layer artificial neural network classification model
1.5 统计学方法 采用双录入方式录入数据并采用EpiData 3.1 软件建立数据库。采用SPSS 26.0 统计学软件进行数据分析。非正态分布的计量资料以M(P25,P75)表示,组间比较采用非参数检验。计数资料以相对数表示,组间比较采用χ2检验。以P<0.05 为差异有统计学意义。
2 结果
2.1 一般资料、实验室检查指标及脂肪肝发生情况两组患者BMI、舒张压、有吸烟史者所占比例、有饮酒史者所占比例、饮酒量、直接胆红素、总蛋白、天冬氨酸氨基转移酶、血尿酸、三酰甘油、低密度脂蛋白胆固醇/高密度脂蛋白胆固醇比值、促甲状腺激素、游离三碘甲状腺原氨酸、游离甲状腺素、糖化血红蛋白、空腹血糖、空腹C 肽、HOMA-C 肽指数、严重脂肪肝所占比例〔对照组为28.33%(185/653),观察组为30.64%(274/894),χ2=0.95,P=0.329〕比较,差异无统计学意义(P>0.05);观察组患者女性所占比例、收缩压、有高血压病史者所占比例、球蛋白、总胆汁酸、尿素氮、血肌酐、胱抑素C、尿微量白蛋白排泄率、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、白细胞计数、中性粒细胞计数高于对照组,年龄、吸烟量大于对照组,病程、吸烟时间、饮酒时间长于对照组,有糖尿病家族史者所占比例、总胆红素、间接胆红素、白蛋白、丙氨酸氨基转移酶、肾小球滤过率、三酰甘油/高密度脂蛋白胆固醇比值、淋巴细胞计数、红细胞计数、血红蛋白、脂肪肝发生率低于对照组,差异有统计学意义(P<0.05),见表1。
2.2 多层人工神经网络分类模型的构建
2.2.1 输入层 理论上,应将表1 中差异有统计学意义的30 项指标选为输入变量,但鉴于显著性检验无法保证完整反映变量间复杂的因果和依赖关系,因此结合临床实际后,本研究亦将表1 中差异无统计学意义的19 项指标选为输入变量,最终共得到49 项输入变量。先将每项输入变量归一化为0~1,缺项则填补为-1,然后彼此相连构成1 个输入向量,即x=(x1,x2,…,x38)。
表1 两组患者一般资料、实验室检查指标及脂肪肝发生情况比较Table 1 Comparison of general information,laboratory examination results and incidence of fatty liver between the two groups
2.2.3 输出层 输出层利用1 个矩阵W0将残差层q 转化为似然向量o,即o=W0·q。o 是1 个二维向量,其第1 个元素o[0]表示T2DM 患者无亚临床动脉粥样硬化的似然值,其第2 个元素o[1]表示T2DM 患者有亚临床动脉粥样硬化的似然值;若o[0]>o[1]则判定T2DM 患者无亚临床动脉粥样硬化,若o[0] 研究表明,心脑血管事件是导致T2DM 患者死亡的主要原因[2],而亚临床动脉粥样硬化是ASCVD 的前期病理生理改变,因此早期发现亚临床动脉粥样硬化及动脉粥样硬化并进行干预可有效延缓T2DM 患者大血管并发症的发生。现阶段,相关指南尚未明确T2DM 患者大血管并发症的筛查时间[3],因此对于T2DM 患者,在无明确筛查标准的情况下,对不需要常规筛查颈部血管彩超者进行筛查可能会造成医疗资源的浪费,而对于部分缺少颈部血管彩超的基层/社区医院,有些患者常因错过最佳的亚临床动脉粥样硬化评估时机而导致临床治疗延误。为使筛查效益最大化,亟须建立简便、经济、有效的亚临床动脉粥样硬化筛查方法。 Logistic 模型对多元共线性十分敏感,需不断地对输入变量进行筛选,最终得出的是独立危险因素或保护因素,可能会导致一些信息丢失。多层人工神经网络分类模型多元共线性不敏感,可根据假设检验结果及临床经验纳入输入变量甚至将个体有关信息全部纳入,有利于减少个体差异,与Logistic 模型相比可能更适用于亚临床动脉粥样硬化的筛查。本研究通过对大样本(3 627 例T2DM 患者)数据进行分析发现了30 项对亚临床动脉粥样硬化有影响的指标并选为输入变量,结合临床后又将19 项可能对亚临床动脉粥样硬化有影响的指标选为输入变量,进而构建出T2DM 患者亚临床动脉粥样硬化的多层人工神经网络分类模型;在测试集上,Logistic 模型预测T2DM 患者亚临床动脉粥样硬化的准确率为59%,而多层人工神经网络分类模型隐藏层数分别为1、2、3、4 时预测T2DM 患者亚临床动脉粥样硬化的准确率分别为61%、67%、76%、74%,表明多层人工神经网络分类模型对T2DM 患者亚临床动脉粥样硬化预测准确性更高,适于在临床上推广、应用。 根据深度学习理论[11],多层人工神经网络分类模型隐藏层数量增多时可将输入变量转化到复杂的非线性空间中并得到更有效的向量,对输入变量间的复杂、依赖关系具有更好的建模和抽象能力,分类性能更优;Logistic 模型只有输入、输出层,没有隐藏层,无法处理复杂的逻辑关系。本研究结果显示,多层人工神经网络分类模型隐藏层数为3 时预测T2DM 患者亚临床动脉粥样硬化的准确率为76%,较Logistic 模型提高了15%,符合深度学习理论。本研究结果还显示,多层人工神经网络分类模型隐藏层数从1 增加至3 时预测T2DM 患者亚临床动脉粥样硬化的准确率从61%升高至76%,但隐藏层数从3 增加至4 时预测T2DM 患者亚临床动脉粥样硬化的准确率则从76%降低至74%,分析主要与训练集样本有限(3 027 例T2DM 患者)有关;此外,隐藏层数增多意味着参数增多,样本量不足时可能导致过拟合及泛化性能下降。 综上所述,本研究成功构建的多层人工神经网络分类模型对T2DM 患者亚临床动脉粥样硬化的预测准确率较高,分类性能与Logistic 模型相比更优,但由于医学大数据具有高度复杂性和个体差异性,因此该模型尚存在一些不足与尚待改进之处:(1)现有训练集样本有限,易导致过拟合且深度无法进一步加深,限制了分类性能的进一步提升,笔者下一步研究拟将训练集样本扩充至>20 000 例以助益模型深度学习;(2)虽然多层人工神经网络分类模型的预测准确率较高,但尚不具备可解释性,难以将输入变量间的因果和依赖关系外显化为相关领域知识。因此,多层人工神经网络分类模型的可解释性研究已在学术界掀起热潮[15],今后研究应进一步探索和解释多个输入变量与T2DM 患者亚临床粥样硬化症状之间的内在联系,并尝试将该模型用于T2DM 患者其他并发症研究。 作者贡献:汪奇进行文章的构思与研究的设计、数据收集与统计学处理,负责论文撰写、质量控制及审校;刘尚全对文章整体负责、监督管理。 本文无利益冲突。3 讨论