预测2型糖尿病并发颈动脉斑块的机器学习模型的建立

2020-01-19蒋伏松郑西川

医疗卫生装备 2020年1期

李桃，蒋伏松，陈霆，郑西川*

（1.上海交通大学附属第六人民医院计算机中心，上海 200233；2.上海健康医学院附属第六人民医院东院计算机中心，上海 201306；3.上海交通大学附属第六人民医院内分泌代谢科，上海 200233）

0 引言

2型糖尿病（type 2 diabetes mellitus，T2DM）的一个严重危害就是导致心脑血管疾病，甚至致死致残。动脉粥样硬化是心脑血管疾病发生的重要病理基础[1]，但其发病机制目前尚不明确[2]。研究显示，血脂、血糖、年龄、性别、吸烟、家族史以及一些炎症因子是动脉粥样硬化的重要影响因素[3]，但缺乏精确且高效的综合评判方法。由于研究结果的差异，关于这些因素中哪些最为关键也常常面临着争议[4-5]。在临床中常利用颈动脉斑块评判动脉粥样硬化。中国人发生心脑血管疾病具有一些与西方人不同的特征，在糖尿病易患性方面也存在差异，所以需要进一步了解我国T2DM患者发生颈动脉斑块的相关特点。

随着我国医疗事业的发展，各个医疗机构逐步积累了大量的临床资料和检验结果，但对这些数据的处理和应用也提出更高的要求。大数据和机器学习等技术近年来快速发展，将其应用到临床实践已取得很多有价值的成果[6-8]，特别是在糖尿病的个体化诊治中具有重要意义[8]。对T2DM患者颈动脉斑块发生发展的预测是提高防治效果的前提。因此，本研究拟通过数据挖掘和机器学习[9-10]对T2DM并发大血管病变的特征进一步研究，初步建立T2DM并发颈动脉斑块风险的预测模型，为控制这类患者的心血管事件风险因素和精准医疗提供依据。

1 数据来源及数据集

研究数据来源于医院信息系统（hospital information system，HIS）和临床信息系统（clinical information system，CIS），涵盖上海交通大学附属第六人民医院内分泌代谢科8 499例T2DM住院患者（2006—2012年），包括患者的性别（Gender）、年龄（Age）、身高、体质量、血压等基本信息及病程、实验室检查、颈动脉超声检查、腹部超声检查等临床参数。实验室检查主要包括谷丙转氨酶（ALT）、载脂蛋白A（ApoA）、载脂蛋白 A1（ApoA1）、载脂蛋白 B（ApoB）、载脂蛋白 E（ApoE）、天冬氨酸转氨酶（AST）、120 min C 肽（C-peptide 120）、30 min C 肽（C-peptide 30）、直接胆红素（DBIL）、糖尿病病程（Duration）、脂肪肝（FLD）、空腹血糖（FPG）、糖化白蛋白（GA）、糖化血红蛋白（HbAlc）、高密度脂蛋白（HDL）、高血压（Hyperten）、空腹胰岛素（INS）、120 min胰岛素（INS120）、30 min胰岛素（INS30）、低密度脂蛋白（LDL）、120 min血糖（PG120）、30 min血糖（PG30）、总胆红素（TBIL）、总胆固醇（TC）、甘油三酯（TG）。颈动脉斑块诊断标准为：超声检查显示颈动脉局限内中膜厚度≥1.5 mm。使用其中27个常用的相关临床参数（特征）作为数据集预测颈动脉斑块。为了方便预测模型的推广使用，根据各参数在各级医疗机构是否易于获取以及重要性而逐步减少数据的维数。如果使用较多维度，则缺失的值增多，导致可纳入分析的病例数减少；反之，随着维度的减少，可纳入分析的病例数量则增加。

2 数据处理的过程和方法

2.1 原始数据分析

在任何有效的预测方法实施之前，都需要解决原始数据存在的一些共性问题，即异构性、不完全性、噪声等。本文所采用的数据来源于几个医疗系统，主要是从HIS中收集基本信息，从CIS中获取生化数据，并从影像归档和通信系统（picture archiving and communication systems，PACS）中获取彩色超声诊断结果。因此，数据组成是多源异构的，但都有一个对应的共享列PatientId。数组和维度的详细组成如图1所示。

图1 数据结构示意图

需要注意的是，有相当多的意外值，例如“N/A”“？”“无”，这些可能是未知的、遗漏或错误输入的值，要根据一些算法做出删除或替换。例如，在基本数据集中，790 407个值包含247 917个意外值。

2.2 数据处理

由于上述原始数据的固有特性，本研究通过数据集成、数据精简、数据规范化的方法对数据进行初步处理，数据流如图2所示。原始数据充满了原始值，其中一些不相关的属性价值有限，如果不适当排除，容易降低颈动脉斑块预测模型的分析效能。因此，在本研究中初步选择缺失值相对较少的43个属性，并通过不同数据源的患者身份将数据集成到一个统一的矩阵中，然后根据它们的质量截断一些数据元组和维度，并通过归一化方法将数据转换成正态分布。另外，对于某些噪声，例如一些非常大、非常小或不相关的稀少值，不宜直接进行任何分析。

2.2.1 数据集成

数据集成包括合并不同来源的数据，并使用统一的用户界面。每个患者都有一个独特的身份，在原始数据中标记为PatientId，利用PatientId整合所需的来自不同的数据集的信息。对于生化和访问涌现数据，由于它们具有不同的结构组织，所以至少需要一个将行转换为列的递归过程。例如，生化项目存储在一列中（见表1），而本研究的分析模型需要将每个项目均作为一列（见表2），因此编制了一个枚举程序帮助完成行列转换。

图2 数据处理的数据流

表1 生化数据的结构

表2 横表结构（表1经枚举程序转换）

在数据集成过程中，首先选择了8 499个患者的43个特征作为初始矩阵（表示为m）。这些特征是根据 Fabris等[3]、Hong 等[4]和 Rocha 等[5]的研究选择的。有些特性的值是非结构化的（如非酒精性脂肪肝的结果被存储为文本格式），由不同的医生记录，并有不同的技术词汇来描述诊断。为了解决这个问题，本文采用正则表达式的方法来推断，并通过抽样进行人工检查。

2.2.2 数据精简

在数据集成之后，仍然存在一些不规则的值和重叠的特征，需要做数据精简以提高效率和降低成本。数据精简是最小化需要处理的数据量的过程。

首先，采用特征选择方法对特征进行筛选，简化分类模型，减少方差和训练时间，使其更易于理解。一些维数灾难和过度拟合的问题也可以通过特征选择技术来避免。本研究通过以下2个步骤进行特征筛选：第一步，去掉一些异常离散值，这些值大于算术平均数一个阈值（例如30%）。而“无”值也适用于这一规则，因为它们不仅对预测毫无贡献，还会降低模型的性能。通过这一步可以排除5个特征。第二步，使用树型策略改善数据的纯度，方法是计算特征重要性并根据特征的重要性排序选择。

其次，尽管已经删除了一些不相关的或价值低的特征，但仍然有一些遗漏的特征值得关注，如尿糖、家族史等。这些特征值可以通过平均数或其他基于模型的技术来估计。但基于真实的、可验证性的考虑，本文最终保留可用且没有缺失值的样本。

最终，数据矩阵m减至2 690行×9个特征和1 743行×27个特征之间。

2.2.3 数据规范化

数据规范化是将数据转换成统一格式的关键步骤，为大数据处理奠定了基础。由于临床数据来源不同、性质不同，不同的特征值以不同的格式记录。其中，有些特征是正态分布的连续变量，有些是离散变量；有些特征值极差非常大，有些则集中在一个小范围内，如血红蛋白值在50～232g/L范围内，载脂蛋白A1值在0.014～3.422mmol/L范围内。此外，这些特征还具有不同的度量单位、最大值和最小值。因此，本研究采用标准分数[11]来标准化，这种方法是衡量比较不同类别间偏差最常用的方法之一[12]。给定一个特征的值x，其标准得分z=（x-μ）/δ，其中 μ 是平均值，δ是数据的标准偏差。z的绝对值表示以标准偏差为单位的x与μ之间的距离。当x低于平均值时z为负，否则为正。

2.3 数据预测

预测过程是指采用各种统计技术，包括预测建模、机器学习、数据挖掘，分析当前和历史事实以预测未来或未知事件。本研究应用临床数据训练一个模型来预测颈动脉斑块。本研究所采用的集成学习算法是随机森林[13]，训练时构造大量的决策树[14-15]，输出的是类（分类）或每个树的平均预测（回归）模式的类[13]。采用这种算法的优点是易于实现，能够在不需要先验知识或输入准备的情况下快速学习。

随机森林的训练过程将自举汇聚法（或bagging）的一般技术应用于树学习者。假设训练集为X{x1，x2，…，xn，y}，它反复选择一个替换了训练集的随机样本，并对这些样本进行树拟合，其中K是重复数。这个过程的伪代码如下：

训练后，可以对所有单独回归树的预测进行平均，从而对未知样本x'进行预测，表示为（x′），其中fk表示决策树模型，x′表示测试值，yˆ表示预测结果。

3 实验

使用上面讨论的方法对真实的临床数据进行实验。

3.1 特征分析

经过数据分析和处理，成功地省略了一些非结构化数据，并使数据矩阵m与它们的标签相关。对于这些密切相关的特性，通过随机森林算法对其重要性进行排序，其中年龄、低密度脂蛋白、空腹胰岛素一直是重要的贡献因素（如图3所示）。

图3 不同特征数的重要性

此外，基于医生的经验知识，进一步压缩特征集，目的是在保持预测精度的同时使用较少的特征（便于临床实践推广）。图3描述了收缩集的特征及其重要性，以及降维过程。由图3可以看出，低密度脂蛋白、年龄、空腹胰岛素是预测T2DM患者是否合并颈动脉斑块的重要特征。这一结果基本上与大多数医生的经验知识和前期研究一致[2，5-6]。

3.2 预测

随机选取一部分（约60%）的数据（DataNum）来训练分类器，剩余部分（TestNum）预测其类别。表3显示了不同特征数的结果。从表3可以看出，预测精度保持在75%以上。在最小集（9个特征）中，颈动脉斑块的预测精度为80.0%，说明9个特征数模型可以利用较少的检查项目而保持较高的预测精度。而使用相同的DataNum，二元Logistics回归模型的预测精度为68.2%～69.1%。

4 讨论

大数据技术具有广泛的应用价值，已经有很多研究者将大数据方法用于临床医学的研究中[9-10，16]。本研究根据已知的一些影响动脉粥样硬化的因素，使用数据挖掘技术分析了住院T2DM患者的真实临床资料，发现在不同维度的6个模型中，低密度脂蛋白、年龄、胰岛素、甘油三酯、总胆固醇、高密度脂蛋白、空腹血糖、糖化血红蛋白、糖尿病病程这9个变量均有较高权重。其中低密度脂蛋白、年龄、空腹胰岛素一直占有更高的权重，这提示在临床中应对其给予更多的关注。为了提高模型的可用程度便于推广，一些权重相对低的影响因素在降维（减少特征数量）的过程中被剔除，如性别、高血压。这可能会引起争议，但颈动脉斑块预测模型中性别和高血压确实不是强的预测因素。根据研究结果，在包含9个维度的变量的模型中如果预测结果是阳性，即使血压正常，仍强烈建议做颈动脉超声来明确该患者是否有颈动脉斑块。

表3 选择不同特征数的预测结果%

在起初的模型设计中，未将吸烟、心血管疾病家族史等重要因素纳入。因为这些因素的采集和考量均比较困难，比如烟龄、烟的品种、吸烟量、戒烟以及戒烟的次数等，而且容易发生回忆偏倚。为了方便模型推广，本文还根据数据是否容易获取而在降维的过程中去除一些变量，比如腹部的超声、餐后30 min或餐后120 min的血糖和胰岛素等。值得欣慰的是，本模型最终获得了80.0%的预测精度。一般来说，大数据分析的过程中，纳入相关的特征越多越有利于预测[9]。本研究中，降维后预测的精度反而略微升高。这是由于数据库有一定的缺失值，降维后纳入的样本量有了一定的提升，弥补了不足。另一方面也说明本文采取的这种降维方法是可取的。

与二元Logistics回归预测模型相比，本研究采用模型的预测精度有了明显的提升。在二元Logistics回归模型中使用和本研究模型同样的样本和特征，但预测准确度均不到70%。但在本模型中，不能反映某个特征的数值增高是颈动脉斑块的风险因素还是保护因素，这方面仍有赖于传统的统计方法。随着时间和数据的积累，以及医学大数据采集效率的提升，本模型的数据量还会大大增加，从而进一步完善模型的质量。当然，对T2DM患者是否有颈动脉斑块的预测与直接预测发生心脑血管事件以及相关死亡率并不是同一研究课题，这方面的关联有待于进一步研究验证。

5 结论

通过本研究的分析发现，根据一些常见的临床指标，使用大数据方法可以较好地预测T2DM患者是否罹患颈动脉斑块。采集低密度脂蛋白、年龄、空腹胰岛素、甘油三酯、总胆固醇、高密度脂蛋白、空腹血糖、糖化血红蛋白、糖尿病病程等数据相对经济，属于管理糖尿病患者的必须随访的项目，在基层的医疗机构也可方便地获取。另外，根据本文的模型，提示临床工作中需加强对T2DM患者低密度脂蛋白水平、胰岛素水平和年龄的关注，做好T2DM患者颈动脉斑块的早发现和早预防。