机器学习在构建高血压风险模型中的研究进展

2021-11-30吴静洁杨丽黎

护理与康复 2021年2期

吴静洁,杨丽黎

1.浙江大学医学院，浙江杭州 310029；2.浙江大学医学院附属邵逸夫医院，浙江杭州 310016

据世界卫生组织(WHO)报道，截至2015年,全球约有11.3亿人患有高血压，其中2/3分布在中低收入国家[1]。高血压会增加心、脑、肾及其他疾病的风险，是导致全球人口过早死亡的一个主要原因，给医疗和社会事业带来巨大的经济损失[1-3]。尽早识别个体患高血压的风险并对其进行针对性的疾病预防，在促进个体健康和减少医疗护理负担方面格外重要。机器学习是一种使用迭代识别数据模式自动分析数据并从中学习的算法[4-5]，在筛选糖尿病视网膜病变及相关眼病[6]，预测急性肾损伤[7]、心血管疾病[8-9]等方面被证实具有良好的性能。本文通过对国内外高血压领域中采用机器学习构建风险预测模型相关研究进行综述，以期为深入开展高血压防治研究提供借鉴。

1 机器学习概述

1.1 机器学习分类

机器学习特点为从经验中学习，并随着学习提高技能[5]。与传统统计学方法相比，现代的机器学习使用大量数学运算来更好地定义预测因子与结果间的复杂关系。根据学习种类可分为三种类型：监督学习、无监督学习以及强化学习[10]。目前，国内外研究中应用于高血压风险预测模型构建的机器学习算法均属于监督学习。监督学习是指计算机从环境中获取信息，由环境提供对错指示并告知最终答案的过程[10]，最终目的是使计算机根据在学习过程中获得的经验，对没有学习过的问题也可做出正确解答。

1.2 机器学习建模步骤

数据集又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。模型构建前将数据集随机分为训练集、调整集和验证集。训练集用于开发机器学习模型，通过迭代更新参数直至得到最适合该集合的模型；调整集用于调整模型参数；验证集用于模型进行临床应用前评估性能[11]。建模步骤一般为：先通过Logistic回归分析等统计学方法或机器学习算法筛选出对结局变量具有显著效应的自变量，成为模型的预测因子；再根据数据集特征选择合适的机器学习算法，由算法自动分析训练集数据后构建出风险预测模型；最终以诊断疾病的金标准对预测结果进行验证，得出模型的敏感度、特异度、接收者操作特征曲线下面积(AUC)等统计学指标，进而判断模型性能。

1.3 机器学习算法

算法是指用系统的方法解决问题的系列策略机制[12]。机器学习有多种分类算法，包括Boost算法(分为Logitboost、Real Adaboost、Gental Adaboost等)、支持向量机、决策树(包括分类树和回归树)、随机化森林、贝叶斯(包括朴素贝叶斯、贝叶斯网络、增强朴素贝叶斯、局部加权朴素贝叶斯等)、人工神经网络等。Boost算法的本质在于通过多个简单的弱分类器，构建出准确率很高的强分类器[13]。支持向量机使用铰链损失函数计算经验风险，并在求解系统中加入了正则化项以优化结构风险，是一类对数据进行二元分类的广性分类器[14]。决策树利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析，本质上是通过一系列规则对数据进行分类的过程[15-16]。随机化森林是由多个决策树模型组成的组合分类模型，在给定数据集下，每个决策树分类模型都有1票投票来选择最优的分类结果，根据投票结果来决定最终分类[15]。贝叶斯依据条件独立性假设，通过计算目标先验概率，采用贝叶斯定理求出其后验概率，也就是该对象属于某类的概率，对后验概率进行比较，完成决策分类[17]。人工神经网络是一种模仿生物神经网络的结构和功能的数学模型或计算模型，结构包括输入层、隐层和输出层，原理是把上层节点的值加权平均到下层节点，最终到输出层节点，然后误差大小反馈回前面的层，再重新加权平均，如此反复训练，直到误差在允许范围之内[15]。

2 机器学习在构建高血压风险预测模型中的研究现状

2.1 应用机器学习构建高血压风险预测模型

Pei等[18]以北京某社区卫生服务中心1 200例高血压患者及健康人群的数据，采用支持向量机算法建模并分析其性能。通过Logistic回归纳入9个环境因子(身高、体质量、性别、年龄、职业、吸烟史、酗酒史、家族高血压史、家族心血管病史)和12个基因遗传因子，构建出正确率80.1%，敏感度63.3%，特异度86.7%，AUC为0.886的高性能模型。研究表明，使用支持向量机算法建模时，选用合适函数对模型性能尤为重要，且综合多方面预测因子的模型相较于单方面预测因子的模型具有更佳性能。Nimmala等[19]应用印度某医疗中心1 000例高血压患者及健康人群的数据，采用决策树、随机化森林、朴素贝叶斯算法建模并分析其性能，纳入年龄、愤怒、焦虑、肥胖、总胆固醇水平共5个预测因子，结果显示，使用随机化森林(正确率87.5%)、决策树(正确率83.3%)的模型均有良好性能。Golino等[20]应用巴西某州私立大学、年龄16～63岁不等的400例学生的数据，采用决策树算法构建高血压风险预测模型并分析其性能，纳入体质指数(BMI)、腰围、臀围和腰臀比共4个肥胖相关因子，研究结果显示，在肥胖指标中，BMI是高血压最佳的预测因子，综合BMI、腰围和腰臀比3项指标可提高女性模型的性能(敏感度80.86%，特异度81.22%)，综合BMI、腰围、臀围和腰臀比4项指标可提高男性模型的性能(敏感度72%，特异度86.25%)。由此可见，机器学习是作为构建风险预测模型有效且可靠的方法之一，年龄、性别、肥胖、血生化指标、家族史、精神因素、不良嗜好是高血压风险模型中常见的预测因子，综合多方面预测因子可提高模型性能。

2.2 不同机器学习算法间的比较

Sakr等[21]应用1991年至2009年在亨利·福特健康机构进行跑步机运动压力测试并进行10年随访的23 095例患者的数据，采用Logitboost、贝叶斯网络、局部加权朴素贝叶斯、人工神经网络、支持向量机和随机化森林这6种机器学习算法建模并对比分析其性能，纳入了年龄、跑步消耗能量值、静息收缩压、峰值舒张压、静息舒张压、冠状动脉疾病、测试原因、糖尿病史、高脂血症史、心率、种族、阿司匹林使用、高血压反应在内的共13个环境和运动因子，结果显示，随机化森林在6种算法中的综合性能最佳(敏感度75.0%，特异度86.2%，AUC为0.89)，支持向量机的敏感度(28.2%)在6种算法中最差，贝叶斯网络的特异度在6种算法中最差(79.8%)。说明机器学习算法的复杂性和预测精度间未必呈正相关，关键是选择最合适的算法。

2.3 机器学习算法和统计学方法的比较

针对机器学习算法和统计学方法预测性能优劣问题，尚存争议。杨洋[22]应用辽宁省某农村4 126例原发性高血压患者流行病学调查资料，对人工神经网络算法和Logistic回归在高血压风险预测中的性能进行对比分析。通过Logistic回归纳入胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、血糖、血清钙、年龄、性别、体质量、父母高血压、父母脑卒中、父母冠心病、每月进盐量、吸烟与否、吸烟量、吸烟年限、饮酒与否、饮酒量、饮酒年限、血压差、BMI、民族共22个预测因子，结果显示，对于高血压，人工神经网络(正确率80.30%，敏感度76.16%，特异度84.48%，AUC为0.800)的预测能力略优于Logistic回归(正确率78.42%，敏感度76.62%，特异度80.45%，AUC为0.782)，因此在高血压风险预测中，人工神经网络可以作为Logistic回归的必要补充。Nimmala等[19]对比分析了决策树、随机化森林、朴素贝叶斯算法和Logistic回归在高血压风险预测中的性能，发现使用随机化森林算法(正确率87.5%)比Logistic回归(正确率71.0%)更具优势。然而，Heo等[23]应用第6次韩国国民健康与营养调查中8 212例高血压患者和健康人群的数据，采用Logistic回归及朴素贝叶斯、决策树算法构建高血压风险预测模型，纳入人口测量学、血生化指标、肺活量3个方面预测因子，结果表明，使用Logistic回归的模型具有最佳性能(Logistic回归的男性AUC为0.777、女性AUC为0.845，朴素贝叶斯的男性AUC为0.748、女性AUC为0.833，决策树的男性AUC为0.698、女性AUC为0.796)。Xu等[24]的研究发现，采用人工神经网络(AUC为0.767)构建高血压风险预测模型的性能优于Cox回归(AUC为0.765)，但并非所有机器学习算法性能都优于Cox回归。目前，绝大多数研究证明机器学习算法构建模型的性能优于或略优于统计学方法，部分导致机器学习算法构建模型性能劣于统计学方法的原因可能是算法或预测因子选择不当或不全、数据来源存在偏倚、样本量不足等。

2.4 机器学习的临床应用

现有研究证明，转变生活方式[25]和规律药物治疗[2，26]可有效预防高血压及心血管病。因此，在临床应用风险预测模型以评估和预警健康人群的高血压发病风险显得非常有意义[27-28]。机器学习可通过计算机辅助增强临床工作者的决策[28]，且相较传统统计学方法，具有强大的解决共线性效应和变量间交互作用的能力[8,22]，是建模有效且可靠的方法之一。有学者在美国缅因州分别收集823 627名个体和680 810名个体的血压信息用于回顾性和前瞻性研究，用机器学习算法开发出一个高性能的高血压风险预测模型(回顾性研究中AUC为0.917，前瞻性研究中AUC为0.870)，目前已用于缅因州的高血压防控中，并有望提高当地的高血压护理水平[29]。

3 结语

机器学习具有强大的数据处理和结局预测能力，是构建各类疾病风险预测模型有效且可靠的方法。目前，国内外已开展了选用不同机器学习算法构建高血压风险预测模型的多项研究，综合多方面预测因子及选择合适算法对提高模型性能至关重要，现已筛选并验证了年龄、性别、肥胖、血生化指标、家族史、精神心理、不良嗜好等预测因子，以及随机化森林和人工神经网络等具有良好性能的机器学习算法。由于机器学习算法和传统统计学方法间的性能比较尚存争议，仍需对两种方法进行深入研究。目前开展的研究重视风险预测模型的构建，相对缺乏模型应用方面的讨论，考虑与临床工作者缺乏机器学习知识有关，建议医院科教部门开设相关培训课程，以便临床工作者能正确筛选、验证并应用模型。