机器学习在心血管疾病中的临床应用进展
2021-12-05王苏淮李晶洁
王苏淮 李晶洁,2
(1.哈尔滨医科大学附属第一医院,黑龙江 哈尔滨 150000; 2.哈尔滨医科大学附属第一医院心内科,黑龙江 哈尔滨 150000)
1 机器学习概述
1.1 简介
人工智能(artificial intelligence,AI)是研究计算机模拟人的思维过程和智能行为的学科,已在多个领域得到了广泛应用。机器学习(machine learning,ML)作为AI的核心,不仅涉及信息技术领域,目前也逐渐成为医学领域的重要研究手段[1-6]。
1.2 算法
1.2.1 ML算法分类
ML主要分为监督学习和无监督学习。目前临床医学最常用的是监督学习算法,通过学习一组包含输入对象(通常为矢量)和期望的输出值(也称为监督信号)的标签数据集,产生具有推断功能的模型,然后将模型应用于未知数据集,达到分类或回归的目标(当目标变量是分类变量时,完成分类;当目标变量是连续性数值时,完成回归)。常用的监督学习算法包括K-近临(KNN)、支持向量机(SVM)、决策树、随机森林(RF)、逻辑性回归、提升法(Boosting)和人工神经网络(ANN)等[7-8]。无监督学习是在无标签的输入数据集中发现其自然关系和分组。常用的无监督学习算法包括K均值聚类、分层聚类和主成分分析等。
1.2.2 ML的一般流程
ML的一般流程主要包括以下几个方面:(1)数据采集;(2)数据预处理;(3)特征提取;(4)特征选择;(5)根据数据特征选择不同ML算法;(6)构建ML模型并评估其性能[5]。输入的数据集通常被划分为训练、验证和测试集:训练集包含大量变量,用于模型的开发;验证集用于微调模型的超参数;测试集则输入到构建的ML模型中,用于性能的评估[9]。
2 ML在心血管疾病医学中的应用
在临床医学领域,ML主要通过分析患者的复杂多维数据(如电子病历记录[10-11]、实验室指标[12]和辅助检查成像[13-16]等),以非线性和高度交互的方式组合变量,对疾病进行诊断分类[11,17]、预测[10,18-19]和构建风险模型[9,20-21]以辅助医生决策[22-23]。
近几年关于ML与心血管疾病的研究成为热点,以下将对心血管病学中应用ML的几个领域进行阐述。
2.1 心电图
心电图(electrocardiography,ECG)信号是评估心脏功能最常用的临床工具之一,其优点是无创且价格低廉。临床实践中,ECG信号通常由专业的电生理学家来判读,耗时且高度依赖于个人经验。在新的技术医疗时代,ML可对ECG信号进行有效量化和分析,最大程度地从心电图数据集中提取信息以帮助临床医生评估患者风险[24]。
ML通过对ECG信号进行处理、分割、特征提取和学习分析,达到心律分类或预测疾病的目的,最常用的ML算法是ANN和SVM。如Li等[25]分析了MIT-BIH公共数据库的360组ECG数据集,通过小波包分解统计方法提取了48个ECG特征,然后使用遗传算法结合反向传播神经网络的ML方法,将心律分为六类:正常搏动(N)、左束支传导阻滞(L)、右束支传导阻滞(R)、房性期前收缩(A)、起搏心律(P)和室性期前收缩(V)。分类准确率为97.8%,敏感性为97.9%,特异性为99.5%,阳性预测值为97.8%。Yildirim等[26]也分析了MIT-BIH数据库中45例患者的1 000个ECG片段,把原始ECG信号输入到16层深度卷层神经网络算法中,将心律分为17种,分类精度为91.3%,分类时间为0.015 s。近年来的研究多采用离散小波变化的方法对ECG信号进行形态特征的提取,如Qin等[27]利用此方法提取了MIT-BIH数据库中107 049次ECG搏动的形态特征,结合ECG信号的时域特征,使用优化后的SVM算法,完成了同上所述的六种心律分类:N、L、R、A、P和V,分类敏感性为99.1%,特异性为99.8%。
此外,除了心律分类外,也有研究通过分析ECG信号进行疾病的预测。如Mjahad等[28]将ECG时频图像数据直接输入到四种ML分类器(逻辑性回归、ANN、SVM和装袋法),以预测心室颤动和室性心动过速的发生,心室颤动预测的敏感性为95.6%,特异性为98.8%;室性心动过速预测的敏感性为88.8%,特异性为99.5%。Ebrahimzadeh等[29]则从心房颤动预测数据库中选取了53对ECG记录的106个信号,对心率变异性信号进行了特征提取,结合四种ML算法预测心房颤动的发生,其中最优的混合专家分类法预测敏感性、特异性和准确性分别为100%、95.6%和98.2%。同时,ECG在冠心病方面的应用也逐渐增加。如Park等[30]选取了欧洲ST-T数据库中90个ECG记录的367个缺血性ST段,提取了3个特征,使用核密度估计和SVM算法预测心肌缺血,其中最优性能SVM的敏感性和特异性分别为94.1%和92.3%。另有Simjanoska等[31]首次提出应用ECG信号特征结合七种ML算法预测收缩压、舒张压和平均动脉压;Sengupta等[32]利用信号处理过的心电图提取特征,输入至RF分类器中预测心肌异常松弛,预测敏感性和特异性分别为80.0%和84.0%,曲线下面积(AUC)为0.91(95%CI0.86~0.95)。以上研究都说明了ECG结合ML算法在心血管疾病领域拥有着广泛的应用前景。
2.2 成像
图片成像作为心血管疾病诊断和指导治疗的辅助工具在临床上无处不在,ML算法与检查成像的结合进一步提高了诊疗的准确性和及时性。
Narula等[33]使用斑点超声心动图数据,结合三个ML算法(SVM、RF和ANN)构建模型以鉴别肥厚型心肌病和运动员生理性肥厚。研究纳入139例男性受试者,77例生理性和62例肥厚型心肌病患者,使用信息增益进行特征选择,确定左心室容积,左心室中段纵向应变、平均纵向应变和左心室中段径向应变为最佳预测指标。Khamis等[34]证明采用时空特征提取和监督字典学习方法可提高心脏超声图的分类精度。作者研究了309个由专家标记过的心脏超声图,使用ML算法对心尖二腔室图,心尖四腔室图和心尖长轴室图的分类准确率分别为97.0%、91.0%和97.0%。
此外,Mannil等[35]开发了基于心脏计算机断层摄影成像数据的ML模型以预测心肌梗死,使用纹理分析的方法对图像数据进行量化,采用KNN算法得到了最佳效能(敏感性69.0%,特异性85.0%,假阳性率15.0%,AUC值0.78)。Arsanjani等[36]则通过结合临床数据和心肌灌注断层显像的定量图像数据作为特征,输入到Boosting算法中预测疑似冠心病患者的血运重建,预测敏感性为73.6%±4.3%,特异性为74.7%±4.2%,AUC为0.81±0.02。
ML与多种辅助检查成像的结合使用,可帮助初学者做出更精准的临床诊断并有望应用到医疗资源紧缺的地方。
2.3 风险预测模型
因ML使用的非线性和交叉学习模式弥补了传统分析线性和主观选择特征的不足,已被广泛应用于构建临床风险预测模型。在心血管疾病领域,ML主要致力于预测患者的死亡率、再入院率和不良临床事件的发生率。如Motwani等[21]研究了10 030例疑似冠心病患者的25个临床和44个冠状动脉CT血管成像参数,进行信息增益法则排名,选取重要特征,然后输入至Boosting集成算法预测患者5年全因死亡率,ML预测模型的AUC为0.79,优于传统的弗雷明汉风险评分等评估方法。Barrett等[37]从重症监护医学信息中心(MIMIC-Ⅲ)数据库中获取了5 037例由急性心肌梗死收入ICU的患者数据表,结合逻辑回归模型预测了患者一年死亡率,预测准确度为85.1%,AUC为0.90。Frizzell等[38]对56 477例心力衰竭患者数据进行变量选择后,使用了贝叶斯网络、RF、梯度增强、逻辑性回归和LASSO回归五种ML算法,预测心力衰竭患者30 d再入院率,预测的C统计量分别为0.62、0.61、0.61、0.62和0.62,与传统的预测模型相比无明显优势。Wu等[20]筛选了508例年轻高血压患者的58个变量,通过递归特征消除法选择11个重要变量,结合极端梯度增强法构建了预测临床不良后果事件的ML模型,并将模型的性能与传统Cox回归和弗雷明汉风险评分模型相比,C统计量分别是0.76(95%CI0.66~0.85)、0.72(95%CI0.64~0.81)和0.53(95%CI0.40~0.66)。
ML通过分析大量丰富的临床变量来评估患者风险,往往能收获性能更优的预测模型,这对于临床医生决策和改善患者预后都具有重要意义。
3 ML的局限性
尽管ML在医学上得到了广泛应用,但其仍有局限性。首先,ML需大量数据,在医学中获取大量标签数据可能具有挑战性;其次,ML算法使用人类收集和标记的数据进行训练,由于人为的主观选择性可能出现选择偏倚;最后,许多ML算法如RF,工作时像一个“黑匣子”,计算过程难以被全面理解,导致医生难以完全相信基于ML推荐的意见,也很难发现其错误的推荐[39]。
4 ML的展望与未来
合理高效地使用ML可实现高精度的自动诊断以及预测疾病转归,以此辅助临床医生决策,在节省大量时间的同时可降低临床错诊率。因此,在医疗系统中对ML的需求势必会继续增长。