基于大数据分析的心力衰竭诊疗研究进展
2018-01-23于佳女郭树彬
于佳女,沙 悦,郭树彬
1中国医学科学院 北京协和医学院 北京协和医院普通内科,北京 100730 2首都医科大学北京朝阳医院急诊科,北京 100020
心力衰竭是一种重要的公共健康问题,该病患病率、死亡率、医疗费用均较高。据2017年美国心脏协会发布的心脏病与脑卒中统计数据显示,2011至2014年美国共有650万例心力衰竭患者,预计2030年患者数量将增至800万,而死亡统计数据显示,美国约1/8死亡医学证明上含有心力衰竭诊断,2012年美国因心力衰竭产生的医疗费用高达307亿美元[1],目前亟待新的研究提高心力衰竭的诊疗水平。
近年来随着医疗系统电子化与可穿戴监测设备的流行,可利用的医疗数据呈指数增长,与此同时数据科学和大数据分析方法快速发展,心力衰竭的研究迎来新的机遇。目前有关心力衰竭的大数据分析研究,主要基于患者的病史资料、查体特征、辅助检查、治疗方案等数据,使用算法建立模型,进行诊断、分类和预测预后方面的研究分析。笔者使用“心力衰竭”、“机器学习”、“深度学习”、“聚类分析”、“神经网络”等关键词在PubMed、Web of Science、Scopus、ScienceDirect、EMBASE数据库进行文献检索并汇总如下。
大数据分析方法概述
大数据是指具有5种特征的数据,包括数据量大(TB级以上)、数据快速产生和更新、数据类型多样、数据来源于真实世界、数据价值高而价值密度低[2-4]。大数据分析是发现大数据的隐藏规律、潜在价值的方法,主要包括传统机器学习、深度学习等[2-4]。大数据分析的主要流程包括数据预处理、数据标注、数据特征选择、应用算法建立数据分析模型、应用数据检验模型、进一步反馈优化模型等[5]。
心力衰竭大数据分析研究现状
诊断在心力衰竭诊断方面,大数据分析方法能够利用患者的病史资料、查体特征、辅助检查、治疗方案等数据,建立自动诊断和预测心力衰竭的模型。Sudarshan等[6]使用双树复小波变换算法分析心力衰竭患者和健康对照者的心电图数据,发现45个有差异的心电图数据特征,使用k-近邻算法进一步根据心电图数据特征,建立心力衰竭诊断模型,经测试数据验证,该模型的诊断特异度达99.94%。既往通过人工方法分析识别心电图特征诊断心力衰竭的特异度较低,而大数据分析方法能够进一步精准和深入的利用心电图数据特征,提高了应用心电图数据诊断心力衰竭的特异度,具有里程碑式意义,近年来不断有基于大数据分析方法的研究分析心电图数据特征,建立心力衰竭的诊断模型[7-12],诊断特异度均较好。Zheng等[13]使用最小二乘支持向量机算法分析心力衰竭患者和健康对照者的心音数据,从中提取数据特征,并根据数据特征建立心力衰竭的诊断模型,经测试数据验证,该模型的诊断特异度可达96.59%。该研究使用大数据分析方法分析心音数据,为传统心力衰竭研究开拓了新的可利用数据领域。Choi等[14]使用回归神经网络算法分析3884例心力衰竭患者和28 903名对照者的门诊医嘱数据,包括医嘱的时间顺序、空间密度等特征,建立心力衰竭的诊断模型,经测试数据验证,该模型的诊断的ROC曲线下面积(area under curve,AUC)达0.883。医嘱数据具有数据量大、数据价值密度低的经典的大数据特征,传统研究方法并不能对其进行充分利用和分析,而大数据分析方法却能够较为有效地利用和分析这些数据特征。这些研究显示了大数据分析方法在建立模型诊断心力衰竭方面的有效性,未来有待更大样本量、数据质量更高、算法性能更好的大数据研究,进一步提高心力衰竭诊断模型的准确度,最终实现计算机系统远程监测患者数据,自动分析诊断和预测心力衰竭疾病的发生。
分类综合分析心力衰竭患者整体情况,对患者进一步分类,为各种类型的心力衰竭患者提供更精准的诊疗服务,是另一个重要的心力衰竭研究方向。传统研究中,心力衰竭患者的分类办法,主要包括根据血流动力学特征、N端-脑钠肽前体、纽约心脏协会(New York Heart Association,NYHA)分级分类,还可以根据美国心脏协会(American Heart Association,AHA)/美国心脏病学会(American College of Cardiology,ACC)分期进行分类,其中包括根据心力衰竭患者的危险因素、症状、心脏结构、治疗方案数据。这些分类方法存在一定不足,如根据血流动力学分类后的心力衰竭患者仍存在有临床特征差异,可以进一步分类,NYHA分级评价存在一定主观性,ACC/AHA分期过于复杂而未能在临床工作中广泛应用普及。
大数据分析方法能够利用大量的多种类型的临床数据,建立心力衰竭患者的分类模型,分类更为精准和细化。Shah等[15]使用系统聚类分析算法分析射血分数保留型心力衰竭(heart failure with preserved ejection fraction,HFpEF)患者的67种数据资料,其中包括超声心动图中的心脏结构、心脏收缩/舒张功能、血流动力学、压力-容积分析等变量,建立HFpEF患者的分类模型,最终进一步区分出在病因、病理生理学和预后方面均有统计学差异的患者,同时该研究还进行了HFpEF患者的前瞻性队列研究,验证该模型的有效性,AUC达 0.704。这项研究的意义在于,传统研究已经根据血流动力学特征对心力衰竭患者进行了分类,而大数据分析方法能够进一步细化分类,推进心力衰竭分类研究的发展。Guidi等[16]使用随机森林算法分析心力衰竭患者的远程监测数据,包括患者末次住院数据(身高、体重、BMI、血压、心率、血氧饱和度、心脏射血分数、NYHA分级、心电图、合并症、治疗)、家访数据(体重、血压、血氧饱和度、颈静脉充盈程度、皮肤颜色、脚踝是否水肿、生物电阻抗等)、患者自我监测数据(二导联心电图、生物电阻抗、脉搏传导时间)等,建立心力衰竭患者疾病严重程度的分类模型,分类特异度可达95%,显示了计算机系统远程监测患者全面的大数据、自动分类和评价心力衰竭患者的可行性。Chen等[17]使用非平衡决策的基于决策树的支持向量机算法,分析心力衰竭患者和健康对照者的24 h动态心电图,作者先将心电图截成多个5分钟片段,之后根据RR间期分析心率变异性,建立心力衰竭严重程度分类模型,分类准确度可达96.61%。综上,大数据分析方法能够有效对心力衰竭患者进行分类评价,分类评价结果较传统研究更为细化,未来有待更多的外部队列研究进一步证实该方法的准确度及成本-效益分析。
预测预后传统研究通过生存分析研究患者预后的影响因素,再根据患者所具有影响因素预测其预后。大数据分析方法能够利用更大量、更多类型以及一些价值密度较低的数据,建立心力衰竭患者的预后预测模型,较传统研究所利用的数据更全面,预测的准确度更高。如传统研究的西雅图心力衰竭模型(Seattle heart failure model,SHFM)[18]对 1125例心力衰竭患者的21种数据变量进行生存分析,预测心力衰竭患者预后AUC可达0.729,并通过多个外部队列的验证[19]。而Panahiazar等[20]以SHFM模型为基础,纳入更大样本量患者和数据变量,包括5044例心力衰竭患者、43种研究变量,使用随机森林等算法建立疾病预后预测模型,AUC提高至 0.81。同时,Panahiazar等[20]的研究是利用真实世界的大数据,较SHFM研究意义更大。Shameer等[21]使用朴素贝叶斯算法分析1068例心力衰竭患者多达4250项数据变量,包括诊断(n=1763)、治疗(n=1028)、实验室检查(n=846)、医嘱记录(n=564)、生命体征(n=4)数据,建立心力衰竭患者再住院预测模型,预测AUC达0.78。Shameer等[21]的研究利用了数据量巨大但价值密度较低的临床数据,是传统研究无法做到的。Taslimitehrani等[22]使用对比模式辅助Logistic回归算法分析5044例心力衰竭患者的40种数据变量,包括人口学资料、生命体征、身高、体质量指数、实验室检查、治疗、合并症数据,预测心力衰竭患者预后准确度达93.70%。Gleeson等[23]使用机器学习方法分析心力衰竭患者的72种数据变量,包括心电图、超声心动图的特征等,研究发现其中27种变量P<0.02,能有效应用于预测心力衰竭患者预后,并指出空间QRS-T角>110°变量与心力衰竭患者再住院事件相关性非常强(风险比3.7)。Koulaouzidis等[24]使用朴素贝叶斯算法,分析心力衰竭患者末次住院和远程监测数据,包括患者一般情况、心力衰竭病因、合并症、实验室检查、心功能NYHA分级、治疗、远程监测数据(生命体征、体重、一般情况、治疗、饮酒量),建立心力衰竭患者再住院预测模型,经随访(286±281)d,预测AUC达0.82。Koulaouzidis等[24]研究显示了大数据分析方法处理患者远程监测数据,实时动态自动分析和预测心力衰竭患者再住院的可行性和有效性。Zheng等[25]使用支持向量机算法分析心力衰竭患者数据,包括年龄、医保类型、敏度评估(视听与思维)、合并症、是否急诊治疗、用药风险、末次住院周期等数据,建立心力衰竭患者再住院预测模型,预测准确度达78.4%。以上这些研究显示了大数据分析方法在建立心力衰竭预测模型方面的有效性。
总结与展望
综上,目前大数据分析方法在心力衰竭研究中应用广泛,与传统研究相比,在研究数据方面,大数据分析方法能够利用数据量巨大、更多种类的临床数据,能够利用医嘱的时间顺序、空间密度等价值密度较低的临床数据,能够利用患者的远程监测数据,实时动态分析;在研究成果方面,大数据分析方法所建立的疾病诊断模型、疾病分类模型、疾病预后预测模型,准确度均较高。目前基于大数据分析方法的心力衰竭研究还存在较大发展空间,如进一步提高原始数据的数量和质量,进行更多的前瞻性队列研究验证大数据分析方法所建的模型的有效性,大数据分析方法本身也有待进一步发展成熟。相信未来在计算机专业科学家、心脏病学研究者的紧密合作下,会有更多、更高质量的医学大数据研究,从而提高心力衰竭疾病诊疗水平。