建立卒中临床研究大数据,推动精准医学发展
2020-12-08姜勇孟霞王拥军
姜勇,孟霞,王拥军
作者单位
100070 北京国家神经系统疾病临床医学研究中心;首都医科大学附属北京天坛医院神经病学中心
近十余年来,随着医疗卫生信息化的不断发展和电子病历的广泛应用,医疗健康大数据得到飞速发展[1]。随着基因组(表观基因组、外显子组)、蛋白组、转录组、代谢组、免疫组等多组学技术及高分辨影像技术的发展和广泛应用,生物学数据呈现井喷式增长,临床研究迅速进入了大数据时代[2]。在临床诊疗方面,物联网和可穿戴设备的发展[3]、心脑血管疾病新的生物标志物不断被发现[4]、临床检测技术检测精度的不断提高和多模态高分辨医学影像技术的发展,表型组学、影像组学的研究也逐渐发展起来,为卒中精准医疗奠定了基础[5]。
精准医疗是利用个人的生物学(包括遗传)、医学、行为和环境信息,根据每位患者的基因组、精细临床表型,通过大数据分析方法,把不同的患者个体进行精细化分层,调整疾病的预防和治疗方法。大数据是精准医学的基础,而大数据分析方法是卒中精准医学的重要工具之一[6]。
1 临床研究大数据的发展机遇和挑战
临床研究大数据的发展为卒中精准医学的发展带来了新的机遇。大数据分析技术日新月异的发展,特别是机器学习和深度学习技术的发展使多维度数据分析有了新的分析挖掘工具[7-8]。高性能计算技术和分布式存储的发展为临床研究大数据的存储提供了高效稳定的硬件支撑。区块链技术的发展,为临床研究的数据管理和共享提供了新的模式[9]。然而,生物医学大数据的管理、分析处理、解释、应用等方面也面临很多挑战,许多基础性的问题需要多个领域的科学家联合攻关[10]。
欧美发达国家非常重视生物医学大数据的发展,在国家层面设立项目支持医疗健康领域大数据技术和应用的研究。2014年美国国立卫生研究院(National Institutes of Health,NIH)启动了大数据到知识(Big Data to Knowledge,BD2K)计划,通过培养人才、开发软件工具以推动生物医学大数据的有效分析和利用[11]。2018年6月4日,美国国立卫生研究院发布了《数据科学战略计划》(NIH Strategic Plan for Data Science),旨在支持高效的生物医学研究数据基础设施,促进数据资源生态系统的现代化,开发和推广高级数据管理、分析和可视化工具,加强生物医学数据科学的人才队伍建设,制定适当的政策以促进管理和可持续发展。2017年欧洲启动了BigData@Heart计划,将队列研究、电子病历、医疗质量改进登记研究、临床试验数据,影像数据整合在一起为新药物研发和个体化医疗提供基础[12]。
我国生物医学大数据研究还刚刚起步,高质量的数据源较少,缺乏我国自主开发的数据分析的核心算法,缺少多学科融合的创新人才团队。2019年5月11-12日,国家自然科学基金委员会第232期双清论坛“全维度数据与智能诊疗的前沿与挑战”在上海召开,论坛由国家自然科学基金委医学科学部、数理科学部、信息科学部与政策局联合主办,本次论坛围绕以组学为核心的生物标志物挖掘与机制研究、大规模人群队列建设及面向疾病精准诊疗的智能分析、智能诊疗临床转化应用3个专题进行深入探讨,提出建议:基于现有队列多维尺度数据的非线性关联算法分析,发现新的生物标志物,发展疾病动态演变预测模型;继续建立并规范重大慢病高质量和大数据量的专病队列数据库,创建数据共享平台并制定管理方案。鼓励发展智能精准医疗的生物和数学基础研究。建立基于大数据及人工智能算法的重大慢病药物基因组学,实现从单一蛋白质靶点到多靶点联合治疗[13]。
2 卒中临床研究大数据的重点任务
为解决这些基础性问题,应从高质量数据源抓起,这需从建立大数据管理、分析和共享平台、打造多学科融合的临床研究方法学团队等方面探索系统的解决方案。
2.1 整合临床研究数据,建设高质量大数据来源 高质量的临床研究、真实世界的电子病历和医疗质量大数据是卒中防控大数据的三个重要来源。
临床研究大数据是医疗大数据的高质量数据来源。临床研究大数据强调数据来源是来自于临床研究,其特点基于科学设计,全程良好的质量控制,清晰的研究问题和假设,明确的研究结局和终点。随着精准医学研究的开展,数据的维度不断扩大。缺点是由于研究经费和组织实施的限制,样本量相对较小。不同临床研究采用的数据标准不一致,无法汇交成更大的数据样本。未来应通过建立统一的数据标准,统一临床数据公共数据元,建立数据共享机制,推动数据共享来促进高质量数据库的建立。
以电子病历为核心的医院临床数据中心的数据是真实世界医疗大数据的重要来源。很多医院通过整合电子病历、医院信息系统、实验室信息系统、影像存档与通讯系统信息,收集和保存生物样本,定期开展随访,建立起临床科研一体化的大数据平台。真实世界中对患者诊疗的个性化决定了电子病历数据的稀疏性,数据完整性不能满足研究的需要,这也是导致真实世界研究不能广泛开展的主要原因。各医院使用的电子病历标准不一致,结构化程度参差不齐是另一个技术难点。单中心的电子病历数据量、代表性往往不能满足大型真实世界研究的需求,多中心的研究往往需要各分中心医院上传数据至项目牵头医院,很多医院担心泄露患者隐私而不愿意参加。
以医院病案首页、医疗保险、死亡登记为代表的卫生行政数据库和公共卫生数据库是卒中大数据的第三个重要来源。国际上医疗信息化发展比较早的国家如英国、韩国等开展了很多基于卫生行政数据库链接的研究。我国在部分地区也进行了一些初步的探索,有待进一步的研究。国家神经系统疾病临床医学研究中心与中国疾病预防控制中心、国家卫生健康委统计信息中心等单位合作,共同建立重大慢性病流行病学监测大数据平台。
理想的基于大数据的研究是将上面三种数据来源加以整合:基于特定的临床研究假设,将大数据作为一种数据采集方式,建立疾病登记数据库,结合补充收集的临床诊疗信息,链接物联网、可穿戴设备的客观数据,定期开展随访研究,并利用卫生行政数据补充必要的经济数据和结局信息。
2.2 建立大数据存储和分析平台,开展数据服务和共享 随着临床研究收集数据维度的不断增加,临床表型数据采集的精细度不断增加,同时伴随着基因组、蛋白组、转录组等多组学技术的不断发展,对数据分析和存储的要求也越来越高。为满足高效的数据分析和安全的数据管理需要,国家神经系统疾病临床医学研究中心建立了由基于虚拟化的桌面云系统、高性能计算平台和分布式存储系统。实现了计算资源和数据的融合,为开展多维度临床研究数据的大数据分析创造了安全、高效的环境。
2.3 开展需求导向的大数据应用研究 明确的数据需求是开展大数据研究的关键。很多大数据研究开始并没有很好的设计,只是把全部的数据收集上来,导致数据标准不统一,数据质量参差不齐。如基于医疗质量监测的大数据研究,先应确定好关键绩效指标和设计的数据项,制订数据标准或采用公共数据标准,确定最小数据集和数据项及在各家医院电子病历中对应的数据来源,评估各医院的数据质量是否符合要求,确定数据是否汇交至数据中心计算,还是只在本地计算,签订电子合约,应用区块链技术+4G/5G技术传输实施数据采集和计算。2.4 加强大数据人才团队建设 加强大数据人才培养,推动大数据交叉学科的发展,设立医学大数据研究专业方向学历教育,培养临床数据科学家。探索体制创新,建立新型研发机构。应鼓励国家临床医学研究中心等医学研究机构和掌握核心技术的企事业单位建立产学研联合实验室的方式,加强多学科团队的技术融合与交流。
2.5 制订数据共享实施方案,推动数据共享将临床研究过程中收集和产生的高质量数据,进行汇交、管理、共享可为开展大数据技术、人工智能及精准医学研究提供大量高质量数据。由政府支持推进数据共享,建立良好的数据共享的生态环境,将大大促进高质量数据的形成。建立科技管理专业部门主导,各疾病临床研究中心专家参与,各利益相关方共享的脑血管病大数据公共平台,可能是建立高质量临床研究大数据的理想模式。
3 建立国家卒中临床研究大数据平台,推动数据共享和大数据技术应用
国家神经系统疾病临床研究中心依托首都医科大学附属北京天坛医院,在大数据研究及应用方面,从建设高质量数据来源、加强数据分析存储平台建设、打造多学科大数据研究团队、开展以需求为导向的大数据人工智能应用研究等方面开展了相关工作。在参考国内外标准的基础上,建立了一套统一的神经系统疾病临床研究数据采集标准。经过十余年临床研究的积累,已经建立起由社区队列、临床队列、多中心临床试验和临床影像数据库等组成的高质量临床研究大数据,总样本量达到150万人。最具代表性的是中国国家卒中登记研究Ⅲ(China National Stoke Registry Ⅲ,CNSR Ⅲ),该项目在“十三五”国家重点研发计划支持下,建立了超过1.5万人的脑血管病精准队列,基线收集了超过5000个临床表型、高分辨影像和组学数据,并进行长期随访,建立了数据共享的机制和软硬件平台。
开展以需求为导向的应用研究是开展大数据研究的主要目标。国家神经系统疾病临床研究中心正在探索开展基于大数据人工智能技术的脑血管病复发、死亡及预后研究,探索脑血管病的发病和复发机制及干预靶点,开展基于大数据的临床辅助决策系统研究未来可辅助提高基层医疗的质量和水平等。
卒中大数据是一个新兴事物,它的建设和发展需要大家的共同努力。我们将与全国同道携手并进,砥砺前行,共同迎接卒中的精准医疗的新时代!