基于真实世界数据的疾病风险预测研究
2020-12-28李言生龚后武栗翊超
李言生 龚后武 栗翊超
摘要:21世纪医学发展的重点任务从防病治病已转向健康维护,医学模式从单纯的疾病治疗模式转向4P医学模式,面对医学复杂性的挑战,临床研究方法学体系也在不断发展。本文从真实世界数据出发,阐述了疾病风险预测模型及构建流程及其应用,并对基于真实世界数据的疾病风险预测研究进行总结和展望,旨在为疾病的风险预测提供帮助。
关键词:真实世界研究;疾病风险预测;人工智能;机器学习
中图分类号:TP393 文献标识码:B DOI:10.3969/j.issn.1006-1959.2020.23.006
文章编号:1006-1959(2020)23-0017-03
Abstract:In the 21st century, the key task of medical development has changed from disease prevention and treatment to health maintenance, and the medical mode has changed from simple disease treatment mode to 4P medical mode. Facing the challenge of medical complexity, the clinical research methodology system is also developing.Based on the real world data, this paper expounds the disease risk prediction model, the construction process and its application, and summarizes and prospects the on disease risk prediction based on real world data, in order to provide help for disease risk prediction.
Key words:Real world research;Disease risk prediction;Artificial intelligence;Machine learning
21世紀医学发展的重点任务从防病治病转向健康维护,医学模式从单纯的疾病治疗模式转向预防(prevention)、预测(prediction)、个体化(personalization)和患者参与(participation)为主的4P医学模式[1],面对医学复杂性的挑战,临床研究方法学体系也在不断发展。近年来,真实世界研究(RWS)日益被广泛接受。RWS遵照循证医学的理念,在积累足够数量观察数据的基础上,应用流行病学、卫生统计学、信息科学等方法和技术,探索干预措施在现实状况下的疾病风险、临床终点事件、生活质量、卫生经济学等指标,已成为临床评价领域不可或缺的重要组成[2]。本文主要对基于真实世界数据的疾病风险预测模型进行研究,旨在为疾病的风险预测提供帮助。
1真实世界数据
真实世界数据[3]是指从传统临床试验以外,定期从不同来源收集的患者健康状态和/或提供的保健服务相关的数据。真实世界数据来源非常广泛,既可以是研究数据,即以特定目的开展的观察性研究数据,以及基于真实医疗条件开展的干预性研究的数据;也可是非研究数据。
医学领域的真实世界数据根据收集内容的差异可分为:①常规医疗数据,包括个人健康和医疗数据(如人口社会学特征、诊断、实验室检查、影像学检查、医嘱、手术、成本数据等),即通常所指的医疗大数据,其典型实例包括医院电子病历库等;②在部分或全部收集常规医疗数据的基础上,根据特定研究目的收集生物标本检测的检测数据(如基因组学、蛋白组学、代谢组学检测等)[4,5]。从本质上讲,医疗大数据满足真实世界数据的所有特征,属于真实世界数据[6]。但真实世界数据涵盖的范畴显然比医疗大数据更广。其中一个核心要素是真实世界数据并不一定要求数据达到海量,也不一定强调数据的多样性。
电子病历(EMR)是主要的医疗大数据来源,EMR是电子化的个人健康记录或健康档案,包含人口学统计信息、诊断信息、化验信息、处方信息、自由文本等。现有的基于电子病历进行疾病风险预测的研究方法主要有两类:一类是基于传统的机器学习和统计技术,如Logistic回归、支持向量机和随机森林;一类是基于深度学习技术搭建模型,在海量电子病历数据上进行临床信息分析。
2疾病风险预测模型构建流程
疾病风险预测模型(DRPMs)是指利用数学公式估计特定个体当前患有某病或将来发生某结局的概率[7,8]。建立疾病风险预测模型是一项复杂的系统工程,涉及研究问题、数据集、变量、模型以及结果报告诸多环节。建模流程包括真实世界数据采集汇聚、大数据治理、疾病风险模型构建、模型利用,具体如下:
2.1真实世界数据采集汇聚 基于平台数据集成,以服务器作为基础硬件平台,采用集群技术、分布式存储技术、分布式计算技术、ETL技术[9],制定数据采集标准及处理流程,对结构化数据抽取入库,对非结构化数据采用自然语言处理(NLP)进行结构化改造[10],主要包括患者的基本信息、病历信息、病程信息、医嘱信息、检验信息、影像信息、护理信息等内容。实现真实世界数据存储与共享,针对不同的需求提供更精细化、精准化的支持。