基于前循环脑梗死神经血管介入专病库的临床科研一体化研究模式应用探讨
2020-03-26林琳孙瑄王韬缪中荣甘伟牛明芳第一作者
林琳,孙瑄,王韬,缪中荣,甘伟,牛明芳(*第一作者)
近年来,随着循证医学、转化医学的迅速发展以及我国对临床医学研究的大力支持[1-2],以真实诊疗数据为基础、以研究成果辅助临床决策为目标的科研需求正在被极大地激发出来,并成为现代医学研究的热门[3]。在此背景下,首都医科大学附属北京天坛医院在原有业务系统建设及临床数据中心基础上,规划构建了以重点专病为核心的临床科研一体化研究模式。通过优化、改进数据采集质量,使海量数据转化为优质研究资源,进而促进科研成果在临床决策中的应用,推动医院在医学研究、疾病诊疗方面的深度融合,形成“以患者为中心、以临床为导向、以科研为抓手”的发展模式。目前,该模式已在天坛医院神经介入中心推广应用,并取得了良好效果,现探讨如下。
1 神经介入专病库的建立
神经介入是在计算机控制的DSA影像指导下,利用血管内导管操作技术,如栓塞、溶解、扩张、成形、抗肿瘤治疗等方法,对累及人体神经系统血管的病变进行治疗[4]。天坛医院神经介入中心以自然语言处理、机器学习、深度学习等人工智能技术为依托,建立了神经介入相关疾病专病库。通过对科研病例资料的自动收集、专病数据集的规范化处理以及数据模型的搭建等,解决了数据采集利用率低、数据质量缺乏监控、数据分析挖掘困难等问题。
1.1 数据采集 科研数据的来源主要是院内各临床业务系统,这些数据以患者主索引为主线,经统一抽取、整合后集中存储在临床数据中心,包括:患者历次就诊记录、门诊处方、住院医嘱、电子病历、检查化验报告及影像资料等。此外,还包含患者随访、电子数据采集(electronic data capture system,EDC)以及基因数据等部分院外数据,用于支持临床研究。通过对不同来源和结构的数据集成、整合,最终形成科研全变量数据集。
1.2 数据处理 由于临床数据多以反映患者诊疗过程及疾病转归为主,很多时候无法直接满足科研所需,加上病历中包含大量自由文本信息,也对数据的二次利用造成阻碍。因此,还需对其做进一步处理,如数据标准化、后结构化、数据质控、数据治理等,提高数据的可及性和可用性。
数据标准化:数据标准化是通过医院主术语建设、标准化术语基线与分类建设,以及标准化术语本体库建设等,实现实体映射的一致,消除语义鸿沟。包括:疾病术语标准化、药品术语标准化、症状体征术语标准化、检验/检查术语标准化等。
后结构化:针对病历文本信息,以自然语言处理技术为基础,结合临床、药学、检查检验等医疗专业词库,通过分析上下文关系,构建多层级语义分析模型,找出文本中不同实体、属性、关系之间的关联信息,实现结构化转换。
数据质控:专病库支持对数据完整性、规范性等的实时质控,通过发现数据缺失或异常值等问题,避免研究结果的偏倚或失真。同时,针对具体问题点,可溯源至原始病历,督促医生规范病历书写,提高科研数据质量。
数据治理:对质量较差的数据,可通过多维数据清洗功能,如标签、离散化、数据填补、自定义变量等,进行有效治理,保证数据的准确性及可靠性。
1.3 数据模型 治理后的数据,通过语义分析模型、医疗知识图谱等,形成以疾病为中心、具有完整时间序列的专病数据库,并可视化展现数据间深层关联关系,为临床研究提供更多可能方向。专病库还支持导入医师手工采集的课题数据(多为Excel表格式),经结构化处理、数据清洗及分析后,与数据库中原有数据融合,形成个性化的完整科研数据集。图1展示了神经介入中心前循环脑梗死急诊取栓专病库部分数据。
图1 前循环脑梗死急诊取栓专病库部分数据
2 智能化病历内涵质量控制提升专病数据质量
高质量的专病数据库,除具备数据完整性、可用性及可追溯性外,还应具备业务逻辑上的一致性和合理性,这就需要对病历文本内容有更深层次的探查逻辑。智能化病历内涵质控体系是在对大量内涵质控真实病历机器学习的基础上,建立的以监测病历内容是否符合患者病情变化为主的智能质控规则库[5],如主诉与现病史不符、初步诊断缺失既往史疾病、体格检查与初步诊断不符等。
以图2中某患者的病历记录为例,可以看到,在其现病史中有手术史描述,而既往史却否认了手术史。这样,在科研专病人群建立过程中,如是以既往史中的手术史为人群入组标准,就会导致样本缺失,从而影响研究人群召回率及精准定位,造成研究结果不准确。智能化病历内涵质量控制系统的建立,一方面可以及时发现病历中的隐含问题,同时还能针对具体问题进行实时提醒和反馈,帮助医师从源头提升病历书写质量,从而提高专病库的数据质量。
图2 智能病历内涵质量控制问题示例
3 专病库的临床应用
基于介入专病库,科研人员可针对不同主题的应用场景进行深度挖掘分析,包括:影响因素分析、预测分析、干预分析等。同时,促进科研成果向临床诊疗的转化,对提升临床水平、实现精准医疗有着重要意义。
3.1 全过程诊疗时间轴 全过程诊疗时间轴,是指专病库中的数据以患者为中心、按照其在院历次就诊事件的时间先后进行排布,具有较强的时序性。在此基础上,科研人员可根据不同需求,在任何诊疗环节上设置中心事件。通过对中心事件发生前后的数据进行统计分析(如向前做预测分析、向后做影响因素分析),即可找出临床决策中的问题点,建立预警模型或风险预测模型,为提高后续决策水平提供支持(图3)。
图3 专病全过程诊疗时间轴
3.2 基于专病的智能预测引擎 在医疗领域中,基于海量临床数据的疾病风险预测是一个重要研究方向。通过建立风险预测模型,可对疾病的复发、死亡、伤残以及出现并发症等概率给出量化估算,从而指导对症治疗,降低病死率[6-7]。
以神经介入中心建立的前循环脑梗死急诊取栓专病库为例,针对目前收集的379例患者(2012年5月-2019年6月),建立了取栓后颅内出血发生风险预测模型。首先,通过智能特征筛选,从人口统计学(性别、年龄、吸烟史、合并症等)、临床表现(24 h体温、心率、血压等)、化验指标、药物治疗、检查等45个变量中,选出包括收缩压、心房颤动、高血糖、脑梗死体积、尿蛋白阳性在内的5个有显著意义变量;在此基础上,匹配多因素Logistic回归模型及ROC曲线,围绕多项指标进行疾病相关危险因素的分析、挖掘,并分别从精度、召回率、ROC曲线下面积和Kappa系数等指标评价模型预测准确率。Logistic预测模型如下:Logit=2.172+0.341×收缩压+1.623×心房颤动+1.120×高血糖+1.856×脑梗死面积+0.677×尿蛋白阳性。最终结果显示,该预测模型的ROC曲线下面积为0.749,灵敏度为0.751,特异度为0.820,说明模型具有较好的预测效能,可在一定程度上辅助指导临床决策(图4)。
综上所述,可以看出临床科研一体化研究的关键在于开展科研的信息主要来自真实临床实践,研究成果最终应回归临床、指导实践。因此,借助信息化及人工智能技术对临床诊疗数据进行聚合、收集、分析,并以专病库方式将其转化为高质量科研数据,以统计分析模型实现对疾病转归的预测和临床决策的循证支持,是现代医学研究发展的重要方向。
图4 预测模型的ROC曲线图
当然,专病数据库的建设是一个持续过程。随着医院信息化建设的不断完善,接入的数据将越来越全面。目前,介入中心在专病库的建设上已取得了一定成效,对今后医院对病种数据库的部署起到了重要的示范作用。未来,随着各医院单病种专病数据库的完善,将进一步推动区域内多家医疗机构建立多中心专病数据库,促进病种数据的标准化以及跨院数据的综合利用,提升科研水平、完善治疗方案,为患者提供更加优质的服务。