基于数据治理的先心病专病数据库建设研究*
2022-03-25袁骏毅潘常青戴锦杰
——袁骏毅 潘常青 戴锦杰 李 榕 沈 兰
先天性心脏病(以下简称“先心病”)是指胚胎发育异常导致的先天心脏缺陷性疾病,发病率约占新生儿的7‰~10‰[1-2]。国内外已有医院展开先心病治疗影响因素的研究,建立风险评估及治疗策略模型,以减少术后并发症[3]。
近年来,医院信息化逐渐侧重临床,但业务软件繁多且彼此独立,科研数据仍高度依赖人工收集,费时费力且效率不高[4]。Mayer JE等[5]指出,通过对疾病数据智能采集和挖掘,有利于分析不同心电结果和临床症状对先心病术后干预的效果。本研究以上海市胸科医院的先心病专病数据库(以下简称“专病库”)为研究对象,解析专病库架构设计和运行方式,以期更好地支撑先心病的临床研究。同时,为其他医疗机构医疗数据的深度应用提供参考。
1 专病库数据集设计
专病库的目标是满足多层面科研需求,数据集的饱和度决定了数据分析的支撑力度。项目启动阶段,临床专家、科研人员以及信息工程师组成团队,讨论专项数据采集范围。数据集的设计借鉴了美国胸外科医师学会(Society of Thoracic Surgeons, STS)成人心脏外科数据库、儿童心脏网络(Pediatric Heart Network, PHN)数据库等,参考了国际疾病分类第10版、HL7ChinaCDA等10余项规范[6]。数据集共分为8个纬度,下分65个域,内含781个数据单元,构成了专病库“纬度-域-数据单元”的物理存储以及统计分析层次结构。从数据提取可及性角度出发,梳理数据单元采集点,如图1所示。每个数据单元均支持复合数值存储结构,拥有编码、名称、纬度标签、域标签、数值、参考值、提取源等12项属性,确保可追溯性和标识度[7]。
2 系统架构
专病库在医院临床数据中心(Clinical Data Repository,CDR)基础上,通过后结构化、脱敏安全和质控管理等数据治理过程,整合成病种数据集。采用面向服务体系结构的分布式网络架构,1台数据库服务器存储数据,两台GPU治理服务器用于后结构化等高通量处理,4台应用服务器提供单病种分析等扩展应用支持。系统架构如图2所示。
图1 数据集采集源分析
图2 系统架构
3 数据治理环节
3.1 数据汇集
病种数据集的源数据来源于多个异构业务软件,CDR的数据供给能力尤为重要。该院在2018年开展CDR建设,以患者主索引(Enterprise Master Patient Index,EMPI)集成服务为主线,汇集诊疗流程相关数据。如图3所示,CDR采用订阅发布技术,建立对应EMR、EDSS等生产库的操作型数据存储库(Operational Data Store,ODS),通过变化数据捕捉(Change Data Capture,CDC)技术,实时获取ODS的日志变更,使用数据库集成服务(SQL Server Integration Services,SSIS)工具, CDC将日志解析成增量待处理数据。由于业务软件的代码定义未必相同,依托于CDR的主数据管理(Master Data Management,MDM),以MDM的疾病代码、药品字典等医学术语映射集,进行标准化转换,标签数据的来源。EMPI提供了患者身份标识的主键服务,关联相同患者数据,根据交叉关系实施验证,判断汇集过程是否发生遗漏。遵循《电子病历基本架构与数据标准》的规范,如ADT.A01代表入出转信息,以标准截面建立cube[8]。支持孤岛系统及试验数据的导入,确保医疗数据的全量收纳。截止2020年底,CDR共对接32个业务应用软件,数据仓库容量16T,以年9.8%的速率增长。在针对新建应用的服务能力方面,建立了82万个索引,78个标准字典,502套字典映射,近1.2亿条内外交互日志,为医院建设专病库、学科评估等新系统提供了有效的数据供给。
3.2 后结构化
与药品医嘱等已经结构化的数据不同,病史文书通常包含大量非结构化的自由文本,后结构化属于数据治理的深度步骤,精度影响到海量病历的利用程度。对于EMR的心电报告、既往史等文本,需要通过自然语言处理(Natural Language Processing,NLP)和知识图谱的后结构化治理,转化成符合标准结构化数据项的字段和键值。系统建立了主动学习、迁移学习等机器学习的NLP处理流程,进行上下文嵌入的文本智能解析,实现命名实体、医学分词的提取,同步处理词义消歧和时序解析。
深度学习算法采用了条件随机场(Conditional Random Field,CRF)和双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)的叠加算法,以CRF的输出层作为BiLSTM的输入层,有效解决常规NLP效果不佳的情况[9],信息抽取的识别精度超过85%,识别覆盖率占文本可转换内容的92%。病史文本转化后,增加了时序逻辑及数据耦合的判读范围,如术中抗生素、术后病程录等交叉逻辑,基于知识图谱的医学分支逻辑,利用决策树、逻辑回归等AI算法,构建出分类合并最优模型,以信息增益的特征值对逻辑节点进行时间耦合度分析,使诊疗过程数据处于连续的时序排序。
图3 CDR数据汇集过程
图4 脱敏安全体系
图5 质控管理
3.3 脱敏安全
为保证隐私数据的存储和传输安全,处理过程采用脱敏技术手段。随着移动物联网的推广,患者个人隐私信息面临较大泄露风险。根据上海市卫生健康委员会有关规定,存储患者身份及生物信息的系统必须符合公安部《安全等级保护制度2.0标准》要求[10]。
如图4所示,敏感信息定义方面,除了姓名等明显的隐私项,还存在着表面无关联的、内含风险的数据,若未纳入敏感等级,一旦泄露也会带来损失。采用关联规则分析技术对敏感项进行界定,基于关联信息挖掘算法判定关联因子的可靠性程度,穷举算出敏感规则的置信度区间,确保在不损失数据价值的条件下更好地确定范围。脱敏处理方面,去隐私化过程采用加密算法,利用对称算法DES加密隐私项,EMPI等关系型外键采用不可逆算法MD5加密,并留有隐藏转换的目录对照。后台管理方面,结合审计监察需求,使用办公审批流程监督数据申请,保证审计日志的可靠性,定期更换加密算法的动态密钥,所有加密和传输均记录密钥版本号,以便出现问题时回溯。
3.4 质控管理
数据经过前序加工后,依然存在如检查医嘱无报告等空值情况,或者如出院小结和病案首页诊断不一致等逻辑互斥现象[11],因此需进行质控处理(图5)。针对预入库数据,一是采用AI自动全面质检方法,以EMPI和标准目录梳理患者数据,基于质控规则库的参考标准,检测关键指标的单变量约束,实施孤立数据分析和上下文联动检验,捕捉关系完整性、临床变量依赖性等情况。二是采用人工校验进行复核。质控人员按比例随机抽取患者信息,打开业务软件中的病历,判断治理过程是否存在偏差。根据自动和人工的检测结果,生成质量测评报告,实现质控统计指标的血缘追踪,监测诊疗业务和临床路径的变异情况,形成动态提示的深度质控面板。测评报告中详细列举发现的具体问题,原生数据问题反馈信息部门,追溯业务软件,提高采集准确性;违规性数据问题反馈医务部门,制定新的逻辑规则,规避再次发生。待问题纠正且达到测度评价分值要求时,终态数据才能被判定为合格,数据正式入库。
4 建设成效
4.1 专病库运行情况
医院的专病库已导入既往数据,进入了常态化运营阶段。专病库目前收纳了自2015年1月—5月的2 384例患者资料,男性1 026例,女性1 358例。平均年龄(35.2±25.0)岁,其中,18岁以上成人1 687例,占比70.76%,符合医院诊治成人心脏病为主的年龄分布特征;外省籍患者1 722例,占比72.23%,表明医院具有鲜明的专科特色和辐射影响力。
4.2 数据入库与提取
一是建立了日常的新增归档数据入库机制。每月15日专病库自动从CDR提取并治理上月的出院先心病患者资料,临床研究中心在质量测评报告上签字后入库。二是制定了完整的科研数据提取流程。研究者在院内办公平台发起课题数据申请,经临床研究中心、科教部、分管院长逐级审批后予以授权,研究者按批准的筛选范围,导出符合需求的脱敏数据。截至2021年8月,临床研究中心已配合完成6项先心病随访研究,通过快速提供所需临床数据,使研究者精准界定随访阶段与内容。
4.3 数据应用
利用AI技术实现了临床病史的后结构化,拓展了数据收集范围,体现出医疗数据的利用价值。赋予研究者全新的科研手段,全文检索功能支持预研队列特征项的模糊匹配,提高了查找和预处理数据的效率;构建了时序性的先心病数据集,避免了多源数据相互矛盾的现象,满足预测模型的训练需求,研究结论更可靠。
5 讨论
医院通过多源数据的智能化治理,建设高质量的专病库,解决了临床研究数据采集受限的问题,避免了人工收集数据造成的错误,提升了科研效率。
需要说明的是,专病库建设全程需要临床专家、信息技术人员及科研人员共同参与。临床专家前瞻性地厘清面临的问题,提出常规资料收集要求;信息技术人员具体分析从业务软件提取数据的可及性,设计并架构数据库,通过算法汇聚并清洗数据;研究者则利用数据库展开研究,提炼实际的研究证据,从而引申出新的问题。通过多方介入的运转流程,数据才能起到关键作用,形成以数据库为核心的研究闭环模式。
专病库的核心组件和模块具有较强的复用能力。但数据库建设费用高昂,而横向的复制成本相对较低。因此,在推广应用时,面对不同的病种,首先,如患者资料、就诊信息等相同数据,与病种独有数据应加以标记分隔;其次,多模态数据的处理中,抽取及治理逻辑常常也是类似的,区别在于病种代码和特定规则不同。因此,数据库的组件应采用“通用-病种”的方式整体定义,既减少软硬件资源的投入,也有利于缩短推广到其他病种的实施周期。
当然,专病库的建设是一个逐渐完善的过程,随着研究者使用次数增多,也会不定期地暴露出一些缺陷:如某类业务软件存在信息盲点,使源数据无法提取,缺失项需要研究者手动补充,数据无法共享等。另外,针对同一种特征的描述,医生的书写各异,导致提取不准确。对此,NLP算法的精准度,以及数据项的全面性和准确性有待进一步提高。随着诊前及预后模型的复杂度提升,医院信息化要不断改进,实现业务软件的前结构化改造,推动专病库持续优化,真正发挥出医疗数据的潜力。