健康医疗数据治理与共享服务体系设计
2023-11-25苏冬
苏冬
(解放军93601部队,山西大同 037047)
0 引言
在全面推进“健康中国”的背景下,健康医疗数据在实现精准医疗、提升医疗质量、控制医疗成本、增强疫情防控及突发公共卫生事件处置能力等方面发挥了重要价值。随着医疗信息化体系的完善及数据应用领域的不断深入,进一步凸显了数据价值[1],也对医疗行业数据的汇聚整合、质量控制、安全管理、共享访问提出了更高的要求。
随着医疗信息技术的发展,医疗机构在医疗业务中积累了大规模数据资源,为健康医疗大数据应用奠定了良好基础。但由于健康医疗数据的特殊性,应用具有如下特点:第一,健康医疗大数据涉及多业务、多层次、多领域,在内容结构上具有覆盖面广、数据类型复杂、维度高的特性,且基于多学科临床标准的多变性,对其进行分析研究需要采集处理海量的数据,医疗机构内存在业务系统兼容性、数据标准不统一、数据质量参差不齐、数据碎片化、数据孤岛等现象,不仅增加了数据治理难度,也限制了信息资源共享[2];第二,健康医疗数据包含患者隐私,对安全性和稳定性具有更高要求。为此,我国相继颁布了《国家健康医疗大数据标准、安全和服务管理办法(试行)》、《关于落实卫生健康行业网络信息与数据安全责任通知》等国家及数据安全法规[3],进一步规范了数据全生命周期管理要求。其中,数据治理和数据安全共享是数据全生命周期中最重要的两个方面,它们对于数据的价值挖掘、应用和保护起到了至关重要的作用。通过科学的数据治理和数据安全共享,可以最大程度地提高数据的利用价值,降低数据的管理成本和安全管理风险[4],推动数字转型和业务创新。因此,研究旨在设计健康医疗数据治理与共享服务体系,可基于统一的数据标准对健康医疗数据进行综合治理,最终实现元数据管理、数据标准管理、主数据管理、数据融合治理、数据质量校对、血缘分析、数据共享交换以及数据应用等可视化人机交互,建立高效、安全、快捷的数据的全生命周期管理体系,提高健康医疗数据使用价值[5]。
1 健康医疗数据治理与共享服务体系设计
1.1 数据治理模块
数据治理是指对数据进行加工、转化和计算等操作方式,其最终的目标是形成数字资产,并使其产生价值[6]。涉及的主要技术手段包括数据清洗、数据转换、数据聚合、数据分析以及机器学习等。而具体的技术方法的选择与现有数据特点、应用场景和业务需求密切相关,需要根据实际情况进行分析、取舍和优化。
数据集成治理采用图形化的数据流和工作流设计,使用分布式的数据处理和任务调度方式,抽取分散的、异构数据源,并对其进行清洗、转换、集成,最后加载到健康医学数据中心,用于构建同构可控的贴源库、基于实体的融合库、基于主题和专题的应用库。
1)数据连接
体系在设计上支持院内网、互联网网络切换与连通,建立医院信息系统(hospital information system,HIS)、医学影像存档与通信系统(picture archiving and communication systems, PACS) 、电子病历系统(electronic medical record, EMR) 、实验室信息系统(laboratory information system, LIS) 、医院资源规划系统(hospital resource planning, HRP) 等业务信息系统数据流转链路,实现了多种数据库类型以及TXT、Excel、XML、JSON等多种常用文件格式的实时数据引接。
2)建立数据标准
通过数据关联匹配,重点实现了字典对齐、实体对齐、匹配结构等功能将含义相同的多个不同字典数值的数据行统一于GB/T 21715.4-2011《健康信息学》融合数据标准字典表[8],对人员、机构、装备、药品试剂、诊疗项目等主要实体的标准映射和统一标识,实现对健康医疗数据的标准化处理。
3)数据血缘管理
通过数据中心管理,实现对数据资源池里所有表的基础信息、结构、历史和数据内容进行查询浏览,支持SQL 语句自定义增删改查。通过数据地图对数据资源池的数据流程和整体分层实现可视化展现,其中每一个点即一份数据,可以呈现出这份数据的整个流向和来源,可查看每份数据的基本信息,可查看其血缘关系,还可对含有采集任务的表进行映射的编辑,进行问题的治理。
4)数据治理开发及任务调度
封装转换组件、函数和参数调用规则,同时预留出端口可调用外部的过程和程序,实现复杂的治理逻辑。提供流程监控管理功能,将运行状态信息记录到日志文件,可查看历史版本的运行时状态及日志信息。此外,为避免因资源抢占导致的一些异常现象,可对加工任务进行并发控制,设置相应的优先级,确保任务能正常、有序执行。
5)数据资产应用
在融合库数据基础上经过进一步应用开发实现计算算法、统计分析、数据大屏、效益分析后,形成支撑业务工作决策的应用数据,存储于医疗数据应用库。
1.2 数据安全模块
数据的安全体系建设并不是所有安全产品的简单堆砌,而是一套完整的生态系统,该系统根据使用者的业务需求、使用习惯、安全策略要求等多个方便综合考虑构建而成[9]。涉及的技术思路是首先将核心业务主机包和数据与其他网络区域进行逻辑分离,对数据访问入口进行严格的访问控制、授权和审计,对流出的敏感数据进行加密处理。实现数据采集、存储、共享使用全流程安全管理,具体内容包括:
1)数据采集阶段
数据是从低密级的加密网络通过网闸采取单向导入方式向高密级网络进行传输。
2)数据存储阶段
采用分布式存储方式,同时支持多副本及EC 纠删码两种冗余模式,基于目录设置冗余配比,可以根据数据重要性灵活调节冗余度,最大允许同时损坏4台存储服务器,保证数据存储安全。
3)数据共享使用阶段
基于“分散部署、集中管理、按需按权、智能服务”的原则,进行数据库权限配置管理,各在网用户基于授予的权限下按需获取数据浏览维护、可视化展现、统计报表、数字医院等功能,实现多源异构健康医学数据资源的全域共享服务。同时,通过硬件防火墙、入侵检测、数据库安全审计等安全设备设定访问控制策略,防范内外部攻击,消除应用程序业务逻辑漏洞或缺陷所导致的数据库安全问题,保证数据在安全的网络环境中进行高效且有针对性地共享。
2 数据治理与共享服务体系实施
如图1所示,系统实施采用分层结构实现,其中包括:数据治理层、大数据基础体系层及数据源层[10]。数据源层为体系提供业务系统数据源管理功能,可实现数据源存储、数据源定义等功能;大数据基础层采用大数据基础框架支持数据源操作管理、数据访问、持久化、载入、开发等公共服务功能;数据治理层包括:数据连接管理、数据汇聚、数据体系应用、数据资产管理、数据服务体系、数据运营体系以及数据安全管理[11]。数据体系包括:贴源数据层、统一数据仓库层、标签数据层以及应用数据层,贴源数据层直接从业务系统或日志系统中获取数据。贴源数据层的数据只被统一数仓层使用,统一数仓层数据只被标签层和应用数据层使用,最终所有业务使用的数据均来自标签层和应用层。数据资产管理包括:数据标准、元数据、数据质量管理、数据血缘、数据生命周期管理。数据服务体系为用户提供数据分享服务,包括:服务创建、API 网关、服务授权、调用管理,分别通过,支持用户申请、审核、查询及下载指定数据源。数据运用管理用于定义数据指标、明确指标构成,并可为用户提供数据可视化功能,实现数据可视化资源管理。数据安全管理通过建立安全策略及对应执行体系,确保数据治理全流程数据安全性、完整性。下面针对体系中数据连接管理、数据汇聚、数据资产管理、数据服务以及数据安全管理等主要内容进行具体描述。
图1 健康医疗数据治理与共享服务架构设计
2.1 数据治理功能实现
1)数据连接管理
健康医疗数据来源于不同医疗业务系统,包括大量结构化数据(例如:关系型数据库、线性表)、半结构化数据(例如:DICOM、JSON、XML 数据)以及非结构化数据(例如:文本描述、随访视频、数字病理切片)等[3]。体系采用XML 存储数据源,基于Pentaho Data Integration 工具定义数据抽取、清洗、转换、过滤过程[12],并在此基础上通过二次开发完成数据质量检测功能,为实现异构数据应用创造条件。
2)数据标准构建与预处理
数据标准是数据治理的前提,研究基于GB/T34960.5-2018《信息技术服务治理第5 部分:数据治理规范》再整合医疗机构内信息化数据系统字典表及编码规范形成数据标准[13],遵循健康医疗数据建设领域相关数据标准,规范数据引接集成、融合治理、应用服务、安全保密等各个环节的具体建设,提高末端健康医疗业务数据采集、使用、管理和保障的标准化水平。
3)数据汇聚
通过建立数据汇聚功能实现收集数据过程,为数据分析提供了素材和依据。体系基于Pentaho Data Integration 工具图形化的配置界面实现分布的、异构的、跨网络的各部门政务信息资源的交换汇聚,实现统一体系下异构业务系统数据资源的共享整合。按照预定义数据标准处理后将多方数据集中至数据体系,再以统一标准对外提供数据服务,使数据按一定业务规则成为可复用的信息资源服务。同时以服务总线及消息组件支持接入/接出多通道的消息,使各类消息可以在总线上流转,实现跨科室、跨机构的信息共享,帮助中心体系数据进行综合、全面分析与监管,及时感知运行状态并做出智能化响应。
4)元数据、生命周期管理及数据血缘
该模块包括:元数据管理、数据生命周期审计、数据血缘管理并提供对应安全策略。采用Apache 开源项目Atlas 结合Ranger 实现。其中,Atlas 为数据治理和元数据框架,它提供了一个可伸缩和可扩展的核心基础数据治理服务集,满足数据合规性要求[14],体系采用该框架实现元数据导入并通过定义业务导向分类注释自动捕获数据集和底层元素之间的关系,建立集中审计机制,实时捕获与应用、过程以及与数据交互的安全访问信息,通过设置预定义导航路径探索数据分类以及审计信息,基于文本的搜索特性来定位相关联的数据和审计事件;为确保数据质量,建立数据血缘关系图及影响关系图等可视化方法,为用户提供钻取工具呈现数据起源信息,即:通过与整个健康医疗数据生态系统集成,允许用户通过元数据管理可实现元数据表及其字段查询、表转换历史及依赖关系查看、元数据采集等功能,进而分析元数据生成、加工及流转链路,辅助定位数据仓库数据转换过程及数据变化范围;与Apache Ranger 结合为上述功能提供安全策略,包括:基于数据分类模式、属性以及角色提供运行时合理合规策略[15];基于分类-预测的高级策略定义以防止数据推导;建立基于访问策略的权限控制模型,通过对库表配置不同的访问策略及用户权限控制,达到数据隔离的目的;提供了基于行列级别的细粒度权限控制;提供审计日志记录及查看功能。
5)数据质量管理
该模块基于数据标准建立一整套数据审核方案,可为用户提供数据模板规范模型设计,允许数据质量控制人员通过定义表命名、元数据、编码方式以及数据特征等标准,确保数据质量并提高使用效率。
6)数据资产管理模块
数据资产管理(Data Asset Management,DAM)是规划、控制和提供数据及信息资产的业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,以系统化方法控制、保护、交付和提高数据资产的价值[16]。体系基于健康医疗数据资产中心,实现数据存储、治理、应用等全生命周期管理,面向用户提供数据资源及数据间关系查询、资源申请等功能。其中,可通过建立数据资产视图,呈现用户权限内数据源及其所属数据表信息、调度历史及状态等;采用数据地图方式,用户可直观了解数据间关系信息。
2.2 数据安全管理实现
为确保数据安全,体系采用以下安全策略:第一,接入权限控制,采用用户密钥、网段地址验证、访问时间段控制等方法实现;第二,为数据提供加密防护;第三,提供数据安全审计、访问日志扫描、细粒度数据权限控制功能;第四,建立数据脱敏机制,降低敏感数据泄密风险,确保数据应用的安全性;第五,加强数据全生命周期流程安全性管理,及时排查业务漏洞,降低安全风险;最后,数据安全及共享的各个安全子系统都采用旁路方式部署VMware 云计算体系上,在保证用户的业务连续性的基础上利用虚拟体系强大的服务器虚拟化能力,为健康医疗数据生命周期中各阶段的安全防护提供良好的可靠性和可扩展性。
2.3 数据共享服务体系实现
首先,用户可通过可视化界面查询目标数据,并基于可视化数据建模工具建立目标数据结构并完成数据关联、整合、变换等定义。当完成数据定义后发出数据申请,经审核通过后,由系统安全及分享策略设置使用期限,随后,分别启动数据提供及访问跟踪服务。体系将数据访问服务地址等内容封装在反馈消息中提供至用户,当用户完成后回收数据访问权限并销毁数据提供服务。体系采用Spring Cloud 微服务框架实现数据提供服务,用户数据请求、数据提供服务及访问跟踪服务均采用Spring Boot 框架建立微服务项目,提高系统的伸缩性,降低单点故障率。
3 结论
在项目研究过程中,聚焦健康医疗数据业务需求,提供数据引接汇聚、存储建模、整合治理、质量稽核以及分发共享全流程管控等服务,为业务数据的“统”“融”“用”提供强有力的支撑,具备可视化、能编排、易维护等特点,实现各类数据资源“后台”和医疗应用“前台”的高效衔接。但由于大数据技术发展日新月异,健康医疗数据建设的紧迫感也越来越强。为满足日益增长的大数据对存储、计算、应用的需求,针对目前数据中台研究中存在的问题,下一步打算如下:第一,升级系统的技术栈。基于大数据的架构来统筹存储、计算与应用,实现结构化与非结构化数据有效组织,实时流数据高效计算与分发,发挥覆盖区域内一二级医疗机构及职能科室作为云边缘节点作用,为其提供软件即服务(SaaS模式);第二,各类人工智能算法已在医学图像处理、病历自然语言处理、临床决策支持等方面有诸多应用,均对我们自身的业务有借鉴与启发意义。