如何构建高质量的医疗大数据
2019-06-18阮彤邱加辉
阮彤 邱加辉
医疗健康大数据与人工智能呈蓬勃发展的态势。一方面,医院互联互通、国家与省市大数据中心的建设,为医疗健康大数据奠定了良好的基础;另一方面,个性化诊断、疾病预测与辅助决策支持系统等各类医疗人工智能应用不断涌现。
构建主数据管理库
医疗数据的主数据主要有病人信息和医生信息两类。目前,在医院层面,各业务系统对病人的信息分别进行存储,但大型医院都建立了临床数据中心,为了唯一标识一个病人,需要通过构建病人主索引号将存储于不同系统的病人关联在一起。这里有两个问题需要解决。第一,如何构建EMPI。识别不同系统中同一个病人不同ID之间的映射关系十分困难,特别是在区域平台上每个系统都有独立的ID,导致这个问题更复杂了。第二,一个病人的基础信息可能同时存在于医院信息系统、实验室信息管理系统和影像存储与传输系统等系统中。而各系统的侧重点不同,难免会造成数据填写质量不一致或数据未及时更新等问题。
为此,需要在定义系统主数据的情况下,构建主数据管理中央库,解决主数据碎片问题。可以从各业务系统抽取数据,并进行数据融合,形成完备的主数据信息,然后再将主数据信息分发给各业务系统,保证各业务系统中这些信息的准确性和完整性。这样就形成了公共的重要属性由主数据管理系统管理、各业务系统的特色 属性由各系统独立管理的模式。
在构建主数据管理库时,首先需要从多个异构的业务子系统中以ETL的方式抽取关键数据,然后,利用元数据库 对其中的编码、描述进行标准化。接着,由于多个业务系统的数据可能不一致,还需要通过匹配算法完成对数据的错误消除和信息融合。对于匹配不到的孤立信息,要加以监控跟踪,进行人工处理。同时,以增量学习的方式不断改进匹配算法。最后,将归整好的主数据信息存入主数据库。
在这些主数据管理的基础服务之上,还可以提供诸如患者画像等高级功能。目前患者就诊时,医生仅能够通过患者自述的方式快速了解慢性病史、过敏史等信息。尽管可以查阅历史档案,但对于医生来说很不方便。而通过对诊断等数据的分析,可以形成患者慢性病、过敏史的标注信息,将这些信息合并到病人的主数据中形成患者画像。患者就诊时医生可以直接读取到这些标注信息,从而准确、快速地获取必要信息。
数据质量管控子系统
从数据产生过程来看,医疗数据质量问题主要来源于3个方面。
一是原始信息采集有误差。在医疗系统内数据采集主要通过手工方式录入,在医生或护士输入信息的过程中,可能会有意或无意地将数据错误引入系统。二是数据融合过程发生问题。在对不同来源的数据进行融合时,数据格式和语义可能会有误差或不一致,导致融合结果有错 。三是与数据的应用场景不匹配。
因此,在医疗数据治理流程中,需要了解最终的使用场景,也需要从业务系统的数据源头控制质量,并保证每个融合和加工过程的正确性。另外,当发现错误的时候,可以实现自动或半自动的修正。因此,质量管控平台包括了数据质量实时监控、数据质量后评估以及数据的自动修正。数据质量实时监控主要针对从业务系统抽取的或是从外部传送的接口数据,通常从及时性、有效性和完整性等几个指标监测接口内容本身的数据质量问题,还需要对采集程序进行监控,如接口采集程序是否正常启动、是否正常结束等。数据质量后评估是指对融合后的数据进行质量评估。首先从确定评价对象和范围着手,然后选取数据质量维度及评价标准,确定质量测度及评价方法,之后按照配置的评估指标执行评估,产生权重化的评估结果,最后生成质量结果和报告。
医疗大数据
治理标准与治理能力评估
在单独的业务系统以及数据互联互通方面,国家卫生健康委员会已建立了相应的标准。但是,在医疗大数据方面,还缺乏专门的标准。需要特别指出的是,数据标准包含病人、医生、医院等主数据标准,也包含检查、疾病、用药等数据值标准。数据标准还需要对不同的医疗行为进行标准化的描述。为了便于人工智能应用,对于文本数据和影像数据,也应有相应的标注规范。由于不同专科需要的数据字段有差别,有可能会进一步制定专科规范。总而言之,标准体系包含了相互关联的多个标准,覆盖面广,种类众多,标准的建设不是一蹴而就的。
除了医疗大数据治理标准外,值得一提的是医疗数据治理能力评估规范。数据治理能力评估规范可以考察企业对数据的管理能力,通过对企业的评估,可以逐步提高企业的数据治理能力。该评估标準经过修改后也可以用在医疗领域。
国内最早启动相关研究的机构是全国信息技术标准化技术委员会,该机构于2014年开始开展相关的研究,并在2018年3月15日颁布了国家标准《数据管理能力成熟度评估模型》(GB/T 36073-2018)。该标准可以用于评估不同行业的企业的数据管理制度、手段、方法以及相关能力。《标准》从8个关键过程域考察了企业管理数据的能力。过程域和过程项包括:数据战略(数据战略框架、数据战略实施、数据战略评估、数据任务效益评估)、数据治理(数据治理组织、数据制度建设、数据治理沟通)、数据架构(组织数据模型、数据分布与整合、数据共享与应用服务、元数据管理)、数据应用(数据分析、数据开放共享、数据服务)、数据安全(数据安全策略、数据安全保护、数据安全审计)、数据质量(数据质量需求、数据质量检查、数据质量分析、数据质量提升)、数据标准(业务术语、参考数据和主数据、数据元、指标数据)、数据生命周期(数据需求、数据设计与开发、数据运维、数据退役)。评价方法主要采用评价问卷和调研访谈两种。评价问卷是根据数据能力成熟度模型定义每个域的评价指标,并对各个指标进行加权平均,计算自评结果。调研访谈则是根据重点问题,对相关单位人员进行输入了解,准备评估数据能力的真实情况。上述成熟度评价模型都将成熟度定义为5个等级。以国家标准GB/T 36073-2018为例,5个等级被定义为:初始级、受管理级、稳健级、量化管理级和优化级。其中,初始级是指对数据需求的管理主要在项目级体现,没有统一的管理流程,是一种被动的管理;受管理级是指组织已经意识到数据是资产,根据管理策略的要求制定了管理流程,指定了相关人员进行初步管理;稳健级是指数据已经被当做实现组织绩效目标的重要资产,在组织层面制定了系列标准化管理流程,促进数据管理的规范化;量化管理级是指数据被认为是获取竞争优势的重要资源,数据管理的效率能够被量化分析和监控;优化级是指数据被认为是组织生存的基础,相关管理流程能够实时优化,能够在行业内进行最佳实践的分享。
目前大多数医疗机构的数据治理能力至多在受管理级,即把数据当作重要资产,进行了初步的数据集成工作,制定了一定的管理流程。但是,还远远未达到稳健级,目前的数据管理流程还远远没有达到标准化阶段,无法满足数据管理及应用能结合组织的业务战略需求、经营管理需求以及监管需求。
医疗数据治理是一个“修高速公路”的过程,人工智能和大数据挖掘应用是“跑车”。修路是一个基础设施建设,需要大量的投入,而且不会快速产生效果。但是,若没有成功的数据治理,数据可用性就会有问题,现有的人工智能和大数据挖掘算法的效率和有效性就会打折扣。因此,各级医疗机构和医疗管理部门应投入人力物力,建立有效的数据治理机制,保障国家人工智能和大数据战略的有效实施。