APP下载

基于元数据可追溯性的健康医疗大数据分析

2020-11-20吴小颖李熠慜

装备维修技术 2020年3期
关键词:元数据

吴小颖 李熠慜

摘  要:对于健康医疗大数据而言,其具有来源多样、数据分散、存在大量非结构化信息、融合壁垒高等特点,正是基于上述特点,导致无法有效的对健康医疗大数据进行追溯与治理。因此为有效的改变上述不良情况,则需要采用一种有效的方式对健康医疗大数据进行追溯与治理,目前多使用基于元数据可追溯性的方式进行分析。本文将论述基于元数据的数据融合方式及数据可视化呈现等内容。

关键词:元数据;可追溯性;健康医疗大数据

随着健康意识的不但提升,近年来健康医疗大数据开始受到医学界的重点关注,为此国家卫建委下发相关的政策加强对健康医疗大数据的规范管理与开发应用。为有效的实现上述目标,目前开始使用基于元数据可追溯性的方式对健康医疗大数据进行分析[1]。本文将探讨基于元数据可追溯性的健康医疗大数据分析方式与效果。

1.基于元数据的数据融合方式

1.1需求现状分析

1.1.1目前我国国医疗健康元数据的现状

所谓的元数据主要是指“关于数据的数据”,若能对元数据进行良好的管理,则能够有效的实现对数据统一管理,由此可知,需要对元数据进行准确、快捷访问。通过近年来的研究发现,完整的元数据管理模式主要分为如下部分,即完整的字段定义、与数据源的对应关系、不同数据来源元数据间的映射关系。但通过观察实际情况可知,因无法对元数据定义及录入时统计口径进行统一,从而导致医疗数据存在精准度欠缺、一致性低、准确度较低等不良问题[2]。

1.1.2临床数据交换标准协会中元数据可追溯能力的可视化呈现

自进入国际协调会议后,我国卫生部门对临床数据提交的规则与要求进行了更加向有效的完善。Real World Data是临床数据交换标准协会的一个重要项目,其主要的宗旨在于通过电子健康记录系统对相关数据进行收集,以便能够将其有效的运用到临床研究与安全报告中。然而通过纵观实际情况发现,临床数据交换标准协会在元数据的可追溯性方面仍然存在较大的缺陷,因此为有效的解决此问题,目前临床数据交换标准协会开始使用Trace-XML系统,主要包括验证端到端的追溯能力、运行端到端追溯查询、可视化端到端的追溯能力等部分,有效的提升元数据的分析能力。

1.2基于元数据的数据融合的设计思路

为有效的提升基于元数据的数据融合能力,目前多使用半自动化的融合方式,该种方式包括如下功能:①能够实现对原始数据库的表、字段、表间关系的有效抽取;②形成原始数据库的数据模型元数据,能够对每个表与字段标注业务名称与备注;③具有按照业务名称或表与字段名称进行搜索的功能;④具有对表与字段的增加、修改、删除管理数据模型的功能。

1.3基于元数据的数据融合的结构设计

(1)逻辑架构。对于数据采集而言,需要具有规范地目录,包括数据源、数据目标与转换规则等。目录的生成的方式如下,即将基于已存在的业务术语关联到对应的元数据,并通过数据源映射到业务术语,并且形成新目录。在形成目录的过程中,主要涉及到如下方面:①使用自然语言处理算法去重、归一、梳理、消歧数据,之后将数据模型添加至知识库中;②依据对应业务数据模型将处理后的数据模型抽取、清洗到目标数据库中。

(2)数据收集与分析。在数据收集方面主要使用具有高性能、高可用、高扩展特性的结构化数据库集群系统,该种系统不仅能够提供通用计算平台,同时还能够广泛应用于支撑各类数据仓库系统、商务智能系统与决策支持系统中。在数据分析方面,筛选不同部门的所需数据,以便能够对医疗数据全景图进行规划,从而能够提取出更具有价值的数据。

(3)技术架构。目前多使用基于CWM的医疗元数据管理进行技术架构。所谓的CWM主要是指对象管理组织在数据仓库系统中定义的、具有完整的元模型体系结构,主要用于数据仓库构建与应用的元数据建模方面。通过分析可知,CWM模型主要包括如下规范:①CWM元模型。该模型主要用于对数据仓库系统的描述。②CWM XML,主要是指CWM元模型的XM表达形式。③CWM DTD。该种格式主要是DW/BI共享元数据的交换格式。④CWM IDL。该种格式主要是DW/BI共享元数据的应用程序访问接口。

2.数据可视化呈现

为更加明确数据资产分布情况与产生过程,目前多采用数据可视化系统,主要包括元数据采集、元数据展示、元数据应用、元数据搜索、元数据浏览及管理、数据字典管理等内容,具体如下:

2.1元数据可视化的主要内容

2.1.1元数据采集方面的可视化

纵观目前的实际情况,现有的健康医疗大数据平台主要包括事实表与值域表。事实表主要分为定义类与管理类元数据等方面;值域表主要为表示类元数据。为实现数据融合后的格式统一,在采集数据的过程中采用可视化操作管理,主要包括结构标准化、数据标准化等内容。通过对数据进行标准化处理,在较大程度上实现了数据的高效与融合的规范性[3]。

2.1.2元数据展示方面的可视化

所谓的元数据展示功能主要是指对某元数据来源的分布情况进行展示,从而能够追溯到影响该指标的所有源数据库的元数据,通过采用血缘关系分析能力利用图形对各业务数据的图谱进行完整展现。

2.1.3元数据搜索方面的可视化

所谓的元数据搜索主要是指用户可通过不同类型的数据源库对元数据进行搜索,以便能够更快的对元数据进行定位,并增强用户的了解程度。

2.1.4元数据浏览方面的可视化

所谓的元数据浏览主要是指用户可对数据字段名称、字段类型、长度、是否必填等项目进行查看浏览;并且用户能够依据自身的实际需求对过滤规则进行编辑,以便能够使元素局更加标准化、更具有规范性。

2.2治理后的平台功能情况

通过纵观健康医疗大数据平台治理后的实际情况,相比于治理前,該平台具有更高的完整性、正确性、一致性、合理性与时效性。收集实时与标准的数据能够对数据进行有效的治理;对元数据标准进行统一后获得的主数据具有更加良好的存储、整合、清洗与监管效用。按照目前现有的需求,基于元数据的数据融合能够对诸多不同医疗机构的数据进行整合;将整合后的数据按照慢病管理、公共卫生、药品使用情况予以分类,由集合后的数据集市对所需要数据进行抽取,之后进行计算,并对计算后的数据予以可视化呈现,便于用户直截了当的进行观察分析。同时,用于生成统计指标所调用到的字段,不仅能够进行详细的可视化展现,同时还能够辅助用户对数据实体间的组合与依赖关系进行理解,最终有利于客户的选择。

通过对平台进行治理后,医疗大数据平台可依据追溯数据来源及其元数据,实现了对数据的有效的控制,并且用户可依据患者、病种、科室的具体情况对该区域的医疗信息进行详细查看并作出相应的分析。

3.总结

伴随着互联网技术的不断发展,将会出现更多的健康医疗大数据,为确保数据控制获得较高的质量,对数据进行统一、一致的管理,保证大数据平台的正常运行,则需要对数据进行良好的整合,而基于元数据的数据融合方式则是实现上述目标的重要方式,能够获得良好效果。

参考文献:

[1]王霞,李岳峰,董方杰,胡建平,张学高.中国健康医疗大数据资源核心元数据研究[J].中国卫生信息管理杂志,2019,16(03):268-271.

[2]王利亚,邱航,陈若雅.基于元数据可追溯性的健康医疗大数据治理方法及可视化呈现[J].中国卫生信息管理杂志,2019,16(06):661-666.

[3]阮彤,邱加辉,张知行,叶琪.医疗数据治理——构建高质量医疗大数据智能分析数据基础[J].大数据,2019,5(01):12-24.

猜你喜欢

元数据
元数据国际交换共享的客家古民居数字记忆工程建设
基于来源的组织机构元数据构建研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
利用VB读取中国知网过刊数据提取元数据的研究
财会信息资源元数据标准的研究
基于隐语义模型和用户信任的个性化推荐模型
基于关联数据的语义数字档案馆框架设计研究
基于角色控制的异构数据展示在企业门户中的应用
基于元数据映射机制的异构数据操作