医学大数据长期保存系统的设计与实现
2020-01-06
在数据驱动科研的范式下,医学大数据作为一种战略性资源,对于医学科技创新具有重要的支撑作用。医学大数据包括生物医学科技文献数据、医疗保险数据、临床电子病历以及医疗论坛数据等。医学科研与实践活动以及各项应用平台建设产出的大量医学科研数据,在产生经济和社会效益的同时,涉及主题极为广泛,具有深度分析、挖掘和再利用的大数据研究价值。然而,随着信息技术的飞速发展以及新型媒介和载体的快速革新,如何长期保存这些具有再利用价值的数据,面临着数据真实性、完整性、可获得性以及长期可解释性的挑战[1-5]。
医学大数据除表现在数量庞大、类型多样、增长快速以及具有挖掘价值的大数据特征[6]外,还表现出特有的复杂性[7-10]。首先,鉴于数据的敏感性和共享机制的缺乏,医学数据难以获取;其次,由于仪器设备专业化和精细度等因素,医学数据的获取代价可能较为昂贵;第三,基于学科的严谨性,在数据分析和结果解释时,医学领域知识一般占据主导地位。此外,医学数据还表现出一定程度上的不可再现性特征。
面对大规模、多样化和动态变化的医学大数据,如何最大限度地保证数据的真实性、完整性、可靠性以及长期可解释性,建立可持续发展的医学大数据长期保存系统平台,是当前数字资源保障体系建设中面临的重要课题。
1 长期保存
开放存档信息系统参考模型[11](Reference model for an open archival information system,OAIS)为长期保存提供了基础性框架。其中“开放”一词表示该模型的相关建议书和标准的形成具有开放性,并非表示对存档内容的访问不受限制,保存的信息通常采用“暗保存(Dark Archival)”模式[12-13],即只有当特定的事件触发时,才启用对存档信息的访问。该模型最早由美国国家航空和航天局(National Aeronautics and Space Administration,NASA)和美国空间数据系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)于1999年提出,经过不断的发展与完善,已经成为数字保存系统建设普遍遵循的重要标准——ISO 14721:2012。
根据OAIS的定义,长期保存是一项对保存内容进行长期管理和维护的行为,旨在确保保存内容可以被特定社区所理解,并提供支持其真实性证据,即在足够长时间内,技术的变革、新的媒体和数据格式,以及特定用户社区的变化等都有可能对保存的信息产生一定的影响。因此,长期保存不仅意味着是用于安全管理备份数据,而更强调对数字内容的生命周期维护,包括数据审核、数据关联以及数据监控等行为。其中对数据进行审核是为了确保其完整性,与适当的元数据关联是为了确保其可发现性,对保存内容进行访问控制监控是为了满足相关的隐私许可以及知识产权限制等要求。
本文基于医学领域资源建设和信息服务的发展需求,结合大数据时代资源保存对象由传统纸质文献资源向多类型数据资源转移的新形势,以健全医学信息保障及服务能力为宗旨,围绕数字资源保存的概念化、创建/接收数据、评估和选择、摄入、保存、存储、访问利用/重用以及转换各生命周期阶段,建设医学大数据长期保存系统(Long-term PREServation System for Medical big data,MedPRES),以保证医学数据的真实性、完整性、可获得性及长期可解释性,为重要医学资源的长期保存和利用提供有力保障。
2 保存方案
2.1 数据流程
在长期保存系统中,保存内容以信息包的形式进行交互,包括提交信息包(Submission Information Package,SIP)、存档信息包(Archival Information Package,AIP)和分发信息包(Dissemination Information Package,DIP)。保存信息在长期保存过程中的数据流向见图1。
图1 长期保存系统中的数据流向
图1中,数据提交者向长期保存系统提交将要保存的内容,SIP需要包含数据及内容信息,以确保保存系统可以维护保存内容,数据使用者可以通过保存系统访问、理解和使用保存内容。
保存系统接收来自数据提交者的SIP,通过数据摄入功能实体将SIP转换为适合于数据存档和数据管理所需的一组AIP,并对接收的信息对象进行分类,确定每个对象的所属集合,完成AIP存档后创建消息以更新集合描述。
数据存档功能实体接收摄入流程生成的AIP,并将其添加到永久保存库。数据管理功能实体采用数据摄入阶段生成的包描述,并扩展现有的集合描述。数据在存档和管理过程中需要进行媒介更新、纠错以及数据库维护等操作,以防技术、媒介、数据格式和用户群体等随着时间推移所产生的变化而导致信息丢失。
数据访问功能实体根据数据使用者的数据访问请求,与数据存档和数据管理相互作用,交互DIP所对应的AIP及其相关信息包描述。数据存档和数据管理在临时存储中创建请求对象的副本,数据访问将该组AIP和关联的包描述转换为一组DIP,并将其存储于物理分发媒介,以在数据分发会话中交付给数据使用者。
2.2 信息模型
长期保存的主要目标是在不确定的时间内保存特定信息。为了保存该信息对象,长期保存系统必须充分理解数据对象及其关联的呈现信息。OAIS参考模型强调对信息内容的保存,信息模型是长期保存的关键。根据OAIS,存档信息包的数据模型[11]如图2 所示。
图2 存档信息包数据模型
信息包包含内容信息和保存描述信息。内容信息是保存的目标信息,由内容数据对象及其相关的呈现信息组成,以使内容数据对象可被指定团体理解;保存描述信息有指引信息、起源信息、环境信息、不变性信息以及访问权限信息5种类型。其中,指引信息提供标识符,以标识内容信息;起源信息描述内容信息的来源,提供对内容信息的审核跟踪,为内容信息的真实性和可靠性提供依据;环境信息记录创建内容信息的原因及其与环境中的其他内容信息对象之间的关系;不变性信息提供对数据完整性的检查与验证,用于追溯内容信息对象的更改记录;访问权限信息提供对保存、分发和使用内容信息的权限许可范围。
2.3 关联整合
对多源异构数字对象进行关联整合的框架如图3所示。由于采集接收的数据信息没有呈现信息和保存描述信息,因此在摄入阶段必须对SIP进行处理,以确保收集到保存数据对象的长期可访问性和可用性信息。提取与数据对象相关的元数据,并将所有内容封装于AIP中进行存档;基于捕获的数据对象元数据表示,将其编码为RDF三元组并存储于索引中;以面向应用的方式对保存知识和特定领域的对象格式和概念进行建模,实现对多来源数字对象元数据的高效管理;保存数据对象以DIP的形式提供访问与利用服务,并通过图形数据库存储,为知识推理与挖掘以及图数据复杂查询提供支撑。
图3 关联整合框架
3 系统设计
3.1 总体架构
为实现医学大数据的长期保存,MedPRES按照目前国际公认的标准进行设计。MedPRES模型的定义遵循ISO 14721:2012——开放存档信息系统[14],数字仓储的可信认证遵循ISO 16363:2012——可信赖的数字仓储审计与认证标准(Audit and Certification of Trustworthy Digital Repositories)[15]。MedPRES总体架构如图4所示,自底向上包括基础设施层、数据层、存储层、应用层以及服务层。
基础设施层:采用虚拟化技术合理利用与分配各类计算、存储与网络等资源,提高资源的利用率和应用的可靠性;通过云平台与底层虚拟化平台协同工作,实现计算、网络和存储基础架构服务的抽象化、池化和自动化。
数据层:甄选具有长期保存价值的医学科学数据、专业数据库以及网页数据等,根据不同的数据类型确定合适的资源获取与采集方式,实现多来源异构海量医学数据的全面采集与分类处理。
存储层:基于分布式存储实现对医学大数据的保存,包括对元数据存储、业务数据存储和文件存储。其中,元数据存储至Fedora,数据索引存储至ElasticSearch,业务数据支持关系数据库存储。
应用层:MedPRES的采集、接收、摄入、管理等各个业务模块基于微服务理念进行设计,并实现对MD5码检测、解压缩测试、病毒检查、数量检查、格式检查和数据备份等的插件化管理。
服务层:系统基于B/S模式开发,提供标准的数据访问与交互接口,为数据集成和服务提供支持。
图4 MedPRES总体架构
3.2 关键技术
3.2.1 工作流
长期保存包括采集、接收、摄入、存储、管理、访问等环节,每个功能环节又包含一系列的具体处理流程,如信息包的生成与检查、病毒检测、完整性检查等。
工作流技术为医学大数据长期保存的复杂流程管理提供了自动化解决方案。长期保存需要确保保存资源在时间、环境、技术、法律法规等因素变化下的长期可用性。通过工作流管理工具,可根据保存生命周期和保存规划,预先将保存过程中的各项任务配置为相应的工作流,并通过对保存系统内外部事件的实时监控,实现变化发生时的流程重配置。
鉴于在数据持久化、流程设计、原生支持和数据存取效率等方面的优势,MedPRES基于开源引擎Activiti实现对长期保存各个环节工作流程的灵活配置,通过工作流与任务调度机制相结合,提供对海量数据分布式任务的高效处理。
3.2.2 数字仓储
MedPRES底层元数据仓储结构如图5所示。基于Activiti定义的工作流实现对提交信息包SIP的检查和处理,数据最终存储于Fedora和ElasticSearch中。其中,Fedora作为灵活的可扩展数字对象仓储架构,可提供元数据多版本管理策略;采用的网络资源描述框架(Resource Description Framework,RDF)管理数字资源,既可实现关联发现和语义检索服务又支持原始文件存储;并可根据不同业务需求封装为长期保存系统所需的存档信息包AIP;ElasticSearch基于元数据提供索引服务,支持分布式部署和多种检索策略配置,满足保存管理和公共服务中的多种检索需求。
图5 MedPRES数字仓储
3.2.3 微服务
基于对资源和应用快速灵活部署模式的考虑,MedPRES采用微服务管理支持快速解耦和集成,在不对现有服务造成影响的条件下,支持分布式部署和动态容量扩展。
为了满足各种应用场景,MedPRES提供的微服务包括应用微服务、集成微服务和数据微服务。其中,应用微服务以已构建的系统为基准,实现应用系统/模块微服务化,单个系统或模块可独立运行,也支持系统和模块间数据通信;集成微服务实现系统之间的集成,包括内部系统和外部系统,集成框架可提供组件同步、异步通信所需要的基础能力,系统之间的交互只需遵循约定的REST接口和消息定义;数据微服务提供数据检索与浏览接口、数据分面汇总接口和数据统计分析汇总接口,支持权限分配与控制,同时支持数据传输加密需求,为数据的安全性提供保障。
3.2.4 云存储
长期保存面临的一个重要挑战是成本代价高,通过利用云计算和虚拟化技术,可提供经济上可行的长期保存解决方案。此外,云存储还具有灵活性和动态可扩展性,可为大数据环境下的数字资源长期保存提供海量存储、协同保存、高效备份和实时迁移等解决方案。
MedPRES采用基于云的保存感知存储服务。其优势在于:通过将与保存相关的功能卸载到存储系统,可降低数据损坏或丢失的可能性,从而使数字保存系统更为健壮;基于云的长期保存方案支持对资源的逻辑保存,从而使云中对象物理位置的变化不会影响用户对数据的访问;通过基于云的虚拟设备保存数据内容和呈现数据所需的特定软件,还可增强保存内容在未来的可理解性。
单个云存储模式具有一定的应用局限性并存在安全隐患。随着云技术的发展,多云存储可为大数据环境下各种应用提供新的服务模式。医学大数据长期保存可同时利用具有不同功能的多个云实现资源在更大范围的动态分配、灵活调度和跨域共享,提高资源的整体利用率。此外,通过对数据管理功能的灵活配置,基于多云存储模式还可应对多类型数字资源随时间推移不同阶段的长期保存需求。
4 实现效果
面向大数据时代的医学资源建设和信息服务的发展需求,MedPRES围绕数字资源保存生命周期,提供从数据采集、接收、摄入到保存管理、审计以及服务的一整套解决方案。基于对医学大数据长期保存基础设施条件的建设,MedPRES支持PB级数据的长期保存服务。系统界面如图6所示。
针对已获取长期保存权的Karger和Wiley 2种回溯电子图书,系统可实现对医学电子出版物的长期保存,其中Karger电子书1 827本,Wiley电子书2 239本。此外,MedPRES支持对软件系统类资源的保存。在长期的医学科研和实践活动中,建设了各类医疗健康相关的信息系统和业务平台,随着时间的推移给操作系统的兼容性带来了挑战,系统级长期保存不仅需要保存系统本身以及系统中的数据,还需要系统所基于的操作系统。完整地保存这些系统平台及其数据对长期利用这些数据具有重要的战略意义。例如西太平洋地区医学索引(Western Pacific Region Index Medicus,WPRIM)系统目前已收集来自世界卫生组织西太平洋区域13个成员国的750 651条生物医学题录数据,通过在MedPRES中上载操作系统、系统运行所需要的软件,对WPRIM所需要的环境进行配置以及所需的数据与软件的关联关系的配置,实现了对WPRIM的保存服务。采用暗存档模式,MedPRES中保存的系统独立于现有业务系统,仅在触发事件发生时启用,因此该服务不占用过多的计算和存储资源。系统在研发过程中产生了一系列软件工具,如内容检查工具、AIP数据包生成工具、上载工具等,MedPRES已实现对这些软件工具的长期保存。
图6 MedPRES系统界面
MedPRES系统支持工作流的灵活配置和调用。信息包的核心处理工具以组件形式提供服务,以便于各保存机构根据切身实际情况灵活组配所需的工作流。如根据可信赖的数字仓储审计与认证标准ISO 16363:2012,在AIP创建的初期需要对其完整性和正确性进行验证,并且保证AIP内容信息的可理解性。图7为数据摄入的一条记录详情。通过定义数据摄入工作流,可实现从数据备份、解压缩、数据检查、格式检查、内容检查、SIP规范化检查到AIP生成、上载以及创建索引的一整套流程的自动化处理。
5 结语
医学大数据长期保存是一项重要而又艰巨的任务。本文根据国际公认的开放存档信息系统OAIS参考模型,综合利用工作流、数字仓储、微服务及云存储等关键技术,设计与实现了医学大数据长期保存系统MedPRES。该系统提供从数据采集、接收、摄入到保存管理、审计及服务的一整套解决方案,支持PB级医学数据的长期保存服务,可促进重要医学数据的长期保存与利用。随着医学大数据长期保存实践活动的开展,将注重对数据资源长期保存权益的获取,并通过推进合作保存,共同促进数据的长期可用。
图7工作流实现效果