构建医疗PACS三级异构存储系统之探索
2021-07-13董晓睿于宗一管晓飞辛海燕
董晓睿,于宗一,管晓飞,曲 强,辛海燕
(青岛大学附属医院 山东 青岛 266003)
1 引言
大数据与医疗深度融合已成为国策,医疗大数据的发展改变了传统的就诊模式和医院管理方式,为疾病早预防、早诊断和早治疗提供了重要的手段,助力了整个医疗产业转型升级。CT、核磁、PET-CT以及不计其数的小型设备每天产生的海量影像数据中蕴含着巨大价值,如何永久归档这些数据是医疗大数据发展中必须解决的问题。PACS是影像学与计算机科学的结合体,已成为影像科室的重要诊疗工具,随着系统功能不断演化拓宽,不少短板逐渐显现,其中存储空间问题尤为严峻[1]。为高效、安全、长期的归档并管理数据,可根据调用频率由高到低将数据分为热、温和冷三类数据,使用不同的存储介质归档这三类数据以可发挥介质各自的优势,在增大存储空间的同时降低运维成本。除硬件层面,采用相应的管理系统也是提升整体性能的关键,新型异构并行存储软件系统是一种将二级近线存储和三级离线存储进行统一管理的智能化平台,可最大化发挥异构存储的优势。
2 数据存储现状
PACS系统是专为医疗影像的全数字获取、传输、归档、分析和查阅而设计的综合性系统,已成为现代放射学实践的基本技术和设施。在PACS数据中,就医者信息和报告等占空间较小的文字类信息保存于关系型数据库服务器,而体量较大的图像数据则保存至专用的对象存储系统[2]。近些年影像数据量激增并持续呈增长态势,给存储带来巨大挑战,主流PACS存储具有一定扩容性,可在有限范围内实现无缝容量扩展,但却无法实现从TB级到PB级的跨越。近3年青岛大学附属医院每年产生近百TB的影像数据,以2019年为例,全院影像数据日均生成200 GB左右,1年内的数据全部储存至在线存储,由于一级在线存储采用固态硬盘,因此存储设备运维成本较高。当PACS存储系统检测到在线数据容量超过预设阈值后,会自动将在线数据迁移到近线网络附属存储(NAS)归档,NAS磁盘目前已存储百TB级的历史数据。在未来几年内,即使采用高效的压缩技术也无法完全解决数据量达到PB级后所带来的空间压力。随着存储技术的发展,PACS存储的硬件架构和软件系统不断迭代,图1对比了传统PACS异构存储硬件架构和新型异构存储硬件结构的不同,并展示了异构并行存储软件系统与硬件架构的关系。
图1 新旧PACS异构存储硬件架构对比
3 新型异构存储硬件架构
使用不同介质存储热数据、温数据和冷数据有利于兼顾性能与成本,可发挥各类介质的优点以便建立高效的存储模式。主流PACS存储系统多采用“在线+离线”两级或“在线+近线+离线”三级的存储架构,第一级在线存储保存使用频率较高的几个月内产生的在线热数据,第二级近线存储保存调用频率中等的温数据,第三级存储归档使用频率较低的离线冷数据。一级存储通常使用性能较高的闪存或固态盘,而二级或三级存储使用成本相对较低的SATA盘,根据业务需求合理配比各级存储容量,可使整个存储系统达到性能和成本的最优平衡。除闪存、固态和磁盘之外,随着技术迭代更替,性能更优的介质不断涌现,新型异构三级存储将充分利用新型存储介质,以便提升整体硬件架构的性能与容量。
3.1 第一级存储的改进
第一级在线存储强调数据的高速读取和写入,新型异构存储架构采用英特尔傲腾混合式固态盘,混合式固态盘将持久内存与QLC 3D NAND固态盘整合到一块PCB板上。持久内存与传统内存相比有两点优势,一是提供更大的存储空间,最高可支持512 GB;二是可在断电期间保存数据,非常适合作为固态盘的缓存,保证读写低延迟。板载持久内存为固态硬盘加速,理论上可大幅提升混合式固态盘的性能,同时持久内存分担了部分读写任务,因此固态盘颗粒的寿命得以延长。许多数据中心已开始部署这款产品,中国联通在“沃云”升级过程中,利用该存储技术无缝快速提升了平台的资源池,满足了业务爆发式发展下对基础存储承载能力的新需求。
3.2 第二级与第三级存储的融合
第二级近线存储保存几年以内的温数据,第三级存储负责永久保存调取频率较低的离线冷数据。受医院规模和历史数据量较小的影像,国内部分医院的PACS存储系统未设置第三级离线存储,而将所有历史数据保存至第二级近线NAS磁盘中,但NAS不能满足永久保存历史数据的需求。部分医院为PACS配备了第三级离线磁带库,但却采用了分离式的二级与三级存储,无形中增加了各级存储间交互的开销。自1956年IBM发布首台磁存储以来,单存储设备的容量已经增加了10亿倍,被广泛用于数据存储,但寿命短、功耗大、易干扰等问题始终存在。光存储诞生于1978年,具有寿命长、稳定性高、信息密度高、功耗低等优点,使之得到迅猛发展,但读写速度较慢且不可重复使用。新型异构存储硬件架构采用SATA磁盘库作为二级近线存储介质,三级存储则用蓝光光盘代替,并采用统一的软件平台管理第二级与第三级存储,使磁盘库与蓝光光盘库有机融合。松下蓝光光盘库作为一种成熟的技术,2020年已经应用于中央电视台音像资料馆特藏系统,该蓝光光盘库存储介质主要由蓝光光盘组成,搭配少量本地磁盘作为缓存,根据业务需求可调整光磁空间比例。蓝光光盘机柜由三种模块构成,分别是若干个盘匣装载模块、1~2个光驱模块与1个机械臂模块,三种模块放置于同一个标准机柜中。设备可采用单机柜或多机柜的灵活部署方式安放于机房,蓝光光盘库除了寿命长、稳定性高、信息密度高、功耗低等优点,对机房温度湿度等环境因素要求较低[3]。盘匣装载模块由76个蓝光盘匣组成,一个盘匣是最小物理存储单元,包含12张专业归档级蓝光光盘,单盘容量300 GB,保存数据可达百年之久,并支持多种RAID模式,单机柜可容纳最多6个盘匣装载模块,若采用RAID0模式,单机柜容量可达1.6 PB。光驱模块由多个驱动器构成,可同时读写6张盘,最高读速度为540 MB/s,写速度为375 MB/s。机械臂在柜体中上下移动抓取光盘匣并运至光驱模块[4],数据经多台光驱导入或导出本地磁盘缓存,以实现高效自动转存,图2展示了由统一的异构并行存储软件系统管理的融合了二级和三级存储的异构存储硬件架构,管理软件运行在单独的冗余交换机中,业务交换机也具有冗余功能,负责利用业务网传输海量影像数据,管理交换机通过管理网连接第二级、三级存储和管理软件服务器。
图2 融合二级近线与三级离线存储的硬件架构
4 异构并行存储软件系统
异构并行存储软件系统发挥了蓝光存储和磁盘存储的优势,可解决数据传输量大、冷数据永久备份、存储扩展成本高等诸多问题,实现了医疗影像大数据的分级存储和协同管理。
4.1 软件系统的优势
该软件系统支持异构存储架构与并行读写模式,可将多台存储机柜融合为统一的虚拟存储池,在无需用户干预的情况下,将数据分布式储存至各机柜中。该管理软件可根据业务实际需求进行配置与调参,通过存储优化算法,根据数据内容、日期、体积等元数据标签将数据进行归档,方便其在磁盘库与蓝光光盘库间迁移。借助光盘高密度、易搬移的特点,该系统将单个或多个光盘匣组成一个最小逻辑单元。通过对逻辑单元的跨机柜管理,将离散的存储介质化为统一的虚拟存储池,实现多机柜并行协作,以满足非在线数据的读写带宽需求。近些年青岛大学附属医院每年产生的PACS数据经过RAID冗余处理需占用空间近百TB,若未来5年容量消耗以20%的速度递增,仅需1台42 U标准光盘库即可满足空间需求,单台光盘库虽减少了设备采购成本与机房空间,却无法发挥管理软件多机柜协同的优势,会导致传输带宽瓶颈。因此,可配置3台蓝光光盘库,光盘库均采用半高机柜,每个机柜由2个盘匣装载模块、1个光驱模块与1个机械臂模块组成,整个系统最高可支持18个光驱同时读写,并发读取速度可达1 620 MB/s,并发写入速度可达1 125 MB/s。管理软件利用通用唯一识别码(UUID)标注最小逻辑单元[5],将UUID与所存内容的元数据关联,可实现跨院区与地区的数据资产全域检索、索引同步等智能管控。
4.2 管理软件的构成
图3 中绿色部分展示了管理软件与各级存储的交互方式,该管理软件由6个功能模块构成,分别是元数据管理、权限管理、数据应用、系统运维、数据接口与调度管理。元数据是描述数据的数据,为更好地理解数据并充分挖掘数据,元数据管理模块描述了近线与离线数据的存储位置、数据类型、生命周期、空间大小等信息,为其他功能模块提供数据基本信息,并实时向在线存储系统同步数据索引库[6]。由于备份数据规模庞大,利用访问控制策略对读写操作进行排队和限制十分必要,权限管理模块为数据安全提供保障,将用户和用户组作为最小颗粒度进行管理,提供静态权限管理和基于时间与事件的动态权限管理,静态权限管理为文件或文件夹设定固定的读写权限,而动态权限管理可按照预先设定的触发事件实时变更目标文件的权限,例如仅允许某段时间范围内的文件共享权限,该模块还可为用户和组设定优先级。数据应用模块由Web端应用组成,用户可通过Web客户端查找数据、提取数据、了解资产概况等,若开通影像数据共享服务,则可实现胶片云端阅览、避免数据孤岛问题出现。系统运维模块提供后台管理工具,管理员可对存储软硬件状态进行监控与配置调整。数据接口模块向第三方在线存储提供检索、读取和写入的标准接口,以兼容不同的在线存储系统。调度管理模块负责数据传输任务的调度工作,根据预先设定的优先级和规则将传输任务合理排序。行业中以DICOM标准形式存储数据,数据在各级存储间迁移量巨大,数据迁移是PACS存储系统中最棘手的问题,传统存储系统中由于缺乏对多级存储的统一管理[7-8],数据交换仅能发生在在线存储与近线存储或近线存储与离线存储之间,不能越级传输,该管理软件通过对二级和三级存储的统一管理,使一级在线存储可直接与二级近线存储或三级离线存储进行交互,节省了传输带宽并提高了读写效率。所有软件功能模块通过硬件控制接口操控底层硬件,硬件接口不仅避免了开发人员编写底层硬件代码,规范了硬件调用规则,还支持未来软件模块的开发,拓展了管理软件的扩展性。
图3 异构并行存储软件系统
5 总结
数据是数字时代的新石油,为保证PACS存储系统长久、高效、安全地备份医疗影像数据,采用三级异构存储硬件架构和异构并行存储软件系统的综合存储管理平台利用了多种存储介质的优点,提高了数据交互的效率,可有效管理PB级的存储池,保证医疗影像数据的长久、安全、可靠。医疗影像大数据建设的持续发展可为医生提供便利的历史数据回溯工具,便于追溯患者久远的影像资料、为医疗科研提供大数据依据、避免形成数据孤岛,实现诊断、科研、数据共享等方面的共赢。