基于对象和分布式云存储服务的医联影像云资源管理系统的研究
2021-09-03施冬生李泽宇杨佳晨何萍
施冬生,李泽宇,杨佳晨,何萍
1.中国电信股份有限公司上海分公司,上海 200120;2.上海申康医院发展中心 医联工程与信息化部,上海 200041;3.万达信息股份有限公司,上海 200233
引言
近年来,影像数据急剧增长,传统的存储方式已经无法满足日益增长的需求,医学影像系统也成为当前研究热点,当前医疗影像领域已开始引入云计算技术,云计算技术可以通过互联网或专网将区域内各医疗机构的影像数据与设备连接起来,国内外大中型医疗机构多使用基于网格中间件的影像云资源管理形式[1-4],实现医学影像数据资源的共享与交换,但在数据存储和影像调阅过程中仍会遇到一定问题[5-9],打造一个高可靠、高扩展、高共享的医疗影像云资源管理系统已成为医疗行业发展的重点。
1 关键问题解析
上海申康医院发展中心(简称申康中心)于2006年启动建设了上海市级医院区域医疗信息共享及协同服务平台(简称医联工程),接入38家市级医院各类HIS、PACS、CIS、LIS、RIS等系统,实现了医院间业务数据、影像数据和管理数据的互通共享。接入影像系统的终端及各类工作站达12000余台,在各医院医生工作站上可方便查看患者在他院的影像图像和报告,方便医生和患者使用手机查看检查报告和影像资料。医联影像数据每年以30%增长率增加,临床医生和患者对于医学影像资料的需求越来越多,对于区域医学影像数据资源管理和平台共享能力的要求也越来越高,对医联工程医学影像业务系统是个巨大考验,我们详细分析目前存在的集中式存储传输速率低和影像调阅慢两大关键问题。
1.1 集中式存储传输速率低
医联工程设计之初时采用集中式存储方式,各医院PACS将数据上传到其影像前置机上,通过市政务外网把数据上传到医联影像中心端的核心存储中。由于不同医院每日产生影像数据量的差异较大,在相同的市政务外网带宽条件下,存在一部分医院无法当天完成影像数据的传输任务。例如,上海某三甲医院A一天的影像数据量在100~170 GB左右。即使在多线程情况下,文件传输速率也很低(图1),数据需要1.5 d才可以完成。无法确保所有市级医院的影像数据及时高效地归档至医联中心端,在一定程度上导致医生和患者无法及时查询到本人影像资料。
图1 集中式存储方式下影像数据的上传速率
1.2 集中式存储影像调阅慢
医联工程在处理集中式存储影像调阅时,采用DICOM图像在各市级医院医生工作站浏览器端的加载技术,它可以是一个原始的DICOM文件,也可以是包含图像像素值数组[10-11]。从HTML5规范来讲,可使用的图像加载方式主要为HTTP下载方式和WebSocket方式。HTTP下载方式是将一个DICOM影像数据通过一次HTTP请求直接传输到浏览器中。这种方式兼容性好且实现较为简单。若能使用WebSocket传输数据性能更好,数据安全性也更好。但是WebSocket对服务器和浏览器要求更高,需要更好的网络和高效的存储资源来支撑。上述两种方式在医联工程影像系统中都有所使用,但在存储方式没有优化前打开一个大小为500 M左右,100~200幅的CT图像,需要45~60 s,影响临床医生的阅片效率。
2 系统设计与实现
本文提出了一种基于对象和分布式云存储的影像云资源管理系统,采用对象云存储服务(Object-Oriented Storage,OOS)和分布式存储服务双模式,旨在提高影像业务系统的调阅效率和数据存储安全性。
2.1 OOS服务
医联影像云资源管理系统优化采用OOS服务模式,经实际学习与研究,不论是对于省市级区域平台或是医疗集团,对象存储服务都是理想的选择,可以提高医院端到医联影像中心端的访问效率。OOS服务[12-13]是一种海量、弹性、高可靠、高性价比的存储服务,提供了基于Web门户、REST(Representational State Transfer)接口和存储网关等多种访问方式。用户可以通过对象存储提供的HTTP REST接口、应用程序开发包(即SDK,支持多种编程语言)、存储网关的NAS/SAN存储接口、Web门户或第三方开发的客户端软件,在任何地方通过IP网络对数据进行管理和访问。OOS服务提供的REST接口与Amazon S3兼容,因此原本基于Amazon S3开发的业务可以非常轻松地与OOS对接。与Amazon S3类似,OOS也分为账号(Service)、容器(Bucket)、对象(Object)和分片(Part)。一个账号对应多个容器;一个容器可以对应无限个对象,并且可以根据对象的前缀、分隔符等进行检索;一个对象可以对应多个分片;最终,一个分片对一个基础的数据段(blob),存在于数据存储层。
当客户端发出请求查询某个容器或者某个容器内的对象时,会构造形如一般URL访问地址的HTTP请求,因此客户端一般会进行DNS请求以获得对应的IP地址。DNS请求会发往一个OOS的DNS服务,这个服务会根据创建容器时选择的站点信息返回该站点对应的IP地址。此外,一个站点拥有多个IP地址,DNS服务会根据客户端所在的网络属性返回最佳的IP地址,以尽可能地提高客户端到站点的访问体验。OOS服务示意图如图2所示。
图2 OOS服务
在数据安全方面,OOS是基于分布式哈希表(Distributed Hash Table,DHT)实现的,其特点在于很低的读写延迟和几乎无限大的扩展性。DHT的核心思路是以对象的ID作为Key计算出一个散列值,然后根据该散列值通过查询一个“路由表”获得对应的虚拟盘ID,然后根据虚拟盘ID通过查询一个“虚拟盘à物理盘”的映射表获得最终的物理盘。由于“路由表”和“虚拟盘à物理盘”的映射表非常小,完全可以存储在内存当中,上述过程可以在一台计算机内部通过基于内存的本地计算(而无须通过网络请求其他服务)完成,因此定位过程非常快速。一旦获得定位,则可以直达目标物理盘对数据进行操作。
2.2 分布式云存储服务
医联影像云资源管理系统优化同步也采用分布式云存储服务模式,可以提升医联影像中心端内部的存储读写效率和高安全性。分布式云存储服务[14-15]按照自下而上的层次,可以将系统架构划分为几个层次:存储节点层、分布式存储层、存储资源服务层、接口层和管理层。
(1)存储节点层主要是指云存储中的数据存储设备。存储节点层设备针对分布式存储系统和云存储业务特性进行设计,主要用于对云存储中用户数据的存储。该设备是一款高密度、高性能的云存储节点产品,具有2 U和4 U两种规格。它既具有传统服务器的特性,有很高的计算能力,又具有存储设备的特性,能够简化系统管理,可与分布式存储系统良好结合,显著降低系统生命周期内的运营成本。
(2)分布式存储层主要提供命名空间的管理、文件和目录的分布式操作管理和存储、对象或对象集的管理和存储、文件对象化、数据和元数据的存储、数据同步和恢复、负载均衡和数据迁移等功能,并负责提供对外接口。
(3)云存储资源服务层为云存储的管理和接口功能提供服务,主要提供租户管理、对象操作、用户管理、认证鉴权、存储策略管理等功能。
(4)接口层通过负载均衡和Web服务为用户应用系统及资源管平台提供基于HTTP协议的对象存储服务,如REST访问接口通过接口层,针对特定用户需求,实现不同的存储服务,满足各种终端、各种应用的存储接入,具体表现形式可包括:虚拟网盘、存储网盘、在线备份、云端数据调用、空间租赁服务等。
(5)管理系统对云存储服务方案中的云存储节点和服务节点进行设备管理的统一存储管理,提供丰富、及时的告警信息和传递方式,能够对系统设备拓扑进行展示,同时可实现云存储节点的自动化部署,实现快速部署。
在数据安全性方面,分布式云存储服务对象的保存是通过将对象切片后,分散到集群的服务器中。当数据被下载时,再由存储系统根据切片时的规则将切片合并还原出原对象返回给用户。在存储服务器内部无法确认切片之间的关系,因而无法识别用户上传的对象,以达到有效保障数据在数据中心内的安全性。另外,通过管理系统实现业务管理和设备管理。其层次结构图如图3所示。
图3 分布式云存储服务
2.3 系统架构
由申康中心建设的医联工程现已实现38家市级医院的临床信息、检查检验结果、影像云胶片、住院病案首页等临床信息的互联互通互认[16]。医联影像云资源管理系统在医联工程医学影像业务系统的基础上增加了3台应用服务器、3台数据库服务器和1台负载均衡设备,建成一个高性能、高灵活性、高扩展性、高可靠性、先进的硬件支撑平台。另外,为了能够实时维护监控医疗机构资源与数据,该系统提供一条100 Mbps的政务外网专线,部署于申康医联数据管理中心。总体部署架构如图4所示。
图4 影像云资源管理系统架构图
2.4 组网设计
根据医联工程医学影像业务系统实际需求,医联影像云资源管理系统采用双云存储的服务模式,数据互为备份。云存储服务采用电信云,提供云存储总容量为1506 TB(有效容量)。考虑到数据传输的及时性和安全性,在本系统中提供一条从存储资源机房至申康医疗数据中心之间的互联点对点专线,专线带宽500 Mbps,并提供线路的冗余保护。提供额外试点接入2家医院的云存储管理空间总计100 TB,不占用上述1506 TB,并提供2家医院到云主存储中心的专线,带宽200 Mbps,并确保线路有冗余保护。
云存储服务二采用科技网提供,提供云存储总容量为1506 TB(有效容量),与申康医联数据中心之间的互联点对点专线,带宽是500 Mbps。存储平台组网拓扑如图5所示。
图5 存储平台组网拓扑
具体链接方式是在用户端两端各安装1套上联光端机,通过不同光缆以MSP1+1保护的方式接入ISP局端,提供以太网光口(单模)与用户路由器对接。以实现MSTP接入,从而达到保障网络的安全和可靠、良好的网络灵活性与可扩展性、降低用户设备投资和减少对网络的运营成本的目的[17-18]。具体网络拓扑如图6所示。
图6 MSTP网络拓扑
2.5 系统实现
基于以上架构设计和关键技术应用,申康中心也构建了一套可视化的医联影像云资源管理系统,以作为申康中心和上海38家市级医院医学影像数据的传输、存储和调阅提供统一的运维管理平台,该系统近期已上线试运行,构建了医学影像信息“一网统管”的申康医联模式,见图7。
图7 医联影像云资源管理系统的监管界面
医联影像云资源管理系统主要包括云账号管理、中心数据监测、机构数据监测、机构资源监测、数据统计分析、信息推送;归档数据可视化、数据质量报告、归档日志管理、归档记录浏览、边缘计算服务、数据采集服务、数据同步服务、数据校验服务、自动更新服务。实现对医联在线影像数据和医院的影像归档数据及边缘计算服务节点进行云化管理,降低存储的运营、管理成本,将医联和医院影像的云资源、服务、数据统一纳入管理。同时,基于双模式的医联云存储作为一个多存储设备、多应用、多服务协同的工作集体,是为了应对各医院影像数据爆发式的增长与带宽限制而产生的新型存储系统。医联影像云资源管理系统也能形成系统优化前后的数据分析,相同的5个线程的文件传输效率将前后两种存储方式进行分析展示,见图8。
图8 优化前后存储效率对比
3 应用效果分析与展望
申康中心采用了OOS服务和分布式存储服务双模式来优化医联工程医学影像业务系统,通过两大关键技术应用,成功构建了医联影像云资源管理系统。不仅可以有效提高海量数据存储的效率,而且能够优化存储资源配置,从而大幅度提高影像数据的调阅效率。截至目前,系统共集中存储了影像病例约2972万人次,医联影像大数据容量累计达3.5 PB,其中影像检查报告14872.15万份,影像资料138.32亿幅,日增常规医学影像记录数约34506条,日增常规医学影像量约2096 GB,影像数据累计达3582.11 TB。影像调阅总次数高达297713次,影像调阅总人数126425人,日均调阅次数1227.48人次,日均调阅人数774.65人。从应用效果和统计结果看出:首先,从纵向比较而言,在相同的市政务外网带宽条件下,上海某三甲医院A的影像数据传输效率从原先的18 Mbps提高到25 Mbps,文件碎片也不容易丢失,存储速率和完整性都超过原有模式;通过对存储的优化,目前影像调阅只需要30 s左右即可完成加载,速度比过去至少提升30%,大大提高了医联影像业务系统的调阅效率。其次,从横向对比来看,本次最新采用了对象和分布式云存储的医联影像云资源管理系统,将38家市级医院的影像数据上传与调阅操作动态分配在两个云机房存储介质中。这种去中心化的存储模式,可支持5~12台的文件存储归档服务器的数据上传,最高可支持100个节点的并发,效率提升近1倍。同时,数据上传速率也提高到25 Mbps,且每日上传的影像总量提升至1.8~2.1 T。相较于原有集中存储模式的最高支持50个节点并发、上传速率仅有10~18 Mbps,无法充分利用带宽,也导致大量影像文件缓存在医院的前置机上的问题有了非常大的改变,通过存储服务双模式的应用,大大提高了市级医院影像数据上传的效率,有效缓解了医院前置机服务器的压力。
可见,本文阐述的基于OOS和分布式云存储的医联影像云资源管理系统,实现了对医联在线影像数据和医院的影像归档数据及边缘计算服务节点进行云化管理,并将医联影像数据中心和市级医院影像的云资源、服务、数据统一纳入管理,有效提高了医联工程影像业务系统的数据存储安全性和影像调阅效率,降低存储的运营、管理成本,其存储方式速率更快,影像文件安全性更好,其模式也非常适合国内各卫生行政管理部门或集团型公立医疗机构关于区域医学影像中心的建设优化与应用实践。
当然,随着影像数据急剧式增长,以及云计算、5G、边缘计算等新技术发展,建立并高效运维一套完善、安全、可靠的区域医学影像数据云资源管理系统是需要大量资金支持,也要进行后期大量的技术维护和升级优化,新型技术发展在医疗信息化领域应用尚不成熟,这都是需全方位考虑的问题。新型信息技术的引入往往要经历无数次的实践,相信在行业主管部门及信息技术人员的不断努力和推动下,云计算等新型信息技术与区域医学影像系统等医疗信息资源能深入对接与高度融合,持续促进医学行业朝着更好方向发展。