APP下载

数字档案共享建设中软件定义存储技术运用研究

2018-01-23程龙吟福州大学档案馆

浙江档案 2018年10期
关键词:存储技术档案馆定义

程龙吟/福州大学档案馆

档案作为党和国家重要的信息资源,在服务和推动社会发展中发挥着重要作用。随着档案信息化进程的加快,各级各类档案馆和档案形成单位形成了大量的数字档案(包含电子档案和档案数字化成果)。要想充分发挥数字档案优势,使全民全社会共享信息化成果,就要推动数字档案打破时间和空间限制,实现馆际共享、全民共享。

1 数字档案共享的内涵

数字档案共享是指数字档案在标准化、规范化并符合保密要求的基础上,在不同层次、不同部门信息网络系统间实现互联互通并向社会提供服务[1]。

在2016年4月网络安全和信息化工作座谈会上,习近平总书记提出要“打通信息壁垒,构建全国信息资源共享体系,更好用信息化手段感知社会态势、畅通沟通渠道、辅助科学决策”[2]。习总书记的讲话为档案事业的发展指明了方向:一是数字档案馆建设必须与实体档案馆建设同时进行;二是加快建设数字档案共享体系,数字档案应当成为国家信息资源共享体系的重要组成部分。目前,许多档案馆的信息化建设预算已达到数百万甚至上千万元,全国每年有50 亿元以上的信息化市场容量[3]。这些数字档案不能像大多数纸质档案那样封存在档案馆内,档案行业要改革创新,加快推进档案信息从封闭走向开放,打造方便人民群众查阅利用的开放型、多层次的数字档案共享体系,实现档案资源互联互通。

2 传统存储技术在数字档案共享建设中的技术壁垒

实现数字档案共享,最重要的是实现信息的互联互通和向社会提供服务。数字档案自身的复杂性导致其在共享过程中出现各种技术难点:一是需要首先解决服务器存储容量问题。“增量数字化、存量电子化”的趋势和政策使得档案数量急剧增长,档案数据的容量限制共享的范围。二是需要重点解决异构数字档案资源整合问题。数字档案有文本、图片、视频、音频等多种类型,需要一种技术能整合所有异构类型,并能按需提供利用。三是需要长期优化数字档案资源的整合、组织、关联、导航与服务模式,实现数字档案的智能化管理与服务。传统存储技术已无法满足数字档案海量容量、快速读取、灵活管控、安全可靠、智能管理的存储要求。以直连式存储、存储区域网络、网络附接存储和对象存储系统四种传统存储技术为例,它们在数字档案共享方面无法解决的技术壁垒有以下几点。

2.1 基础性能差

概括来说,几种传统存储技术在存储容量、可扩展性、传输效率上各有缺陷。直连式存储的缺点是存储容量有限,它的存储设备是分配给它所连接的计算机,如果存储容量需求增加,就需要把更多存储设备连接到计算机,然而受I/O接口的限制每台计算机只能连接有限的存储设备;存储区域网络的缺点是可扩展性差,其存储设备需要建立专用的区域网络,如需扩展则要额外购买光纤通道、网络设备和主机适配卡,建维成本高;网络附接存储的缺点是传输效率不稳定,其存储设备通过标准的网络拓扑结构连接到一群计算机上,信息经局域网传输,但当其他应用程序使用局域网传输时,网络附接存储的传输效率会大大降低;对象存储系统的缺点是存储对象分散到很多节点,由于更新不及时不完全会导致获取的数据信息滞后。

2.2 异构存储资源整合存在瓶颈

传统的存储技术每种只能支持一种存储方式,而不同存储方式各有优势,需要配合用户需求综合利用、智能选择;文件存储(NAS)的形式适用于数据容量小情况下的资源共享,如高校内部相关部门间进行学籍信息共享、教务课程信息共享等,其缺点是读写速度慢;块存储(Mass Storage)的形式类似于主机内置硬盘,优点是扩容廉价、读写传输速度快,但进行信息资源共享有难度;对象存储(OSS)综合了NAS和MS的优点并具有良好的扩展性,但因其依赖REST调用,所以使用起来更为复杂;传统存储技术做不到整合所有的存储方式,无法集中采集不同存储方式的优点,导致存储空间孤立造成资源浪费,无法统一管理。

2.3 智能性无法满足

智慧档案是未来档案管理的实现目标,要实现智慧化、一体化的管理与利用,就要求智慧档案馆各系统实现全面感知、智慧分析、互联互通、协同处置,尤其是数字档案共享平台或数字档案数据交换中心的数据能够快速读取、灵活感知、动态调整,达到智能化统筹协调的目的。传统的存储技术无法满足数字档案共享中档案管理利用智能化的需求,需要实现技术的升级换代。

3 软件定义存储技术在数字档案共享中的应用探索

3.1 软件定义存储技术概述

软件定义存储(Software Defined Storage)的诞生解决了传统存储技术的不足。官方尚未明确定义软件定义存储,因此它更是一种存储理念,即在任何存储上运行的应用都能够在用户定义策略的驱动下自动工作。事实上,在不少对信息化感知灵敏的行业中,虚拟化技术已经逐步深入系统架构后端,从服务器虚拟化向存储虚拟化延伸。在档案行业,应用软件定义存储技术可以解决数字档案共享中的技术难点。

3.2 软件定义存储技术的技术特性与应用优势

从目前全国档案部门的情况来看,一方面全国没有统一的档案信息管理软件可供选择,各地档案馆根据自身需求依靠有关公司力量进行平台软件开发与维护,这样不仅严重浪费资源,而且档案软件开发效率低下;另一方面档案管理软件标准不统一,各地档案馆选择自认为符合标准的软件应用于档案信息化和档案数字化工作,由于一个地方的档案馆和单位使用不同公司开发的管理软件,存在标准不统一、维护工作没有跟进的问题,造成档案数据对接不畅,有的地方档案数据在迁移时甚至会出现差错或者丢失。各地在开展档案数字化扫描工作中,由于追求速度以及节约成本,档案数字化采用的格式也不同,有的为双层PDF格式,有的为JPG、GIF格式。研究软件定义存储技术可以为打造适应未来发展需要的数字档案存储体系提供理论参考,并为推动数字档案共享和档案信息化建设提供技术支撑。

3.2.1 存储虚拟化或资源池化

软件定义存储技术的显著性能在于实现存储虚拟化或资源池化,它将各种存储资源虚拟化,并有效集成不同存储类型的设备,组成虚拟资源池。具体应用在数字档案共享领域时,可以利用软件定义存储技术,通过一个网络服务平台如数字档案共享平台或数字档案信息交流中心等,将各级各类档案馆中的数字档案资源集成并存储在虚拟资源池中。网络服务平台可以按需(如容量、性能、服务质量、服务等级协议等)自动化使用存储,以解决传统存储容量不足的问题。

3.2.2 开发“元数据”访问接口

软件定义存储技术的存储资源池中涵盖主流的存储类型,如SAN存储、NAS存储、对象存储等。利用软件定义存储的资源池化技术可以开发分布式数据访问接口,接口以“元数据”为基础,“元数据”与不同的存储类型相互转换,在不改变当前数据定义与存储结构的基础上,实现资源相互转换。应用在数字档案共享领域时,软件定义存储为异构的档案信息存储类型开发基于“元数据”的分布式访问接口,这样就解决了数字档案共享中存储类型与接口难以管理利用的缺点,从而打破各个档案馆之间的信息壁垒,使信息在各个档案馆之间实现互联互通,有效解决信息孤岛的问题。

3.2.3 数据中心智能管理

智慧档案馆是未来档案行业的发展方向,智能性要求须体现在档案收集(征集)、整理、保管、鉴定、统计和利用的整个流程。数字档案资源管理因海量、复杂、变化大等特征,人工已经无法胜任,必须要实现资源的自动化管理,无需人工干预。软件定义存储集成3rd云化管理平台,可以利用分析技术、分类技术和机器学习,对整个数字档案共享中心内的档案资源进行配置,实现整个数据中心资源的协作管理。同时软件定义存储与软件定义网络、软件定义计算、软件定义管理和软件定义安全结合起来,形成软件定义数据中心,为数字档案共享提供更高级的智能化管理。

3.2.4 硬件自主和软硬件分离

软件定义存储与传统存储最大不同在于软硬件分离,软件定义存储以工作负载为核心,虚拟池自动配置资源,而传统存储以硬件为核心,数据中心依赖设备。软件定义存储既支持通用硬件也支持专用硬件的既有功能增强,还可以共用共享平台提供的基础设施。软件定义存储技术打破了服务器访问限制,不用大投入购买指定存储硬件或更高级别的相关硬件,可以减少投入、节约资源、提高效率。

3.2.5 双区域异地备份技术

传统存储技术将数据信息备份在档案馆的自有服务器上,如果管理不当或发生不可预见的灾害,将会导致服务器损毁,数字档案信息的安全性得不到保障,更不用奢谈维持日常的管理和利用服务了。而在软件定义存储技术下,数字档案资源是虚拟化的,在划分资源区域时每两个区域备份对方所有的数字档案信息,一旦某个区域发生意外,可以立即转移到另一区域访问,或从另一区域中恢复。所以软件定义存储技术在不额外增加备份设备的基础上,实现数据备份和容灾措施,避免因地震、火灾等不可抗因素造成的数字档案资源毁坏,有效保证数字档案资源的信息安全。

4 软件定义存储技术为数字档案共享“奠基”

传统存储技术无法兼顾数字档案共享需要的各项技术要求,而基于云存储的软件定义存储技术为解决各类技术难点提供了方案。中国IMT-2020(5G)推进组组长、中国信息通信研究院副院长王志勤表示,软件定义存储技术可以打破传统存储系统由于软硬件紧耦合造成的系统割裂状态,实现异构存储资源的整合。在信息大爆炸背景下,软件定义存储可使用旧的各类存储设施,同时运用分布式处理技术,最大化的增强系统存储空间,提高系统的扩展性与灵活性,节约成本并实现资源的集中统一管理。

虽然目前软件定义存储技术还处于初级阶段,有许多问题需要解决,如版权、标准、技术等,但是其必定成为科技领域的又一次革命。在HypeCycle报告中[4],预测5到10年会大规模应用软件定义存储技术。软件定义存储是存储技术发展的必经之路,利用软件定义存储的扩展灵活、接口丰富、数据路径多、软硬件分离、自动存储管理、服务分级管理、建维成本低等优势,探索数字档案共享建设模式,包括资源管理与调度、策略配置、认证授权、压缩加密、性能监控、系统维护、备份恢复等,是我们加快数字档案资源共享建设、改变档案资源获取和传播方式的一个技术捷径,必须高度关注,认真追踪研究。

猜你喜欢

存储技术档案馆定义
云南省档案馆馆藏《东巴经》
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
关于计算机网络存储技术分析
多级分布式云存储技术在公安领域的应用研究
数据存储技术的应用
成功的定义
when与while档案馆
修辞学的重大定义
浮式平台水下电缆( 立管) 快速解脱及存储技术研究
山的定义