大数据时代档案信息资源共享平台数据存储系统的设计与实现
2021-04-12卞咸杰
卞咸杰
摘 要:伴随物联网和互联网技术的发展与应用,数字化档案信息资源呈现爆炸式增长,传统的关系型数据库在海量档案信息资源数据读写效率中存在着诸多的性能瓶颈,如何满足不断增长的档案信息资源数据存储需求成为共享平台建设研究的重点。在对档案信息资源共享平台数据存储需求分析的基础上,对档案信息资源存储系统进行了模块设计,提出了采用HDFS结合Redis作为共享平台数据存储系统的总体架构的方法,并对档案信息资源存储的性能进行测试对比。采用HDFS作为共享平台的存储系统架构支撑,结合Redis缓存技术,能够快速提升档案信息资源的存储处理性能,为档案信息资源共享平台的数据服务提供可靠的基础保障。
关键词:大数据;档案信息;资源共享平台;数据存储;HDFS;Redis
分类号:G273
Design and Implementation of Data Storage System for Archive Information Resource Sharing Platform in the Big Data Era
Bian Xiajie(School of History and Public Administration of Yanchen Teachers University, Library of History and Public Administration of Yanchen Teachers University, Archive History and Public Administration of Yanchen Teachers University, Yancheng, Jiangsu, 224007 )
Abstract:With the development and application of Internet of Things and Internet technologies, digital archival information resources have shown explosive growth. Traditional relational databases are reading data from massive archival information resources. There are many performance bottlenecks in writing efficiency. How to meet the growing data storage needs of archive information resources has become the focus of research on the construction of shared platforms. Based on the analysis of the data storage requirements of the archive information resource sharing platform, a module design was carried out for the archive information resource storage system, and a method of using HDFS and Redis as the overall architecture of the shared platform data storage system was proposed Test and compare the performance of archive information resource storage. Using HDFS as the storage system architecture support of the sharing platform, and integrating the Redis cache technology can quickly improve the storage processing performance of the archive information resources, and provide a reliable basic guarantee for the data services of the archive information resource sharing platform.
Keywords:Big Data;Archive Information;Resource Sharing Platform;Data Storage;HDFS; Redis
隨着物联网、互联网、“互联网+”、人工智能和5G技术的发展,档案管理信息化、数字化、智能化建设也得到了前所未有的高度重视。档案部门通过共享平台进行统一存储并对外提供档案信息资源访问数据[1],使迅速发展的档案数据化行为越发呼应当前“让数据多跑路”的政策要求。大数据时代,数据管理已成为现代档案管理的一项重要内容[2],档案数据化也成为档案界新的关注点。存储方案的优化、空间的增容、满足用户不断增长的个性化需求已成为档案信息资源共享研究的重点。为改变传统的档案信息数据存储方式难以承受数据并发访问的压力,在硬件上,使用新硬件或新技术加快数据访问,以更小的硬件设备存储更大容量的档案信息成为趋势,如仅几毫米的空间存储能容纳TB级的数据[3];软件上,针对不同存储方式提出相应优化方案以提高系统性能也成了重点。文章认为,采用HDFS结合Redis构建档案信息资源共享平台数据存储系统具有一定优势。
1档案信息资源共享平台数据存储需求
1.1档案信息数据存储可扩展性需求
据中国信通院发布的《大数据白皮书(2019)》报道,全球数据量正在无限制地扩展和增加,2025年将达到163ZB[4]。数据增长的主要驱动力是移动互联网技术及移动设备的运用,如移动设备不仅要收集信息资源数据,还要收集与用户活动相关的数据。档案信息资源共享平台的可扩展性就是指以可显著增加存储资源的方式支持不断增长的档案信息资源数据量。大数据时代,数据出现PB级增长,这对档案信息资源共享平台的存储系统提出了新的要求。首先要求平台的存储系统能够动态地支持档案信息数据不同的容量要求,在实际利用过程中能够按需分配资源。其次,数据存储系统需要能有效管理档案信息资源数据,存储资源需要根据当前的档案信息数据量级按需分配与动态增加。第三,能有效利用存储系统配额管理功能,提高现有存储系统的利用效率。
1.2档案信息数据存储类别复杂性需求
随着信息技术的发展,一方面,传统的结构化档案信息资源数据已不能满足档案信息资源共享平台的应用,现有的档案信息资源数据出现了半结构化和非结构化数据。新类型数据的检索与挖掘需要新的信息化技术来支撑,这便需要对档案信息数据进行过滤、保护和挖掘。另一方面,档案信息数据是档案管理者和使用者的重要数据基础,档案信息数据综合利用是档案信息大数据建设的核心。集中存储与处理非结构化数据对平台提出了更高的要求,未来的档案信息资源数据存储面临的是更复杂数据类型的存储与应用问题,从复杂的数据类型到共享平台数据的存储管理是一个较大的挑战[5]。
1.3档案信息数据存储安全性需求
档案信息数据的安全性要求很高。为防止档案信息资源数据被泄漏、窃取、滥用,需对共享平台的档案信息资源数据实现安全处置,即数据脱敏、数据加密和数据利用跟踪[6]。
1.4档案信息数据存储可靠性需求
由于档案信息资源共享平台数据存储系统自身硬件的原因,硬盘磁盘组件故障率较高,不经常访问的数据存储在上述的物理介质极容易丢失和损坏[7]。在实际的数据存储系统利用过程中,一旦出现硬盘磁盘组件故障,将直接中断系统服务,此外,在具体的恢复工作中也存在很多不确定性。
2档案信息资源共享平台数据存储系统架构设计
大数据时代,档案信息资源共享平台数据存储系统架构设计需要综合考虑未来的可靠性与可扩展性,从数据安全存储与高效的角度可以考虑分布式异构存储策略模式,使数据分布在合适的存储介质上,从而提高档案信息数据的访问性能。档案信息资源共享平台存储服务将采用WebAPI的方式进行处理,存储系统采用可扩展的分布式文件系统[8]。在具体的数据存储系统实现中,需要综合考虑硬件和软件在档案信息存储中的作用,部分存储功能的实现通过硬件更易于实现,如存储介质的冗余备份、海量数据存储等。
2.1数据存储系统的总体架构
档案信息资源共享平台建设要达到档案管理信息化和档案安全高效化的要求,满足包括PC、手机及平板等设备以及不同分辨率浏览器的使用要求[9],便必须加强三大管理中心建设:一是档案信息资源共享平台综合管理中心建设,二是档案信息资源共享平台存储服务中心建设,三是档案信息资源共享平台数据交互管理中心建设[10]。其中存储服务中心建设是档案信息资源共享平台的基础建设,主体架构存储处理的核心逻辑层采用档案信息资源共享平台存储服务接口模式,该接口作为外部数据存储操作指令的传入与内部存储数据处理后返回的中间桥梁,可以避免外部应用对数据存储系统的直接操作,接口调用加上授权控制也确保了平台存储系统数据操作的安全。存儲系统由两大部分组成,一部分是数据存储服务的核心部分,由数据访问层、数据层、数据存储处理中心组成;另一部分是辅助系统,负责档案信息资源共享平台的监控、运维,主要由平台运行监控系统、数据备份系统、运行监控系统组成[11]。总体架构图如图1所示。
2.2数据存储系统的技术选型
传统的大数据存储一般采用关系型数据库。后来大数据的存储采用分布式文档存储数据库较多,常见的有MongoDB,它是一种非关系型数据库。在性能方面,该存储技术利用内存资源用作缓存来换取卓越的性能,并且会自动选择速度最快的索引来进行查询,从而提升档案信息数据的读写性能;在可扩展性方面,MongoDB支持横向扩展,这样就可以方便地将数据拆分至不同的服务器中,并提供自动路由技术使数据请求自动定位到正确的服务器;在数据存储使用方面,由于MongoDB面向文档设计,数据的获取方式非常灵活。MongoDB在数据存储方面也存在一些缺点,档案信息资源数据由于其信息一致性要求高,这就要求在数据存储过程中支持事务处理,而MongoDB的事务支撑需要在外部软件层面进行控制,工具支持方面需要进一步完善。当前大数据存储采用列式数据库,常见的如HBase,这种类型的数据库是面向大数据环境下数据仓库的数据分析而产生的,适用于批量档案信息资源数据处理和信息检索。为弥补列式数据库在数据检索方面的不足,一般会采用键值数据库作为大数据存储系统的存储方案的补充。
档案信息资源共享平台数据存储采用Hadoop分布式文件系统(Hadoop Disle System,HDFS), HDFS是受Google文件系统(GFS)启发而开发的一个分布式、可扩展的存储系统,最初是作为Apache Nutch搜索引擎项目的基础架构而开发的[12]。HDFS和其他的分布式文件系统相比,具有高度容错性和较低的成本[13],能够提供实时且易于使用的大数据分析和可视化环境[14]。HDFS为存储应用提供了将其移动到数据附近的接口,在档案信息资源数据达到海量级别的时候,外来的请求离操作的实际数据非常靠近,这样就能有效降低网络阻塞的影响,提高系统数据的吞吐量。
利用缓存技术可以大幅提升存储数据的读取效率[15],档案信息资源共享平台读取数据则采用Redis缓存技术,Redis是键值存储类型的数据库,可以缓存档案信息资源共享平台的高频访问大数据信息。基于内存存储的特性,Redis存取速度特别快,为索引提供了有效的数据结构,以加快查询操作和响应的速度,为多个数据结构提供支持,使其成为频繁访问档案信息资源数据的主要选择。
2.3平台数据存储系统的模块整体设计
档案信息资源共享平台数据存储系统在实际的构建过程中重点关注存储资源利用率、不间断工作时间、低延迟性、主存性能和大数据管理算法的科学性等内容。平台数据存储系统的模块设计主要从保障数据可靠性、使用性及安全性三个方面考虑,数据可靠性是数据存储的核心问题,也是数据有效的基本保障。在数据使用性方面,需要支持NAS、SAN等存储网络,并提供接口供外部处理,确保系统具有广泛的扩展性、适应性和兼容性。在保障数据安全性方面,需要考虑访问授权认证、内外网访问隔离等管理功能。综合以上存储系统设计的基本要求,档案信息资源共享平台的存储系统需要考虑数据接入存储层、配置运维中心、备份监控系统的设计工作。
(1)平台数据存储系统的数据访问与存储层设计
档案信息资源共享平台数据存储系统的数据访问与存储层主要负责档案信息数据的新增、修改、删除以及查询业务。为了保证档案信息数据的完整性,需要对数据存储操作提供事务管理操作,即针对每次请求产生的关联操作,必须一次性完成,否则,关联操作全部回滚并给出数据处理失败的标志。另外需要考虑档案信息数据的并发问题,随着档案信息资源共享平台用户的不断增加,对数据存储并发处理需要制定相应策略[16],即在修改更新时需要二次检查当前读取的数据是否被更新,如果被修改则本次更新失败。数据访问层实现了两大功能,一是对数据访问接入层进行负载均衡;二是把访问数据的请求转发到数据所在的数据层设备。数据存储层的目的就是存储数据,存储介质可以支持内存或SSD。在数据存储层的实现中需要提供一个同步模块,同步模块是为实现不同服务之间的数据同步;读写服务用来处理用户的读写请求;运维工具用于切换服务器、重启服务器、维护服务器等运维操作。该模块的设计如图2所示。
(2)平台数据存储系统的配置运维中心
档案信息资源共享平台数据存储系统的配置运维涉及三个方面,即配置中心、配额中心和运维中心。配置中心涉及存储系统模块的全局资源配置,并负责将配置好的资源下发到指定用户等,該中心只针对超级管理员角色开放,为了保证系统安全,需要对进入该模块的用户进行双重验证并实时备份与记录操作日志,以便于后期跟踪。配额中心则对档案信息资源共享平台不同业务模块的容量、流量、CPU等资源进行配额管理,该模块主要是针对平台用户所拥有的资源能力进行控制,并根据用户及数据的变化做出及时的调整。平台的数据日常处理工作由运维中心负责,该模块主要功能是执行数据存储中心运维命令,平台运维管理系统的使用者是系统运维人员,可以方便地进行数据业务管理和运维操作,并能查看系统运行状况和业务运营数据。随着自动化与人工智能技术的发展,未来的日常运维将会由AI机器人自动完成。配置运维中心结构如图3所示。
(3)平台数据存储系统的备份监控管理系统
档案信息资源共享平台数据存储系统的备份监控管理系统负责数据备份与恢复,支持档案信息数据全量备份与增量备份需求,并全面兼容不同类型的档案信息资源数据,实现对系统数据有效保护,支持同区域异地灾备。日志中心会记录所有用户系统操作日志,该中心所涉及的数据需被设置成保护模式,异常操作日志不可以删除。任务中心通常以定期任务的方式出现,它主要管理和调度档案信息资源数据备份与恢复任务的执行。监控系统对平台的关键信息和运行状况进行上报和分析,对异常情况进行监控和告警。其中,日常上报是对平台的运行状态进行上报;补充上报是对日常上报信息的一个修饰,可上报更多维度的信息。平台存储系统备份监控管理模块如图4所示。
3档案信息资源共享平台数据存储系统性能测试
3.1测试环境搭建
性能测试硬件环境由处于同一局域网内的两台HP DL388Gen10 HPE 2U机架式服务器构成,操作系统环境则采用主流的Windows Server 2016,通过Visual Studio 2019新建一个测试项目,主要内容包括数据存储效率对比分析。
3.2测试方法及关键代码
在测试服务器上开启IIS服务并运行使用C#开发的文件读写WebAPI,使用另一台配置相同的服务器在局域网内远程访问此WebAPI。为保证测试数据的准确性,每种数据量级的测试采用三次重复测试,取平均值的方式作为测试结果数据。具体测试核心代码见图5。
3.3测试过程