一种融合分布式存储的架构设计
2021-03-08朱彦霞范伊琳吴玉彬华南罗刘敏
朱彦霞 范伊琳 吴玉彬 华南 罗刘敏
摘 要:本文介绍了目前成熟分布式架构,在分析医疗机构、高校等特殊实际应用需求的基础上,汲取主流分布式框架的优点,提出分布式存储框架的优化设计思路,搭建了一种融合分布式存储框架,系统的实现将对特殊行业内部分布式存储的部署具有推广意义。
关键词:存储技术;分布式文件系统;架构设计;性能优化
中图分类号:TP399 文獻标识码:A 文章编号:1003-5168(2021)36-0022-03
An Architecture Design Integrating Distributed Storage
ZHU Yanxia1 FAN Yilin2 WU Yubin1 HUA Nan3 LUO Liumin4
(1.Henan General Hospital, Zhengzhou Henan 450002;2.Shang International Engineering Co., Ltd., Beijing 100069;3. China Radio and Television Henan Network Co., Ltd., Zhengzhou Henan 450000;4. Luoyang Polytechnic, Luoyang Henan 471000)
Abstract:In this paper,the current mature distributed architecture is less,based on the analysis of the special practical application requirements of medical institutions,universities,etc.,and the advantages of mainstream distributed frameworks are analyzed to analyze the optimization design ideas of distributed storage frameworks,and a fusion distributed storage is proposed. Framework,the implementation of the system will have promotional significance for the deployment of internal distributed storage in special industries.
Keywords:storage technology; distributed file system; architecture design; performance optimization
中国互联网络信息中心在京发布的《中国互联网络发展情况统计报告》显示,截至2021年6月,我国网民规模已达10.11亿,互联网的普及程度已超71.6%;清华大学《2020—2021年元宇宙发展研究报告》中指出,我们已经进入5G、大数据、人工智能、区块链等技术超融合模式,逐渐走向“数字创造、数字资产、数字市场、数字货币、数字消费”的全数字化新时代。随之带来的是数据量的几何级迅速增长,“信息爆炸”的大数据时代已经到来。
大数据时代,人们的关注焦点主要在大数据存储和大数据分析两个方面,然而大数据存储是大数据分析的基础,受到了业内学者的广泛关注与研究。目前,大数据存储主要面临三个方面的问题:一是数据的增长速度已经远远超过存储介质创新发展速度,单纯的硬件升级所消耗的成本巨大;二是数据资源闲置、硬件存储的利用率低下,无形中导致了存储成本的消耗增加;三是数据的备份还原的效率低下,导致异常情况下的数据保护、数据迁移存在安全隐患。分布式大数据存储往往利用网络采取数据分发策略,以提高数据的分布式存储、响应及转发速度;通过数据及副本的分节点存储提高数据的安全性。
目前,较成熟的分布式存储系统在大数据存储方面带来卓越功绩的同时,仍然面临一些挑战:一是高性能与高成本并存,高性能存储与部署及维护的高成本相对应;二是低成本与低适应度并存,低建设成本的分布式系统往往在系统的可移植性、拓展性方面能力有所欠缺;三是系统架构规范化程度过高,对于特殊行业的普适性较差,在价格、维护、升级等方面有着亟待改善的空间。本文在分析目前成熟分布式文件系统的基础上,进行优势融合,设计了一个CDS(Converged Distributed Storage)构架,在参考现有开源软件逻辑的基础上,实现分节点数据的存储、传输与备份;在提高数据存储优化的基础上,提高系统资源利用率,增强系统备份还原的安全性,增强在单位内部局域网实现专业、特殊需求领域的适用性。
1 分布式存储研究现状
数字化时代推动了数据的爆发式增长,而数据的快速增长速度又促进了分布式存储技术领域的蓬勃发展与国内外学者的广泛研究。分布式存储的技术主要涉及物理层、网络层、应用层的研究,近几年的研究热点多围绕提高分布式系统的计算力、拓展性、可靠性、自治性以及分布式存储应用等方面展开。马仁杰等[1]将区块链技术与分布式存储技术应用于档案信息管理中,以提高档案信息管理资源服务的自动化效率;刘苏英[2]将分布式存储技术应用在电信通信大数据库存储中,通过基于细粒度均衡算法,实现存储的负载均衡;孟庆玉[3]、迟松特[4]、朱良杰等[5]对云计算环境下的分布式存储关键技术进行了细致研究,并对云分布式存储的发展前景进行了展望;张晓等[6]对近年来Ceph分布式存储和优化的技术进行了综合性研究与分析;戴威[7]在分析资源存储特征的基础上,提出了一种跨HDFS集群的分布式存储方法;董聪[8]在对HDFS系统的写入与传输过程量化分析的基础上,提出了一种异步写入方式,以优化HDFS的写入性能;Wu Chenhan充分结合了SSDs的高I/O吞吐特性以及HDDs的大容量特性,提出了一种分层混合分布式文件存储技术,可在一定程度上提高数据的实时访问性能。以上研究都为分布式存储的改进提供了参考借鉴。
2 存储技术研究
2.1 传统存储技术
2.1.1 NAS。NAS(Network Attached Storage)以数据为中心,服务器与存储设备分离,通过局域网连接各平台,平台间通过NFS或CIFS文件系统访问协议访问服务器,实现数据的集中统一管理,确保服务器获取更多计算资源、减轻负载。NAS扩展性好,但文件传输过程中网络开销较大,数据访问速度极大受限。
2.1.2 SAN。SAN(Storage Area Network)采用专用网络实现服务器和存储设备之间的连接,根据传输过程协议不同,分为FC-SAN和IP-SAN。FC-SAN采用光纤通道技术,实现数据块的高速传输,但部署成本较高;IP-SAN使用IP通道连接服务器与存储设备,较FC-SAN部署成本低,但数据传输过程有时会受到IP网络干扰,而产生“丢包”现象。
2.2 分布式主流框架
分布式存储技术的实现以分布式存储框架为基础。目前,较为成熟的分布式存储框架主要包括HDFS、FastDFS、Swift、Ceph等。
2.2.1 HDFS。HDFS属于分布式文件存储,由谷歌于2003年推出的基于Hadoop框架的分布式计算的开源框架。HDFS作为Hadoop的三大核心组件之一,通常与Hive、Hbase共同使用,但存在系统搭建部署烦琐、运维难度大、开发应用成本较高等问题。HDFS的优势在于对大数据的处理、高容错性、高可靠性,但对小文件的存储、读取适应性较差。
2.2.2 FastDFS。FastDFS是一个开源的轻量级分布式文件存储,用于解决大数据量存储和负载均衡等问题,并需要通过专有API进行访问。FastDFS具有很强的扩展性,软RAID使系统的并发处理能力与数据容错恢复能力增强,但不支持断点续传,对大文件传输存在隐患。
2.2.3 Swift。Swift是由Rackspace公司开发的分布式对象存储服务,采用对称的、面向资源的分布式架构设计。通过计算,将对象均匀分布在虚拟空间节点上,系统拓展性较好,可保持极高的数据持久性,但对原生对象的存储不支持实时文件操作,较多地应用于大规模公有云的生产环境中。
2.2.4 Ceph。Ceph是开源分布存储平台,创新CRUSH算法,实现数据的寻址,数据分布均衡、并行度高,可实现对块、对象、文件的分布式存储,但对部署团队能力要求较高。
3 融合分布式存储构架(CDS构架)
3.1 特殊领域应用需求分析
分布式技术已广泛应用于诸多领域,但对医疗机构、高校等特殊领域的实际需求存在一定的不适用性,医疗机构、高校的分布式存储要求往往存在以下特点。
①系统内部数据的安全级别比较高,但对硬件配置要求往往不高。因此,多采用内网或区域性专网化部署,尽量减少对硬件频繁性升级改造。②内部数据传输量的时间分布性较为明显,可满足中小型单位日常使用的服务能力,具有较强的负载均衡能力。③硬件专业化人员相对匮乏,要求尽可能地降低维护的难度以及维护成本。④对数据保密和数据保护要求较高,需要分级、分权限进行用户验证以及管理,并对敏感数据进行加密。因此,对分布式架构中软件加密需求要求比较高。⑤要求存储系统的高兼容性以及系统高拓展性,对开发者友好,可稳定进行系统升级改造。
3.2 CDS架构优化思路
基于上述分析,需要在以下几方面进行优化提升。
3.2.1 去中心化设计。克服传统中心化分布式存储对Tracker Server、Storage Server和Client的角色的细分,同时增加Route Server、ACL Server、Index Server等服务模块,通过服务来优化网络的路由、权限验证和文件搜索等功能;通过冗余备份,提高系统故障恢复的效率及安全性。
3.2.2 自动巡检机制。各个节点要定期自动检查,实现数据的同步、备份、存储权重的更改,实现基础冗余数据的保护,所有的数据保持一定比例的冗余备份,避免某个节点崩溃后数据切片无法恢复。
3.2.3 系统程序独立封装。系统采用独立应用程序并可自动升级,以便于部署和安装,降低对终端的软硬件环境要求。独立应用程序仅在第一次启动配置,日常无须安装用户的干预,若节点硬件更换或者数据复制后,运维人员可以选择恢复或重新配置某个节点,以降低运维难度与成本。
3.2.4 支持网络路由优化和硬件优化。通过日常业务处理提升高性能硬件运行概率,以此提高系统整体性能;管理员可以在任何节点根据权限管理对网络路由进行调优,并根据不同客户端的硬件情况和用途进行权重设置。
3.2.5 数据权限管理。分布式域的创建者可以根据角色设置对应权限,用户根据角色赋权。
3.2.6 数据安全等级管理。可以标注数据的加密等级,实现数据的加密方式与创建者的高度关联性;对于可分享的数据支持明文存储;第三方调取时采用二次加密方式,防止传输过程中的数据篡改或窃取。
3.2.7 支持版本回溯。本系统进行版本控制,确保重要文档历史版本可追溯还原。
3.2.8 分域权限管理。任何客户端在加入分布域后,都可以实现自动维护,减少人员维护。域管理员可以随时调配软硬资源。
3.3 CDS架构设计
CDS的总体架构图如图1所示。CDS架构设计整体上采用一种跨平台的语言,可以编译为独立的执行程序,支持X86处理器和ARM处理器的运行,同时确保以下关键环节。①尽量采用开源稳定的组件,减少对第三方软件的依赖。②使用NoSQL数据库作为计算缓存,嵌入式数据库作为持久化存储。③对于核心数据要采用证书式不对称加密保护,而保密要求低的文件主要采用对称加密。④基于FastDFS的设计思路,融入HDFS部分功能的同时,引入去中心化的设计思想。⑤采用多线程技术,每种服务负责一个线程通信;采用HTTP协议最大化兼容网络安全通信设备。⑥使用本地内存缓存策略,在保护数据的安全性的前提下,不强制数据的实时同步,通过统计请求数据的策略,实现数据的自动同步优化。⑦数据要使用切片存储,便于网络传输优化;冷数据或碎片数据可重新打包进行存储,降低宿主操作系统的分区表管理压力。
4 结语
由于开源性及对第三方软件依赖的减少,基于CDS的分布式存储设计可提升系统的可维护性、功能开发的拓展性;同时,轻量级的设计减少部署及维护的成本,对特殊行业局域网内的分布式存储具有一定的推广意义。
参考文献:
[1] 马仁杰,沙洲,罗吉鹏.论区块链思维下我国档案信息服务模式的优化路径[J].档案学研究,2021(4):94-99.
[2] 刘苏英.分布式文件存储系统在电子通信大数据存储中的应用[J].九江学院学报(自然科学版),2021(2):78-80.
[3] 孟庆玉.基于云计算的分布式存储技术研究[J].信息系统工程,2018(10):43.
[4] 迟松特.云计算环境下的分布存儲关键技术[J].中国管理信息化,2021(16):167-168.
[5] 朱良杰,沈佳杰,周扬帆,等.云际存储系统性能优化研究现状与展望[J].计算机工程与科学,2021(5):761-772.
[6] 张晓,张思蒙,石佳,等.Ceph分布式存储系统性能优化技术研究综述[J].计算机科学,2021(2):1-12.
[7] 戴威.一种跨HDFS集群的文件资源分布式高效存储方法[J].电子设计工程,2019(21):14-17,22.
[8] 董聪,张晓,程文迪,等.基于新型存储器件的分布式文件系统性能优化[J].计算机应用,2020(12):3594-3603.