分布式云安全存储系统的研究与应用
2019-06-13杨翠翠邵大鹏周涛吕美敬
杨翠翠 邵大鹏 周涛 吕美敬
摘 要:隨着信息技术的高速发展,网络用户迅猛增加。如今的互联网正处于一个信息爆炸的时代,对信息的存储和处理导致了海量数据的产生。海量分布式云安全存储系统主要是对海量信息进行存储和处理,通过多项安全技术的融合,最终实现安全性高、性能高、业务连续性高的分布式存储系统。论文在对分布式云安全存储系统的特点进行深入分析的基础上,就分布式云安全存储系统的关键性技术的实现细节和设计模式进行了详尽的分析和阐述。同时,基于其技术理论,构建了实际的云安全存储系统,并进行了环境实测,最终实现了预期的目标。
关键词:分布式;云安全;存储系统;研究;应用
中图分类号:TP302.1 文献标识码:A
Abstract: With the rapid development of information technology, Internet users are increasing rapidly. Nowadays, the Internet is in an era of information explosion, and the storage and processing of information leads to the generation of massive data. Massive distributed cloud security storage system mainly stores and processes massive information, and finally realizes the distributed storage system with high security, high performance and high business continuity through the integration of many security technologies. Based on the in-depth analysis of the characteristics of the distributed cloud security storage system, this paper analyzes and expounds the implementation details and design patterns of the key technologies of the distributed cloud security storage system. At the same time, based on its technical theory, the actual cloud security storage system is constructed, and the environment is measured. Finally, the expected goal is achieved.
Key words: distributed; cloud security; storage system; research; application
1 引言
随着信息技术的高速发展,网络用户迅猛增加。如今的互联网正处于一个信息爆炸的时代,对信息的存储和处理导致了海量数据的产生。所谓海量数据,是指数据量极大,一般是TB(1012bytes)、PB(1015bytes)、EB(1018bytes)级别的数据集合。针对互联网中的海量数据,传统的存储技术和C/S存储模式已经难承其重。
对于海量数据而言,几乎无法实现在单一设备上的存储方式,采用分布式的存储技术是一种合适的解决方案,其显现了强大的生命力,得到了企业界和科学界的广泛认可。海量信息的存储不仅对存储设备的储存容量有要求,还需要大规模数据库来存储和处理这些信息。因此,在满足通用关系数据库技术要求的前提下,还需要对影响海量数据存储系统性能的存储模式、安全架构、数据库策略和应用体系等进行更进一步的设计考虑。分布式云安全存储系统主要是对海量信息进行存储和处理,通过多项安全技术的融合,最终实现安全性高、性能高、业务连续性高的分布式云安全存储系统。
2 分布式云安全存储系统的特点
分布式云安全存储系统在存储模式、数据库策略以及安全性方面均具有自身的特点,这些是实现对海量数据的高效、安全存储的重中之重。
2.1 存储模式
分布式云安全存储系统采用的是对象存储(Object-Based Storage, OBS)的存储模式,其综合了NAS和SAN的优点,且同时具有SAN的高速直接访问和NAS的数据共享等优势,提供了具有高性能、高安全性、跨平台以及安全的数据共享的存储体系结构。不同存储模式的比较分析如表1所示。
2.2 数据库策略
数据库管理系统(DBMS)是分布式云安全存储系统的核心部件,所有对数据的控制都需要通过DBMS来实现。针对海量数据,高性能且安全有效的数据存储方法中可采取的数据库策略主要有分区技术和并行处理技术两种。所谓分区技术,就是为了更精细的对数据库对象进行管理和访问,可以对这些数据库对象进行深入的划分。其中的数据库对象主要指表、索引以及索引编排表等。所谓并行处理技术,是指为了提高数据库系统的性能,让其多个处理器协同工作来执行单个SQL语句。
2.3 安全性
随着数据的爆炸式增长,存储系统的规模不断扩大,而存储设备的安全性却一直没有显著改善,这给数据的持久化存储带来了巨大的困难。SSD从SLC到MLC和TLC的安全性一直下滑,磁盘随着单位面积写入数据越来越多导致安全性无法提高。此外,存储系统中的冷数据的增加远远超过了热数据的增加,冷数据的安全保存及获取是存储系统的重要环节。分布式云安全存储系统采用三副本、跨机器做EC等安全相关技术提高了存储系统中数据的冗余度、容错度和安全性。
3 分布式云安全存储系统的关键技术
存储系统的安全性主要取决于硬盘寿命、容错度和单位修复时间。硬盘寿命比较难调整,且与采购成本挂钩;容错度通常与系统的冗余度有关,且直接关系成本;单位修复时间是指单块硬盘损坏的修复时间,不同的实现方式存在很大差异。以上三点是存储系统安全性的关键指标。其中,系统的冗余度作为存储系统安全性指标的重中之重,其实现方式是分布式云安全存储系统的关键技术。
保证数据冗余度的两个重要方法是编码策略和副本策略。在原始数据发生部分丢失的情况下,这两种策略都可以保证数据获取的正确性。编码策略是将原始数据分块并编码生成冗余数据块,其可以保证即使丢失一定量内的数据块,原始数据仍旧可以获取到。副本策略是将原始数据拷贝一份或者多份进行存储。
在保证存储系统冗余度方面,分布式云安全存储系统可以进行不同的配置方式,主要包括基本模式和高级模式两种。
3.1 基本模式——三副本方式
三副本方式系统冗余度为3块硬盘,容错度为允许3块硬盘同时损坏2块,在单位修复时间内,同时损坏3块盘以上,则发生数据丢失。三副本方式是将同一份数据拷贝成三份存储在不同的数据节点上。三副本方式的存储系统结构图如图1所示。
采用三副本模式后,分布式云安全存储系统的具体实现方式如图2所示。其中,NameNode节点为元数据节点,里面主要保存元数据信息,例如文件系统目录树信息、文件和块的对应关系、文件系统的更改记录等内容。DataNode节点为数据节点,主要保存具体的数据块信息。由图2可知,每个数据块同时存在于三个不同的数据节点中,三个数据节点中同时损坏两个及以下的数量,均不会造成数据丢失。
DFS的读操作流程同写操作流程是相呼应的,具体的流程描述有五步骤:
(1)客户端与NameNode通讯获取文件的块位置信息,其中包括了块的所有冗余备份的位置信息,即所在DataNode的列表;
(2)客户端获取文件位置信息后直接同有文件块的DataNode通讯,读取文件;
(3)如果第一个DataNode无法连接,客户端将自动联系下一个DataNode;
(4)如果块数据的校验值出错,则客户端需要向NameNode报告,并自动联系下一个DataNode;
(5)重复第(2)、(3)、(4)步过程,直至数据读取成功,读操作完成。
3.2 高級模式——跨机器做EC
在技术层面上,存储系统的核心需求是安全性和成本,而这两者又是相互矛盾的。提升系统安全性降低丢失数据的风险,势必要增加数据拷贝的份数,而增加每份数据拷贝的份数,又势必会造成成本的增加。分布式云安全存储系统采用EC冗余算法来平衡这个核心需求。EC冗余算法是将一份数据拆分成M份,并将这M份数据代入一个多元线性方程组,算出N份校验数据,然后将这M+N份数据存储。在存储下来的M+N份数据中,有任何一份或者多份数据发生损坏,都可以通过这个多元线性方程组将损坏的数据算回。使用EC冗余算法的存储系统最多支持N份数据损毁而不丢失数据。
采用跨机器做EC的高级模式后,分布式云安全存储系统的冗余度为(N+M)/N,容错度为允许N+M块硬盘同时损坏M块,在单位修复时间内,同时损坏M+1块盘,才会发生数据丢失。分布式云安全存储系统通过计算,将M和N均做到比较大的数值,且M远远大于N,这样使得系统的冗余度很高、容错度很大,且备份数又非常低。在一定程度上,很好地平衡了存储系统的安全性和建设成本。
4 分布式云安全存储系统的应用
在对分布式云安全存储系统深入研究的基础之上,以中央财经大学为应用场景,将分布式云安全存储系统进行了实际业务环境的测试和使用。中央财经大学全校师生共有2万人左右,涉及的科研、学工、教务、人事、组织、财务、招生、校园卡等信息,数据量较大,且数据块较小,因此海量分布式云安全存储系统是适合该应用场景的。具体的配置流程是:采用10台型号为NS3000-16的存储服务器搭建了分布式云安全存储系统,配置为三副本的基本模式,同时对存储系统的冗余度、容错度进行了配置。基于分布式云安全存储系统之上,构建了云安全管理平台,实现了对近200台虚拟化服务器的配置、使用和管理,该200台虚拟服务器主要部署了中央财经大学广大师生相关的应用系统。在构建之初,对分布式云安全存储系统的容量、冗余度和容错度分别进行了验证性测试,均达到预期效果。系统启用至今已经2年多了,虽出现过硬件损坏但均未造成数据丢失,具有良好的稳定性和安全性。由于该存储系统主要是面向中央财经大学的全体师生,数据来源较为单一,其在海量数据的存储和安全管理方面的优势还有待在实际使用中进一步验证和测试。
5 结束语
本文在对分布式云安全存储系统的特点进行深入分析的基础上,就分布式云安全存储系统的关键性技术的实现细节和设计模式进行了详尽的分析和阐述。同时,基于其技术理论,构建了实际的存储系统,并进行了环境实测,最终实现了预期的目标。通过对分布式云安全存储系统的细致研究,将其应用到了实际的工作环境中,并计划在今后的实际使用过程中不断的完善之前的研究内容,继续攻克新的技术难点,推动分布式云安全存储系统的进一步发展和完善。
参考文献
[1] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al.. Google BigTable—A Distributed Storage System for Data[C]. OSDI, 2006.
[2] 刘琨,李爱菊,董龙江.基于Hadoop的云存储的研究及实现[J].微计算机信息, 2011.
[3] Jeffrey Dean, Sanjay Ghemawat. MapReduce:Simplied data processing on large clusters [C]. Proceedings of the 6th Symposium on Operating System Design and Implementation. New York: ACM Press. 2004.
作者简介:
杨翠翠(1985-),女,汉族,河北衡水人,北京工业大学,研究生,工程师;主要研究方向和关注领域:计算机网络与应用。
邵大鹏(1984-),男,汉族,吉林德惠人,北京工业大学,研究生,工程师;主要研究方向和关注领域:信息安全。
周涛(1972-),男,汉族,吉林长春人,西安电子科技大学,本科,工程师;主要研究方向和关注领域:计算机网络与应用。
吕美敬(1988-),女,汉族,山东济宁人,华北电力大学,研究生,工程师;主要研究方向和关注领域:计算机网络与应用。