大数据时代数据分级存储优化方向研究
2019-09-10徐晟
徐晟
摘 要:大数据时代的到来,使我国在现代化建设过程中对信息化技术的应用不断加深,这也使数据量增长速度不断加快,随之而来的数据存储问题也变得越来越突出。如何对海量数据进行有效存储,大幅提高数据访问率,保障数据安全,已经成为亟待解决的重要问题。而数据分级存储技术的出现,为这一问题的解决提供了可靠的技术支持。鉴于此,本文首先分析大数据时代数据分级存储及其基本要求,然后对数据分级存储的优化方向进行深入研究,以期为我国数据分级存储技术的优化与改进指明方向。
关键词:大数据;数据分级存储;优化
中图分类号:TP391.41 文献标识码:A 文章编号:1003-5168(2019)14-0025-03
Research on the Optimal Direction of Data Hierarchical
Storage in the Age of Big Data
XU Sheng
(Geomatics Center of Guangxi,Nanning Guangxi 530023)
Absrtact: The arrival of the era of Big Data has deepened the application of information technology in the process of modernization construction in China, which has also accelerated the growth of data volume, and the consequent problem of data storage has become more and more prominent. How to effectively store massive data, greatly improve data access rate and ensure data security has become an important problem to be solved urgently. The emergence of data hierarchical storage technology provides reliable technical support for solving this problem. In view of this, this paper first analysed the data hierarchical storage and its basic requirements in the era of big data, and then made a thorough study on the optimization direction of data hierarchical storage, with a view to pointing out the direction for the optimization and improvement of data hierarchical storage technology in China.
Keywords: Big Data;hierarchical data storage;optimization direction
統计表明,数据存储时间超过一个月被再次利用的概率不超过5%,硬盘中存储的数据超过80%是不被经常访问的。这些数据虽然利用率不高,但却占用了大量的磁盘空间。因此,对这些数据进行处理,以实现对存储空间的合理利用,最大限度地降低存储成本,已成为信息管理部门亟待解决的重要问题。而通过分级存储,可有效解决该问题,不仅能节约存储成本,而且能实现对数据的最大化利用,并使数据存储变得更加高效,保障数据存储安全。
1 数据分级存储概述
所谓数据分级存储,是根据数据自身价值的高低,选择与数据价值相匹配的存储设备来进行数据存储,数据的利用价值越高,则存储设备的级别及性能就越高,其存储成本也就越大,反之则越小[1]。数据分级存储需要按照用户所设定的策略来执行,而数据利用价值的高低可依据其数据种类、时限、利用频率及重要程度来判断,可对不同价值的数据有选择地进行迁移,使其能在不同级别的存储介质中进行拷贝。在数据被拷贝完毕后,会创建一个和原文件名相同的标志文件,不过其所占用的磁盘空间要比原文件小很多。用户在访问该标志文件时,系统会从对应的分级存储介质中恢复原始文件,然后对标志文件进行覆盖。数据分级存储的应用优势主要表现在以下四方面。第一,数据分级存储能有效降低存储成本,不经常访问的数据驻留在较低成本的存储器中,以确保磁盘驱动器的性能得到最大限度的发挥[2]。第二,分级存储策略使存储设备的性能得到最大限度的发挥,能确保性价比不同的存储设备充分发挥其作用。第三,分级存储使数据的可用性得到改善,使访问频率较低的数据自动迁移至辅助存储器中,从而避免对这些数据的反复存储,不仅缩短了存储时间,而且提高了数据可用性。第四,分级存储能使数据在不同的存储器中移动,且此过程不需要改变应用程序,数据迁移和应用更为透明化。
2 大数据时代数据分级存储的基本要求
在大数据时代,进行数据分级存储要满足以下基本要求。其一,数据安全。在对数据进行分级存储时,必须要确保数据的自身安全,可通过在线、离线和近线等多层次备份方式,对数据进行周期性存储。这样即使数据在分级存储过程中被损坏,也能利用备份数据来进行恢复,从而保证用户能正常访问和使用数据。数据分级存储需要建立相应的备份策略,明确操作流程,以确保备份数据安全。其二,数据具有可用性。在对数据进行分级存储时,必须要确保访问这些数据的速度不会受到影响,尤其是在线数据,需要确保其获取的实时性。同时,在分级存储时,还要充分考虑存储设备的灾备性能,以确保存储的数据能够完整、真实,并可进行长期使用。其三,容量可扩展性。在大数据时代,数据量呈现出几何式增长的趋势,数据规模急剧扩大。在管理数据的过程中,相关部门必须要充分考虑数据的增长速度。而这就需要在分级存储过程中,对存储设备自身的容量可扩展性进行分析,确保存储设备能在后续存储数据时具有足够的容量。其四,设备兼容性。在对数据进行分级存储时,主要处理方式包括两种:一种是数据迁移;另一种是数据回迁。也就是说,工作人员要依据数据的主要类型、使用频率、存储时间及其重要程度来对其进行级别划分,使其能在不同级别的存储设备中得以顺利迁移。因不同存储设备在结构上存在差异,所以,要保证各级存储设备间的兼容性,而这需要确保数据的存储格式能得到各级存储设备的支持。其五,管理高效性。在对数据进行分级存储时,需要坚持分布式存储的原则,对数据进行集中式管理,而这需要对存储设备及空间权限等进行完备的定义,以实现对数据存储管理流程的有效优化,提高数据在分级存储中的管理效率。其六,经济效益性。对于一些访问频率较低的数据,可将其存储于级别较低的存储设备中,以节约存储成本;而对于一些访问频率较高的数据,则可存储于级别较高的存储设备中,这些存储设备虽然存储成本较高,但其性能却较强[3]。在分级存储过程中,要结合应用多种不同的存储方式和介质,并充分发挥各存储方式的优势,进而在节约存储成本的基础上,实现数据利用最大化的目标,保障数据安全。
3 大数据时代数据分级存储的优化方向
在大数据时代,数据分级存储技术的应用优势显而易见:能显著提高数据的利用效率,降低数据存储成本,保障数据存储安全。但在数据分级存储过程中,仍存在一些问题,需要对其进行优化。具体来说,数据分级存储的优化方向主要体现在三方面,分别是数据分类能力优化、数据存储能力优化以及数据迁移能力优化[4]。
3.1 数据分类能力优化
通过对数据进行分析,可对数据所具有的访问属性进行定义,结合用户逻辑业务主题的不同,根据数据的利用价值来实现其类别划分,可以为数据迁移打下良好的基础。现阶段,我国尚未对数据分类的标准进行统一,但却可以结合数据的用途及应用环境,将其划分为软件系统运营数据、硬件系统运行数据等。除此之外,还可以将数据原始类型作为分类依据,将其划分成结构化、半结构化以及非结构化数据;还可依据人们对数据的访问频率,将其划分为非热点数据与热点数据。总而言之,数据分类的方法较多,通过数据分类,可使数据的有效性及精准度得到显著提高。现阶段,我国在对数据进行分类时,主要采用的策略有专家系统分类、人工经验分类、知识分类、静态分类和动态分类等。这些分类策略的出现,都实现了对数据分类能力的优化,大幅度降低了人们管理数据时的难度。
3.2 数据存储能力优化
在数据分级存储过程中,其存储问题已经引起人们的关注。随着人们对数据分级存储的需求变得更加多样化,数据存储问题也变得愈发复杂化。数据可以放置在不同的存储位置,但不同的存储位置又会对分级存储系统的性能带来不同程度的影响。此外,数据存储方式也较多,如文件分割存储、随机存储和顺序存储等。如何选择正确的存储方式才能使分级存储系统的性能得以最大化发挥,也是需要重点考虑的问题。为了解决这些问题,就必须要弄清具体的存储介质及存储方式,只有合理选择存储介质和存储方式,才能最大限度地优化系统的数据存储能力。为此,可根据块级别来利用元数据属性,根据文件块的大小来确定存储方式,这样既能提高系统对数据的访问效率,而且能节约数据存储成本。
3.3 數据迁移能力优化
在数据分级存储中,数据的服务质量及访问频率是动态变化的。因此,在对数据进行分类存储时,也应以动态化的方式来匹配相应的存储设备,即数据可以在同一级别或不同级别的存储设备中进行迁移。可以说,数据迁移能力是数据分级存储的核心能力,主要体现在同级迁移与异级迁移两个方面。其中,同级迁移是当存储系统的硬件配置改变时,为了对各个存储设备的负载进行均衡而实施的;而异级迁移则是为了对存储系统进行优化而实施的。异级迁移的出现更为频繁,既可以从高级的存储设备向低级的存储设备进行迁移,也可进行反方向迁移。迁移方法主要包括在线迁移与离线迁移两种。根据业务的复杂程度,复杂性较高的迁移适用于在线迁移,而复杂性较低的迁移则适用于离线迁移。但无论是哪种迁移方法,只要迁移策略正确,都能提高数据存储系统的综合性能,降低数据存储成本。
4 结语
大数据时代的到来,使人们对数据的依赖性不断增强,数据在现代社会中的重要程度也不断提高。与此同时,人们对数据的存储需求也变得越来越强烈。由此,数据的安全存储及利用问题也受到越来越多人的关注。在此背景下,数据分级存储技术应运而生,有效解决了数据存储难题,使数据能以最小的存储成本实现最大化利用。随着数据分级存储技术的不断革新,其必将向着更加智能化、虚拟化的方向发展,从而使数据在分级存储过程中具备更加强大的分类、存储与迁移能力。
参考文献:
[1]杨文晖,袁进俊,苗放.面向海量空间数据的分级存储模型研究[J].物探化探计算技术,2015(6):783-789.
[2]郭刚,于炯,鲁亮,等.内存云分级存储架构下的数据迁移模型[J].计算机应用,2015(12):3392-3397.
[3]蔡雨蒙,冷锴,单红伟,等.大型医院影像分级存储架构下归档的策略及应用[J].中国数字医学,2017(1):48-51.
[4]张瑞杰,张文生,李战怀.基于文件队列的分级存储系统FQ-HSM的设计与实现[J].计算机与现代化,2017(2):67-72,97.