APP下载

面向大数据的分布式存储技术研究

2020-12-04

无线互联科技 2020年15期
关键词:存储技术存储系统分布式

顾 勤

(景德镇学院,江西 景德镇 333400)

大数据时代下,人们的生活和社会各类产业的发展都离不开不断发展的计算机技术和互联网技术,云计算也因为海量数据而不断完善与发展,与此同时,传统的存储信息技术逐渐跟不上时代发展的步伐,不能很好地满足人们在日常生活和各领域生产中的要求,分布式存储技术应运而生,为解决这一问题做出了巨大贡献。分布式存储技术包括软件和硬件,二者各自发挥作用,共同促进了分布式存储技术的发展[1]。

1 大数据分布式存储技术的研究现状

1.1 分布式存储技术的相关研究背景

近年来,互联网的发展迎来了新高峰,相关的网络技术在不断革新、进步,互联网中不断有移动终端、传感设备等设备进入,相关数据量越来越大,数据值只增不减。云计算在我国许多领域都被广泛应用,据相关调查显示,阿里云应用了分布式存储技术,促使业绩飞速增长;国家对云计算也越来越重视,甚至出台了许多与分布式存储技术相关的战略。一直以来,云计算之所以能够有快速发展,核心在于分布式存储技术,它一直都是云计算系统平稳和安全运行的“保护伞”,但是云计算在发展中还是暴露了一些问题,需要相关人员去研究和解决[2]。

1.2 国内外对分布式存储技术的研究现状

1.2.1 对分布式存储系统数据安全性技术的研究

分布式存储系统因为低成本的优势被许多领域的企业青睐,但缺点是在安全性方面存在重要问题。因为分布式存储系统对数据的机密性和完整性有比较高的要求,同时也有强烈的需求,但其大多是在云端部署自己的一些基础设备,所以安全程度较低。传统的密码学对于保证分布式存储系统中数据的机密性有着十分重要的作用,想要确保数据的完整性,主要是通过在分布式存储系统中引入安全技术实现的[3]。

1.2.2 对分布式存储系统容纳错误技术的研究

容错技术并不是单一的,而是有很多种类型,不同容错技术的基础不同。基于研究现状发现,容错技术主要有3种:(1)以复制为基础的容错技术,比较简单,在实现过程中也很简单,但是也有致命的缺点——存储开销过大,如果多台服务器同时发生故障,可能会使大量信息丢失。(2)以纠删码为基础的容错技术,要同时对多个数据编码产生编码现象,可以很好地解决对于以复制为基础的容错技术产生开销过大的问题;缺陷在于,如果某一节点发生了问题,需要连接多个节点才能恢复数据,对宽带是十分耗费的。(3)以网络编码为基础的容错技术,保留了以纠删码为基础容错技术的优势,同时,引进了与网络编码有关的先进思想,对分布式存储系统有很大的作用[4]。

2 面向大数据的分布式存储技术在发展中存在的问题

2.1 设计与实施中的差异化

文件系统和数据库是面向大数据存储的信息数据的主要内容,但是一般需要弹性很强的扩展能力进行支撑,而分布式的存储技术能够满足各种需要。分布式存储技术容易在设计与具体实施过程中产生差异,主要原因是数据库对分布式存储技术系统的要求过高,但是文件系统主要是要求气存储空间的质量能够更高。

2.2 存储技术的成本在不断增加

“双十一”疯狂购物、春运抢票等事件,会导致数据总量十分庞大,而且各网络用户也会对数据频繁操作,但是并不是所有的数据都有人访问的,有的数据访问量过大,有的数据几乎无人问津,几乎没有被访问的数据占据很大的存储空间,会大大提高存储技术的成本,降低性价比,使许多企业望而却步。另外,传统存储技术过于复杂,新的分布式存储技术要克服传统存储技术的复杂以及扩展度低的问题。

3 面向大数据的分布式存储技术的更好发展

在大数据时代,分布式存储技术如果想要获得更好的发展,就必须要积极改革和创新,技术人员要分析当下在传统存储技术和新的分布式存储技术中各自存在的问题,然后尽力在解决问题的基础上发展自身。接下来,本文将详细分析面向大数据时代实现分布式存储技术更好发展的策略。

3.1 完善极限数据分布式存储技术

完善极限数据分布式存储技术是指通过业务逻辑和复杂查询来对总量庞杂的数据进行操作,此外,还要分析处理数据访问量,其很关键的作用是提高信息访问的速度。所以,极限数据分布式存储技术要实现大力度的架构作用调整。NoSQL与NewSQL是极限数据分布式存储的两大主要架构技术,两者共同点在于都是面向极限数据分布式存储技术,各有优势,但也有很多不同点;最关键的是两大主要架构技术都有不足之处,且都是关于极限性能方面的。所以,极限数据分布式存储技术不仅要注重外存方面的改变,也要注重内存方面的改变,尤其是内存方面的改变,主要可以通过改变节点来实现。

3.2 完善低成本分布式存储技术

存储技术一直在努力控制成本,但是当下数据信息量的极速增长导致成本控制越来越难。低成本分布式存储技术与极限数据分布存储技术有所不同,主要体现在对访问量较低的数据信息的分析和处理上。低成本分布式存储技术对低访问数据信息的实时性要求并不高,但是成本控制问题却给相关人员提出了一个大难题。许多相关技术企业都注重使用对象存储方法,目的就是控制成本。对象存储主要就是一个相应的对象为一个访问单元,主要以对象存储设备为基础去构建存储系统,能够实现对相关数据的自动化管理及保存。对象存储系统在当下已经发展得比较完备,Swift就是一种比较典型的对象存储系统。

3.3 完善软件自定义分布式存储技术

软件自定义分布式存储技术能够对存储系统进行分布式的统一存储,在统一存储的过程中,主要通过软件应用的方式进行。Ceph是比较典型的自定义分布式存储技术,一个十分显著的特点是访问接口多样化,对具体的数据块能够通过算法定位,使其使用性和扩展性不断得到提高。Ceph的分布式存储方法具有强一致性,所以,如果是跨地区甚至是跨机房使用,都可能会引起一些不适用的问题。另外,技术人员要注意不断将Ceph系统中纳入更多的存储模式,以满足更多客户的数据需求,而且其设计要能够满足不同客户的需求,为客户提供高质量、高效率的存储管理服务。

3.4 完善大数据空间管理系统

大数据空间管理系统主要是4层架构:(1)数据资源层。负责存储和管理各类数据,可以说是整个系统的比较数据资源层。特点是能够快速读取和高效计算空间大数据,满足空间信息浏览过程中的各种需求,例如,进行高效分析处理和应用。(2)基础设施层。是整个系统的支持基础,功能是对各种资源进行计算、存储,此外,还包括安全设备和网络资源,因此十分丰富。(3)系统应用层。以组件服务层提供的服务接口和功能组件为基础,对Web端、桌面端等模式进行应用构建。Web应用和桌面应用包括的数据种类都很多,Web端包括对信息的查询检索、展示成果数据等;而桌面应用包括更新维护数据、管理好系统安全等。(4)组件服务层。体现着整个系统的基本服务能力,不仅能够对应用层的应用构件进行支撑,还能够对数据层的数据资源进行操作,既可以向上也可以向下,当然,相关操作都是通过服务接口和功能组件完成的。

3.5 完善分布式文件系统存储技术

分布式文件系统是指在文件系统管理中,物理存储资源的连接点不确定,既有可能连接在本地的节点上,也有可能通过计算机网络媒介与节点相连。对于分布在网络任何位置的资源数据,分布式文件系统都能够为其提供树形文件系统结构。分布式文件系统存储技术能够在不同节点上存储数据,因此,有一个十分明显的优势:能够保证数据安全,减少丢失数据的可能性。

4 结语

我国社会与经济的不断发展、进步,促使互联网以及计算机的各类技术在不断改革,许多新型数据模式诞生,存储信息数据的技术也在不断进步,力求能够满足用户各种各样的需求。从分布式数据存储技术的研究现状来看,该技术目前受到各领域的青睐,其优势决定了它还有很大的发展空间;但是对于分布式数据存储技术中存在的问题,相关技术人员也不能忽视,而是要从各方面去解决,促进该技术更加完善、先进。

猜你喜欢

存储技术存储系统分布式
分布式存储系统在企业档案管理中的应用
天河超算存储系统在美创佳绩
关于计算机网络存储技术分析
基于FAT文件系统的数据存储技术的研究
数据存储技术的应用
基于FPGA的并行测试高速存储技术
基于DDS的分布式三维协同仿真研究
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
一种基于STM32的具有断电保护机制的采集存储系统设计
西门子 分布式I/O Simatic ET 200AL