APP下载

面向云存储的分布式文件系统关键技术研究

2021-11-03杨志勇

电子技术与软件工程 2021年18期
关键词:存储技术数据服务存储系统

杨志勇

(武汉船舶职业技术学院 湖北省武汉市 430051)

在现代化社会发展过程中,云计算成为了社会各界关注的焦点,在技术方面,云存储系统为上层服务提供了十分重要的支持,与此同时,通过应用云存储技术可以对海量数据进行科学管理。从本质来看,云存储分布式文件系统架构十分复杂,在建立过程中需要将计算机系统作为前提条件,而且必须要支持节点规模较大的数据存储,在这样的要求下,云存储系统也面临着十分严峻的挑战。

1 云存储技术的研究现状

目前,云计算技术的快速崛起,使其成为了信息发展领域中一项重点研究话题,与以往存储设备相比,云存储不单纯是硬件这么简单,是一个由多种类型程序客户端组成的综合系统[1]。从使用者角度分析来看,云存储不单指某一具体设备,而是代表着多种存储设施与存储器的融合结构。在云存储系统应用期间,工作人员并不会使用同一类型设备,而是针对整个系统数据进行访问。云存储技术应用的关键就是将软件和存储设备结合在一起,利用应用软件使存储设备转化为存储服务。在云存储概念提出之后,社会众多厂商都给予了其较大的关注,例如:Goole 推出了在线存储服务GDrive,Amazon 公司推出了弹性块存储技术,用来支持数据长久性存储。云存储技术更关注于为其他组织结构提供充足存储空间,每个云存储设备都会由单一的组织运行。而服务是云存储系统中的关键组成内容。系统使用人员可以利用服务器来上传或访问资源。同时,云存储服务利用SLA 等服务来提供最基本的技术保障。在云存储系统中,存储服务通过DAAS 提供,这与云计算SaaS 和HaaS 等其他服务模块组建成paaS[2]。所以在整合服务的影响下,用户可以建立一个虚拟化平台。如此一来就能够使相关服务带来较大的灵活性。

现如今,云存储系统类型有将近上百种,部分云存储系统中都有重要关注要素,比如电子邮件数据和数字化图像等。

2 云存储系统与分布式文件系统之间的关系

云存储技术与云计算技术之间的关系十分密切。甚至从另一角度来看,云存储系统是在云计算系统基础上建立起来的,这时候云存储概念只能够充当于一种云计算服务,通常被称之为存储云。像Amazon 公司的S3 服务,就是以云计算服务为基础形成的数据存储体系,S3 服务指的就是云服务,所以该系统也被称之为云存储系统。另外,文件是云存储系统中必不可少的支持内容,一般都依靠分布式文件系统来实现,这也是组成云存储系统的基础条件,它能够对外界直接提供云存储服务[3]。所以,云存储也是云计算的底层服务内容。

3 面向云存储的分布式文件系统架构技术

3.1 当前现有的系统架构

3.1.1 分布式文件系统与云存储系统

所谓得到分布式文件系统指的是与本地节点没有直接关联的存储资源,而是通过计算机网络与节点之间联系在一起。分布式文件系统设计主要是将服务器模式作为基础内容。一个基础的网络必然会包含多个服务器来实现用户访问。此外,它所具备的对等特性也会让一些系统担任服务器和客户机双重身份。例如:用户可以退出能够被其他用户访问的目录,如果目录被访问,那么对用户而言就与使用本地驱动器相同。

从实际应用情况来看,不同的分布式文件系统可以适应不同的环境,在云存储技术飞速发展的各个关键时期,都能够发挥出应有的性能,满足当前计算系统所提出的要求[4]。分布式文件系统在设计期间需要基本的存储结构支持,结合存储介质融合形式来展开划分。

3.1.2 GFS 架构研究

GFS 与传统的分布式文件系统之间拥有很多相似的目标,但是在具体设计过程中受环境驱动的影响,与早期文件系统也有所不同。这就要求对分布式文件系统进行重新挑选,并在此基础上检验不同的设计观点。

master 和众多chunk server 组成了GFS 整体,用户可以进行多层次访问。如果信息资源的可靠性能够得到保障,那么chunk server 与客户端运行就会处于同一台机器上[5]。分布式并行拓展架构如图1 所示。

图1:分布式文件并行扩展架构

3.1.3 HDFS 架构研究

现如今,有关GFS 研究的相关资料较少,特别是一些具体实现细节,在保密因素的影响下无从得知。以云计算平台为中心的研究正逐渐成为科研和商业领域研究的热点话题。HDFS 属于是GFS架构的开源实现,并且其中包含着大量的参考文档和实验方法,因此可以通过某些关键技术进行深入研究。HDFS 所采用的是master slave 架构,一个完整的HDFS 集群主要是由Namenode 和少部分DataNodes 组成。Namenode 是一种核心服务器,主要负责管理文件系统的名字空间和客户端对文件的访问情况。处于集群当中的DataNode 通常每个节点都分布一个,主要任务就是管理其他节点上的存储。HDFS 暴露了文件系统的名字空间,用户可以通过文件的形式来了解上面的存储数据。从内部情况来看,一个完整的文件可以被分成多个数据块,这些数据块也会存储在一组Datannode 上。而Namenode 在统一调度下可以进行数据块创建、删除和复制,与DataNode 都被共同设计在普通商用机器上运行。这些机器工程都在运行GNU 或Linux 系统。

除了上述内容之外,HDFS 还可以支持传统层次型文件组织结构。用户或者应用程序都可以创建目录,随后将其保存到目录当中。文件系统名字空间层次结构与大多数现存文件系统相类似,用户都可以在上面重建、删除或重命名文件,现如今,HDFS 不再支持用户磁盘配额和访问权限控制,更不支持软硬链接。

Namenode 负责的是维护文件系统中的名字空间,如果发现任何修改文件系统名字空间或属性的行为,都会被Namenode 记载下来。应用程序可以设置HDFS 保存文件的副本数量,这里的文件副本数目也被称之为副本系数,这些信息也都是由Namenode 负责保存的。

3.2 面向云存储的分布式系统架构设计方案

为了能够全面提高分布式系统的稳定性和性能,其架构经常会采取元数据冗余的方法。也就是通过数据服务器来构成元数据服务层,让每个代理机构都能够形成相应的服务节点。利用元数据来优化云存储系统方案,这是因为GFS 为代表的主从存储模式,构成了性能和可靠性方面的问题。为了能够有效提高并行处理性能,可以利用BlobSeer 存储层来取代Hadoop 云计算系统的分布式文件存储系统。但是虽然BlobSeer 加强了并发性,但是并没有从根本上解决可靠性问题。虽然一致性和可靠性不能同时兼得,但是可以尽可能地做到平衡。所以元数据服务器在不同节点都会有所备份,这样一来既提高了容错率,同时也降低了文件锁服务的难度。也就是说,科学高效的冗余方法是加强云存储系统稳定性的必要保障。由于很多代理机构都肩负着元数据服务器中的服务内容,因此每个节点都可以成为服务器入口,从而提高云存储系统运行的稳定性。此外,不同的代理机之间也会应用P2P 设置和搜索引擎等技术,大大提高了分布式系统的稳定性,其他代理服务器也会因此将各自元数据当做系统缓存,加强了访问工作的并发性。然而,元数据服务代理机构也使得元数据复制一致性问题解决难度逐渐提高。

元数据服务层属于分布式文件系统的中心内容。与GFS 系统相比,架构应用了不同代理方式,使其中的元数据和master 主机整合在一起,形成了比较对等的分布式网络服务结构,并组成了元数据服务层[6]。元数据服务层的功能模块定义有以下几点:

(1)请求侦听:其中主要包含客户端和数据服务器请求。客户端是指含有名字空间创建、删除以及重用名等相关服务平台。

(2)请求处理:请求处理具体是指将侦听时间进行科学有效的处理并将结果及时返回。

(3)元数据管理:元数据主要代表的是名字空间,反映的是文件块和文件之间的联系。

(4)文件夹管理:这主要指的是新文件夹的创建、拷贝以及无效文件夹的移除与回收。

3.3 系统架构关键技术

GFS 系统所采用的是无关命名服务,对容灾系统起到了有利支持。当一台设备出现故障问题时,增加一台新的主机就能够获得指定的IP 地址,并不需要与其他地址信息进行关联。而在接入和负载均衡系统中。此系统的架构与HDFS 相类似,都可以在集群内部使用,这样就可以使用常见的软件和技术,上层路由器的带宽必须要足够大,之后再利用分流软件来均衡负载,再这样的系统架构作用下,由于应用了大量的服务器代理,所以每个元数据服务器都能够通过随机接入的方法很好的工作。与此同时,每个运输局服务层节点都可以构成一个接入点,接入过程可以采用Lamport 时钟,确保负载能够得到良好均衡。

3.4 分布式文件系统规模分析

在HDFS 典型配置情况下,每个机架都拥有至少40 台服务器,在GFS 系统中,不同的集群都可以支持1000 左右的节点。在此系统架构作用下,大量节点模式可以得到有效支持,这也是应用代理机模式所拥有的独特优势。

在此期间,代理机模型可以用于元数据服务层,但设计规模要控制在合理范围内,这样可以有效提高其实用性,满足广域网所提出的架构要求。因为该层主要采用的是对等式架构,当p2p 网络规模超出标准范围时,网络数据更新就会出现延迟、抖动等情况,与此同时还有在一定程度上提高搜索流程的复杂性,特别是Dynamo系统中的DHT 协议,并不能良好地支持语义搜索。除此之外,更加重要的是,小规模元数据服务层不仅有效减少了大规模对等式网络设计的复杂程度,同时也可以将现有的GFS,HDFS 主从式网络服务器节点数,可以将服务并发处理能力提高超过200 多倍,当代理基数不超过256 时,这就是一个效果十分明显的提升。

4 结束语

总而言之,云存储的分布式文件系统结构十分复杂,它与以往的文件分布系统相比,始终建立与云计算基础设施之上,这样的基础设施价格十分低廉,还要容纳海量的超大节点数据,与此同时并发能力较高和低延迟的服务能力也是其重要优势。为了可以满足这部分高性能要求,必须要研究并实现各项关键技术。

猜你喜欢

存储技术数据服务存储系统
地理空间大数据服务自然资源调查监测的方向分析
分布式存储系统在企业档案管理中的应用
天河超算存储系统在美创佳绩
关于计算机网络存储技术分析
基于FAT文件系统的数据存储技术的研究
如何运用税收大数据服务供给侧结构性改革
数据存储技术的应用
基于频繁子图挖掘的数据服务Mashup推荐
基于FPGA的并行测试高速存储技术
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统