APP下载

“分布式”存储结构研究

2017-02-03方胜吉

科技创新导报 2017年30期
关键词:存储网络分布式

方胜吉

摘 要:“分布式”存储就其本质来讲是一种资源分配策略,就是利用一定规模的计算机形成网络群,然后共同调配群中的资源,包括软硬件、信息等。它融合了传统的计算机和网络技术,如分布式计算、网格计算、并行计算、虚拟化等。只要通过浏览器或其他WEB服务就可以直接访问的一种新的IT服务模式,它通过互联网来提供资源,而这种资源是动态且易扩展的。

关键词:分布式 网络 存储

中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2017)10(c)-0124-02

1 “分布式”存储的分类

(1)基础架构服务(IaaS):指由供应商提供的硬件资源服务,用户使用租用的方式从供应商处获取硬件资源完成自己的应用部署,用户不需要购买硬件设备,而节省相关费用。而对硬件资源的虚拟化是基础架构服务的关键技术,它包括对服务器、存储以及网络的虚拟化。

(2)软件服务(SaaS):软件服务是指供应商提供软件平台,并负责安装、升级和维护[1],用户只需通过网络来租用软件即可。这种方式在服务器性能较高的情况下,基本能够实现对所有软件的虚拟化。

(3)平台服务(PaaS):PaaS是对SaaS的进一步深化,PaaS不仅提供软件应用服务,还提供开发环境、数据库等,为用户提供一个可以自己开发应用程序的软硬件资源平台,在平台上用户开发完成自己的程序后可以通过服务器发布在网络上。

2 存储设备的常见连接方式

2.1 直接连接存储(DAS)

DAS作为一种存储结构,是以服务器为中心的,其他的存储设备通过I/O总线与服务器连接,客户端要想对数据进行访问,必须经过服务器的转发,再利用I/O总线从相应的存储设备中得到。DAS本身是硬件的堆叠,以服务器为中心,并寄生在服务器或客户端上,其速度受到客户连接数的影响。

2.2 网络连接存储(NAS)

NAS不是基于“数据块”级的,而是基于“文件”级的以数据为中心的存储结构[2]。NAS是将软硬件有机结合,通过其自身的简化实时操作系统直接向网络上的用户提供文件级共享服务的存储设备。但在实际应用中NAS文件访问速度较低,进行数据备份时,对LAN的带宽消耗极大,对资源的整合和管理较弱。

2.3 存储区域网络存储(SAN)

SAN是以光纤网为中心[3],在服务器和存储系统之间,在Fibre Channe1等互联协议的作用下,直接进行数据传递的存储网络系统。SAN的应用服务器和存储设备间的数据交换,主要使用Block I/0方式。SAN主要有两种类型:分为FC SAN和IP SAN。

3 网络文件系统与分布式文件系统

在分布式文件系统中,最早形成的就是网络文件系统,它将存储服务器和网络客户端连接,存储服务器当中存放元数据和网络数据,使用增加协议栈方式实现数据和命令的传递。常用的网络文件系统有NFS、CIFS等。

在NFS上可以实现异构系统间的文件共享。同时NFS使用的是客户机/服务器模型,使它在局域网或广域网上都可以运行。但是,当面临海量数据的处理时,处理能力是有限的。

常见的分布式文件系统主要有下面几类。

(1)基于共享存储设备的集群文件系统。

所谓基于共享存储设备的集群文件系统,重点是对存储设备的共享。在集群中,像SAN、NAS这样的存储设备将其存储空间共享给所有服务器,所有服务器共同使用存储设备上的同一个分区,这样一来,当集群中的节点访问系统时,就如同访问本地文件系统一样。而在集群中还设置了统一的调度和锁存机制,为服务器提供统一的命名空间。

基于共享存储设备的集群文件系统,有一个共同的特性,那就是都对共享存储设备有极强的依赖性,这就对存储设备的性能提出了较高的要求,同时也受到存储设备性能的限制,这种集群文件系统下,节点自身的存储资源无法被充分利用。

(2)P2P。

P2P是一种对等的分布式网络,在P2P网络中,参与者之间实现部分硬件资源的共享,通过网络来提供服务和内容,对等点之间不需要服务器,而直接能够互访[4]。在此网络中,节点既提供资源又使用资源,也就是说每个节点既是服务器也是客户机。因此,P2P这种对等的分布式网络打破了传统的C/S模式。

常见的P2P网络一般可分为3类[5]。

①集中目录式结构:在这种结构当中要设置一个中心服务器,它的主要作用是提供网络中必要的服务,比如索引和路由、安全检验等。中心服务器协助网络中两节点完成连接后,将不再起作用,而节点间可以跨过服务器直接通讯。其优点是:网络结构简单,通过中心索引服务器便于节点管理。缺点是:对中心服务器依赖性强,网络环境受其性能限制。

②分散式结构:在这种结构里没有中心服务器,节点间分散连接,通过对等网络协议形成网络,用户自定义自己的网络环境。优点是:网络规模理论上可以无限扩展。缺点是:没有管理者,安全性较差,节点很难被发现。

③混合式结构:在集中目录式结构基础上引入了超级节点,它的作用是辅助服务器对节点进行管理,减轻中心服务器的压力。这种结构在提高了网络的稳定性和可扩展性的同时也增加了网络管理的难度。

(3)Google GFS。

GFS是美国谷歌公司开发的分布式文件系统,主要是为了解决海量数据存储问题而研发设计的。GFS对运行环境要求不高,它可以通过廉价的普通PC为用户提供高性能的服务,同时它还有极强的容错功能。GFS与传统的分布式文件系统相比,在继承了传统的分布式文件系统优点的同时又对其做了创造性的改进,具体表现在如下几方面。

①GFS认为硬件错误是正常的,关键是在硬件出现故障时怎样保证数据存储的安全,同时还能提供不间断的存储服务。这是GFS最核心的问题。

②GFS最终的设计目的就是为了解决海量数据的存储。

③在GFS中,以重新写入的方式修改文件,不是覆盖原数据。

④GFS向应用程序提供透明的访问接口,在访问文件系统时无需重新编译。

由于GFS没有开源,通过国内外相关的文献综述我们了解到,GFS集群采用Master/Slave结构,部署在普通PC机上。集群当中有一个Master节点和多个Chunk节点,GFS的工作过程是这样的,对于要存储到他上面的文件,GFS首先要把它分解成一样大小的Chunk,然后通过Master给每一个Chunk分配一个唯一标识,通过本地服务器将每一个Chunk保存到本地硬盘并根据Chunk的标识和大小来进行读写操作。为了保证安全性,每个Chunk都会被复制到不同的数据块服務器,一般情况下要复制三份,用户也可以根据实际情况更改配置文件。在Master节点上存储管理的是文件系统的元数据信息,元数据信息主要有命名空间、文件和Chunk的对应关系、Chunk的存储位置等。除此之外,Master还要实现对元数据的检查、操作日志记录以及回放功能。工作机在Master的指挥下完成对数据的存储、迁移和计算工作。在这种结构中,Master机器工作极为繁重,且只有一台机器,留下了单点隐患。

参考文献

[1] 王龙,王冬星.基于DICOM的医学图像存储与处理系统的实现[J].电脑学习,2010(4):124-126.

[2] 薛万宇,宋余庆,王恒,等.一种医学图像数据库存储方案设计与实现[J].微计算机信息,2008,24(3):177-179.

[3] 徐磊,王英,张耀军.基于DICOM标准的医学图像存储与访问的研究[J].医疗装备,2005,18(11):1-4.

[4] 杨晓月,董方敏,刘勇,等.一种DICOM医学图像数据存储管理的设计方案[J].电脑知识与技术:学术交流,2007,1(3):53-54,135.

[5] 韩磊,张虹.基于DICOM的医学图像存储模型设计与实现[J].计算机时代,2006(10):30-32.

猜你喜欢

存储网络分布式
档案管理中电子文件的存储探究
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL