分布式存储关键技术及优势分析研究
2017-03-09杨永周
◆杨永周
(云南电网有限责任公司保山供电局 云南 678000)
分布式存储关键技术及优势分析研究
◆杨永周
(云南电网有限责任公司保山供电局 云南 678000)
随着信息技术的飞速发展,计算机系统需要处理的数据大量增加。同时,这些数据还需要有效地保存在存储系统中,为数据分析和处理提供保障和便利。随着网络技术的不断发展和创新,分布式存储技术本身也在飞速地发展。毫无疑问,各个大型网站也都存储着海量的数据,这些海量的数据如何有效存储,是每个大型网站的架构师必须要解决的问题。分布式存储技术就是为了解决这个问题而发展起来的技术。
分布式存储;关键技术;分布式存储应用
0 前言
与目前常见的集中式存储技术不同,分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。
传统存储阵列发展的几十年里,确实给数据中心的建设带来了巨大的发展,但是随着虚拟化的普及以及大数据、云计算、互联网+等等概念的落实,传统存储阵列的疲态凸显,在处理能力、扩展性、可维护性、可靠性方面,以及成本考量都呈现出更多的劣势。存储厂商一味在增强、扩大这个“铁盒子”,维护传统领域“蛋糕”的同时,也在加紧研究着另一种背道而驰的存储技术,这就是分布式存储技术。
1 分布式存储概述
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
2 分布式存储关键技术
2.1 元数据管理
常见的元数据管理可以分为集中式和分布式元数据管理架构,在大数据环境下,元数据的体量也非常大,元数据的存取性能是整个分布式文件系统性能的关键。
2.2 分布式存储系统系统弹性扩展技术
实现存储系统的高可扩展性首先要解决两个方面的重要问题,包含元数据的分配和数据的透明迁移;在大数据环境下,数据规模和复杂度的增加往往非常迅速,对系统的扩展性能要求较高。
2.3 分布式存储系统存储层级内的优化技术
构建存储系统时,需要基于成本和性能来考虑,因此存储系统通常采用多层不同性价比的存储器件组成存储层次结构。大数据的规模大,因此构建高效合理的存储层次结构,可以在保证系统性能的前提下,降低系统能耗和构建成本,利用数据访问局部性原理,可以从两个方面对存储层次结构进行优化。从提高性能的角度,可以通过分析应用特征,识别热点数据并对其进行缓存或预取,通过高效的缓存预取算法和合理的缓存容量配比,以提高访问性能。从降低成本的角度,采用信息生命周期管理方法,将访问频率低的冷数据迁移到低速廉价存储设备上,可以在小幅牺牲系统整体性能的基础上,大幅降低系统的构建成本和能耗。
2.4 分布式存储系统针对应用和负载的存储优化技术
传统数据存储模型需要支持尽可能多的应用,因此需要具备较好的通用性。大数据具有大规模、高动态及快速处理等特性,通用的数据存储模型通常并不是最能提高应用性能的模型。而大数据存储系统对上层应用性能的关注远远超过对通用性的追求。针对应用和负载来优化存储,就是将数据存储与应用耦合。简化或扩展分布式文件系统的功能,根据特定应用、特定负载、特定的计算模型对文件系统进行定制和深度优化,使应用达到最佳性能。这类优化技术在谷歌、Facebook等互联网公司的内部存储系统上,管理超过千万亿字节级别的大数据,能够达到非常高的性能。
3 与传统存储比较的优劣
3.1 简单化
传统存储阵列需要一台昂贵的硬件,以及相应的存储交换机、HBA等专用配件,对于存储阵列的配置需要专业的人员进行管理,甚至受制于存储厂商。而VMware分布式存储技术,直接利用了服务器的磁盘,服务器本身就是控制器,在数据中心的架构中,减少了整整一个存储硬件层面,大大简化了数据中心建设的复杂程度。
3.2 性能的保障
传统存储的优势是性能,但是这一点已经被颠覆,对于绝大部分中低端存储来说,性能反而一直是一个“鸡肋”,在虚拟化环境中,由于集中化了 I/O处理,而且 I/O处理是共享式的,因此很可能造成对于某些虚拟机的影响,或者干脆由于整体性能不行拖累了虚拟化平台。分布式存储技术的性能,取决于高速缓存的处理能力和大小,而它采用的是固态盘技术(SSD),单块SSD的性能可达上万IOPS,如果组建集群的话,性能可以线性扩充,这大大缓解了性能瓶颈。
3.3 扩展性的优势
分布式存储的优势就是“分布式”,所谓的“分布式”就是能够将多个物理节点整合在一起形成共享的存储池,节点可以线性扩充,这样可以源源不断地通过扩充节点提升性能和扩大容量,这是传统存储阵列无法做到的。
3.4 面向对象的管理
这里所提到的“对象”,是虚拟机,传统存储阵列都是“块”一级的操作,存储规则的定义与虚拟机、应用无任何关联性,这就造成存储与应用、业务系统的脱节,而新一代的分布式存储技术,所有的存储规则都可以定义到虚拟机级别,每个虚拟机都可以有自己的个性化的存储规则,比如“副本的多少、条带化、存储格式”等等,这才真正做到存储层面与应用的互动,“存储感知应用”,及时为业务系统创造合适的存储环境。
3.5 更高的可靠性
由于分布式存储的架构是分散式的,数据的存放也是分散在不同的节点之上,因此如果个别节点损坏,对于整体架构没有任何影响。“单点故障”是一直是困扰传统存储阵列最大的问题,而配置多台存储阵列做镜像的意义不大,同时成本不菲,而分布式存储技术轻松地解决了这个问题。尤其是跨站点的VSAN技术出来之后,使得这种可靠性扩展到了容灾级别。
3.6 更好的维护能力
这里所提到的维护,指的是维护硬件。传统存储架构中,如果出现了故障,我们要逐层排查故障点,其中比较复杂的层面就是存储阵列和存储网络,因为这是专业的领域,需要专业技术人员来配合解决,而分布式存储技术,由于与虚拟化内核紧密耦合,服务器层就是存储层,并且通过虚拟化管理软件可以一览无余的看到分布式存储的状态,因此对于整体维护来说非常方便。
3.7 更低的成本
分布式存储的优势就是“更快更省更简单”,分布式存储发展不会一步登天,会有一个过程。首先分布式存储会蚕食增量存储市场,然后随着用户对于技术理解的不断加深,最终将一统江湖。分布式存储称雄市场是早晚的事情。“当务之急是团结合作,打败共同的敌人--传统存储。”这是超融合产业联盟倡导的产业情怀和志向。
4 总结
总而言之,分布式系统是大数据时代企业级应用的首选平台,它有良好的可扩展性,尤其是横向可扩展性(Scale Out),使得分布式系统非常灵活,能应对千变万化的企业级需求,而且降低了企业客户对服务器硬件的要求,真正能做到应用服务层面的弹性扩展(auto-scaling)。
[1]ChinaByte.专家博客:分布式存储系统的实现[EB/OL].http://storage.chinabyte.com/89/11678089.shtml.
[2]于广军,杨佳泓主编.医疗大数据[M].上海:上海科学技术出版社,2015.
[3]卢益阳.分布式存储系统调查[J].企业科技与发展,2011.
[4]陈敏,张东,张引,亓开元编著.大数据-大数据整体解决方案及关键技术探索[M].湖北:华中科技大学出版社,2015.