医疗行业数据存储RAID技术
2017-11-09范玉林
范玉林
摘 要作为一种经过多年时间检验的的磁盘系统数据保护技术标准,RAID技术自出现以来一直作为存储系统的基础性技术,近些年来,随着整个社会信息化水平不断发展,数据趋势呈爆发式增长,数据已经取代计算成为信息系统的中心。这促使人们对数据越来重视。随着数据中心不断追求海量容量、性能、安全、可用、扩展、管理等等,传统RAID逐渐暴露出越来越多的问题。
【关键词】医疗行业 数据储存 RAID技术
1 前言
根据近年来医院存储系统的硬件故障问题统计发现,存储阵列中90%的硬件故障是磁盘故障,只有12%是完物理故障。现业界常用的RAID5组,在磁盘发生逻辑故障后,会立即将该磁盘踢出RAID组,虽然可以通過校验来进行数据恢复,但是在RAID重建期间,控制器的数据的处理能力严重下降,而且医院需要为100%的故障磁盘买单,还需要承担RIAD重建时同一RAID组中其他磁盘逻辑故障所造成的数据丢失风险。
2 CRAID技术的应用
CRAID技术的出现,基于Cell数据块的管理模式,解决了这一困扰。
Cell,称之为“细胞”,是指数据单元,是阵列资源管理的基本单位。引入Cell的基本单位后,在RAID具体的实现上,首先用磁盘创建RAID组,然后把RAID组的有效的可用空间根据指定大小(默认1GB,可以调节)划分为多个Cell,在创建LUN时,系统自动使用空闲Cell,破除了LUN到RAID,RAID到Disk之间的绑定关系,使RAID组的最小处理单元由原来的磁盘改变为更加灵活的Cell,完全实现了的存储的虚拟化架构。按照Cell健康状态,突破了传统RAID组容忍故障磁盘数目的限制。例如,传统的RAID组允许1块磁盘故障,第2块磁盘故障时,RAID组失效,数据不能使用。在CRAID组中,只要磁盘逻辑故障的区域不在同一个Cell内,CRAID中的数据仍然可以实现访问,即CRAID组内可实现多个磁盘发生逻辑错误(非同一Cell中),大大提高了存储阵列对磁盘的冗余性以及业务的连续性。
CRAID采用磁盘层管理和资源层管理,两层虚拟化的模式管理,每块磁盘空间被划分成小的Cell管理,在这些Cell的基础上来创建RAID组,使得数据平均分布到存储阵列的每一块磁盘上,同时,以为Cell单元来进行管理,有效提升了管理的效率。
每个磁盘被切分成固定大小的数据块(Chunk,也叫CK),每个Chunk为如:64MB等大小。存储系统将不同磁盘的Chunk(CK)按照RAID算法组成Chunk Group(DCG),如图1所示。
DCG被划分为固定大小的存储单元Cell,每个Cell的大小为如:1GB等,Cell是构成LUN的基本单位。一个存储池基于指定的一个磁盘域创建,可以从该磁盘域上动态的分配Chunk(CK)资源,并按照每个存储层的“RAID策略”组成DCG向应用提供具有RAID保护的存储资源。CRAID 技术原理图如图2。
CRAID的实现框架如图3所示。
同时,针对同一个Cell中多块磁盘发生故障的情况,采用基于物理隔离的方式进行处理,将磁盘错误隔离在当前Cell,其他Cell继续使用,最小限度的降低错误的影响范围。
而且,基于Cell的管理模式,在后续重建数据时也能极大的提升重建的效率,区别于传统RAID组,直接将磁盘踢出RAID组后进行重建,CRAID的快速重建只需要重建错误磁盘上有错误的Cell数据,没有错误的Cell数据直接使用复制的方式将Cell数据复制到热备盘,这种方式可以大大降低RAID组重建过程对RAID组计算性能的影响。
传统RAID组重建时,大量的性能和时间消耗在调用所有磁盘进行异或校验。快速重建只需将RAID组全部磁盘校验方式转换成了按Cell校验+磁盘复制的方式,其校验量只有传统RIAD组重建全盘重建校验量的几百分一或千分之一,校验时间大大减少,而磁盘复制可以利用磁盘本身的读写速度。以1TB的SATA磁盘为例,在15块盘的RAID组中,传统的全盘重建大约需要30小时时间,而快速重建最快6小时就可以重建完成。
CRAID还支持局部重建模式,适用于磁盘完好,但发生过人为误插拔。这种模式可恢复5分钟内磁盘被拔出过程中未写入磁盘的数据,提高了RAID组可靠性。
3 结语
基于CRAID技术创建的RAID组和传统RAID组相比较,继承了传统RAID组的优点,改良了传统RAID组的不足,实现了磁盘资源的按需分配,极大的提供了磁盘利用率,性能的负载分摊,提高了磁盘的使用寿命;在数据安全方面,基于Cell块的管理模式,安全可靠,提高了RAID组的安全想和容错率,在后续数据恢复,数据重建等方面也优于传统RAID组,减少了运维人员的工作量,也为医院数据中心建设添加了一层保障。
作者单位
浙江省人民医院信息中心 浙江省杭州市 310000