主存储优化的又一个轮回
2009-02-24杨洋
杨 洋
今天,重复数据删除(Data Deduplication)已经成了存储业界最流行的一项技术。几乎所有主流存储厂商都已经推出了重复数据删除产品。与此同时,高速硬件数据压缩(Hardware Data Compression)技术也受到了用户的青睐,它不仅成了高端虚拟磁带库的必备功能,而且在归档、备份、持续数据保护等次级存储(Secondary Storage)应用中获得了广泛认可。
重复数据删除成主流
重复数据删除与数据压缩技术在系统功能上相似,都能显著减少存储的容量,提高系统的运行效率。因此,重复数据删除和数据压缩这两种技术又被统称为数据缩减(Data Reduction)或容量优化(Capacity Optimization)技术。通常情况下,利用数据压缩技术可以实现2∶1~3∶1的数据压缩比,而利用重复数据删除技术在备份应用中可以实现10∶1~20∶1的数据压缩比。综合应用数据压缩与重复数据删除两种技术后,数据量一般可减少到原来的3%左右。IDC的报告显示,2007年全球新增的数据量(281EB)已经超过现有可用存储介质总容量(264 EB)的6%,而2011年的全球数据总量将达到2006年的10倍。由于存储系统中的数据量急速增长,容量优化技术得到了更广泛的应用。
容量优化技术在次级存储中的应用逐渐成熟,也促进人们考虑将此技术推广到主存储(Primary Storage)中,以应对主存储所面临的诸多问题,比如大容量的存储需求以及过多的空间和能源消耗等。主存储优化(Primary Storage Optimization)应运而生,它以成熟的数据缩减技术为基础。
主存储优化曾经淡出
今天,500GB硬盘的价格不超过400元,利用数据压缩技术使PC硬盘容量“加倍”的技术对某些用户来说可能吸引力不大。但在上世纪90年代初,主存储容量异常宝贵。1993年,250MB的硬盘大约需要500美元。因此,Stac独有的压缩技术在主存储上获得了广泛应用,而Stacker软件的推出也使得Stac公司成为主存储优化技术的先驱。
在早期的主存储优化应用中,使用的容量优化技术主要是数据压缩,关键算法采用的是压缩效率和速度都非常好的LZS算法。数据压缩主要是以软件方式集成到硬件系统中,利用主CPU完成所有相关的处理工作。随着计算机应用的普及,各种应用程序对性能的要求越来越高,系统处理能力逐渐成为瓶颈。基于软件的数据压缩技术需要消耗大量的CPU资源,因此逐渐边缘化。与此同时,硬盘技术取得了长足的进步。在硬盘容量不断增长的同时,其价格也迅速下降。因此,硬盘/主存储优化应用逐渐淡出人们的视线。
就在容量优化技术在次级存储优化(Secondary Storage Optimization)应用中大放异彩的时候,人们也意识到,容量优化同样可以给主存储带来很多好处。
随着应用不断丰富,企业用户对主存储的容量需求越来越大。另一方面,由于操作复杂以及应用对时延有较高要求,主存储内有大量相对比较陈旧的数据并没有迁移到次级存储中。调查显示,这些陈旧数据占主存储容量的80%~90%。目前,数据中心主存储容量的利用率一直维持在很高的水平,面对不断增长的数据存储压力,与购买昂贵的新存储设备相比,通过主存储优化技术充分挖掘现有存储资源的潜力显得尤为重要。
此外,存储介质之外的支出也成为用户关注的重点。对很多数据中心而言,减少空间占用、电力消耗以及散热可能比存储容量的缩减更难实现。其实,主存储优化也是实现绿色存储的一个好方法。在前面的分析中,我们并没有谈及实际的存储容量。在实际的存储系统中,将50TB缩减为10TB比将5TB缩减为1TB更有意义。随着业务的发展,企业数据中心需要存储和管理的数据量将迅速从TB级增长到PB级,通过购买新设备来增加存储空间,除了会增加企业的开支以外,还会给备份、归档等日常应用带来极大挑战。如果能有效减少主存储的数据量,系统I/O单元的利用率将得到明显改善,从而提高系统性能,即使需要远程数据传输时,也能节约不少网络带宽。
解决性能问题
尽管主存储优化有非常广阔的发展前景,但真正投入实际应用,还需要解决一系列的问题。与已经获得广泛应用的次级存储优化相比,主存储优化对系统的性能、可用性、可靠性等提出了更高的要求。
与备份、归档等次级存储应用不同,主存储对性能的要求比对容量的要求更高。因此,主存储优化的应用不能以降低系统性能为代价。目前,主存储的性能需求一般都在100 MB/s以上,而基于软件的数据缩减技术仅能达到数十MB/s。因此,主存储优化的实现需要依靠相关的硬件加速设备。从目前情况看,硬件数据压缩产品已经比较成熟,性能最高已达到800MB/s,可以满足大多数主存储系统的需求。相比较而言,重复数据删除的硬件加速技术则相对薄弱。
次级存储优化针对的都是近线(Near-line)或离线(Off-line)应用,对系统可用性的要求比主存储低得多,即使是对可用性要求较高的灾备(Disaster Recovery)系统对可用性的要求也低于主存储。主存储的数据需要随时在线,而且要立即响应数据访问,以满足应用的需求。目前,硬件压缩技术已经广泛用于网络设备(如路由器、交换机等)。长期的实践经验证明,成熟的硬件压缩技术在可用性方面完全可以满足主存储优化的需求。最近几年,基于软件的重复数据删除技术在次级存储中的应用逐渐成熟,但要应用于主存储优化,相关硬件加速设备还有待进一步检验。
主存储优化中涉及的数据缩减技术和有关硬件加速产品已经有大量的实际应用,技术和产品本身没有问题,但是高可靠性和高可用性的实现还要依赖良好的系统设计。主存储优化产品要想真正走向市场并被用户广泛接受,还需要存储厂商加大投入。
此外,与面向备份、归档等应用的次级存储相比,主存储的数据重复几率要小得多,而且许多数据都已经在应用层面实现了压缩。因此,主存储优化的效率很难达到一般次级存储优化应用所宣称的20∶1~30∶1的压缩率。一般情况下,主存储设备的数据压缩率为3∶1~5∶1。
目前,已有包括NetApp在内的许多厂商发布了主存储优化产品,EMC、Riverbed等厂商也在密切关注主存储优化技术。业内专家指出,主存储优化技术将在2009年实现快速发展。在关注主存储优化的厂商中,Hifn公司将目光集中在硬件加速单元而不是整个设备上,其Express DR系列数据缩减加速卡在次级存储优化中已被EMC、HP、IBM等主要存储厂商采用。
从原始主存储优化技术的盛行到消失,再到今天存储系统中再次引入主存储优化技术,主存储优化将开始新一个轮回。