混合存储综述
2013-09-17李小勇
祝 青,李小勇
0 引言
大容量、低成本、高性能的存储系统设计一直是存储领域研究的热点,而且随着大数据云存储时代的到来,人们对这样的存储系统的需求更加迫切。一方面,人类进入数字信息量呈爆炸性增长的时代,对存储系统不断提出更高要求,存储系统既要在低成本前提下实现大容量存储[1];另一方面,存储和计算之间的性能差距不断扩大[2],这就需要具有在海量数据规模下与计算性能相匹配的高性能数据访问能力。
但与之矛盾的是,目前任何一种存储介质所构成的存储系统都不能同时满足大容量、低成本、高性能等需求。如果将容量、成本、顺序性能、随机性能、寿命作为主要指标,那么对指标的覆盖范围就可以大致体现该存储系统的综合水平。如图1所示:
图1 几种存储介质特性差异
体现了目前主流持久存储介质,如磁盘(Hard Disk Drive, HDD)、固态盘(Solid State Disk, SSD)、非易失性随机存储器(Non-volatile Random Access Memory,NVRAM)在容量、成本、性能、寿命等方面存在的差异。从图1中,可以看出,采用单一存储介质所能覆盖的需求范围是有限的。引入内存作为缓存进行预读写或将设备组成RAID可以在一定程度上扩展系统的指标覆盖范围,但这种提高是有限的或是有代价的(可靠性的损失)。如果将多种存储介质集成在一起,构成混合存储系统,发挥各自的优势,扬长避短,就可以显著地扩大需求覆盖范围,从而较好地解决这个问题。
本文将从以下几个方面展开:首先从混合存储概念、存储介质的特性、以及混合存储分类这3个方面进行介绍;接下来以目前主流的基于SSD和HDD的混合存储为例,对混合存储设计的关键技术进行分析;然后对当前混合存储发展所存在的问题进行探讨,最后对其未来发展进行展望。
1 混合存储简介
1.1 混合存储概念
混合存储(hybrid storage)是一种数据存储方法,它利用不同存储设备的特性,根据数据访问特点和系统负载情况,尽可能将数据请求交给最适合处理该请求的设备,进而提高整个系统的性价比、使用寿命、可靠性、容量等指标。
混合存储系统之所以存在,从根本上讲是由于存取速度与设备价格的正相关性所导致。虽然最理想的情况是将所有数据都存储在高速设备上,但这对于很多用户来说成本过高。混合存储系统将大部分的用户数据都存放在低速设备上,由高速设备来接收或者响应数据请求。它的主要目标是使存储的数据充分利用不同存储介质的特性,在保证存储系统容量的同时尽可能地提高性价比。混合存储所采用的介质可以是NVRAM、不同转速的磁盘(SAS、SATA)、SSD、磁带等。
需要说明的是,这里所讨论的混合存储不同于传统的基于磁带和磁盘的分层存储。虽然其思想来自于传统的磁带磁盘分层存储,但本文所讨论的混合存储更侧重于将异种存储介质整合成一个逻辑存储设备,为用户提供统一的接口,自动完成对上层应用程序透明的热点数据识别、数据负载的自动缓存或迁移等操作,而不需要管理员手动完成。
1.2 存储介质特性
磁盘是目前最常用的存储介质。它具有大容量、低成本、适合顺序访问的优点,但其随机访问性能较差,这是由磁盘通过移动机械磁头访问数据的方式所决定的。随着多种新技术和新工艺的应用,虽然磁盘的容量按照摩尔定律迅速增加[3],在过去的30年里增加了100,000倍;但由于磁头移动速度的限制,磁盘的访问延迟仅仅降低了2倍,且进一步提高磁盘转速会带来能源消耗和温度等一系列问题[4]。磁盘容量与性能之间的矛盾日益突出。
近年来,固态盘的快速发展为提升存储系统性能提供了新的机遇。针对 SSD的研究在闪存硬件原理[5]、内部架构[6]、性能[7]等方面都已经积累了较多的成果。SSD 基于Flash介质来存储数据,不存在机械设备的移动,具有访问延迟低、体积小、质量轻、无噪声、低功耗等优点。尤其在随机访问性能方面,SSD比磁盘高出一个数量级,因而可以较好地解决磁盘存储系统的随机访问性能瓶颈。近年来,随着制作工艺的进步, SSD的容量以每年翻一倍的速度递增,其价格也以每年40%~50%的速度递减,已开始进入大规模存储领域,成为存储系统突破性能瓶颈的重要手段。但目前SSD还存在价格偏高,容量较小,写前需要进行擦除,擦除次数有限等问题,这就使得SSD并不能完全取代HDD来构建存储系统。
非易失性随机存取存储器是另一种高性能持久存储设备,它不仅具有接近RAM的访问速度,而且在系统掉电情况下不会像RAM那样丢失数据。起初的NVRAM由RAM加电池构成(Battery Backed-up RAM, BatRAM, 包括BBSRAM和BBDRAM);在最近的几年中,新一代NVRAM如相变 RAM(phase-change RAM, PRAM),铁电体 RAM(ferroelectric RAM, FeRAM),以及磁RAM (magnetic RAM,MRAM)等发展很快,这些新型NVRAM已经不再需要电池。用NVRAM作为磁盘的写缓存,可以避免SSD做缓存时所面临的写前擦除延迟和写寿命限制,显著提高存储系统的写性能和可靠性。但 NVRAM 价格较高,容量较小,一般在二级存储系统中用来记录日志或者在网络存储系统中用作client或server端的cache来改善系统性能,提高可靠性。
NVRAM、SSD和HDD三种存储设备在性能、容量、价格等方面的差异,如表1所示:
表1 DRAM、SSD、HDD性能、容量、价格比较
这些差异决定了采用单一存储设备建立的存储系统不能够同时满足大容量、低成本、高性能等需求。而正因为存储介质之间的差异,采用不同存储介质搭建的混合存储系统就具备同时满足这些需求的潜力,因而具有较高的研究和应用价值。表1 DRAM、SSD、HDD性能、容量、价格比较。
1.3 混合存储分类
根据所采用的存储介质种类来分,混合存储有以下几类:采用NVRAM和HDD的混合存储系统;利用不同转速磁盘搭建的混合存储系统;以及基于SSD和HDD的混合存储系统。
1.3.1 NVRAM与HDD的混合存储
1)NVRAM作为数据缓存
基于RAM的Cache技术一直是提高存储系统性能的重要手段[8],系统将经常访问的数据保存在RAM中,尽量避免访问磁盘,从而实现以RAM的性能访问数据,目前这一技术的代表是CLOCK-Pro[9]和ARC[9]。但采用RAM作为cache只能提高系统的读性能,对于写性能的提高并不显著:原因不在于缓存的大小不足,而是需要避免新写入的数据(脏数据)由于掉电而丢失。脏数据必须要从易失性存储设备(RAM)写入到非易失性存储设备中来保证它的持久性,这就使得系统面临降低写负载与保护脏数据的可靠性的两难选择。脏数据在缓存中停留的时间越长,它被覆盖写或者删除的可能性就越大,但与此同时它也更易受掉电丢失等侵害。基于这个原因,UNIX和Sprite等系统都限制了脏数据在缓存中停留的时间。
NVRAM 由于其数据的非易失性,为通过缓存方式提升存储系统的写性能提供了可能。一种策略是将 NVRAM与RAM整合作为缓存,其整合方式可以有多种。比如可以将数据同时写入RAM和NVRAM中。NVRAM只用来保护易失性缓存中脏数据的持久性,只有在系统宕机重启后才会被访问;或者将RAM和NVRAM结合组成一个单一的大缓存。一个独立的块有可能在任意一个存储器中(而不同时存在),所有的脏数据块都存放在NVRAM上[10]等。
较早的时候,由于NVRAM的容量较小,价格较高,所带来的性能改进有限。近年来,NVRAM的容量也在不断增大(目前BBDRAM的容量可达8GB),但目前存储系统中HDD容量和NVRAM的容量比例仍在逐渐扩大,再加上大数据访问呈现出的一次遍历的特征,这使得基于NVRAM的Cache读命中率不断下降,系统读性能提高的效果不断减弱。
2)NVRAM记录日志
基于 NVRAM 容量小、高随机性能的特性,早期的NVRAM主要被用于存放OLTP系统中的日志数据[11]。比如NetApp的WAFL收集操作请求,这些作为日志数据首先写入到NVRAM,当数据积累到一定量或者周期结束以后,再将其写入到磁盘。期间如果发生断电,系统重启后仍然可以从 NVRAM 中读出相关数据,根据最近一致点和日志记录将存储系统恢复到一致的状态。NVRAM记录日志的方式提高了OLTP系统中事务处理的速度。
在最近的几年中,NVRAM 技术发展很快,在增大容量、降低成本、采用新介质等方面都有所突破。随着新一代NVRAM技术的不断成熟,未来有望在混合存储系统中扮演重要的角色。
1.3.2 不同转速磁盘的混合存储
在20世纪90年代,利用不同规格、不同转速的HDD来设计混合存储系统曾成为产业界研究的热点。其基本思想是根据数据的重要性、访问频率、保留时间、容量、性能等指标,将访问频繁的“热”数据保存在转速为10K/ 15K RPM的高速小容量FC或SAS磁盘中,而将较少访问的“冷”数据保存在转速为5.4K/ 7.2K RPM 的低速大容量IDE/SATA磁盘中。但由于磁盘本身机械部件的限制,不同存储器件之间的性能并无显著差距,这种方法对存储系统的性能(尤其是随机访问性能)提升十分有限。
1.3.3 SSD与HDD的混合存储
随着近几年SSD设备技术的日渐成熟,以及SSD和HDD良好的互补性为设计大容量、高性能、低成本的混合存储系统提供了崭新的机遇,基于SSD和HDD的混合存储领域已成为存储技术的重要发展方向和研究热点,发展十分迅速,其中企业界的发展尤其引人注目。 Microsoft,HP,Intel,EMC,IBM,NetApp,Samsung等企业都对SSD及其应用表现出了浓厚的兴趣。EMC[12],IBM[13],NetApp[14]等企业的一些产品已经采用或支持基于SSD的混合存储。下面将对目前流行的这种混合存储技术做详细地介绍。
2 SSD与HDD混合存储关键技术
总的来说,目前针对SSD与HDD的混合存储系统的研究主要从系统架构、映射策略、热点数据识别、数据迁移策略、最优化存储介质用量组合等几个方面展开。
2.1 系统架构
目前SSD与HDD实现混合存储系统的架构主要有两种方式:一种是缓存分层架构,即将SSD作为HDD的缓存,以分层的方式搭建系统;另一种是设备同层架构,即将SSD和HDD设备放在同一层,作为存储系统的两个相对独立的存储设备来搭建系统。
2.1.1 缓存分层架构
缓存分层架构将SSD完全作为磁盘的cache,SSD中的数据是HDD中数据的子集。混合存储系统的逻辑地址与HDD设备的物理地址一一对应,而SSD设备中缓存了HDD中部分数据的拷贝。当上层有IO请求到达时,会先在SSD设备中查找该数据是否已被缓存,如果有,则访问SSD设备;否则访问HDD设备。
在缓存分层架构下,因为SSD较RAM可以缓存更多的内容,所以存储系统的读性能得到提高;而且SSD的随机写入性能也远远高于 HDD,所以可以用它来作为预写,然后将写入内容批量写入到磁盘中,进而提高写性能。但缓存分层架构也面临一些问题,比如SSD和HDD数据一致性维护、SSD寿命损耗过快等。目前采用缓存分层架构的混合存储系统的代表是facebook的flashcache[9]。
2.1.2 设备同层架构
设备同层架构将SSD与HDD设备放在同一层,将SSD和HDD的物理地址统一编址,所以系统的逻辑地址范围是SSD和HDD地址范围之和。数据存放在SSD或者HDD上,两种设备之间会根据数据的冷热程度进行数据迁移。
设备同层架构使得系统容量为SSD与HDD容量之和,提高了设备的空间利用率;同时它将经常使用或最近访问的数据被存放(或迁移)到SSD上,降低系统的访问延迟;而且它还可以通过提高不同设备的并发性来提高存储系统的吞吐量,进一步提高系统的性能。但设备同层架构也存在一些问题,比如设计复杂度较高,设备之间数据迁移时会影响系统的性能等。目前采用设备同层架构的混合存储系统有HRO[10]、EDT[5]、HybridStore[15]等。
2.2 映射策略
无论采用什么样的架构,最终数据都是以block为单位存放在具体设备上的。这就需要考虑每一个block I/O请求应该映射到什么设备上,也就是从逻辑块地址到物理块地址的映射策略。它包括映射的粒度和映射的规则。
映射粒度指的是混合存储系统所识别的 block所属组织结构的基本单位,它可以包含一个或多个block。一般映射粒度分为三类:数据块级、文件级、Extent级等。映射规则是指与系统架构和映射粒度配合的数据分配规则。不同的映射粒度和映射规则对系统的性能、热点识别、数据迁移策略的选择,以及系统设计和管理复杂度等都会产生不同的影响。
2.2.1 数据块级映射
数据块(block)级映射是粒度最细的映射,它将每一个4KB的block作为基本映射单位。所有的block请求根据其起始扇区号,按照特定的规则(比如取模运算、哈希运算等),映射到具体的存储设备的块进行处理。一般数据块级映射采用的都是缓存分层架构,其映射规则与CPU寄存器与内存之间的高速缓存的映射规则相似,可以采用直接映射、全相联、组相联3种方式。
以数据块为粒度的映射较为简单,而且可以在微观层面以最细的粒度进行映射。但以数据块为粒度会增大系统的内存开销。例如,对于100GB的SSD设备存储空间,以一个block的元数据占20 bytes来计算,元数据所占用的内存空间将达到 500MB,这对于大多数混合存储系统是不可接受的。而且对于顺序请求,系统有可能将其中的一些数据块映射到在SSD上,另一些在HDD上,导致顺序序列被随机化,影响顺序访问的速度。另外,在缓存分层架构中,必然存在多个block请求映射到SSD同一位置的情况,采用不同映射规则的系统性能也会存在差异。这些都是数据块级映射需要考虑的问题。
2.2.2 文件级映射
文件级是以文件作为相关block的基本组织单位,block请求按所属的文件进行分类,同一文件的所有block请求都会被映射到同一个设备上。热点识别、缓存或迁移的基本单位也是文件,和这个文件关联的多个块请求共同决定该文件是否是热点文件,以及是否需要进行迁移等。
文件级映射的好处在于,与数据块级映射相比,它以文件为粒度可以有效地减少所管理的元数据的数量和系统开销;但由于文件的大小不一,文件可能较大,这样在选取迁移数据集的时候会面临一些新的问题,这些问题将在数据迁移部分进行介绍。
2.2.3 Extent级映射
Extent粒度是以一个指定的大小,将该范围内的block捆绑在一起,作为一个映射的基本单位,同一个extent的所有block请求都会被映射到同一个设备上。它与文件粒度有相似之处:它们都是将多个block组织成一个较大的粒度;不同之处在于,文件将与该文件相关数据块捆绑在一起,这些数据块可能是不连续的,而extent一般都是由物理上连续的数据块构成。目前以 extent为粒度的系统有 EDT[6]、HybridStore[10]等。
由于 extent级和文件级粒度的相似性,它们都可以有效地减少元数据的数量,减少内存消耗。而且extent的大小是一致的,在进行数据迁移的时候,数据集的选取就会简便些。Extent的大小可以自由选择,这也使得映射的粒度更加灵活,但extent的大小对系统也会产生影响:较小的extent具有更细的粒度,可以更有效地识别热点,更轻量级地进行数据迁移,从而更高效地响应工作负载的变化,但这也会使得元数据所占用的计算和空间资源增大。
2.3 热点数据识别
热点数据识别是指将对设备的数据请求按冷热程度进行划分,从而实现对不同热度的数据访问分别处理。从本质上讲,它与存储层次中的缓存策略的目的是一样的,它们都是将经常访问的数据放在性能较高的存储设备上,所以缓存算法也可以认为是热点数据识别算法。热点数据识别的准确率会直接影响到整个系统的性能。针对热点数据的识别方法,已经有较多的研究成果。根据映射粒度的不同,识别的效果以及内存和计算资源的消耗也会有不同。下面将逐一进行介绍。
2.3.1 数据块级热点识别
数据块(block)级的识别是粒度最小的热点数据识别方法,它将一个数据块作为冷热程度计数的单位,统计数据块的访问频度,将频度高的数据块标记为热点。数据块级别的热点识别较多应用于SSD的内部设计中,主要用于SSD的损耗均衡。而在混合存储系统中,数据块级的热点识别也有应用。
数据块级的识别的优势在于,它可以在微观层面精确地识别出真正的热点数据块;但它没有在宏观上将I/O随机性、系统带宽等其它信息加入热点程度计算中,导致系统的性能降低。例如,对于一组顺序请求,系统就有可能将其中的一些数据块放在SSD上,另一些在HDD上,导致数据块被分散化,影响顺序访问的速度。
数据块级的热点识别算法很多,有经典的FIFO、LRU等算法,也有最近几年提出的 ARC、Clock-Pro、多哈希函数、多布隆过滤器、WDAC等算法。其中,FIFO和 LRU的实现简单,计算负载低,而且不需要引入额外的内存开销;但其所识别热点的命中率不高,而且顺序遍历I/O会将热点信息全部覆盖,影响系统访问性能。ARC、多布隆过滤器等较新的算法都将数据访问的新近性(recency)和频度(frequency)引入作为判定热点程度的标准。这些算法在引入一定额外开销的条件下提高了热点的命中率,而且可以抵抗顺序遍历型I/O对热点信息的冲刷,因而具有良好的应用价值。
2.3.2 文件级和extent级热点识别
以文件或extent为粒度是另一种判定热点数据的方法。它以文件或extent作为热度统计的基本单位,在其元数据信息中都会有保存热点程度的域,所有的block访问请求都会对其所属的文件或extent的热度值产生影响。在这个粒度的热点识别中,不仅可以通过block请求的冷热程度,还可以添加随机程度,带宽等多个指标来综合判断“热点”文件或extent。目前大多数混合存储系统,如HRO、EDT、HybridStore等,都采用文件级或extent级的热点数据识别。
文件级或 extent级热点数据识别的好处在于,与数据块级的识别相比,它以文件或extent为粒度可以有效地减少元数据的数量,进而减少热点统计维护的数量,减少内存和计算消耗,而且还可以将数据块访问的随机性等因素引入热点识别过程,更有效地利用了SSD的特性。
2.4 数据迁移策略
在混合存储系统中,理想状态是将热点数据存放在速度较快的SSD设备上。但由于热点数据会随着时间而发生变化,而且SSD的容量也要远小于HDD的容量,因此必须要解决数据的移动(缓存或迁移)问题,从而达到提高混合存储系统的访问速度,降低访问延迟,延长SSD使用寿命等目标。
数据缓存主要用在缓存分层架构中,用来决定将哪些数据缓存在SSD上;而数据迁移主要用在设备同层架构中,用来交换SSD和HDD存储介质间的部分数据,以便更加高效地处理访问请求。但无论是缓存分层架构,还是设备同层架构,设备之间都存在数据的交换。在缓存分层架构中一般称作写回(从SSD复制到HDD)或缓存(从HDD复制到SSD)。在这里设备之间的数据交换统称为迁移。迁移策略要解决如下几个问题:迁移哪些数据,何时迁移,如何在保证系统性能的前提下进行迁移等。
2.4.1 迁移数据集合的生成
迁移数据集合指的是设备需要迁入和迁出的数据集,它是根据数据的热点程度生成的。一旦热点数据识别方法确定,通过计算就可以确定需要迁移的数据集合。但对于不同的映射粒度,数据迁移集合的生成会有所不同。
数据块级的数据迁移,则直接以数据块作为数据迁移的基本单位。在数据块粒度下,所迁移的数据集合也就是一个数据块。这样的好处在于迁移粒度小,迁移周期短,迁移效率高。文件级的数据迁移以文件为组成迁移数据集的基本单位,但由于文件的大小不一,这样在数据迁移时计算需要迁移的数据集就变得比较复杂,需要在保证系统性能的同时尽可能多地迁移热点数据;而且由于文件的粒度较大,迁移也会导致混合存储系统性能的波动较大,所以要尽可能地在系统负载较轻的时候进行迁移。Extent级的数据迁移以extent构成迁移数据集的基本单位,它较文件级迁移的不同之处在于,由于extent的大小是一致的,在迁移的时候,数据集的生成就会简便些。
2.4.2 迁移周期的选择
根据迁移周期的不同,迁移一般可以分为静态/半静态迁移和动态迁移。静态/半静态迁移是指以天/月为周期的迁移;而动态迁移是指以分钟/小时为周期的迁移迁移。数据周期的选择也面临一些两难处境:静态/半静态迁移因为迁移周期较长,且后台迁移的时间一般选在前台系统负载较轻的时候(比如午夜),所以对前台系统正常使用时的性能影响较小,且迁移较为简单,但它也存在不能及时响应系统负载的变化的问题;动态迁移的周期较短,可以及时响应系统负载的变化,但由于其迁移的周期较短,后台迁移的次数过多,会对前台系统正常使用时的性能造成影响。
2.4.3 预迁移
一种中和迁移周期所面临的二难选择的方法就是进行预迁移。预迁移的思想就是,在多进程系统中,在前一个进程导致的迁移完成之前,就启动后一个进程所引发的数据。之所以可以这样做,是因为在数据迁移完成之前的一段聚合阶段,系统的迁移负载并不重,这个时候就可以将这部分空闲负载用来预先做下一个进程所引发的迁移。
2.5 最优化存储介质用量组合
实现最优化的存储介质用量组合,在尽可能减小成本的同时达到系统的性能需求,也是混合存储设计中需要考虑的问题。该最优化工作较为复杂,受存储设备类型、数据负载、存储系统架构、以及存储容量、性能、可靠性、成本、能耗等多种因素的影响。根据用量组合能否动态改变划分,可以将最优化方法分为静态配置方法和动态配置方法。
2.5.1 静态配置
静态配置是指在初始配置的时候就完成存储介质用量的组合。目前已知的最优化用量组合方法都是静态配置方法,但实现的方式各有不同,有的通过实践模拟的方式,重放或模拟I/O trace,用模拟器计算出所有迁移周期下对不同设备的需求,从而给出最优存储介质组合;有的则通过理论推导的方式,由用户给出对系统的价格、性能等指标的需求,然后将这些需求作为参数构成约束条件,通过混合整形线性规划,求出系统设备组合的最优解。
2.5.2 动态调整
由于混合存储系统一般不支持对存储设备进行热插拔,所以静态配置好的设备组合一般不能动态变化,这就使得静态配置下给出的设备组合并不一定能适应用户变化的需求。或许对设备组合进行动态调整会成为混合存储系统最优化设备组合的一个新的研究点。
3 存在的问题
虽然目前混合存储系统的研究已经得到了学术界和产业界的广泛重视,相关研究在各个方面已经有了较好的进展。但另一方面,一些关键问题还未获得突破,主要表现在:
1)在SSD和HDD的混合存储系统中,SSD的写前擦除和写寿命限制对系统的写操作性能影响较大。从目前所公开的资料中可以看出,由于本身固有的属性限制,SSD存在不能就地更新(inplace updating),需写前擦除,擦除寿命等问题,这就导致在混合存储系统中,写操作面临两难困境:对于数据的写入策略,若频繁写入SSD则会影响SSD的使用寿命,但如果频繁写入HDD则会影响系统的写性能。所以,基于SSD和HDD的混合存储并没有完全解决存储系统设计所面临的问题。
2)目前基于NVRAM和HDD的混合存储解决了系统的可靠性问题,但由于NVRAM价格较高,HDD与NVRAM容量比例较大,数据访问方式多样等因素的限制,NVRAM在处理大数据负载时读数据的命中率较低,读性能的提高效果并不显著。
3)混合存储系统中需要解决的关键问题如高效的热点数据及访问模式识别、数据放置策略及迁移算法等关键技术问题目前还未有成熟、通用的方案。虽然目前国外已有一些SSD与HDD的混合存储系统的产品,但是其技术细节并未公开,内部实现机制和效果无从得知,也没有对这些关键技术问题的对比分析。
4 总结
虽然目前的混合存储系统都存在一定的问题或局限性,但这也为开展新型混合存储系统研究,实现存储系统基础理论创新、关键技术突破提供了良好的机会。
综合采用NVRAM、SSD和HDD并进行一体化设计的混合存储系统,有可能成为混合存储系统新的发展方向。NVRAM在处理写请求时具备良好的性能,可以用来为写请求加速,但其价格较高,容量较小,不足以为读请求加速;SSD具备良好的随机性,尤其是随机读性能,可以用来为随机读请求加速,但由于自身固有属性的问题,不适合用来处理频繁的写入操作和大数据顺序访问操作;HDD的容量最大,每GB成本最低,但随机读写性能较低,不适合处理随机请求,但对顺序请求有很好支持,可以用来处理大数据的顺序访问。将这3种存储介质有机地组合起来,设计一种新型的混合存储系统,具备3种设备的优势,避免各自设备的不足。这种新型的混合存储系统可能在性能和可靠性方面将比现有系统有大幅提高,在大容量、低成本、高性能等方面满足现有对存储系统的需求。
综上所述,面向存储应用需求,针对基于不同特性存储设备的新型混合存储的新理论和新方法的研究,可以为高性能存储系统的分析和设计提供新的理论和方法指导,并开辟新的思路。
[1]Nimrod Megiddo and Dharmendra S. Modha.ARC: A Self-Tuning, Low Overhead Replacement Cache. [C]Proceedings of the 2003 Conference on File and Storage Technologies, 2003.
[2]Wu X. and Reddy, A. L. N. “Exploiting concurrency to improve latency and throughput in a hybrid storage system,” in Proceedings of the 2010 [J]IEEE International Symposium on Modeling, Analysis and Simulation of Computer and Tele-communication Systems, 2010.
[3]NetApp FAS3100 System, [OL]http://www.netapp.com/us/products/storage-systems/fas3100/.
[4]Guerra, J. Pucha, H. Glider, J. Belluomini, W. and Ran-gaswami. R. [C]Cost effective storage using extent based dynamic tiering. FAST, 2011.
[5]CagdasDirik, Bruce Jacob, The Performance of PC Sol-id-State Disks (SSDs)as a Function of Bandwidth,Concurrency, Device Architecture, and System Organization. [C]In Proc. Of ISCA’09, 2009.
[6]NitinAgrawal, VijayanPrabhakaran, Ted Wobber, John D.Davis, Mark Manasse, and RinaPanigrahy. Design tradeoffs for SSD performance. [G]In USENIX Annual Technical Conference, pages 57–70, Boston, MA, June 2008.
[7]Song Jiang, Feng Chen, Xiaodong Zhang. [C]CLOCK-Pro: An Effective Improvement of the CLOCK Replacement. USENIX, 2005
[8]Gray, J. “What Next? A Dozen Information-Technology Research Goals,”[C]ACM Turing Award Lecture, June 1999, MS-TR-99-50
[9]T. Morris, R. J. Truskowski. B. J. The evolution of storage systems.IBM SYSTEMS JOURNAL, [J]VOL 42,NO 2, 2003
[10]Mary Baker, Satoshi Asami, Etienne Deprit, JohnOuster-hout, and Margo Seltzer. Non-volatile memory for fast,reliable file systems. In Proc. International Conference on Architectu-ralSupport for Programming Languages and OperatingSystems (ASPLOS), [C]pages 10–22, Boston, MA, October 1992.
[11]George Copeland, Tom Keller, Ravi Krishnamurthy and Marc Smith. The Case ForSafe RAM. [C]Proceedings of the Fif-teenth International Conference on Very Large Data Bases.Amsterdam, 1989.
[12]Laliberte. B. Automate and Optimize a Tiered Storage Environment FAST![C]ESG White Paper, 2009.
[13]Gurumurthi, S. Sivasubramaniam, A. and Natarajan. V. K.Disk drive roadmap from the thermal perspective: [G]A case for dynamic thermal management. ISCA, 2005.
[14]Lin Lin, Yifeng Zhu, JianhuiYue, Zhao Cai, Bruce Segee.Hot Random Off-loading: A Hybrid Storage System With Dy-namic Data Migration. [J]IEEE 19th International Symposium on Modeling, Analysis & Simulation of Computer and Telecom-munication Systems (MASCOTS), 2011.
[15]G. Zhang, L. Chiu, C. Dickey, L. Liu, P. Muench, and S.Seshadri. Automated Lookahead Data Migration in SSD-enabled Multi-tiered Storage Systems. [J]In IEEE MSST, 2010.