油气行业中存储快照保护数据技术研究
2015-07-05张海勇王白羽夏冬梅龚红燕张丽
张海勇,王白羽,夏冬梅,龚红燕,张丽
(新疆油田公司,新疆克拉玛依 834000)
油气行业中存储快照保护数据技术研究
张海勇,王白羽,夏冬梅,龚红燕,张丽
(新疆油田公司,新疆克拉玛依 834000)
通过对数据快照技术保护方式进行了技术分析比较,结合油气行业的数据特点,提出了快照技术在油气行业数据保护中的应用建议。
数据存储;数据保护;存储快照
0 引言
随着油气行业的“高密度宽方位地震技术”大规模应用,当前油气勘探、解释数据量越来越大,TB级的数据量已经成为常态。目前油气行业的各企业的信息部门都需要对现有HPC环境进行改进以应对海量数据处理。但是目前业界的的研究一般考虑到大数据量存储系统的性能和容量,很少对大数据量下的存储数据保护技术进行更加深入的研究。
众所周知,油气勘探在进行数据处理、解释时涉及到海量的数据。对数据的安全性要求非常高。传统的数据保护方式如备份技术,不论内采用诸如源端及目的端去重、压缩、NDMP等手段,但在海量数据规模下,这些技术的缺点是备份、恢复时间长。冷备份需要暂停应用服务,暂停接受用户数据更新;热备份技术又不能保证数据完整性。而快照技术的应用能够大大改善上述的缺点,同时能够保证数据逻辑的安全性。
本文通过分析对比常用的快照技术,根据油气行业数据存储的主要特点,推荐一套快照技术应用于数据保护的方式。
1 快照技术介绍
1.1 快照概念及原理介绍
快照技术,按照SNIA的标准定义:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点的映像。可以通俗理解为照相机的照片,不过与照片保存的是人物、景色的留底不同,存储系统中快照保存的是数据的状态留底。如同照片留住了过去当时的场景一样,快照把数据在某一时刻的映像也保留了下来。
1.2 快照技术分类
目前业界较常用的快照技术主要有三大类,镜像分离(split m irror),改变块(changed block),并发(concurrent),分别对应的快照技术是是镜像分离(splitmirror)技术,写时拷贝(copy on write)技术,指针重定向(pointer remapping)技术。
2 油气行业中的大数据快照技术比较与选型分析
2.1 快照技术比较
油气勘探行业中的海量数据主要保存于存储系统中,就是俗称的磁盘阵列上,目前存储厂商采用的基于卷的快照技术主要有两种:写时拷贝技术COW(Copy-On-Write)和重定向写快照技术ROW(Redirect-On-Write)。
2.1.1 写时拷贝快照技术COW
在快照时间点之前,如图1(a)所示,每个源数据卷都具有一个数据指针表,每条记录保存着指向相对应的数据块的指针。当快照点来临时,如图1(b)所示,存储系统的快照功能会为源数据卷的指针表创建一个副本,该副本作为快照卷的数据指针表。当快照时间点结束后,快照卷成为一个能够被上层应用访问的逻辑卷。也就是说,快照卷与源数据卷通过各自的数据指针表共享一份物理数据。快照建立之后,如果源数据卷中的数据被更新了,比如图1(c)中2位置的数据要更新,那么系统会首先将旧数据拷贝到新的物理地址,并修改快照卷中的数据指针,然后再将新数据写入2的位置。这样通过快照卷的数据指针表访问的还是快照点的那个数据,而源数据卷读的则是新数据。这种快照技术称为写时拷贝。
图1 快照技术原理图
这种技术最大的缺点是对卷的写性能有影响。当每次更新数据时都要先复制数据,然后才更新数据。如若写入频繁,则需要等待较长的时间。优点是不影响数据读取性能,这样想要恢复到快照点是很容易的,而且这种快照方式只需要复制数据指针,复制也只是针对增量数据,因此存储空间利用率相当高。
2.1.2 重定向快照技术ROW
重定向快照技术的快照创建与写时拷贝技术相同。不同之处是如果要将2修改为2′,那么系统不会像写时拷贝技术那样复制旧数据,而是直接将新数据写入新物理块中,然后将源数据的数据指针指向这个新的块的地址,如图1(d)所示。这个动作非常块,快照卷也不用做任何改变。
ROW技术在写数据时性能不会有损耗,只是修改指针,实现效率很高。但是当多次写入新数据后,源数据卷的数据会分布在存储系统各个地方,相对会影响读取性能,因此相比较COW技术,这时的ROW的读取性能会降低较多。
2.2 应用于油气行业业务中的大数据存储快照选型分析
大数据量存储在构建时要考虑到性能、容量、安全性等因素,常采用多节点横向扩展集群式存储架构,这种架构在底层数据存储分布上与一般传统规模的存储存在明显的区别。相应的快照技术也有着不同的应用业务场景以及不同的技术构成,而同样的快照技术在使用管理上也有着不尽相同的方式。
油气行业中业务的数据类型主要分为两类:
(1)大文件类型为主的应用:原始采集数据文件、解释过程文件、结果文件等等以文件类型为主的数据。在油气行业中这部分数据的数据量均非常庞大。
针对大文件的读写操作在大数据存储这种集群架构下,都是由多个存储控制器共同完成,数据实际上是被打散存放在不同的硬盘上的,如果是大数据的写入,可以分散到很多个条带里面,写性能影响较小。如果使用ROW技术,基本不影响写性能,由于数据本身是打散存放的,也不会对读有太大影响,所以建议针对此类的大文件读写应用,最好采用ROW技术实施数据保护。
(2)小文件类型数据为主的应用:油气行业中的此类数据常见于各油井工况分析、功图计产系统、单井生命周期等信息系统数据库中。另一种情况是业务系统相关联的某些油井的示功图,此类数据相较于上面所述文件类型数据的数据量小很多,通常作为外部文件保存,但由于时间推移,示功图张数增加,其数据占用存储空间也会增加。
通常对大量的小文件应用不会有大量的随机数据更新操作,也并没有高并发性操作。由于底层存储采用了集群式的存储架构,高级别的数据分布和保护方式使得其底层的条带大小往往超过这些单一文件大小。因此,如果比较小的I/O,如每次只写几十kB,那么这些数据在使用ROW进行快照重写时,是会写到新的地方,造成数据分散而影响读的性能,ROW的优势就没有了。因此在集群存储架构下,处理海量小文件的快照应用采用COW这种技术。
3 结语
快照技术已经广泛应用于各种应用场景,建议在规划、设计、部署海量数据存储时,存储系统尽可能既具备ROW技术,也具备COW技术,并且最好能够做到针对不同的业务场景,底层系统能够自动识别,进而根据不同场景选择不同快照技术。
10.3969/j.issn.1673-0194.2015.19.039
F272.7;TE9
A
1673-0194(2015)19-0070-02
2015-05-29