视频存储数据保护技术分析
2010-12-31赵庆伟魏宏李涛涛
■ 赵庆伟 魏宏 李涛涛
数字视频监控系统尤其是大型视频监控系统中,几千路监控点使调度、公安人员无法实时监控到所有点位信息,发生事故时往往通过调用历史视频进行调查。因此,保护视频存储数据尤为重要。
1 数据保护技术
在存储领域,数据保护技术主要分为镜像技术、冗余校验技术和备份技术。
1.1 镜像技术
数据镜像方式可以保证在同一时刻数据能够具备两个完全相同的版本。这也保证了其中一个数据版本出现物理故障而不能对外提供服务时,另一个版本可以有效地支撑整体业务系统。但由于两个版本永远保持一致,因此当出现逻辑错误(如人为误修改、病毒篡改等)时,镜像并不能修正其错误。镜像技术在实际应用中有以下2种形式。
1.1.1 RAID1
RAID1又称为M irror或M irro ring,目的是最大限度保证用户数据的可用性和可修复性。 RAID1的操作方式是把用户写入硬盘的数据百分之百自动复制到另一个硬盘上。由于对存储的数据进行百分之百备份,在所有RAID级别中,RAID1提供最高的数据安全保障。图1显示的是由4块硬盘组成的磁盘镜像,其中可以作为存储空间使用的仅为2块硬盘(画斜线的为镜像部分)。
RAID1下,任何一块硬盘的故障都不会影响系统正常运行,而且只要能够保证任何一对镜像盘中至少一块磁盘可以使用,RAID1甚至可以在一半数量硬盘出现问题时不间断工作。当一块硬盘失效时,系统会忽略该硬盘,转而使用剩余的镜像盘读写数据。
通常把出现硬盘故障的RA ID系统称为在降级模式下运行。虽然这时保存的数据仍然可以继续使用,但是RAID系统将不再可靠。如果剩余镜像盘也出现问题,那么整个系统就会崩溃。因此,应及时更换损坏的硬盘,避免出现新的问题。
在RAID1中,磁盘的有效容量仅为总容量的1/2,因此成本非常高。同时RAID1虽不能提高存储性能,但由于其具有高数据安全性,尤其适用于存放重要数据,如服务器和数据库存储等领域。
1.1.2 远程卷镜像技术
镜像是在2个或多个磁盘或磁盘子系统上生成同一个数据镜像视图的信息存储过程,一个叫主镜像系统,另一个叫从镜像系统。按主从镜像存储系统所处的位置可分为本地镜像和远程镜像。本地镜像主从镜像存储系统处于同一个RAID阵列内,远程镜像主从镜像存储系统通常分布在跨城域网或广域网的不同节点上。
远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。利用物理位置上分离的存储设备所具备的远程数据连接功能,远程维护一套数据镜像,一旦灾难发生,分布在异地存储器上的数据备份并不会受到波及。
远程卷镜像技术可以简单的理解为2台设备间的RAID1,因此要求其RAID控制等多方面操作保持一致。远程卷镜像只能在同系列的高端盘阵中进行,成本投入非常大(见图2)。
1.2 冗余校验技术
因为镜像技术的磁盘利用率很低,所以为了实现既保护数据又提高磁盘利用率,出现采用冗余校验技术实现同盘阵内的RAID机制。目前较为常见的有RAID3,RAID5和RAID6。
1.2.1 RAID3
RAID3是将数据先做XOR运算,产生Parity Data后,再将数据和Parity Data 以并行存取模式写入成员磁盘驱动器中,因此具备并行存取模式的优点和缺点(见图3)。RAID3每笔数据传输都更新整个Stripe(即每个成员磁盘驱动器相对位置的数据都一起更新),不会发生需要把部分磁盘驱动器现有数据读出来,与新数据作XOR运算,再写入的情况(这个情况会在RAID4和RAID5发生,一般称之为Read,M od ify,W rite Process)。因此,在所有RAID级别中,RAID3的写入性能最好。
RAID3的Parity Data一般存放在一个专属的Parity D isk,但是每笔数据都更新整个Stripe。在RAID3中,磁盘利用率为(N-1)/N(N为构成RAID组的磁盘数)。
RAID3的并行存取模式需要RAID控制器特别功能的支持,才能达到磁盘驱动器同步控制,而且写入性能的优点以目前的Caching 技术都可以将之取代,因此一般认为RAID3将逐渐淡出市场。
1.2.2 RAID5
RAID5是一种存储性能、数据安全和存储成本兼顾的存储解决方案,使用的是Disk Striping(硬盘分割)技术,RAID5利用分散奇偶校验冗余数据(见图4)。
RAID5是RAID0和RAID1的折衷方案,RAID5可以为系统提供数据安全保障,但保障程度要比RAID1低,但磁盘空间利用率比RAID1高。RAID5与RAID3的磁盘利用率为N-1/N,但RAID5的校验数据分散在所有RAID组成员磁盘上。
1.2.3 RAID6
RAID6 是在RAID5基础上把校验信息由一位增加到二位的RAID级别(见图5)。
RAID6和RAID5一样,对逻辑盘进行条带化然后存储数据和校验位,只是对每一位数据又增加了一位校验位。在使用RAID6时会有2块硬盘用来存储校验位,增强了容错功能,同时减少硬盘实际使用容量。以前的RAID级别一般只允许1块硬盘坏掉,而RAID6可以允许2块硬盘坏掉,因此,RAID6 要求至少4块硬盘。
RA ID 6的磁盘利用率为(N-2)/N,较RA ID 3,RAID5略低,但安全性更高。
1.3 备份技术
不论镜像技术还是冗余校验技术,数据逻辑损毁都无法恢复,因此为了全面保护数据安全,保证能够提供正确数据,就有了备份技术。一般备份技术的应用有备份系统和SnapShot两种,当数据出现逻辑故障时对数据进行恢复。
1.3.1 备份系统
备份就是针对应用系统的一个或多个完整数据拷贝,当应用系统出现问题时,可以随时从备份中恢复需要的数据。
备份系统一般由3部分组成:(1)备份网络。网络环境是数据备份的传输通道,一个良好通畅的网络能够保证备份数据快速正确的传输。(2)备份软件。优秀备份软件包括加速备份、自动操作、灾难恢复等特殊功能,对于设备安全有效的数据备份非常重要。(3)备份设备。备份设备是数据备份的最终目的地,其质量与性能在整个备份过程中至关重要,是能否进行高速高质量备份的关键所在。
虽然备份系统提供了最可靠的数据安全保障机制,但由于视频监控应用的特性,不太适合视频数据的保护。(1)备份时间长。由于监控数据都是影像文件,总量非常庞大(一般为近百TB,甚至PB级别),因此如果对其进行全备份,以目前的网络速度计算,可能需要几天甚至更长时间,严重影响整体系统的正常运转。(2)投入成本过大。由于备份往往都需要多个全备份,因此容量是元数据量的N倍,而视频资料本身容量就很大,如果建设备份系统,投入成本也将非常大。
1.3.2 SnapShot
SN IA(全球网络存储工业协会)对Sn ap Sh o t的定义是:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始时间点)的映像。SnapSho t可以是其所表示的数据的一个副本,也可以是数据的一个复制品(见图6)。
SnapShot技术在backup时被广泛采用。很早就应用到阵列和主机中,主要采用Copy on W rite算法。通常都是基于卷,在b lock级别进行处理,各种大型磁盘阵列中都有支持。
SnapSho t是指向保存在存储设备中的数据的引用标记或指针,就是数据在某一时刻的状况,其工作原理核心是建立一个指针列表,指示读取数据的地址,提供一个瞬时数据的影像,当数据改变时,再进行复制。
应用SnapSho t技术可以用相对较小的空间(通常为元数据容量的20%左右)对数据卷的数据进行逻辑保护,可以有效地防止因人为篡改及病毒侵入等导致的数据失效。缺点是由于其不对元数据进行保存,因此当元数据卷崩溃时,数据无法进行恢复。
2 数据保护技术对比
数据保护技术对比见表1。
表1 数据保护技术对比镜像技术 冗余校验技术 备份技术RAID1 远程卷镜像 RAID3 RAID5 RAID6 备份系统 SnapShot保护类型 物理故障物理故障、逻辑故障允许磁盘物理故障物理故障物理故障物理故障物理故障、逻辑故障损坏个数 N/2 N 1 1 2 N 根据元数据卷的RAID而定磁盘总体利用率 1/2 1/2 (N-1)/N(N-1)/N(N-2)/N 1/(X+1) 1/1.2系统读写效率 一般 高 较高 较高 低 高 高投入成本 较高 高 低 低 较低 高 较低数据恢复效率 高 高 较低 较低 低 低 较低数据保护效率 高 高 较高 较高 较高 低 一般适用领域操作系统等关键数据物理保护容灾领域数据在线存储数据物理保护数据在线存储数据物理保护数据在线存储数据物理保护数据库以及小规模数据备份领域数据分析、简易容灾领域注:N为RAID组中磁盘个数,X为备份系统中全备份的个数,至少为1。
赵庆伟:北京国铁华晨通信信息技术有限公司,工程师,北京,100070
魏 宏:北京国铁华晨通信信息技术有限公司,工程师,北京,100070
李涛涛:北京国铁华晨通信信息技术有限公司,助理工程师,北京,100070