一种云存储多份存储方案的研究与实现
2017-03-27陈临强
董 杰,陈临强
(杭州电子科技大学 计算机学院,浙江 杭州 310018)
一种云存储多份存储方案的研究与实现
董 杰,陈临强
(杭州电子科技大学 计算机学院,浙江 杭州 310018)
在现有监控领域,如何对视频数据进行有效的保护,使数据在异常情况下仍可恢复。为此,文中提出了一种基于云存储的多份存储方案,采用多份存储,对异常数据采用校验恢复的方式,有效解决了数据异常时数据的恢复问题,可靠性较高。同时有效缓解了前端IPC数据流存储传输时的带宽限制。通过实际业务的试验检测,异常数据恢复率达到近98%,具有较好的效果。
云存储;多份存储;IPC
根据IDC的调查,全球创建和复制的所有数字信息(数字宇宙)增长速度超过了人们的预期,从2006~2011年这5年间,数字宇宙增长了10倍,年均增长率接近60%。到2011年将达到18 000亿GBI51[1]。如何保证数据的可靠性变得越来越重要。在安防领域,IPC(网络摄像机)视频流云存储[2]已逐渐成为监控领域的重点研究方向。而在现实生活中尤其是在地铁、银行、监狱等一些对视频录像具有较高可靠性要求的项目中,通常会遇到对部分或全部的前端摄像机进行存储多份录像的情况。目前,非云存储的解决方案中,有双直存、备份业务等可以实现,但双直存受限于前端相机的性能和传输带宽。实际使用中,在众多场合中无法部署,而备份业务实现过于复杂,且实时性较差。目前常用的备份方案有镜像[3-4]和快照[5-7]等。相对于非云存储,一般通用云存储中均会有存多份的功能[9],有强一致性的,要求多份存储同时存储成功;有弱一致性的,例如3份,成功存储2份便可。存储取流有两种方式:一是前端相机直接出多股流;二是前端相机出一股流,由后端存储系统负责分发到多个存储设备上。强一致性,存储过程数据存储太过于耗时,在监控系统中不适应。弱一致性,在后端系统控制过于复杂,且存储的可靠性有所下降。本文基于云存储的方式上,提出了一种全新的多份存储方案,实际使用中效果较好。
1 方法概述
1.1 云存储系统结构
本方案在一种监控云存储系统基础上实现,云存储系统结构如图1所示。
图1 监控云存储系统
一般云存储包系统括基本的3大组件,分别是元数据管理服务器(MD),负责管理多个数据节点(DN),在读写过程中负责调度客户端(Client)写到某个DN上,实现负载均衡;数据节点(DN),管理其设备上的资源,提供存储读写业务;客户端(Client)一般部署在数据源侧,例如IPC上,负责向MD请求读写的DN,然后将数据写入到该DN上,或从该DN读取数据。
1.2 监控领域云存储系统构成
一般监控业务中,视频录像多是要求存储多份,通常均是针对某一个或几个摄像机的,所以本方案多份存储以摄像机目录为单位进行配置。
在云存储系统中,一般一个目录里的文件数据会存储在多个DN上,即在多个DN上均可能存在相同的目录名称。所以本方案由MD提供全局统一的命名空间,多个副本以多个目录名称形式存在。假设配置的摄像机目录为cam1,若需要存储3份,则在3个DN上存在的3个名字空间分别为cam1@0,cam1@1、cam1@2,其中@为分隔符, 0、1、2是多个目录副本的标识。
图2 MD目录索引信息
如图2所示,多个副本在MD上的索引信息,保存了摄像机的目录cam1以及cam1的副本路径。在监控系统中,同一个摄像机目录下的录像按时间的顺序写入,则可要求每次创建的文件大小固定,比如1 GB。
2 系统运行过程
2.1 创建目录
在创建目录时,若设置了存N份(N 2.2 创建文件 在创建一个新的文件时,会先在cam1@0目录上创建文件,创建完成后返回对应的文件信息(包括存储路径、文件大小等),MD会在其他副本的目录(cam1@1、cam2@2)上分别创建一个日志文件,并将文件信息写入到日志文件中。 如图3所示,日志文件包括描述信息和文件信息区。描述信息记录当前日志中的所有文件是否同步完成、已同步完成的文件个数和未同步完成的文件个数。文件信息区记录了多个同步的文件信息,每一个文件信息记录同步源文件路径、录像位图、文件大小、是否已同步完成等信息,其中录像位图是一个64位的整数,若规定录像文件的大小为1 GB,将1 GB的录像等分为64份,则1位表示16 MB,若当前16 MB数据块全部填充完整,标志位设置为1,否则为0。 图3 日志文件格式 定义 cam1@0所在的DN为主DN,其他副本所在的DN为从DN。 主DN在收到录像数据后,先在cam@0目录中创建一个固定大小的文件(如1 GB),然后每次按512 kB数据大小写入文件,一次写入完成后,判断是否有其他从DN分发请求,若是则打包发送,打包格式如图4所示。 图4 主DN分发数据报文格式 从DN在检测到有新的文件同步日志后,先创建和主DN相同大小的文件,然后向主DN发送数据分发请求,从DN在收到数据报文后,根据报文中分块序号和分块偏移信息,把数据写到对应的文件分块上。如果分块内录像数据填充完整,更新日志文件中对应录像文件的位图信息。因为有以下两种情况会导致从DN录像数据不完整:(1)从DN请求数据开始晚于主DN的数据存储,从DN中的文件的开始几个块的数据可能是不完整;(2)从DN宕机等情况导致的数据不完整。 所以设计考虑增加定时处理机制,检查从DN上的日志,若发现文件数据不完成,则以数据块大小(如16 MB)为单位进行同步,同步过程:从主DN读取指定块的数据,写入到当前DN的文件指定块中。 2.3 读取流程 Client访问时路径为“/cam1/file1.ts”,先向MD解析路径,MD根据目录索引信息(如图2)找到多个副本的存储路径,然后根据副本所在的DN的负载,排序后返回Client。Client按MD返回的路径,从第一个开始读取数据,若读取异常再从第二个路径继续读取,直到数据读取完成。 本文阐述的多份存储方案,主要是在一种云存储系统上完成的,在此选取一种场合下的视频流文件。当存在前端IPC流存储时,存储过程中,若存储出现问题,则通过查看日志文件,可快速得到数据恢复指数,进行统计如下表所示,当视频流正常时,视频流的备份能力如表1所示。 表1 不同数据对象备份能力对比 当视频流在存储过程中出现异常时数据的恢复能力如表2所示。 表2 不同异常次数的数据恢复能力 试验得出的结果是,在强一致性存储数据恢复成功率虽较高,但数据存储过程过于耗时,且读取压力较大;而弱一致性数据恢复的成功率相对较低,安全性较差,且随机设定备份数,读取压力大,存在安全隐患。本方案中主DN出现问题时,从DN上进行数据恢复的成功率较高,效果较好,且安全性较好。同时本文的备份方案,在冗余度上相对于强一致性来说冗余度较低,本方案响应速度较快,安全性得以保障。 本文提出了一种视频流存储异常后恢复数据的技术,并在云存储系统中进行验证。验证结果表明该方案具有较好写效益。从IPC出一股流到主DN服务器,由主DN服务器再分发到其他从DN服务器,解决了前端带宽限制的问题。按目录为单位实现多份存储功能,可方便实现不同摄像机配置不同存储策略;多个副本存储在不同DN上,且在异常恢复后可以完成其他副本的补录,安全性好;大部分情况下,从DN的数据由主DN分发,不存在读取的压力,性能好。 [1] Du Kai,Hu Zhengbing,Wang Huaimin,et al.Reliability design for large scale data warehouses[J].Journal of Computers,2008, 3(10):78-85. [2] 王志坤.树结构磁盘阵列组织策略及关键技术研究[D].武汉:华中科技大学,2010. [3] 韩德志,谢长生,李怀阳.存储备份技术探析[J].计算机应用研究,2004,21(6):1-4. [4] 韩德志,汪洋,李怀阳.远程备份及关键技术研究[J].计算机工程,2004,30(22):34-36,61. [5] 周敬利,汤文晖,余胜生,等.附网存储中快照技术的设计[J].计算机工程与应用,2003,39(27):153-156. [6] 胡风华,游智勇,李烙.存储系统中的Snapshot技术研究[J].计算机工程与应用,2004,40(1):103-105. [7] 李中,王刚,刘璟.一种在存储子系统中实现连续时间点快照的技术[J].计算机工程与应用,2004(9):18-20,32. [8] IBM.数据快照技术原理和应用[EB/OL].(2005-12-28)[2014-12-29]http://www.aixchina.com/doc/Flash. [9] 穆飞,薛巍,舒继武,等.一种面向大规模副本存储系统的可靠性模型[J].计算机研究与发展,2009,46(5):756-761. Implementation of a Multiple Storage Scheme for Cloud Storage DONG Jie,CHEN Linqiang (School of Computer Science, Hangzhou Dianzi University, Hangzhou 310018, China) In the existing monitoring field, how to effectively protect the video data, so that the data can still be recovered under abnormal conditions. So, this paper presents a based on cloud storage[1]a storage scheme by to store multiple copies, of abnormal data by the checking recovery, an effective solution to the abnormal data recovery and high reliability. At the same time, it can effectively alleviate the bandwidth limitation of the front IPC data stream storage and transmission. Through the test of the actual operation, the recovery rate of abnormal data is close to 98%, which has a good effect. cloud storage; multiple storage; IPC 2016- 04- 13 董杰(1990-),男,硕士研究生。研究方向:图形图像处理。 10.16180/j.cnki.issn1007-7820.2017.03.026 TN948.6;TP391.41 A 1007-7820(2017)03-095-033 在云存储系统中的应用试验结果
4 结束语