铁路综合视频监控系统云存储应用研究
2019-08-20于东旭
于东旭
(中国铁路北京局集团有限公司,北京 100860)
0 引言
行车安全始终是高速铁路发展的第一要务,同时也向铁路各业务系统在安全性和稳定性上提出了更高要求。铁路综合视频监控系统涉及铁路运输指挥,是治安防范的重要措施,也是确保运营安全的重要手段。随着高速铁路相关技术的进步,铁路综合视频监控系统已在保障安全生产的各环节发挥着积极作用。但由于铁路业务的专有性和特殊性,与公安、智慧城市以及其他行业视频监控系统相比,铁路视频监控系统仍处于发展水平较低的阶段,尤其在存储方面,大多数仍在采用SAN存储模式。
当前视频监控技术逐渐向高清化、智能化发展,利用大数据分析、人工智能技术才能将视频数据的价值真正发挥出来,将海量视频数据共享给更多的上层应用,以保障铁路高效安全生产。未来铁路是大数据的时代,铁路综合视频存储将迎来革命性的变化,后台存储数据的快速写入和读取是前端技术可靠的关键。大量视频应用在为铁路安全生产保驾护航的同时,更要保证后台数据的安全稳定。随着云计算的发展,软件定义的产品逐渐出现,可以更好地突破限制,满足对存储的更高要求,并在各行业得到大规模应用。
软件定义分布式存储基于通用服务器,将系统与硬件有机组合,利用分布式存储系统组成集群资源池,共享资源,统一管理,灵活扩展,这类存储系统即被业界称为云存储。在此从云存储的相关技术特点入手,研究探讨铁路综合视频监控系统中分布式存储应用的几种可行方案[1]。
1 现状分析
1.1 铁路综合视频监控系统现状
随着2008年京津城际铁路的开通运营,铁路综合视频监控系统随着高速铁路和客运专线一同建设。铁路综合视频监控系统建设遵循《铁路综合视频监控系统技术规范(试行)》(运基通信〔2008〕630号)、TB 10085—2009《铁路图像通信设计规范》[2]和《京沪高速铁路综合视频监控系统设计原则设备配置的会议纪要》(运基通信〔2010〕412号)等相关规范,主要监控区域为:重要机房(通信、信号、牵引变电、电力和信息)内部和外部、站房咽喉区、联络线与正线关键交叉点、治安复杂区段、公跨铁桥梁等;图像质量采用标清模式,分辨率为CIF或4CIF;单路视频图像存储时间为普通图像3 d、重点图像15 d、告警图像30 d,各车站一般需要50~200 TB存储空间。传统铁路综合视频监控系统架构见图1。
图1 传统铁路综合视频监控系统架构
1.2 存储现状分析
(1)故障点多。铁路综合视频监控系统主要由视频存储服务器、视频管理服务器以及磁盘阵列组成,这其中的任意一环出现故障,该系统下的所有视频都将失效。
(2)扩展不灵活。传统存储IP-SAN模式是硬件定义的存储方式,该方式依赖专用硬件磁盘柜对数据进行存储,数据读写性能受限于磁盘柜机头,每个机头可控制的硬盘数量有限(一般不超过16块硬盘)。进行存储扩容时,在存储空间无备份的情况下,需对既有RAID冗余保护模式进行格式化,既有存储内视频将全部丢失。
(3)性能低。现有存储模式在扩容时会导致读写性能下降且数据恢复速度慢,恢复数据时对系统性能影响严重,整个系统不能做到全时在线维护及扩容。
(4)数据无法共享及综合利用。IP-SAN存储的逻辑空间只能固定给单一的上层应用使用,空间需要预先规划,后期难以调整,容易形成数据孤岛。
(5)可靠性低。现有存储利用RAID作为冗余保护,只能做到每台磁盘阵列同时允许损坏1~2块硬盘,且无法在设备间进行负载均衡。
1.3 面临的挑战
随着时代发展,自2016年以来,原中国铁路总公司陆续发布TB 10006—2016《铁路通信设计规范》、《高速铁路反恐与公安标准(试行)》(铁总办〔2016〕174号)、《关于发布设计时速200 km及以上铁路区间线路视频监控设置有关补充标准的通知》(铁总建设〔2016〕18号)和Q/CR 575—2017《铁路综合视频技术规范》[3],对铁路综合视频监控的清晰度以及存储时间提出更高要求,由标清(4CIF)提升至高清(1080P),涉及公共安全的图像信息存储时限应不少于90 d,以上要求均会造成存储系统容量大幅增长。另外,“智能京张”“智能京雄”关于周界防护、人脸识别等应用要求,更加丰富了铁路综合视频监控的上层应用。
目前全路综合视频监控系统已发展至15万余路,需要庞大的存储系统作为支撑,同时系统存储部分还需要依照上述标准的要求进行扩容改造。但现有技术扩容面临存储扩容困难、成本高及并发读写性能劣化等问题,同时机房空间有限,都严重影响了升级改造工作。综合视频监控系统存储数据在稳定安全、灵活扩容、数据共享等方面提出新的要求,而云存储技术可以很好地满足这些新要求。
2 云存储概述
2.1 云存储定义
云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,通过网络智能地将复杂计算拆分成许多复杂度较低的计算,然后利用集群中多个服务器并行计算,并将处理结果回传给用户。
将云计算的概念扩展,云存储是利用高速网络搭建的一套分布式文件系统集群[4-5],利用软件灵活调配集群内部存储、计算和网络资源,利用虚拟化技术将资源整合为资源池对上层应用提供灵活方便的服务[6]。这种架构可以更加充分灵活地利用资源,节约空间,简化运维和使用流程,还可以保证数据的安全性。
2.2 云存储特点
(1)线性扩展。可以灵活地线性扩展性能和存储容量,以达到海量存储的目的。
(2)高可用。可以在集群中任意部件损坏时不影响上层业务及数据完整性,达到全时在线。
(3)负载均衡。可以在集群中实现业务数据的负载均衡。
(4)共享资源。将分布式存储内数据形成有机整体,通过结构化分类为上层应用提供基础数据。
(5)软件定义。针对不同上层应用,灵活调整数据块大小及分类,使性能达到最佳。
(6)灵活IOPS。采用分布式架构可以满足大型业务对高读写性能的需求。
3 云存储关键技术
云存储在架构上可以称为分布式存储。分布式存储就是将标准X86服务器的分散存储资源如HDD、SSD等虚拟成为一个整体资源,并对虚拟机以及上层应用提供工业界标准的SCSI、iSCSI、SMB、NFS接口,进而形成一个虚拟的存储整体,使用户最终面对庞大的存储容量,无需关心存储内部架构及原理。
3.1 云存储组成
分布式存储从架构上可分为3部分:元数据服务器(MDS)、数据服务器(DS)以及客户端[7]。元数据服务器管理存储元数据以及处理客户端发来的请求,是整个系统的“心脏”[8];数据服务器用于存放文件数据;客户端向系统发送读写请求。该架构的优点是能够同时提升容量和性能,增强系统的弹性。分布式存储架构见图2。
图2 分布式存储架构
3.2 实现机制原理
云存储的实现机制就是将数据分散地存储在不同物理空间的多个存储服务器上,并把这些不同物理位置的资源虚拟成统一的资源池。在分布式系统中,文件数据被切分成等大小的若干数据分块(Chunk),每个数据分块可复制成多个副本,分散在多个DS中,该文件的元数据信息包含所有数据分块及其副本的位置信息,作为后续数据访问的依据。一般情况下,为保证系统容量均衡和负载均衡,所有数据分块均以完全随机的方式分布在系统内所有数据服务器内。但对于某些高要求应用,如“存储即计算”框架下的应用程序,需要对数据的存储位置有更精细的控制,用户可以指定数据块存储的DS。数据分块的大小也可由用户指定,用户根据应用的访问模式对单个文件选择最适合的分块大小。数据量小于分块设定大小的数据分块(通常是小文件或文件尾块),其真实存储空间与实际大小相符,不会出现块内碎片。
3.3 服务实现流程
在分布式存储系统中,一个完整的数据访问流程需要MDS、客户端以及DS三者相互通信协调完成。一般情况下,数据访问都是由客户端开始,当客户端接收到来自应用的文件访问时,会根据需要发送相应的访问请求到DS和MDS,并处理DS和MDS的响应,并将结果返回至上层应用。数据访问流程见图3。
图3 数据访问流程
(1)文件读操作。客户端首先需要向MDS发送请求,获取该文件的数据分块分布信息,结合文件读操作所带参数(偏移量和长度),将该读操作指令转换为1个或者多个不同的读请求,每个指令面向1个数据分块。随后,客户端将该请求发往数据分块所在的DS,当所读取分块数据从DS返回后,客户端负责截取或组装数据,并将结果返回至上层应用,完成整个文件的读操作。
(2)文件写操作。文件写操作同样需要客户端与DS和MDS交互。客户端收到上层应用的文件写请求时,首先向MDS发送请求获取可写入的DS列表,随后根据文件写操作参数(偏移量和长度),将待写入数据拆分成多个数据分块,选择合适的DS发送数据分块的写请求,当所有DS响应后,客户端整理最终结果返回给上层应用。与读操作不同,写操作还需要考虑文件的副本需求,当文件使用多副本时,每个数据分块均会被复制多份,并按照策略选择不同的DS存储。对于不涉及数据操作的元数据操作,客户端接收到这类文件访问请求后,将只与MDS通信。这类操作包括:针对目录的操作、删除、创建、更改权限等。
3.4 容错机制
在云存储中常用的容错方式主要为副本或纠删码(EC)[9]。
(1)副本方式。将同一份数据1∶1的多次存储,在一些数据出现问题时通过剩余的副本进行恢复。该方式可将数据多次复制,实现2副本、多副本备份。安全性极高,但同时将占用更多的存储资源空间和能耗。副本原理见图4。
图4 副本原理
(2)纠删码方式。该方法通过软件计算方法保障数据的高可用。将数据切分成各种粒度的数据块,利用算法计算出许多冗余校验数据块,并将这些数据块分散存储在不同的物理位置。通过对n块基础数据块计算得到m块冗余数据。对于这n+m的数据块,一旦其中m个块出错时(包括基础数据和冗余数据),可以通过相应的回归算法复原基础n块数据[10]。磁盘利用率为n/(n+m)。与副本相比,纠删码方式更加先进,磁盘利用率更高。纠删码原理见图5。
图5 纠删码原理
综上所述,软件定义分布式存储的核心是利用软件系统高效灵活的算法,将数据随机分布存储在不同物理位置,将软件与硬件耦合。利用分布式算法及虚拟化技术将集群内的存储资源进行灵活自动化调配,为用户提供整体存储服务,具有分布式扩展、集中存储、数据加密等优点。
4 铁路综合视频监控系统云存储方案
铁路综合视频监控系统由视频核心节点、视频区域节点、Ⅰ类视频接入节点、Ⅱ类视频接入节点、视频采集点、视频汇集点、视频终端和承载网络组成[11],其架构见图6。
存储主要设置在Ⅰ类及Ⅱ类视频接入节点,目前铁路各节点间通信依靠铁路数据网,以千兆链路为主,个别线路依靠OTN技术实现了万兆以上通信,磁盘阵列与存储服务器通信。采用云存储方式,云存储集群内部自己搭建万兆局域网通信,存储服务器及磁盘阵列更换为整体的分布式存储系统。云存储视频监控系统结构见图7。根据高速铁路点多线长的特点,提出以下云存储实现方案。
图6 铁路综合视频监控系统架构
图7 云存储视频监控系统结构
4.1 站站云方案
各站均部署1个存储本站图像的云存储集群。针对目前的IP-SAN架构,仅对既有的IP-SAN存储系统进行更换。站站云方案见图8。
(1)方案优点:①与之前的综合视频监控系统比较,架构变化最小;②对各站之间数据网带宽压力无影响;③与之前的IP-SAN存储比较,提高了单站存储的可靠性。
(2)方案缺点:①由于至少需要3台云服务器才能组成1个云存储集群,所以造成投资成本高,且需维护设备较多;②单站存储容量相对较小,无法有效发挥云存储集群海量存储的价值。
图8 站站云方案
4.2 手拉手备份方案
基于铁路网络的特点,应用云存储需具有远程保护的功能,提出手拉手备份方案(见图9)。具体方案为:所有Ⅰ类节点和Ⅱ类节点都部署存储设备,每个节点的数据可备份至临近节点组成云架构,一旦本站存储集群出现故障,就可以将视频业务切换至临站。
(1)方案优点:①利用云存储的特性,做到站点级的备份保护;②业务正常使用时对各站之间带宽无影响。
图9 手拉手备份方案
(2)方案缺点:①需要在建设初期为每站都预留部分临站的备用空间,会增加投资成本;②故障时业务切向备用连接到临站,会导致站间流量瞬间加大,带宽压力变大。
4.3 相对集中云
在大站部署分布式云存储集群,将相邻的容量需求较小的车站视频集中存储到大站,可根据不同线路特点灵活部署。相对集中云方案见图10。
(1)方案优点:①几个车站形成1个云,资源相对集中,可实现统一管理,能更好地发挥云存储的优势;②大大减小了小站机房的空间压力;③在建设初期就已经根据线路各站间数据网带宽情况和小站码流总量进行规划设计。
(2)方案缺点:对小站与大站之间的网络形成依赖。
图10 相对集中云方案
铁路综合视频监控系统有别于一般公众行业的安防系统,它具有点多线长带宽有限的特点。基于铁路自身特点,大集中的视频云存储方案在现阶段还难以实现。为了顺应技术发展,配合越来越丰富的上层视频应用,相对集中的云存储方案灵活可控,在建设初期就可根据各站之间的数据网带宽情况选择合适的部署点,应是现阶段的最佳选择。
5 铁路综合视频监控系统云平台建设方案
随着云技术、人工智能的发展,在承载网络带宽具备条件的情况下,云存储只是迈出了铁路视频监控智能化的第一步,仅对存储部分进行了智能分布式架构设计,在存储层面实现了高可用和在线扩容。若要实现真正的智能化综合视频监控系统,还需进行深入研究,将既有视频系统内的管理、告警、分转发以及相关的业务功能与云存储设备及功能高度耦合,形成云平台方案,真正实现系统级的智能化、高可用和永久在线维护。综合视频监控系统结构可调整为“视频核心节点—视频区域节点—视频接入节点—视频汇集点—视频采集点”架构,将各接入节点均设置云平台,将用户资源、摄像机资源、告警资源、存储资源等统一进行计算,实现全系统的弹性计算、弹性存储分配,保证全系统动态资源调度管理和动态能耗管理,即取消原Ⅰ类接入节点对各Ⅱ类接入节点的管理层级限制,实现统一管理功能。综合视频监控云平台结构见图11。
图11 综合视频监控云平台结构
6 结束语
分析既有铁路综合视频监控系统存储现状,研究探讨云存储实现模式。通过方案比选,甄选出适合现阶段铁路综合视频监控集中云存储系统的建设方案,可有效提升监控存储的安全性和稳定性,并进一步优化系统结构,提出云平台方案,为综合视频监控系统智能化以及大数据分析提供基础保障。
综合视频云存储系统只是迈出了铁路视频监控智能化的第一步,在存储层面实现了高可用和在线扩容。为使铁路综合视频监控系统发挥更大价值,仍需进一步研究,将既有视频系统内的管理以及分转发等业务功能与云存储设备及其功能高度耦合,形成云平台方案,才能真正实现系统级的智能化、高可用和永久在线维护。