基于Hadoop的涉案视频资料云存储平台研究
2019-09-11单大国
许 锋 单大国
(中国刑事警察学院声像资料检验技术系 辽宁 沈阳 110035)
1 引言
目前监控视频向着网络化、高清化、数字化、智能化快速发展,监控质量的提高、线路和存储时间的增加,使得涉案视频资料和勘查信息海量增长,非结构化数据的存储需求日益突出,传统存储方式已无法满足其爆炸性需求增长[1]。同时由于影像资料取证、管理不规范,使得影像资料无法形成完整统一证据链条,只能作为侦查线索使用,极大影响了对犯罪分子的有力打击[2-3]。 上述情况使得规范、科学、合理的管理这些海量、复杂、异构的涉案视频影像资料成为公安部门沉重的负担,是当下视频侦查部门亟待解决的关键性问题。
随着目前信息技术从“互联网时代”进入“大数据时代”,存储技术发生了翻天覆地的改变,云存储技术应运而生,其自身的优势克服了传统存储设备容量有限、扩展难、异构数据存储、管理难及访问效率低等缺陷[4]。本研究基于Linux集群技术,利用Hadoop构建底层云存储,设计并开发了涉案视频资料存储云平台,深入研究了平台的使用需求、总体框架模型及各功能模块,从而满足海量涉案视频影像资料合理、科学、高效存储和管理的需要。
2 涉案视频资料云平台设计原理
2.1 云存储技术
云存储是大数据时代中的新型存储模式,可以将不同位置、不同种类的存储器通过网络连通,在分布式计算、集群应用及网格技术的支撑下,为相关用户提供数据存储和业务访问[5-6]。本文针对规模化视频监控存储模式,实现了集中式存储,提供空间的统一命名,异构环境下集中存储,分布式集群并发功能,相对于传统存储模式,其优势有:用户前期无需购买大量高性能的服务器设备,后期也无需专业人员对设备进行管理和维护,降低用户成本;各种存储器被集中管理,依据带宽及剩余空间统一分配存储空间,极大的提高了存储器的利用率和存储效率;系统利用自适应算法添加硬件及节点,在不影响现有用户使用的前提下,快速便捷地扩充存储空间和用户数量;系统中数据的完整性及可靠性是首要前提,利用数据自动备份机制,避免各种特殊原因造成的数据丢失,从而提高容灾能力;利用手机、电脑及平板等智能终端,用户通过认证登录云存储系统,可不受地域束缚、便捷的获取相关数据。
2.2 Hadoop技术
由Apache基金会组织开发的Hadoop系统具有良好的可扩展性、稳定性和容错性,其充分借鉴了Google 公司大规模分布式数据存储、MapReduce计算框架、可扩展的文件分布系统技术,是目前最为流行的开源云平台。Hadoop充分利用并行计算、网格技术等软件处理方式,将海量数据保存在大量廉价存储器上[7-8]。
2.2.1 HDFS
HDFS(Hadoop Distributed File System)是分布式计算中数据存储管理的基础,专门针对流数据访问方式和超大文件处理需求而研发,并且可运行于廉价存储器之上。其自身的高容错性、可扩展性、高吞吐率等特点保障了超大数据存储过程中数据的完整性和可靠性,为使用者提供了更多的便利。HDFS采用Master/Slave的架构存储数据,由Client、NameNode、DataNode和Secondary NameNode4个部分组成。在文件上传过程中一个一个的Block被Client切分,进而存储;HDFS 的名称空间、数据信息、副本的配置策略及客户端读写请求由NameNode负责管理;DataNode执行数据块的读/写操作;Secondary NameNode辅助NameNode,分担其工作量,定期合并fsimage和fsedits,并推送给NameNode。
2.2.2 MapReduce
MapReduce是一个离线计算框架,主要思想是移动计算,在有数据存储的机器上运行编写完成的程序,从而达到各个任务端进行分析计算,数据不发生移动的效果。MapReduce的主导设计理念是一主多从,Jobtracker被布置于主节点之上,主要职责是调度及分配相应的子任务使之运行于TaskTracker上。而TaskTracker则被布置于从节点上,其职责为接收并执行map task或reduce task任务。MapReduce通常包括split、map、fetch和reduce4个执行过程。
2.2.3 HBase数据库
HBase(Hadoop Database)是分布式的、开源的、非关系型、面向列的数据库,具有稀疏性、可伸缩、高可靠性和高性能等特点。HBase中以行键为唯一标识,类似于关系型数据库中的主键。HBase中的列以列族为单化,列可以在使用时动态添加,列名由列族名和修饰符组成。HBase数据模型主要支持Get、Put、Scan和Delete这4个操作。
随着警用及社会类监控网络的不断发展,产生了大量视频电子数据,既有结构化数据,更包含大量非机构或半结构化数据。针对目前的实际情况,利用Hadoop分布式技术,对海量的涉案影像资料数据进行高效处理、存储至可扩展的分布式数据库中,进而搭建易扩展、高效能的存储管理系统,使影像资料形成完整统一证据链条,为后续司法诉讼提供支持。
3 基于Hadoop的涉案视频资料存储云平台设计与实现
3.1 平台需求分析
刑事案件视频现场勘查采集的相关资料种类繁多、文件格式多样,主要包括涉案视频影像及MD5校验码、监控点信息(位置、朝向、归属、格式、时差等)、现场勘查及询问笔录、视频现场分布图、提取证据通知单、相关证据的检验鉴定、涉案手机基站信息、手机通讯录及话单详情、网络数据、宾馆登记信息、高速公路通行数据信息、公共交通卡信息、银行卡及取款机交易记录信息等。平台主要面向公安一线干警,可将需求细化成本平台的总体目标和性能要求:解决现场勘查得到的大量视频、文档、音频、照片等各类格式诉讼证据存储与备份问题;支持廉价PC做为服务器,提供横向扩展存储空间功能,节省硬件费用;基于数据分块冗余和在线备份技术,管理海量的涉案影像及勘查信息数据,为基层干警提供可靠、安全的数据存储服务;为用户提供多维度的资源管理、搜索、分类、共享等功能,支持图片在线浏览、文档在线编辑等功能;具有数据备份、数据同步、数据加密、数据恢复、数据共享、日志查看、案件资源及人员管理等功能。
3.2 平台架构设计
涉案视频资料存储云平台根据存储数据自身特点,其逻辑架构分为4层,如图1所示。
图1 涉案视频资料云存储逻辑架构图
3.2.1 资源层
本文中指的资源主要为物理资源(机房、数据中心及灾难备援设备等),在分布式文件系统、网格技术及数据库集群的支撑下,提供涉案视频资料存储云平台的基础资源。
3.2.2 服务层
控制服务层应用的访问权限,为第三方开发者及用户提供资源封装和服务接口,通过service对资源层实现结构化与非结构化数据存储及管理、用户数据同步、备份及恢复、数据格式转换等功能。
3.2.3 应用层
应用层是涉案视频资料存储云平台的核心部分,完成资源存储、管理及业务操作。面向公安视频侦查实战部门用户。通过各功能模块,提供涉案视频影像、现场勘查信息及涉案影像资料卷的在线操作。
3.2.4 接入层
用户可以通过网络(内网或外网),使用电脑、平板、手机及其他系统等方式接入平台,实现数据共享。
3.3 Hadoop平台环境配置
本涉案视频资料云存储平台采用5台PC电脑组建Hadoop集群,各电脑配置均为CPU双核Intel(R)Core(TM) i5-3470 @ 3.20GH Z;内存4.0GB;硬盘1TB。其中1台电脑作为集群的主节点,其他4台作为从节点,主机的IP设置为192.168.0.1,网关为255.255.255.0。
3.4 平台功能模块及运行界面
涉案视频资料云存储平台的主要功能:案件目录管理、平台用户管理、影像资料及文件管理、菜单标签管理、卷宗生成功能、案件串并管理、数据管理和共享管理等功能模块,如图2所示。
图2 涉案视频资料云存储平台功能模块图
其核心功能如下:
影像资料及文件管理:针对涉案视频影像及视频现场勘查所涉及的数据,提供上传、下载及编辑功能,可完成word、excel及常见图片格式的在线预览,.mp4及.h264格式视频在线播放,其中视频现场勘查信息上传页面,如图3所示,可完成涉案监控点位的设备信息采集,包括所属案件、分布图上摄像头编号、采集文件名、MD5码、时间校正、视频格式、GPS坐标、所属单位、朝向及盲区、见证人、提取物证通知单及嫌疑目标等相关信息。
图3 勘查信息上传界面
数据管理:提供整个视频证据云存储平台相关数据的处理,提供资料编辑、数据备份、数据恢复及数据同步等功能,其中数据备份页面,如图4所示,现实正在执行的备份任务,包括文件大小、备份时间、备份类型、进度、状态等实时信息。
图4 数据备份界面
案件串并管理:实现相关案件串并的涉案信息及侦查人员的新增、删除、修改及数据编辑等功能,串并案依据页面,如图5所示,选择需要串并侦查的案件,根据案件侦破的实际需要提供常见的8种(技术检验、盗抢财务、作案手段、作案时间、作案工具、遗留物、痕迹附着物及DNA数据)案件串并侦查功能,并提供案件串并资料汇总功能。
系统管理:利用管理员权限可实现人员信息管理、权限设置、存储空间及运行日志查询功能。其中人员信息管理,如图6所示,包括对用户名、姓名、单位、年龄、职务、最近访问时间等信息的新建、编辑及删除。存储空间管理,如图7所示,实时显示云存储平台内各个存储器的使用状况(包括硬盘空间、使用空间、剩余空间、存储速率及最近访问情况等),根据实时状况合理分配存储任务。
图6 人员信息管理界面
图7 存储空间管理界面
4 结论
本文基于Hadoop相关技术和系统架构理论,整合了视频侦查工作中采集的案件资源,通过改变传统的存储与检索方式,利用综合平台的人性化界面功能,提高了视频案件资源的存储与检索效率,激发了办案人员对于案件数据和资料进行精细化梳理的积极性,增强了实战办案能力。在此基础上,平台实现了对离散数据和碎片化资源的结构化整合,为案件后期的卷宗整理和证据链形成,提供了具体的方案设计和模型框架参照,在资源类型和网络化模式等方面保证了平台功能扩展的可行性。本平台的核心功能针对视频侦查资料的多样性和丰富性,提供了安全可靠、高效率的处理和管理方案,平台的研究作为公安工作信息化的有力补充,为视频侦查工作节省了诸多的人力、物力和财力资源。