全景视域下的视频监控探究
2019-10-28杨宝生
杨宝生
(1.宿州市工业投资集团有限公司,安徽 宿州 234000;2.宿州市政府,安徽 宿州 234000)
一、概述
近年来,随着计算机科学与技术的快速发展,视频监控依托计算机技术的进步也得到了广泛的应用,而智能视频分析技术、智能音频分析技术、专家系统、传感器融合技术等人工智能技术也为视频监控带来了新的发展的机遇。“高清”、“超清”以及全景视频监控日渐成为市场及现实应用关注的焦点,即在同一个场景中视野更广并且能看到尽可能多的实体[1-3],上述需求需要应用能360度全向视频采集的全景摄像机及其对应的全景监控方案方能解决,如此与全景视频监控解决方案相关的研究就应运而生了[3-4]。
全景视频不仅可以全方位的实时记录某时某地的现场情况,而且可以实时将某个地方的实景用三维立体的方式表现出来,让观察者能够沉浸其中,这事是目前比较常见的VR解决方案。但是,全景视域下用户可以环顾周围环境,却无法与场景进行交互,不能做到像真实生活中的经验那样,真正触摸或改变视频中的任何东西,即无法做到与视频场景进行实时交互。360°全景视频采集是一种新型的拍摄和呈现技术。针对大多数人而言,360°全景视频的体验却是人们VR体验的第一次尝试。根据目前的发展趋势及未来对全景对视频采集、监控的现实需求而言,全景视频的数量将会呈现爆炸式成长[5-9]。
全景视频已经成为当今视频采集、播放以及分析的新潮流,越来越多的视频网站支持全景视频播放,自从GOPRO流行起来之后,利用多个GOPRO镜头拼接起来拍摄360度无死角的全景视频成为全景视频领域的新宠,Facebook天价收购虚拟现实VR创业公司Oculus VR之后,VR全景视频开始成为当红花旦,社交领域也越发红火。从技术角度而言,全景相机的对焦都是无限远,而且无论有没有将镜头对准被摄物体,最终成像都会包含这个被摄物,如果想要查看拍摄点的拍摄效果,通过短距离无线通信技术连接得到匹配的手机APP直接预览画面就可以。值得注意的是,距离拍摄物体最好1米以上,否则全景拍摄的“鱼眼”效果很明显,不利于观看与分析[10-14]。
二、相关研究
目前,学术界与产业界对能360度全向摄影的全景摄像机并没有明确的量化定义。一般而言,能够对某一特定监控区域独立的无死角全向监控的摄像机都被称为全景式摄像机,例如目前被广泛应用的海康威视鱼眼摄像机。与传统摄像机不同的是,为了实现良好的拍摄效果,全景摄像机一般安装在监控区域的上方,实现对监控区域的“鸟瞰”,例如可以会议室的天花板上安装一台向下 “俯视”的鱼眼摄像机,从而实现拍摄会议室全景的效果,如图1与图2所示,诸如此类实现360度全向无死角拍摄的摄像机被称之为全景摄像机[5,6]。
图1 360度全景摄像机鸟瞰拍摄效果
图2 360度全景摄像机侧视拍摄效果
目前,全景摄像机主要应用于视野开阔的监控场景,比如各种道路交叉口、商场超市、政务及银行大厅、车站码头等人员密集场所,上述人员密集场所所要监控的视域宽度往往达到成百上千米,结合深度学习与人工智能技术,需要从监控视频中看清人脸、车辆牌照等细节,全景摄像机在这些场合得到大量的应用[5-7]。
Reality Lab Networks公司研发了一站式全景视频采集、存储、播放与分析工作平台,以简化360°全景视频的制作流程。这个名为Live Planet的摄像头工作站,包括一个全景摄像头、云存储平台和相配套的视频处理与分析套件。其中,摄像头可以实时地对视频片段进行全景记录与编码。之后,所有4K的全景视频片段将被传送到云平台,这个云平台能够自动地根据不同的VR以及全景播放设备与平台进行转码,可支持设备包括 Oculus,HTC Vive,Google Cardboard,Gear VR,Facebook 360 与 Youtube 360,等等[5-9]。
目前,在全景视频与虚拟现实领域,最著名的Magic Leap公司是最受投资者青睐的公司之一,该公司的4D光场显示技术的主要特点在于可以为用户呈现出不同深度的监控视频,让观众从每个角度看到的东西都不一样,提供很真实的视场体验,并且有望解决观看眩晕的缺点[15-17]。
三、全景视域下的视频监控及分析框架
本文提出的全景视频监控系统框架如图3所示,主体为中央处理单元,其对应的各组件功能描述如下:
图3 全景视频监控系统框架
(一)视频采集组件:360度采集系统所要监控的区域视频,并将采集到的视频传送到视频防抖与去噪组件;360度视频采集主要分为三种方式:(1)实拍获取:采用一体式全景摄像机或者多相机组合方案,采集的方式是各个相机同时拍摄同一区域内不同角度的视频,后期通过专业软件输出,或者通过专业的视频拼接软件进行同步、拼接、调整、输出;(2)CG制作:使用诸如3Dmax等三维创作软件进行模型搭建、贴图处理、动画制作,摄像机添加等工作,最后借由计算机渲染而成;(3)实拍结合CG制作:在专业摄影棚拍摄主体影像,包括人物,道具以及相关动作,后期加入CG制作的背景和环境、或者CG制作的其它元素和实拍影像进行融合,达到真实的全景效果。
(二)视频抖动与噪音抑制组件:视频采集过程中由于受设备本身与工作环境的影响,不可避免的会出现视频抖动与噪音,需要视频采集过程中出现的抖动与噪音进行最大程度的补偿与抑制,并且对视频中的噪音利用降噪编码器技术进行降噪。
(三)视频合成与切分:将全景摄像机采集到不同方向的视频进行无缝拼接从而生成全景视频,并传输到显示终端;对于需要视频分别显示的应用场景,把相应的视频按照要求进行拆分,显示到不同的展示终端;视频合成与分割是一个简单易用的视频转换、合并与分割的功能,本文采用全新的国际一流的编解码技术,具有转换(支持单个与多个文件的同时处理)、合并与分割视频质量高、速度快的特点,支持批量分割,是全景视频处理常用必备的视频处理功能。视频合并与分割更是一款功能强大的全能视频格式处理组件,该组件支持 RMVB、ASF、AVI、WMV、MPG、MPEG、GIF、MJPEG、MP4、MKV、MXF 等主流视频格式。
(四)视频投影与映射:将(3)中生成的全景视频以及不同方向的视频,根据实际需要进行投影或映射,输出到不同的展示终端,同时接受并处理相应的人机交互指令。
(五)目标检测组件:对视频中的目标物体进行智能检测,比如人脸识别、车牌识别、移动轨迹追踪,综合运用检测到的各种信息统一进行智能研判。同时,可以结合目前主流的深度学习技术提升全景视频中目标检测的精度,在深度学习框架中,无需人工设计检测目标的特征,深度学习良好的特征表达能力及优良的检测精度,能很好的拓展深度学习技术在全景视频分析领域的应用。目前,基于深度学习与大数据技术融合的目标检测算法已经在检测精度方面超越传统的目标检测方法,成为当前视频目标检测算法的主流。
四、应用探究
文章提出的全景视频监控方案主要适用于安防监控、智慧城市管理、智能交通、消防、智慧平安校园等各种具有地理信息、可视化管理以及实时监控需求的行业。并且有着非常广阔的应用场景,可应用于人员密集场所的管控,物流区域调度、重要道路关口、人口密集区、水库油料敏感场所、车站码头以及政府部门和水电油气、金融等要害部位的安全风险防控,为管理部门提供实时的现场信息,提高管理部门应对突发事件的处置能力。图4展示的即为敏感道路卡口的全景监控画面,实现各个方向画面的无缝对接,比传统的视频监控具有更广的视野。
同时,全景监控方案目前应用比较广的是智能车载系统中的全景倒车影像,通过车载显示屏幕观看汽车四周360度全景,加上超宽视角,无缝显示车辆的图像信息,让驾驶员能更好的了解车辆周边视线盲区,帮助完成倒车入位等。
融合目前在各个领域成功应用的深度学习技术,本文提出的全景视域下的视频监控方案可以在如下两个方面开展应用与研究:
图4 道路卡口全景视频画面
图5 360全景倒车影像
(一)基于深度学习技术的人脸识别:传统的人脸检测与识别主要是针对有限视域下的视频信息进行的,本文提出的全景视域下的视频监控及分析框架不仅弥补了传统视频监控视域有限的不足,而且对传统的视频分析模型提出了新的挑战。针对上述问题,构建基于卷积神经网络ResNet的人脸识别分析模型,通过对ArcFace人脸识别算法以及人脸识别损失函数Additive Angular Margin Loss进行完善与调优,实现对不同姿势、复杂光照、不同表情以及存在遮挡的人脸进行稳定的识别,改善人脸检测技术在实用中的泛化能力。该项技术可以被应用智慧交通中的行人穿红灯识别,违章驾驶中的驾驶员信息识别等等。
(二)基于深度学习的异常行为检测:金融以及金融活动场所的安全作为智慧城市建设的重中之重,目前面临着诸如尾随取款、现场抢劫、异常倒地、遗留物品、携带武器、破坏ATM机等异常行为。本文提出的全景视域下的视频监控方案,可以在上述金融或其它公共场合布设全景监控设备,获取实时全景视频信息,采用基于稀疏自编码的特征融合的深度学习框架,对人员的活动特征 (多尺度光流直方图)以及表观特征进行融合分析,并建立视频语义分析模型,提取视频语义信息,包括全局语义、局部语义以及高层特征的融合,利用卷积神经网络中的2D卷积与3D卷积,解决深度学习网络训练过程中出现的“梯度弥散”问题。该项技术可以实现对智慧城市重点建设的自助银行、无人超市、车站等公共场所人员的异常行为进行实时监测,做到及时发现并及时处理,提升安全保障。
五、总结
随着人工智能技术的发展,以及移动支付、智能金融、智慧安防等场景的延伸,以全景视频为核心的监控系统越来越获得市场的更大青睐。在人工智能、深度学习、大数据技术的推动下,视频监控技术创新不断,本文顺应技术潮流,提出全景视域下的视频监控与分析方案,并结合当今先进的、且在其他领域得到广泛应用的深度学习技术,对基于深度学习技术的人脸识别与异常行为检测的应用进行了探究,具有技术可行性,能很好的应用到实际生产中,并产生良好的经济效益。
本文提出的全景视域下的视频监控及分析框架进具有理论与技术实现可行性,框架中的中央处理单元包括视频采集组件、视频抖动与噪音抑制、视频合成与切分以及投影与映射组件。本文提出的全景视频监控方案实现了多角度、全方位无死角的视频采集与处理,解决了传统视频监控需要在同一个区域部署多个单目视频采集设备、需要大量人力物力并且增加后期视频处理难度等问题。综合当前学术界与产业界的需求,本文提出的全景视频监控与分析框架具有现实应用价值。未来可以进一步融合大数据与深度学习技术,不仅可以拓宽全景视频分析的研究视角,而且可以更好地实大数据与深度学习的应用前景。