基于增强现实技术的视频监控系统
2015-02-05高新兴科技集团股份有限公司
高新兴科技集团股份有限公司 李 欢
基于增强现实技术的视频监控系统
高新兴科技集团股份有限公司 李 欢
目前视频监控技术已经发展到网络化、高清化和智能化的阶段,给画面观看者提供了更便捷、更清晰、更轻松的体验。但是当用户对视频画面中的场景并不熟悉时,用户无法快速的了解并分析视频画面,这在一定程度上降低了效率。通过增强现实的方法,将画面中的信息如街道、楼宇、商铺等信息叠加在画面上,使观看者能在第一时间所见即所得。特别是在公共安全领域,少量的观看者关注着整个城市不熟悉的街道,此技术能极大的提高其工作效率。
视频监控;增强现实(Augmented Reality);网络摄像机;安防
引言
视频监控技术经历了模拟监控、数字监控、网络监控、高清监控、智能监控等几个时代的发展,在社会治安中扮演着越来越重要的作用。到2014年为止,视频监控技术的3大技术方向为H.265编解码(图像码流更小)、4K高清(画面更清晰)以及智能分析(画面信息更多)。
智能分析技术蓬勃发展,目前也逐渐体系化。主要分为行为分析(如绊线、越界检测)、特征识别(如车牌、人脸识别)、辅助类工具(如视频浓缩、摘要)。这些技术将原本需要人体肉眼去观看和辨别的事物,改由计算机系统自动处理了,也就是人脑的处理逻辑被输入了计算机。这样大大地方便了视频的观看者,减轻了视频观看者的负担,提升了观看者的效率。
但是经过研究发现,人体大脑本身就不能识别的事物,因为无法逻辑化,所以计算机也无法识别。比如画面里面的街道方向,远处一栋楼下的小店名称。视频画面里面体现了这些内容,但是人脑无法对它们进行识别,因为人脑的知识库里面没有相关的信息,除非你对视频画面里面的内容非常熟悉。
为了解决这个问题,本文提出了一个基于增强现实技术的视频监控系统,并详细介绍了其中的各个模块及技术。
1 增强现实技术综述[1]
增强现实是将计算机生成的图形、文字信息叠加到现实景象之中的技术。在上个世纪90年代,美国的波音公司率先提出“增强现实”的概念。英文全称为Augmented Reality,国际社会普遍简称为“AR”。
随着技术的发展,增强现实技术开始在人类生活中的各行各业中普及起来。目前全球的主要应用集中在科研、医疗、工程、机器人、军队、生产制造以及游戏娱乐等领域。最新在全球出名的增强现实应用是GOOGLE GLASS。目前人类肉眼还不能直接获取计算机信息,所以现阶段的增强现实应用必须依靠摄像机和显示器。
计算机系统将数据信息叠加在摄像机采集的视频画面上,然后显示在显示器中。人体肉眼通过观看显示器,可以在看到实时画面的同时看到更多的计算机信息。
当大脑分析眼睛捕获的信息时,如果信息不能准确地显示在指定的区域,会引起大脑的信息处理错误和矛盾。所以,必须要求信息能够在画面中精确地定位与显示。摄像机镜头的姿态必须输出精确的位置数据。近年来,各种传感器的技术日新月异。其中,GPS、北斗、重力加速度计、磁力线感应计、距离传感器、数据罗盘、电子陀螺仪、超声波传感器、结构光传感器、惯性导航传感器等体积越来越小,精度日益提高。增强现实是涉及到多学科交叉的应用技术,各个学科的发展都会促进其发展。如这些外部传感器的发展使得增强现实技术在实际应用中得到长足地发展。
2 视频监控摄像机技术综述
视频监控技术从上世纪80年代开始进入人类的生活。在人类的生存、安保、发展方面起到了不可忽视的作用。上世纪90年代后期,基于模拟信号的视频监控系统初步跨入了半数字化的时代。本世纪00年代中期,视频监控技术快速发展,进入了全数据化的时代。从摄像机开始,所有采集的信号均为数字信号。后端的传输、存储、计算均为数字化系统。
当视频被数字化后,数据量非常巨大。传统的压缩编码是建立在香农(Shannon)信息论基础上的,它以经典的集合论为基础,用统计概率模型来描述信源。因此,压缩编码的发展历程实际上是以香农信息论为出发点,一个不断完善的过程。ISO国际标准化组织于1986年发布了JPEG编码。又于1998年发布了MPEG编码算法。此时标志着视频编码算法正式诞生。随着时代的发展,压缩算法效率越来越高,压缩率也越来越高。分别经过了Mpeg1、Mpeg2、Mpeg4、Mpeg4 AVC等。国际电传视讯联盟ITU也发布了一系列的视频编码算法标准,分别是H.261、H.262、H.263、H.263+、H.263++、H.264到今年推出的H.265算法。
摄像机的传感器和处理系统也在快速发展。靶面越来越大,像素越来越多。对人眼最直观的感受是面画的视野越来越大,越来越清晰。历史上经过了像素为176×144、352×288、704×576、1280×720、1920×1080的发展。截止2014年,在视频监控领域中最新的技术就是4K技术,画面分辨率为4096×2160。相比最初的视频画面,足足大了350倍。代表着人眼可以看到的信息量是越来越多。
3 视频监控智能分析技术综述
基于视频监控的智能分析技术是建立在解放视频观看者的思路之上。它的基础是计算机图像视觉分析技术,简称机器视觉。智能分析技术诞生在视频数字化以后,目的是将非结构化的图像数据尽可能的进行结构化描述。经过发展,目前分为三大类技术路线。
第一种是行为分析。通过将场景中背景和目标分离进而分析并追踪在摄像机场景内出现的目标,然后通过目标触碰预设的规则而触发报警。例如绊线检测、区域入侵检测等。
第二种是特征提取。此项技术是在背景和前景分享技术上的高级应用。当检测到目标前景图像后,对图像进行分析、特征提取和识别。例如车牌识别技术、人脸识别技术等。
第三种是辅助技术。目的是提高视频观看者的工作效率。例如视频摘要技术,是将长时间的视频中的移动前景目标提取出来,放在同样的背景之中。根据原视频长度,原视频前景目标数量和目标视频画面的放置密度等条件,可以将例如24小时的视频压缩到20秒钟。极大的解放了劳动力。
4 增强现实视频监控技术
从目前几类技术的发展来看,形成了固定的发展趋势。为人类的安全生活提供了重要的保障。但是研究发现,上述技术在技术发展的同时,留下了很大一片空白区域。智能分析技术在对前景进行结构化描述时,忽略了背景信息的重要性。目前尚无任何科研成果能够通过计算机自动的去描述画面背景。将增强现实技术应用在安防领域的视频监控摄像机上能解决这个问题。
4.1 视频背景结构化显示
增强现实技术是一个多学科的交叉应用技术,包含了计算机图形学、多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合等新技术与新手段。
在计算机尚不能自动对背景进行结构描述的当前,用户或系统提供商手动或半自动在视频画面中添加信息是最直观有效的解决方案。添加保存后,用户在使用观看时可以直接呈现。画面中可以添加文本、声音、视频等多媒体资源,同时还可以进行信息之间的互动,如展开详细信息、播放、跳转等。基于这些基础特性可以在多个场景中实现增强现实应用。例如由后台多系统关联并提供的目标详细信息显示,由商户的提供在可展示的在线购物,由景区发布的景区画面、天气、人流、名胜古迹历史信息等应用。
为了达到人脑易接收,易分析,乐于接收的目的,增强的信息显示作为与用户眼睛接口的界面,必须达到美观、易懂、易操作等基本要求。这就要求了计算机图形学、三维建模等技术的应用。这类技术加上UCD设计可以达到其目的。
如何达到实时性和提高渲染效果是传统AR技术研究者必须面对的一个问题。在安防领域中,视频监控通常选择使用台式机与服务器作为计算与显示主体。目前2014年,市面上主流台式机已经完全胜任其计算工作。但不排除在民用安防市场,用户使用手机等移动终端进行观看。所以针对不同的应用场景,实时性和效果可以通过调整信息显示的复杂度来解决。
4.2 画面中信息的定位
从摄像机的形态上来讲,分为枪型、球型、半球型、筒型、异形等。球型摄像机简称为球机,区别于其它形态的摄像机。除了球机以外的所有形态摄像机都为固定式摄像机。球机的镜头可以水平360°、垂直92°旋转, 并且镜头观看的场景可以从几米到几十公里距离远近变化(视场角变化)。因为固定型摄像机不会转动,所以技术复杂度较球机低。枪机因为不会转动,所以不需要考虑信息在画面中偏移的问题。可以选择采用基于画面像素点的二维平面坐标系来定位叠加到画面上的信息。
图1 磁北与地北
因为球机的镜头会转动,叠加到画面上的信息也需要随着画面移动,此时必须动态地计算信息的显示位置坐标。当我们需要获取摄像机镜头在真实世界中的东南西北方向时,需将数字罗盘集成在球机机芯之中,可随着机芯的运动姿态而采集到实时姿态数据。其中,数字罗盘采集到的正北方向是磁场的北极,与地球的地理北极还有一定的差距。需通过磁偏角来修正为地理北极(如图1所示)。
在增强现实信息的坐标获取上,不能采用枪机一样的XY二维平面坐标。第一,因为球机的视野是一个三维球空间,无法简单地进行二维展开。因为有深度,所以相同的目标出现在镜头里面不同位置时,二维画面没有固定的对应坐标。第二,在将三维球空间进行二维投影时,每一台摄像机的镜头都会产生光学畸变,当目标物体在左上角时,和目标物体在正中心时,它们之间的位移与镜头的转动角度位移没有线性关系。
除了找到地理北极,数字罗盘还可以获得姿态的垂直倾角和水平方向角。增强现实的信息标签虽然在视频画面中以2D图标显示,但坐标是以3D格式存储。3D坐标以球面坐标形式存储,包括了P(水平方向角),T(垂直倾角), D(距离)。球面坐标原点在摄像机所在位置,以正北水平方向为P轴方向(如图2所示)。
4.3 精确定位[2]
民用GPS、北斗一般精度在3m到12m左右,在较差的天气中,最大误差可达50m。在设计中使用GPS、北斗互备及互相参考的方式,以及系统对历史数据进行学习的方式。可以使经纬度、海拨等数据保持较高的精度。
数字罗盘也会因为附近的磁场干扰产生误差。数字罗盘的原理是检测地球磁场磁力线,如果在使用的环境中有地球以外的磁场,且这些磁场无法有效的屏蔽时,那么电子罗盘的使用就有很大的问题,这时只能考虑使用陀螺来测定航向了。现有许多户外的系统中的校正算法需要大量的输入和繁琐的校正步骤。可以将其思路借鉴,通过在摄像机上配置多种传感器来互相校正。
4.4 兼容性设计
以上数据统一经过标准数字化后,用通用文本语言描述。
增强现实信息使用xml语言描述,以地理位置信息为例,格式如下:
〈position〉
〈longitude〉E 116.3972282409668〈/longitude〉〈latitude〉N 39.90960456049752〈/latitude〉〈altitude〉+ 44.4〈/altitude〉
〈description〉天安门广场〈/description〉
〈/position〉
position标签包括longitude(纬度)、latitude (经度)、altitude(海拔)和description(文字描述)4个子标签。用户可根据需要扩展和追加。
longitude标签值的格式为“[E/W][度数]”,E/W表示东经/西经,度数要求至少小数点后5位。
表1 NAL单元类型
latitude标签值的格式为“[N/S][度数]”,N/S表示北纬/南纬,度数要求至少小数点后5位。
altitude标签值的格式为“[+/-][高度]”,+/-表示海平面以上/以下,高度要求至少小数点后0位,单位为公制米。
H.264码流结构是采取NAL单元流格式进行码流打包传输,同样,在NAL头类型定义时,也有补充增强信息定义。
表1中定义了nal_unit_type=6时,为补充增强信息,具体的补充增强信息类型定义见表3。