会思考的“鹰眼”

2018-01-16源乘

检察风云 2017年24期

源乘

信息科技的蓬勃发展催生了图像监控（又称为“摄像机”）的普及化。基于安全防范的考量，如今各式各样的摄像机出现在大街小巷之中，甚至走进了居民住宅的私密空间。据上海市公安局交通警察总队的统计数据，截至2017年6月，本市公安机关用于监控的摄像机已达到1.4万余个。可以说，我们已经被摄像机包围！

但是，目前监控摄像机的主要用途是“实时监控”，便于使用者在事后查找录像、锁定证据、追寻线索。而在警戒、分析、预判等方面的功能却尚不够完善。面对数量如此庞大的摄像机以及海量的视频，如果我们仍然沿用“人力监控、人工查询”，结果只会效率低下。因此，如果能将“视频图像”转换成计算机能够识别的信息数据并前置于摄像机之中，由计算机代替使用者去实施查找、警戒、分析、預判，那么所有问题将迎刃而解！在这样的大背景下，“视频智能分析”，“后端智能”，乃至“前端智能”的感知型摄像机逐步走进了人们的视野，被使用到我们的生活与工作之中。

视频智能分析（Video Analyzing）

所谓“视频智能分析”，是指依托计算机从视频图像中通过特定的程序运算和分析模型，提取视频图像中有价值的内容信息、运动信息等数据信息的一项科学技术方法。简而言之，就是通过计算机代替使用者去监控、查询、分析、警戒视频图像。对计算机而言，摄像机记录的视频图像仅仅是一个包含每一帧、每一个像素点的灰度值或者彩色值的数列。“视频智能分析”实现了计算机对于视频图像的“理解”。使用者确定的目标信息包含在那些像素点的值所组成的平面图像序列之中，需要计算机从“整体”上进行“理解”才能获取，才能明白视频图像中所呈现的内容或者发生的事情。

目前，该项技术应用的目的在于自动地提取视频图像源（主要是摄像机或者视频录像设备）中的关键信息或者特征信息，并根据使用者的要求进行智能化分析，再通过设置一定的条件和规则对其进行高效判断。

如果我们将“视频图像源”比喻为“人类的眼睛”，那么就可以把“视频智能分析技术”看做是“人类的大脑”。它负责代替人脑对视频图像画面中的海量数据进行高效分析，为人们提供有价值的关键信息。当前，视频智能分析的功能主要包含“画中画、运动检测、目标跟踪、动态人脸识别”四个方面。

画中画（Picture-in-Picture）

作为一种视频内容的呈现方式，“画中画”是指在一部视频全屏播放的同时，于画面的小面积区域上同时播放另一部视频，被广泛用于视频录像、监控设备。目前，各国警方在审讯室中多采用此项技术。比如，我国在执法办案场所设置的讯（询）问室基本配备了具备画中画功能的摄像机。公安部GB/T 28181-2011《安全防范视频监控联网系统信息传输、交换、控制技术要求》更是对摄像机画中画功能作出了测试要求。在具备画中画功能的多台摄像机的覆盖下，画面通过线路传输运送至指挥室中的支持多路高清视频接入的计算机。使用计算机的警察看到的主画面反映的是“讯问场所的全景”，小画面则反映的是“被讯（询）问人的特写正面中景或者办案人员的特写”。（如图所示）同时监控画面能全程反映被讯（询）问人的体态、表情，并显示同步录像时间。这样的设置方便警察更清晰地看到办案区人员的小动作、微表情。

目前，“画中画”技术已经可以实现二画面、三画面、四画面的任意合成，画中画的大小画面均可切换，小画面的大小及位置亦可任意调整。

运动检测（Motion Detection）

“运动检测”是指把视频图像中变化的区域与背景图像精确分离出来，即正确分割出运动目标的区域或者轮廓，确认和检测出运动物体的存在。目前，我国在运动检测智能分析方面做得较为完善的企业不多。以杭州海康威视数字技术股份有限公司（以下简称：海康威视）为例：作为我国知名的视音频编码解码卡的生产商，海康威视在数字信号处理器上能够完成MPEG4/H264的实时编码，并通过SDK的接口，提供有效的运动检测分析功能。在这方面，上海市公安局交通警察总队已经开启了先行先试的探索。自2017年9月下旬起，上海市公安局交通警察总队在宝林路近牡丹江路路段安装了一套专门用于抓拍“不按规定使用灯光”违法行为的新型智能电子警察。截至2017年10月10日，市公安局交通警察总队已经累计查处了“不按规定使用灯光”违法行为67起，收效明显。

目标跟踪（Object Tracking）

“目标跟踪”，俗称“盯梢”，是指通过对摄像机采集到的图像序列进行计算分析，计算出目标在每一帧图像上的二维位置坐标，并根据不同的特征值，将图像序列中、不同帧中同一运动目标关联起来，获得各个运动目标完整的运动轨迹。这就好比目前刑事侦查中非常流行的图侦（即“视频图像侦查”）。通过计算机，对摄像机获取的视频监控图像资料进行分析、研判，从而固定犯罪证据、发现和确定犯罪嫌疑人、提供侦查线索或者方向。以美国著名系列电影《生化危机》中的人工智能“红皇后（Red Queen）”为例。作为蜂巢内部的顶尖人工智能系统，“红皇后”就是依托摄像机捕捉下各种目标特征信息，从而获得各个运动目标完整的运动轨迹，达到实时跟踪、实时监控、实时捕捉、实时聚焦。

动态人脸识别（Dynamic Face Recognition）

通常来说，“动态人脸识别技术”，是指利用人脸的特征信息，将“目标人员的面部图像”与“数据库中的人脸面部特征”进行比较与分析后，从而做出身份识别的专门性科学技术。该项科学技术将应用于安全检查、刑事侦查、智能门禁、户籍调查、治安巡逻、出入境管理等诸多领域。

然而，在人群中对移动的人脸进行识别存在着客观实现的难点。首先，人的正脸有一个比例叫做“三庭五眼”，这个词很正确地概括了人脸部的比例。人的侧脸则会出现两个正方形。“第一个正方形”是指眼尾至耳朵前端的距离等于眼睛至嘴角的距离、眼尾至耳朵前端的距离，也等于耳后至脑后的距离；“第二个正方形”是指眼尾至耳后的距离等于眼睛至下颚的距离。尽管每个人的正脸和侧脸完全相同的可能性较低，但是不同个体之间的人脸结构可能存在相仿性。这些相仿性无疑将增加人脸图像识别与区分的难度。其次，目前高清摄像机能够在目标静态的情况下清晰地捕捉到使用者通过程序算法指定的人脸，但是摄像机在人群中细分差异并找到目标对象却受到拍摄角度、明暗光线、人脸部位变化、遮脸物、个体的刻意伪装等多方面因素的制约。综上所述，动态人脸识别需要攻克的技术难点还有很多。endprint

当前，为了攻克动态人脸识别技术，世界各国已经开展了专门的技术研究与公关。比如：根据上海“智慧公安”建设的要求，上海市公安局正在研发“智能图像识别系统”，建设人脸基础信息的中间库（又称为“人脸特征库”），将“人脸基础数据”同步至计算机系统之中，同时研发“安全调用的接口”，与计算机系统进行数据信息对接。据悉，俄罗斯莫斯科也在尝试在公共区域的监控摄像头中引入动态人脸识别技术。2017年年初，莫斯科会同俄罗斯本土公司Tech.Lab Ltd进行了为期六个月的测试，结果装备了动态人脸识别技术的监控摄像机，发现了俄罗斯联邦政府六名重要的犯罪嫌疑人。该家俄罗斯公司的动态人脸识别技术已经获得了美国商务部和华盛顿大学的官方认可，在测试阶段的识别准确率已经高达70%。

后端智能（Intelligent Back）

早期，受限于前端芯片的运算性能，“智能视频分析技术”几乎均在后端进行有效运作。一般来说，后端智能的实现方式是由高清摄像机采集视频图像信号，由后台进行物理存储，再通过后端智能服务器进行运算分析，最终将运算分析结果返送至存储设备之中。此种部署方案的最大顽疾就是“带宽受到制约”。后端的运算分析需要大量占用带宽的传递数据，从而令后端运算分析出现时间上的延迟，甚至造成了数据信息的丢失，阻滞和影响运算分析的结果。另一方面，后端智能的运算分析设备的动用量、存储量极大，成本相当高。

当然，后端智能模式也有优势。一方面，后端智能模式对于排除故障大有裨益。另一方面，后端智能模式可以节省大量的“模拟摄像机转数字摄像机”的成本投入，只需对服务器进行智能化升级即可。

当前，市場上具备智能分析能力的摄像机，一般只能提供一些基础智能功能，比如越界侦测、区域入侵侦测、场景变更侦测、进入区域侦测、离开区域侦测、人员聚集侦测、停车侦测、区域防范等。以上海市公安局交通警察总队启用“电子警察抓拍违法行为短信及时告知平台”为例。目前，市交通警察总队主要通过特写摄像机、全景摄像机、环境摄像机等摄像机抓拍违法行为，在后端计算机中设置相应的程序算法，将“违法停车、违法变道、违规使用公交专用车道行驶、超速、闯禁令、闯红灯”等违法行为纳入实时监管状态。据市交通警察总队统计，自2016年8月1日至2017年8月1日一年的时间内，电子警察抓拍违法行为短信及时告知平台累积发送违法及时告知短信23万余条。（如图一所示）

然而，上述摄像机输出的信息比较简单！虽然具备警告、识别描述画面中的内容等智能功能，然而这毕竟是后端智能，且需通过人工操作，还无法达到真正的“前端智能”的效果。

智能分析前置化（Front Intelligent Analyzing）

如上所述，后端智能的运作模式是前端摄像机采集视频图像信号，后端由智能分析服务器进行分析并提取视频中有价值的目标信息，最后生成使用者想要的结构化数据信息。可是，受性能限制，当前主流的服务器一台只能同时分析六路至八路的高清视频。若要实现2000路的智能分析，至少需动用250台服务器。面对智慧城市几千路到几十万路不等的监控点规模，成本之高不容忽视！因此，智能分析算法移至前端的想法应运而生。前端智能的价值在于预防和事中控制环节，将智能处理、分析、研判融入到摄像机之中。

诚如苏州科达科技股份有限公司市场总监刘志强所言，“智能前移可以让前端摄像机具备直接的分析能力，其成本又可控，无疑将推动智能分析在智慧城市建设中的规模化应用。”将智能前移，在摄像机中就可以完成目标识别、特征描述以及图片抓拍工作，这样后端就节省了大量的智能分析服务器。可以说，智能前置的摄像机是智能分析经济性和规模化部署的基础。只有前端实现智能，才能形成规模化的智能应用。这将深刻影响到整个安防行业的发展格局，为安全防范迎来更长足的进步和更宽广的市场空间。

感知型前端摄像机（Front Intelligent Cameras）

在智能摄像机领域，早期智能摄像机产品是替代红外对射等设备来使用的，现阶段仅适用于禁止人们闯入和走动的应用场景，只是告警信号而已，但这种告警误报率很大，在警戒区内，动物的闯入、巡更人员的走动以及灯光的变化，都可能引起报警，因为它对闯入的物体无法识别。而感知型摄像机能够“识别”视频中的内容；可以“思考”视频中发生了什么事情；最终把视频中的内容和有异常的事件，用语言、图片等方式“描述”出来。根据监控场景和需要识别的内容，感知型摄像机主要包括三个系列：1.特征分析摄像机；2.车辆卡口摄像机；3.人员卡口摄像机。（如表一所示）

具备感知功能的前端摄像机可以在收集海量特征信息的基础上，直接执行复杂智能算法，将图像信息与目标的特征、内容、警戒信息进行比对，生成语义描述，从而在智慧城市、智能交通、智慧执法等诸多领域发挥巨大的作用。以2017年厦门的金砖会议安防为例。1500余台具备前端智能的感知型摄像机分布在厦门各个检查站、安检大棚、酒店、城际卡口等重要场所，实行安检监控，实时对违停、黑名单比对进行分析处理，真正达成了会议安全区域监控的全覆盖。

毫无疑问，如果将摄像机比作是“鹰眼”，那么具备感知功能的前端摄像机就是“会思考的鹰眼”！

编辑：黄灵 yeshzhwu@foxmail.comendprint