基于三维全景视频融合技术的全时空监控方法关键技术探讨

2022-05-08柴少强朱星昊

科技创新与应用 2022年12期

柴少强，王雪，朱星昊

（中交一公局第七工程有限公司，河南郑州 451450）

随着GIS技术的广泛应用，集成二维地图等空间位置信息的视频系统解决方案正逐步走向成熟[1]。与传统的单纯获取监控目标的实时音频、视频信息的视频监控系统相比，继承了三维空间信息的三维视频监控系统在增强用户空间意识、辅助用户应急决策等方面将发挥更大的作用[2]。但3D GIS与监控视频的整合应用方法在实际应用中，由于网络传输速度等原因，远没有达到与三维周边信息进行融合的目标，存在丢失大量信息的现象[3]。

视频监控的发展过程是从局部监控到全景过渡、从定时监控到实时监控、从2D到3D的发展过程[4-6]。当然，目前针对较大场景的实时监控也已实现，主要是将多角度、全方位的视频监控集成于同一三维显示场景。如需关注某个位置时，点击放大该处实时监控影像即可。该方法并未发挥出三维场景的直观特点，也远没有达到视频位置与周边三维信息的融合目标[7]。

以目前市场需求和各研发机构推出的技术来看，全景式、立体化是视频监控系统深度应用技术研究未来发展的必然趋势。本文以官渡黄河桥机电工程实践为例，介绍基于三维全景视频融合技术的全时空监控方法，并对全时空监控方法的关键技术进行分析与探讨。

1 三维全景视频融合的相关技术

1.1 三维虚拟场景的构建

基于场景扫描数据、场景图像、CAD/建筑图纸数据自动生成高精度的三维模型，三维模型为后续全景立体监控提供空间数据基础。

1.2 三维全景虚实融合显示、二维地图全局导航显示、实时虚实融合与联动技术

前端采集监控视频及其他多维传感数据，预处理后自动融合到三维场景模型中，形成全景立体监控，通过三维虚拟观测，实现对真实场景多角度全方位实时立体浏览。

1.3 全局时钟控制技术

搭建媒体服务模块与数据接入模块，控制接入平台的摄像头保持时钟同步。

2 基于三维全景视频融合技术的全时空监控方法关键技术

如图1所示，本全时空监控平台主要涉及基于激光点云数据的自动三维建模、全景立体监控及全景智能分析3项关键技术，下面分别阐述3项关键技术的技术路线。

图1 基于三维全景视频融合的全时空监控平台系统构架图

2.1 自动三维建模

三维数字建模是用计算机显示还原真实世界的一个关键环节，也一直是计算机图形学界的难题。基于激光扫描数据的三维建模技术因其扫描数据的精确性，为重点区域三维全真模型的生成奠定了坚实的基础。

2.1.1 大型三维数据获取

采用主要由工业级高清数码镜头及双轴动态调整支架构成的开放式三维激光扫描球机装置完成近远程测量。该装置平面内可形成360°无死角覆盖，垂直范围内也可达到270°视场范围。由于其扫描精度高，图像数据采集过程中可直接获取彩色图像及其灰度值，测量速度得到大范围提升。在数据采集过程中，由于系统中设置了并行计算方法，相较于传统拍摄扫描中将无需再进行二次配准过程，扫描速率可达每秒5万点。因此，持续扫描过程中的数据离散点相对时间差更小，进而造成数据丢失的可能性非常小。

另外，由于设备采用激光扫描技术，受太阳光照影响较小，且无需进行白天和夜晚不同环境下图像色彩灰度的再调整，因此可在夜间全暗环境下正常工作。

2.1.2 三维建模步骤

由上述过程中采集到的图像离散点云数据运用到三维模型的重构是全时空监控过程中的关键技术之一。该过程需考虑数据对应时间、空间、色彩等因素，相应的点云数据处理及建模需经历噪声去除→多视对齐→数据精简→曲面重构4个关键步骤。

（1）噪声去除旨在对激光扫描过程中影响到完整图像获取的动态环境因素进行识别和剔除。例如，在监测范围内偶然出现的快速移动车辆、行人等。

（2）多视对齐是针对形状复杂或者体积较大的被测物体，避免单角度扫描时出现物体不能完全囊括或者数据出现距离扭曲等问题，需要从非平面内的多视角扫描，并完成同一位置的点云对齐和拼接，该过程中旋转和平移变换矩阵R，T应满足目标函数：

式中，pi，qi为需对齐的点云。

（3）数据精简旨在对同一位置相同点云数据进行精简，以避免海量数据对于曲面重构计算过程的影响。当然，该过程中应对数据精度有相应设置。

（4）曲面重构即是将扫描数据用准确的曲面表示出来。目前，常见的有三角形网格、细分曲面、明确的函数表示、暗含的函数表示、参数曲面、张量积B样条曲面、NURBS曲面和曲化的面片等。

2.1.3 超大数据自动建模

因存在地理方面的高低差问题以及扫描仪位置的物理限制，在所有表面得到完整充足的采样存在很大的难度。另外，办公楼的玻璃窗或墙等反光性表面不能对扫描仪返回有效信号也会存在采样数据缺失。对于这些挑战，采用由上而下的方法重建几何，生成多边形模型，对比常规的三角化方法，用多边形取代了三角形进行拟合几何重建过程避免了常见的数据缺失及点云缺损。另外，整个建模过程完全是自动的，只是在双关性不能由计算解决时，才需要用户辅助，如选择平面、线或角。

2.2 全景立体监控

实现全景立体监控过程需要能对前期采集的数据点构建而成的三维模型进行识别，进而准确分辨前景目标，然后通过标定的监测元件位置数据，计算前景目标的空间位置。在此基础上，根据后续获得数据及其对应的时间序列信息，完成多层次后续全景立体监控图像融合。具体步骤如下。

2.2.1 前景目标检测

图像中的前景是相对于背景而言，指监控图像采集及融合过程中相对于静止的背景而出现的需要关注及处理的运动目标。例如，在交通监控过程中的前景目标应包含机动车、非机动车和行人等。在实现全景立体视频监控过程中，将这些重点关注的前景目标能准确重建融合到三维场景中是实现高质量无失真全景实时监控的关键。故而，开发全景立体监控系统第一要务即实现前景运动目标的准确检测，其关键环节在于两个部分：（1）多层次前景背景建模；（2）运动阴影抑制、噪音消除和缺失补偿。

2.2.2 多层次前景背景建模

多层次前景建模的基本思想是从当前帧中准确提取前景，以成功分离背景和前景。由于背景建模清晰度易受光照等自然环境突变影响，且在服务区、收费广场等区域，车辆、行人速度随时变化，并且可能会出现某一时间段内的完全静止，这会对前景的提取和判别造成干扰。系统可能出现将这些“静止”场景更新为背景的错误，进而易出现对重要目标的遗漏倾斜。

为了较好地解决上述问题，可建立多层次高斯混合模型，在随机抽取的不同时间域内取背景进行对比筛选，剔除错误识别的前景。该模型是用K个模型表征图像中各像素点特征，各像素点按视频时序序列{X1，X2，…，Xt}={I（x0，y0，i）：1≤i≤t}，在考虑各像素特征点的高斯函数权重系数ωi，t以及数学期望μi，t，可建立如公式（2）所示的K个高斯分布的叠加函数：

式中，Σi，t为第i个高斯模型的协方差矩阵；η为高斯模型：

由此，每获得新一帧图像后，就会按上述方法更新高斯混合模型，然后匹配该图像的各像素点以判定该点是否为背景点和停止前景点，若为如静止的行人或遗留的包裹等类似的停止前景点，则不能将其化为背景。如图2（a）所示，（a）为测试视频，（b）（c）（d）分别为运动前景、静止前景和背景，（e）为检测结果在原图上的叠加。

图2 多层次前景、背景检测和提取

2.2.3 运动阴影抑制、噪音消除和缺失补偿

对于全景立体监控实现过程中出现的小部分目标缺失或者环境引起的图像噪音等问题，可采用图像学处理方法，如利用图像阴影的颜色信息、空间信息、纹理信息等重要区别属性，在关注区域中确定其造成的颜色形变，通过使用颜色形变补偿和纹理校正进行阴影抑制。如图3所示，（a）为测试视频，（b）为前景检测初始结果，（c）为阴影抑制后的结果，（d）为噪音滤除后的结果，（e）为缺失补偿后的最终结果。

图3 前景检测的实时后期处理

2.2.4 三维重建融合

由于所拍图像或视频均为二维平面，无法显现隐藏在拍摄平面后的三维结构，因此要实现立体监控效果，则需要完成图形的三维重建。通过视频参数计算、图像重建、全景融合的步骤完成。

照相机、摄像机等图片及视频拍摄工具均是通过投影矩阵的变化来实现真实场景的拍摄。故而，也可利用投影矩阵将图像/视频数据通过反向投影回三维场景模型上。

首先，检测二维视频和三维场景模型的特征点。引入多尺度匹配算法，采用高斯滤波器对图像进行滤波，计算它们差值DOG以探测出特征点：

L（x，y，ki+1σ）和L（x，y，kiσ）是原来的图像I（x，y）跟高斯核G（x，y）在尺度kiσ和尺度ki+1σ的卷积。

探测出特征点后，设置其领域，为领域里每个像素计算下面两个值：

将计算结果合成一个向量，从图像数字学方面建立了特征点的描述符。继而，计算描述符之间的欧几里德距离，匹配特征点，实现实时图像配准。图4为一具有一定高差含楼梯的道路拍摄图像。通过算法得到探测特征点的位置，如图4（a）和图4（b）的圆圈；基于特征点合成的匹配结果如图4（c）。

图4 实时特征匹配用于配准移动视频图像实现动态拼接

2.2.5 视频图像归一化

通过上述步骤实现了大规模摄像机视频数据在空间和时间上拼接融合。但由于视频数据可能来自不同品牌的摄像机，或是使用不同的光度参数，例如，曝光时间、白平衡、伽马校正和传感器的灵敏度等，这些将直接产生不一致的颜色数据。此外，由于摄像机建设时间的不同，造成视频图像在色彩、亮度、饱和度和对比度等方面的情况也不同。为了达到更好的视觉拼接融合效果，要将视频图像在色彩、亮度、饱和度和对比度方面进行归一化，提高大规模摄像机网络色彩的一致性。具体分以下2个步骤。

（1）视频色彩校准。将Macbeth彩色影像板放置在监控区域内，对每个摄像机的标定进行增益和偏移，最大限度地减少对比度和黑度，并确保线性响应和白场景的平衡。

（2）视频的色彩传递。归一化目标是一致的色彩反应，而不是绝对的色彩精确度，因此无需将每个摄像机视频匹配成标准色彩，而是将一幅视频图像的颜色特征传递给另一幅视频图像，通过色彩传递对摄像视频进行两两色彩匹配。

2.3 全景智能分析

开发先进的算法对融合后的全景立体监控视频进行全局智能分析。诸多事件都可归为行为模式分析问题，这些行为的发生与发展往往跨越多个摄像机监控时空区域，在全景立体监控系统中，多个摄像机之间的相关性及互补性，实现了非特定目标行为模式的准确识别。

结合全景立体监控，实现基于全场景视频智能分析的自动预警功能，对各种异常事件进行预警，同时自动显示预警地点的全景立体监控场景，保障全景立体智能视频监控系统的应用和指挥效能。

2.3.1 异常行为模式的实时分级分析

（1）异常行为预检。异常行为多种多样，从技术上讲，不可能提前对所有行为都预先定义，而且受计算速度的影响，不可能对所有预定义异常行为在每个摄像机上都进行检测和分析。这就要求智能分析算法在第一级对所有可能的异常行为进行预检，并将异常结果交给下一级进行进一步分析和处理。虽然对异常行为不能穷举，但是可以通过收集大量的正常场景，积累海量的正常运动数据，对这些数据异常行为模式进行剔除。该过程关键在于从海量数据中发现和整理出正常的行为模式。

对海量数据的分析和挖掘是世界级的难题，在官渡黄河大桥的实践中采用了国际领先的基于范例的矩阵逼近和分解技术，该技术可以有效地用于监测和分析大规模数据中异常波动。

（2）异常行为识别和分析。异常行为分析离不开对目标的追踪。服务区人流车流密集，遮挡现象严重。将根据运动前景的焦点和颜色特征，快速、准确和鲁棒地提取场景内目标的运动轨迹。一方面，这些信息可以传到服务器上，用于实现大场景内人流和车流的综合分析，为大场景众多目标的实时分析，行为模式分析快速及目标快速排除打下良好的基础。另一方面，可以通过统计分析运动轨迹，建立行为分布图。根据实际情况，预定义一系列异常行为模式。在预检报警的情况下，根据统计特征，可以对异常行为进行进一步识别、分类和分级。

2.3.2 大场景、多摄像机的时空关联关系

为实现各个离散视频在全景三维场景下的关联分析，首先，基于静态贝叶斯网络构建摄像机之间的空间拓扑关系，然后利用动态贝叶斯网络推理和预测多种行为模式之间的语义关联结构。

我们将根据摄像机之间的空间关系和公安实战经验，对贝叶斯网络参数（先验概率和条件概率）进行赋值。

动态贝叶斯网络是贝叶斯网络随时间变化的一个动态扩展，如图5所示，可以反映各摄像机之间一系列行为模式间的概率依赖关系。由于摄像机网络空间拓扑结构不随时间改变，可以假设各摄像机之间满足一阶马尔可夫性，从而对其中行为模式的时间连续性进行建模。基本思想是全局行为模式是由一系列局部行为构成的。通过对局部行为及其关系的识别，可以有效地预测全局场景和行为。在一个摄像机发现异常行为的情况下，利用动态贝叶斯网络，迅速对相关摄像机和行为模式进行预判，在三维大场景下显示相关视频和信息。

图5 多层动态贝叶斯网络

当场景内交通工具发生异常报警时，依据目标参数与预定义模式进行匹配，对异常行为进行识别和确定优先级别，实时跨镜头智能报警和结果显示。同时根据异常报警的优先级，选取和该报警信息有时空关联关系的所有摄像机数据，实现全景立体视频自动聚焦显示，结合球机协同追视，根据报警信息自动调用球机锁定该区域。

3 结束语

本文探讨了基于三维全景视频融合技术的全时空监控方法。该全时空监控平台关键技术包括基于激光点云数据的自动三维建模、全景立体监控和全景智能分析3项关键技术，并对此3项关键技术进行了深入研究。该技术对高速公路设施监控、水上交通安全监控以及公共设施异常预警等业务具有辅助及决策效能。本文成果将极大促进为机电工程全时空监控方案的设计与实施提供技术参考与支撑，具有重要的理论意义和实践价值。