前端图像处理技术及发展趋势浅析

2014-08-17陈军

中国公共安全 2014年8期

文/陈军

在视频监控中，前端摄像机作为获取视频的源头，其重要性不言而喻。从模拟机时代单纯的视频获取，发展到数字高清时代，摄像机中集成了高性能的芯片，可以进行更复杂的图像处理。其中，对sensor输出的原始信号进行处理，以获得与人眼主观感受接近的视频图像，一般称为ISP技术。本文首先对前端摄像机中使用的ISP技术及其特点进行介绍，然后重点介绍一些目前热点的处理技术，最后对发展趋势进行分析。

ISP模块组成

目前，视频监控中使用的sensor输出的一般为Bayer格式的图像数据，如图1所示，外部光源进来后，sensor每个像素前的滤光片只允许RGB中的某一个分量经过，到达光电转换像元进行光电转化，输出电荷信号，经过A/D转化，得到数字图像信号。因此，每个像素实际只包含了RGB中的一个分量信号，按照滤光片排列的方式，称为Bayer格式。

Bayer格式的图像，需要经过一系列模块的处理，才能输出与主观感受相近的图像效果。

就像人的视觉系统，人眼视网膜成像的其实是失真较大的影像，人的大脑通过一系列处理，能将这些失真校正过来。图2为一个典型的ISP处理流程图，这些处理模块包括：黑电平校正、坏点校正、白平衡、插值、色彩校正、gamma、RGB转YUV、锐化、降噪等，各个模块都有其特有的作用，缺一不可。

图1 sensor输出的Bayer格式图像

图2 ISP处理框图

从色彩域的角度看，白平衡、插值、色彩校正等模块决定了图像的颜色准确性。

白平衡：人的视觉系统在进化过程中产生了一种称为“色恒常”的能力，在各种色温下能自动校正由于色温引起的颜色偏差。摄像机sensor没有这种能力，因此需要模仿“色恒常”功能，校正色温引起的色彩偏差，此即白平衡模块的功能。一般基于“灰度世界”假设，在场景中选取符合条件的近灰色像素点，计算符合条件像素的R/G/B分量总和，使三者总和保持相等，需要乘以的倍数即为白平衡增益值。

插值：由于Bayer图像每个像素只有一个颜色分量，其余两个颜色分量必须通过插值算法从邻近像素中获取，因此插值算法的好坏，决定了图像的色彩质量，特别是高频细节处色彩还原能力。

色彩校正：由于sensor的RGB响应曲线与人的视觉系统存在差异，因此有必要引入色彩校正模块，对摄像机的颜色进行校正，以接近人观察的主观感受。一般采用3×3矩阵作为色彩校正矩阵，通过色卡标定产生，选取几个典型色温生成矩阵，其余色温对应的矩阵通过插值产生。

从灰度域的角度看，黑电平校正、gamma校正、锐化等模块决定了图像的灰度还原能力。

黑电平校正：理想情况下，当没有光源照射时，sensor输出的图像应该为0，但是由于sensor本身暗电流等噪声影响，其输出值不为0，称为黑电平。ISP中的黑电平校正模块正是为了补偿该黑电平值，以校正对黑色的还原能力。

图3 人眼亮度感知曲线

Gamma校正：人眼对于亮度的响应是非线性的，如图3所示，人眼对光线变化的这条“反应曲线”就是人眼的“gamma曲线”。入射光线从全黑到有一点亮度的时候，人眼的感觉非常灵敏。然后，光线继续加强，到了很强的时候，我们人眼的反应却变得非常迟钝，亮度再提高，也不会觉得亮了很多。CCD、CMOS等sensor的成像方式是通过像点中感受光线的强弱而获得画面是线性的响应。因此，有必要在ISP流程中加入gamma校正，使得摄像机对亮度的响应曲线能与人的视觉系统保持一致，获得最佳的灰度还原能力。

锐化：是增强图像的局部对比度，特别是加大高频边缘处的差异，使画面整体的主观效果更加清晰。

从前面的ISP处理流程的描述中，我们可以总结出ISP处理的一些特点。

实时性要求高

前端图像处理对处理耗时、延时有严格要求。一般处理时间不能超过帧率，否则就会丢帧；人眼能够感觉到50ms的延时，安防监控中对摄像机的处理延时有严格要求，一般在100ms以内。因此，ISP处理一般采用ASIC芯片或FPGA实现，才能满足实时性的需求。对于一些实时性要求不高的模块，例如3A，其统计部分一般放在ISP处理流程内，由硬件实现；其计算部分则由ARM或DSP实现，可以隔几帧计算一次。

模块多，涉及范围广

从流程图中可以看出，ISP流程中包括了较多的处理模块，各个模块都有其特殊作用。其处理涉及的范围较广：灰度还原相关，包括黑电平校正、gamma校正、锐化等；色彩还原相关，包括白平衡、插值、色彩校正等，还包括自动曝光、自动聚焦等控制算法，降噪、宽动态等图像复原、增强相关模块。这些模块的处理是否正确或合适，都与最终的图像效果有一定关系；模块之间彼此还有一定的相互影响，例如锐化过强，则图像噪声变大，对降噪模块的效果有较大影响。

近年来，随着高清数字摄像机的普及，安防监控中的图像质量得到了很大提高，但是在实际使用过程中，还是有一些棘手的问题亟待解决，主要是动态范围窄、透雾能力弱、低照度效果差。

在视频监控应用中，摄像机需要拍摄的场景经常会出现较大的动态范围，例如大厅出入口、晚上拍摄开启大灯车辆的车牌等。普通摄像机动态范围窄，在这些场景下，往往出现大面积的过曝或者过暗区域。

近期频繁出现的雾霾天气，也对室外摄像机造成了较大影响，普通摄像机在雾霾天气下的效果如图4.a所示，图像质量下降严重，整个图像发朦，对比度变差，细节不清晰。

图4 有雾图像与透雾图像

低照度也是摄像机面临的一个挑战，监控用摄像机作为全天候使用的设备，需要经常面对照度很低的场景，普通摄像机通过加大数字增益来提升图像亮度，但是相应放大了噪声，如图5.a所示，噪声颗粒对图像质量影响较大。通过降噪技术，可以提升图像主观质量，见图5.b所示。

因此，解决这些问题的图像处理技术，主要有宽动态、透雾、降噪技术，下面对这些技术进行介绍。

宽动态技术

目前安防数字摄像机使用的sensor的动态范围较小，一般输出12-bit 的raw数据，其动态范围远远小于实际场景可能的动态范围。而安防应用的场景，很大一部分具有较大的动态范围，例如道路监控的电警、卡口应用，楼宇监控时室内对着大厅出入口的应用等，在这种场景下，普通摄像机采集的视频存在大面积的过曝或者过暗问题，导致有效监控信息的丢失。

图5 噪声与降噪图像对比

现有的宽动态技术，主要由sensor提供多帧不同曝光时间的图像，将多帧图像合成后，形成一帧宽动态图像。多帧不同曝光时间的图像合成，主要分为HDR tonemapping和exposure fusion两种。

图6 HDR Tonemapping处理流程

HDR Tonemapping技术，需要经过一系列处理：首先需要通过响应曲线映射，使图像恢复成线性数据，然后将多帧图像根据曝光倍数合成为一帧宽动态图像，最后通过tonemapping算子压缩动态范围。整个流程如图6所示。当拍摄时摄像机有一定位移时，合成之前还需要将图像进行对齐；当场景中有运动物体时，需要加入去鬼影处理，防止运动物体边缘出现重影、伪彩色。

Exposure fusion技术，不需要将多帧图像根据曝光倍数合成为一帧宽动态图像，而是直接将不同曝光的图像融合（fusion），得到与输入图像相同位宽的具有宽动态效果的图像。该技术的核心有两个，一个是每个像素通过一套评价标准，赋予不同的权值，形成权重图；二是在合成时采用多分辨率（multiresolution）技术，在不同的尺度下加权融合，得到合成后的图像，如图7所示。

图7 Exposure fusion技术

Exposure fusion技术相对于HDR Tonemap ping技术，有以下几方面的优势：

·简化了整个处理流程。不需要响应曲线映射，多帧合成HDR图像，以及获取不同曝光时间的比例关系。

·算法适用范围广。整个合成过程不需要考虑响应曲线，曝光比例等因素，自动根据像素的评价标准加权合成，因此可以将有闪光灯的图像加入到待合成图像序列中，也可以将红外图像与彩色图像合成等。

透雾技术

目前在安防领域中使用的透雾图像处理技术大致可以分为两大类：

一种是非模型的图像增强方法，通过增强图像的对比度，满足视觉的主观要求来达到清晰化的目的。比较典型的算法有基于多尺度Retinex图像增强技术，限制对比度自适应直方图均衡化算法等。

另一种是基于模型的图像复原方法，它考查图像退化的原因，将退化过程进行建模，采用逆向处理，以最终解决图像的复原问题。比较典型的算法有基于暗通道原理的透雾算法。

暗通道假设在无雾的图像中，绝大多数非天空的局部区域里，某些像素总会至少有一个颜色通道具有很低的值，即自然景物中到处都是阴影或者彩色，这些景物的图像的暗原色总是很灰暗的。基于该假设作为先验知识，从有雾图像的模型中解出无雾图像。

有雾图像的物理模型如图8所示，其公式如式1所示。

图8 有雾图像模型示意图

I代表所看到的图像强度，J是景物光线强度，A是大气光成分，t是用来描述光线通过媒介时没有被散射掉的那部分。透雾的目标就是从I中恢复出J、A、t。

前一种技术的特点是对浓度均匀的雾霾有一定的效果，特别是基于直方图的算法实现简单，有一定的透雾效果，应用广泛；缺点是原理建立在增强主观效果的基础上，不符合真实的雾气模型，无法区分图像不同区域的景深与雾浓度，处理强度无法自适应，造成处理后的图像不自然，易出现发黑及色彩失真现象。

后一种技术基于大气透射模块，区分图像不同区域景深与雾浓度进行处理，可以获得准确、自然的透雾图像。缺点是算法复杂度高，不易实现。

值得注意的是，还有一种通过红外成像进行透雾的技术，通过将红外成像图像与正常图像融合的方式，可以得到透雾后的图像。近红外摄像机可以获取雾霾掩盖的图像细节，通过融合的方式进行透雾，图9为图像融合方式获取的透雾效果图。

图9 图像融合透雾

降噪技术

安防视频监控系统中，噪声的存在会造成图像看不清楚，编码压缩码率大幅升高，压缩后的图像容易出现闪烁、蠕动和块效应等瑕疵。引入降噪增强技术，可以带来图像干净，可判别细节增加，码率降低，呼吸效应减少等。

目前主流ISP芯片都带有降噪算法，由空域降噪和时域降噪一起组成3D降噪。

空域降噪典型的算法包括基于双边滤波器降噪和基于小波变换降噪。众多ASIC厂家通常采用类似于双边滤波器的原理设计降噪模块，比如TI公司的Bayer域空域降噪模块，Ambarella公司设计的CFA Noise Filtering模块和YUV域的Spatial Noise Filtering。

时域降噪则一般基于运动判决的方案，通过前后两帧的运动估计，判断是否为运动区域，

运动区域噪声抑制少些，静止区域噪声抑制多些。

前端图像处理技术的发展趋势

在高清数字摄像机发展过程中，前端图像处理技术与摄像机的实现方案紧密相关，经历了发展初期以FPGA实现为主，逐渐统一到成熟平台方案的过程。

在发展初期，各个安防厂商为了快速开发产品抢占市场，采用FPGA实现ISP处理流程，整个流程按照算法工程师的设计进行开发，可以根据不断的测试，灵活调整处理流程，改进算法效果。其缺点是成本、功耗等问题。

随着众多ASIC芯片厂商提供成熟的ISP处理方案，各个安防厂商逐渐启用平台方案，在此基础上，进行3A算法开发，参数与效果调试等工作。目前的平台方案包括TI、AMBA、HISI、SONY等，其ISP处理流程与模块组成有一定的差异，有些方案集成了3D降噪、透雾、宽动态等模块，有些则没有。各个安防厂商在开发基于平台的产品时，更加注重芯片的功耗、成本等因素，图像效果的竞争与平台方案密切相关，主要通过参数调试、3A算法开发等，拉开图像效果的差距。

短期内，前端产品使用的各个平台方案各有优势，将并存一段时间。长期来看，随着方案的不断成熟，其市场定位也将进一步细化：主打低端市场的方案，在保证效果的基础上，功耗、成本成为主导因素；高端市场的方案，3D降噪、透雾、宽动态等功能逐步完善，效果成为关键因素。