前端图像处理技术及发展趋势浅析
2014-08-17陈军
文/陈军
在视频监控中,前端摄像机作为获取视频的源头,其重要性不言而喻。从模拟机时代单纯的视频获取,发展到数字高清时代,摄像机中集成了高性能的芯片,可以进行更复杂的图像处理。其中,对sensor输出的原始信号进行处理,以获得与人眼主观感受接近的视频图像,一般称为ISP技术。本文首先对前端摄像机中使用的ISP技术及其特点进行介绍,然后重点介绍一些目前热点的处理技术,最后对发展趋势进行分析。
ISP模块组成
目前,视频监控中使用的sensor输出的一般为Bayer格式的图像数据,如图1所示,外部光源进来后,sensor每个像素前的滤光片只允许RGB中的某一个分量经过,到达光电转换像元进行光电转化,输出电荷信号,经过A/D转化,得到数字图像信号。因此,每个像素实际只包含了RGB中的一个分量信号,按照滤光片排列的方式,称为Bayer格式。
Bayer格式的图像,需要经过一系列模块的处理,才能输出与主观感受相近的图像效果。
就像人的视觉系统,人眼视网膜成像的其实是失真较大的影像,人的大脑通过一系列处理,能将这些失真校正过来。图2为一个典型的ISP处理流程图,这些处理模块包括:黑电平校正、坏点校正、白平衡、插值、色彩校正、gamma、RGB转YUV、锐化、降噪等,各个模块都有其特有的作用,缺一不可。
图1 sensor输出的Bayer格式图像
图2 ISP处理框图
从色彩域的角度看,白平衡、插值、色彩校正等模块决定了图像的颜色准确性。
白平衡:人的视觉系统在进化过程中产生了一种称为“色恒常”的能力,在各种色温下能自动校正由于色温引起的颜色偏差。摄像机sensor没有这种能力,因此需要模仿“色恒常”功能,校正色温引起的色彩偏差,此即白平衡模块的功能。一般基于“灰度世界”假设,在场景中选取符合条件的近灰色像素点,计算符合条件像素的R/G/B分量总和,使三者总和保持相等,需要乘以的倍数即为白平衡增益值。
插值:由于Bayer图像每个像素只有一个颜色分量,其余两个颜色分量必须通过插值算法从邻近像素中获取,因此插值算法的好坏,决定了图像的色彩质量,特别是高频细节处色彩还原能力。
色彩校正:由于sensor的RGB响应曲线与人的视觉系统存在差异,因此有必要引入色彩校正模块,对摄像机的颜色进行校正,以接近人观察的主观感受。一般采用3×3矩阵作为色彩校正矩阵,通过色卡标定产生,选取几个典型色温生成矩阵,其余色温对应的矩阵通过插值产生。
从灰度域的角度看,黑电平校正、gamma校正、锐化等模块决定了图像的灰度还原能力。
黑电平校正:理想情况下,当没有光源照射时,sensor输出的图像应该为0,但是由于sensor本身暗电流等噪声影响,其输出值不为0,称为黑电平。ISP中的黑电平校正模块正是为了补偿该黑电平值,以校正对黑色的还原能力。
图3 人眼亮度感知曲线
Gamma校正:人眼对于亮度的响应是非线性的,如图3所示,人眼对光线变化的这条“反应曲线”就是人眼的“gamma曲线”。入射光线从全黑到有一点亮度的时候,人眼的感觉非常灵敏。然后,光线继续加强,到了很强的时候,我们人眼的反应却变得非常迟钝,亮度再提高,也不会觉得亮了很多。CCD、CMOS等sensor的成像方式是通过像点中感受光线的强弱而获得画面是线性的响应。因此,有必要在ISP流程中加入gamma校正,使得摄像机对亮度的响应曲线能与人的视觉系统保持一致,获得最佳的灰度还原能力。
锐化:是增强图像的局部对比度,特别是加大高频边缘处的差异,使画面整体的主观效果更加清晰。
从前面的ISP处理流程的描述中,我们可以总结出ISP处理的一些特点。
实时性要求高
前端图像处理对处理耗时、延时有严格要求。一般处理时间不能超过帧率,否则就会丢帧;人眼能够感觉到50ms的延时,安防监控中对摄像机的处理延时有严格要求,一般在100ms以内。因此,ISP处理一般采用ASIC芯片或FPGA实现,才能满足实时性的需求。对于一些实时性要求不高的模块,例如3A,其统计部分一般放在ISP处理流程内,由硬件实现;其计算部分则由ARM或DSP实现,可以隔几帧计算一次。
模块多,涉及范围广
从流程图中可以看出,ISP流程中包括了较多的处理模块,各个模块都有其特殊作用。其处理涉及的范围较广:灰度还原相关,包括黑电平校正、gamma校正、锐化等;色彩还原相关,包括白平衡、插值、色彩校正等,还包括自动曝光、自动聚焦等控制算法,降噪、宽动态等图像复原、增强相关模块。这些模块的处理是否正确或合适,都与最终的图像效果有一定关系;模块之间彼此还有一定的相互影响,例如锐化过强,则图像噪声变大,对降噪模块的效果有较大影响。
近年来,随着高清数字摄像机的普及,安防监控中的图像质量得到了很大提高,但是在实际使用过程中,还是有一些棘手的问题亟待解决,主要是动态范围窄、透雾能力弱、低照度效果差。
在视频监控应用中,摄像机需要拍摄的场景经常会出现较大的动态范围,例如大厅出入口、晚上拍摄开启大灯车辆的车牌等。普通摄像机动态范围窄,在这些场景下,往往出现大面积的过曝或者过暗区域。
近期频繁出现的雾霾天气,也对室外摄像机造成了较大影响,普通摄像机在雾霾天气下的效果如图4.a所示,图像质量下降严重,整个图像发朦,对比度变差,细节不清晰。
图4 有雾图像与透雾图像
低照度也是摄像机面临的一个挑战,监控用摄像机作为全天候使用的设备,需要经常面对照度很低的场景,普通摄像机通过加大数字增益来提升图像亮度,但是相应放大了噪声,如图5.a所示,噪声颗粒对图像质量影响较大。通过降噪技术,可以提升图像主观质量,见图5.b所示。
因此,解决这些问题的图像处理技术,主要有宽动态、透雾、降噪技术,下面对这些技术进行介绍。
宽动态技术
目前安防数字摄像机使用的sensor的动态范围较小,一般输出12-bit 的raw数据,其动态范围远远小于实际场景可能的动态范围。而安防应用的场景,很大一部分具有较大的动态范围,例如道路监控的电警、卡口应用, 楼宇监控时室内对着大厅出入口的应用等,在这种场景下,普通摄像机采集的视频存在大面积的过曝或者过暗问题,导致有效监控信息的丢失。
图5 噪声与降噪图像对比
现有的宽动态技术,主要由sensor提供多帧不同曝光时间的图像,将多帧图像合成后,形成一帧宽动态图像。多帧不同曝光时间的图像合成,主要分为HDR tonemapping和exposure fusion两种。
图6 HDR Tonemapping处理流程
HDR Tonemapping技术,需要经过一系列处理:首先需要通过响应曲线映射,使图像恢复成线性数据,然后将多帧图像根据曝光倍数合成为一帧宽动态图像,最后通过tonemapping算子压缩动态范围。整个流程如图6所示。当拍摄时摄像机有一定位移时,合成之前还需要将图像进行对齐;当场景中有运动物体时,需要加入去鬼影处理,防止运动物体边缘出现重影、伪彩色。
Exposure fusion技术,不需要将多帧图像根据曝光倍数合成为一帧宽动态图像,而是直接将不同曝光的图像融合(fusion),得到与输入图像相同位宽的具有宽动态效果的图像。该技术的核心有两个,一个是每个像素通过一套评价标准,赋予不同的权值,形成权重图;二是在合成时采用多分辨率(multiresolution)技术,在不同的尺度下加权融合,得到合成后的图像,如图7所示。
图7 Exposure fusion技术
Exposure fusion技术相对于HDR Tonemap ping技术,有以下几方面的优势:
·简化了整个处理流程。不需要响应曲线映射,多帧合成HDR图像,以及获取不同曝光时间的比例关系。
·算法适用范围广。整个合成过程不需要考虑响应曲线,曝光比例等因素,自动根据像素的评价标准加权合成,因此可以将有闪光灯的图像加入到待合成图像序列中,也可以将红外图像与彩色图像合成等。
透雾技术
目前在安防领域中使用的透雾图像处理技术大致可以分为两大类:
一种是非模型的图像增强方法,通过增强图像的对比度,满足视觉的主观要求来达到清晰化的目的。比较典型的算法有基于多尺度Retinex图像增强技术,限制对比度自适应直方图均衡化算法等。
另一种是基于模型的图像复原方法,它考查图像退化的原因,将退化过程进行建模,采用逆向处理,以最终解决图像的复原问题。比较典型的算法有基于暗通道原理的透雾算法。
暗通道假设在无雾的图像中,绝大多数非天空的局部区域里,某些像素总会至少有一个颜色通道具有很低的值,即自然景物中到处都是阴影或者彩色,这些景物的图像的暗原色总是很灰暗的。基于该假设作为先验知识,从有雾图像的模型中解出无雾图像。
有雾图像的物理模型如图8所示,其公式如式1所示。
图8 有雾图像模型示意图
I代表所看到的图像强度,J是景物光线强度,A是大气光成分,t是用来描述光线通过媒介时没有被散射掉的那部分。透雾的目标就是从I中恢复出J、A、t。
前一种技术的特点是对浓度均匀的雾霾有一定的效果,特别是基于直方图的算法实现简单,有一定的透雾效果,应用广泛;缺点是原理建立在增强主观效果的基础上,不符合真实的雾气模型,无法区分图像不同区域的景深与雾浓度,处理强度无法自适应,造成处理后的图像不自然,易出现发黑及色彩失真现象。
后一种技术基于大气透射模块,区分图像不同区域景深与雾浓度进行处理,可以获得准确、自然的透雾图像。缺点是算法复杂度高,不易实现。
值得注意的是,还有一种通过红外成像进行透雾的技术, 通过将红外成像图像与正常图像融合的方式,可以得到透雾后的图像。近红外摄像机可以获取雾霾掩盖的图像细节,通过融合的方式进行透雾,图9为图像融合方式获取的透雾效果图。
图9 图像融合透雾
降噪技术
安防视频监控系统中,噪声的存在会造成图像看不清楚,编码压缩码率大幅升高,压缩后的图像容易出现闪烁、蠕动和块效应等瑕疵。引入降噪增强技术,可以带来图像干净,可判别细节增加,码率降低,呼吸效应减少等。
目前主流ISP芯片都带有降噪算法,由空域降噪和时域降噪一起组成3D降噪。
空域降噪典型的算法包括基于双边滤波器降噪和基于小波变换降噪。众多ASIC厂家通常采用类似于双边滤波器的原理设计降噪模块,比如TI公司的Bayer域空域降噪模块,Ambarella公司设计的CFA Noise Filtering模块和YUV域的Spatial Noise Filtering。
时域降噪则一般基于运动判决的方案,通过前后两帧的运动估计,判断是否为运动区域,
运动区域噪声抑制少些,静止区域噪声抑制多些。
前端图像处理技术的发展趋势
在高清数字摄像机发展过程中,前端图像处理技术与摄像机的实现方案紧密相关,经历了发展初期以FPGA实现为主,逐渐统一到成熟平台方案的过程。
在发展初期,各个安防厂商为了快速开发产品抢占市场,采用FPGA实现ISP处理流程,整个流程按照算法工程师的设计进行开发,可以根据不断的测试,灵活调整处理流程,改进算法效果。其缺点是成本、功耗等问题。
随着众多ASIC芯片厂商提供成熟的ISP处理方案,各个安防厂商逐渐启用平台方案,在此基础上,进行3A算法开发,参数与效果调试等工作。目前的平台方案包括TI、AMBA、HISI、SONY等,其ISP处理流程与模块组成有一定的差异,有些方案集成了3D降噪、透雾、宽动态等模块,有些则没有。各个安防厂商在开发基于平台的产品时,更加注重芯片的功耗、成本等因素,图像效果的竞争与平台方案密切相关,主要通过参数调试、3A算法开发等,拉开图像效果的差距。
短期内,前端产品使用的各个平台方案各有优势,将并存一段时间。长期来看,随着方案的不断成熟,其市场定位也将进一步细化:主打低端市场的方案,在保证效果的基础上,功耗、成本成为主导因素;高端市场的方案,3D降噪、透雾、宽动态等功能逐步完善,效果成为关键因素。