APP下载

支持监控视频高效压缩与识别的IEEE 1857标准

2013-04-29黄铁军张贤国等

电子产品世界 2013年7期
关键词:视频监控

黄铁军 张贤国等

摘要:我国技术专家为主研究制定的数字视频编解码技术标准AVS-2013年6月4日被国际电子电气工程师协会(IEEE)标准化委员会颁布为IEEE 1857标准。该标准独具特色的一个部分是针对视频监控的监控档次AVS-S2,编码压缩性能达到目前视频监控业界主流使用的H.264(又称MPEG-4AVC)标准的两倍,而且在码流层支持感兴趣区域的自动提取与表达。本文介绍了AVS-S2的制定过程、关键技术及其与其它标准的压缩效率对比情况。本文网络版地址:http://www.eepw.com.cn/article/146816.htm

关键词:视频监控;视频编码;视频分析;AVS标准;AVS-S2

引言

视频监控是继数字电视、视频会议之后的又一个重大视频应用,而且日益成为“体量”最大的一个视频系统:千千万万个摄像头通过宽带网络联系在一起,形成了一张覆盖全球的“视听感知网”,从此人类社会的运行状态都被海量的摄像头采集下来。对大量摄像头采集的海量监控视频有效传输、存储、分析和识别是信息技术面临的重大挑战。

根据EMC委托IDC做的研究报告,2012年全球各种数据的总量为2.84ZB。到2020年,这个数字将上升到40ZB,IDC称之为“数字宇宙(Digital Universe)”。“数字宇宙”中有分析利用价值的部分才是目前热议的“大数据(Big Data)”,IDC估计2012年的数据中“大数据”占23%,2020年这个比例将增长到33%。据lDC测算,2010年“大数据”的一半是监控视频。2015年.监控视频所占比例会增长到65%。2020年仍将处于绝对领先地位,占44%(其次是25%的交易数据、20%的医疗数据、10%的娱乐和社交媒体)。

按照IDC的上述测算,2020年将有5.8ZB的监控视频需要进行存储、传输和分析。其中,中国所占比例将达到21%。也就是说,2020年在我国将有1.2ZB(12LTB)的监控视频需要处理。这是一个什么样的规模呢?据测算,人类历史上说过的所有的话都数字化也就是5EB,1.2ZB是其240倍!

面对如此海量的监控视频.需要对视频编码和分析技术进行基础性研究并实现重大突破。以北京为例,2008年奥运会前全市监控摄像头数量就超过了五十万个,每小时产生的视频时长就相当于中央电视台建台以来的所有库存视频。如果要在全市范围内调度、使用这些视频,即使全部采用当前的国家标准AVS或国际标准AVC/H.264,也需要S00000(摄像头)×10M(比特/秒/摄像头)=5000Gbps的网络带宽,这是目前的网络传输条件不可能支持的。这些监控视频往往要存储数周乃至数月,尽管是分散在各个单位和部门,但整个北京为存储监控视频付出的存储成本十分庞大。仍然按当前的视频标准压缩效率计算,每个小时产生的视频总量仍达到500000(摄像头)×3600(秒/小时)×10M(比特/秒/摄像头)=18000(Tb/小时)=2.25(PB/小时)。按照IDC对2012年存储价格保守估计,北京市每小时存储监控视频的成本需要2800万元,一个月的成本就是200亿。为了降低存储代价,往往只能以损失视频质量为代价,但这是和监控视频需要满足识别需要这个根本目的相抵触的。因此,从传输和存储成本考虑,都需要研究更高压缩效率的视频编码技术和标准。

2002年以前,我国的视频压缩一直直接采用国际视频编码标准。2002年后,为了支持国内音视频产业的健康发展,规避国际标准背后高额专利费当时已经不断出现的纠纷,工业和信息化部(原信息产业部)组织成立了数字音视频编解码技术标准工作组(简称AVS工作组)。此后,AVS工作组开始起草自主知识产权的国家标准《信息技术先进音视频编码》,并于2006年颁布为国家标准GB/T20090.2-2006。AVS的编码效率与同期国际标准MPEG-4 AVC/H.264相当,在图像质量基本不损失的前提下对高清视频的压缩效率能达到150:1(以下谈到压缩效率时同此条件)。当然,有些视频监控应用中用户将压缩效率参数设为600:1甚至更高,但图像质量损失严重,对后续的使用会带来负面影响,例如图像中对象识别率下降等。

从2007年开始,AVSI作组开始面向行业应用对GB/T 20090.2进行了定向扩展,开始制定面向视频监控应用的伸展档次(简称AVS-S),2009年起草完成。这个标准新增了面向视频监控的一些技术特性,但在编码效率这个核心指标方面并无明显提高,总体上处在与H.264相当的水平。认识到只有大幅度超越国际标准H.264,才能大幅度降低监控系统成本,AVSI作组从2010年3月开始启动了第二代视频监控标准(AVS-S2)的制定工作。2013年6月,包括AVS-S2在内的AVS视频编码标准由IEEE颁布为编号1857的标准。

AVS-S2的编码效率有了大幅度提升,主要是因为采用了背景建模技术,对监控视频的编码效率比H.264/AVC、以及2006年发布的AVS标准性能提高了一倍,编码效率达到300:1左右,达到当前最新国际标准H.265/HEVC同等的水平。

AVS-S2新增背景建模技术和感兴趣区域提取等两项技术,是国外任何其他编码标准所没有使用的。其中,背景建模技术同样可以用于增强其他国际标准的编码压缩性能,例如H.265/HEVC。实验表明.在H.265/HEVC参考软件中加入AVS-S2背景建模技术后,针对监控视频可以将其压缩效率再提高一倍,达到600:1左右。目前,AVS工作组正在将这套方法应用到正在制定AVS2标准中(称为AVS2-S),预计在监控视频编码方面将比H.265/HEVC高一倍,这将是国际范围内监控视频编码压缩效率的最高水平。

监控视频编码标准发展历程

视频编码研究的目标是通过各种技术手段大幅度降低视频码率,否则即使是单路数字视频都难以正常传输。以高清晰度视频为例,每秒钟的数据量为1920×1080×24比特×30帧每秒=1492992000比特每秒,约1.5Gbps,即使以今天的带宽条件,传输这样的一路视频都耗资巨大,当时的通信条件便更加难以企及。因此.从1952年贝尔实验室Cutler等人进行DPCM fDifferential Pulse Code Modulation)技术研究以来,视频编码技术一直得到高度重视和持续研究。

上世纪80年代,为了数字电视和视频通信的需要,国际标准组织开始综合已有技术成果来制定视频编码标准,形成了以块为单元的预测加变换的混合编码框架(block-based hybrid coding framework),并相继出台了ITU-T H.261/H.262/H.263/H.264视频编码建议和ISO/IEC MPEG-1/MPEG-2/MPEG-4视频编码标准。其中,国际标准化组织(ISO)和国际电工技术委员会(IEC)在1994年出台的MPEG-2标准在数字电视领域得到了广泛采用,压缩效率可以达到75:1,可以把原来一路1.5Gbps的高清视频流编码压缩到20Mbps左右。国际电信联盟1995年出台的H.263标准也是同一时代的技术,在视频会议领域得到广泛应用。第一代数字视频监控系统主要采用MPEG-2或H.263标准,某些系统出于实现成本考虑还对标准进行了一定的简化。

2003年第二代视频编码技术国际标准发布。国际标准为ITU-T H.264和ISO/IEC MPEG-4 AVC,系同一套技术标准文本由两个渠道出版。因为前面提到的原因,我国在国际标准约一年之后制定出了自主知识产权的国家标准,并经过芯片实现等产业化验证后,于2006年2月颁布为《信息技术先进音视频编码第二部分视频》国家标准(国标号GB/T20090.2-2006,通常简称为AVS视频编码标准)。4个月后,微软主导的VC-1视频编码标准由美国电影电视工程师协会SMPTE颁布为行业标准。这三个标准通常被称为第二代视频编码标准的三个代表,其编码效率均比第一代提高了一倍,编码压缩效率达到150:1左右,即可以把一路高清视频压缩到10Mbps左右。第二代标准在数字电视和视频通信领域得到应用后,也很快被视频监控系统所采用。目前基于IP的网络视频监控系统,主要采用H.264标准。但厂商为了降低成本,往往会把标准中较为复杂的编码工具剪裁掉,而不同厂商剪裁的方式又各不相同,因此虽然都号称基于H.264标准,但不同厂商的产品间之间是难以互联互通,需要使用软件或者硬件转码器进行转换。

2013年上半年,第三代视频编码国际标准(ITU-T H.265,ISO/IECHEVC)即将颁布,其视频编码效率比H.264提高一倍,也被监控行业寄予厚望。但是,视频编码标准的更新换代和压缩效率的提高,都是以更高的计算复杂性换来的,压缩效率提高一倍,计算复杂度往往要提高五倍甚至更多,从而导致编码器/编码芯片价格居高不下。据分析,HEVC解码器/解码芯片复杂度与比H.264增加一倍左右,但是编码器复杂度是H.264的四倍以上,因此HEVC实时编码器/编码芯片的开发还需要一段时间。对于电视广播来说,每个频道一台编码器就可以服务亿万用户,因此编码器复杂度高、价格高不是大问题。但是,视频监控与数字电视恰恰相反,解码器需求不多(很多视频可能从未解码查看过),但每个摄像头都需要一颗编码器,这就要求在提高压缩效率的同时,编码算法复杂度应该保持较低的水平。

在面向数字电视的视频编码国家标准于2006年颁布后,我国AVS工作组开始着手面向行业应用对已颁布国标进行了定向扩展。从2007年开始,在2006年国标的基准档次(面向数字电视)基础上,相继扩展出加强档次(面向高清电影等应用)、伸展档次(面向视频监控等应用)和移动档次(面向手机流媒体等应用)三个部分。其中伸展档次(简称AVS-S)是全球第一个针对视频监控应用制定的视频编码标准。

AVS-S制定工作起始于2007年开始,需求分析是在国家有关部门和视频监控行业多家企业共同参与下完成的。经过两年的努力.通过在基准档次的基础上增加适合监控视频特点的专用工具,于2009年完成了“伸展档次”(简称AVS-S)。该标准针对视频监控全天候工作的特点,以监控现场的视频序列为测试基准,通过竞争方式选择、评估合适的视频编码技术制定而成。AVS-S不仅能够提高典型监控场景的编码效率,支持单色、彩色、红外序列编码,而且具有更强的抗误码特性和网络适应性,具有时域可伸缩性,能够满足视频监控网络传输条件复杂的要求。更进一步,该标准还提供了基于灵活条带和条带集的感兴趣区域编码方法,能够支持图像区域标记、区域事件标记、摄像机标记等监控要求,并为感兴趣区域检测、对象分割、对象跟踪等智能应用和标准扩展预留了空间。

我国数字电视产业广泛使用AVS的重要原因是国外组织对采用国际标准的企业和运营商征收高额专利费,这个问题在视频监控行业并不明显,因此监控产业界转换到这样一个效率相当的新标准的动力不足。通过与视频监控行业的企业和应用单位的交流和调研,AVS工作组判断,只有编码效率大幅度超越H.264,才能大幅度直接降低监控系统成本,新标准才有得到应用的可能。基于这个原因,2010年3月,AVS工作组启动了第二代视频监控标准(AVS-S2)的制定工作。AVS-S2针对监控场景固定的特点,在传统基于块划分的混合编码框架的基础上,添加了基于背景帧的预测编码技术,形成了新的编码框架。与传统基于块划分的混合编码框架相区别.AVS-S2的编码框架中包含新加入的背景建模单元、更新的基于背景帧的帧间运动补偿预测单元、背景帧缓存以及与背景建模和背景帧预测相关的控制逻辑,并在2011年底完成了标准起草工作。2012年,面向立体电视和高清电视的AVS+标准制定完成,并被国家广电总局颁布为行业标准,AVS+新增的一个重要工具是高级熵编码,这个工具也同样可以用于AVS-S2。包含所有这些工具的新版AVS标准于2012年10月通过了IEEE标准委员会设定的会员投票程序.于2013年3月获得IEEE标准委员会会议的审核通过,2013年6月上旬印刷颁布为IEEE1857标准。

AVS-S2监控视频编码背景建模技术

AVS标准的一个重要技术特色是针对应用需要制定简洁高效的标准方案和算法组合,2006年颁布的AVS国家标准是针对数字电视需要而设计的,在变换、量化、熵编码、帧内预测、帧间预测、环路滤波等方面提出了一系列的新技术,在解码复杂度只有H.264的70%、编码复杂度只有H.264的30%的情况下,获得了与H.264相当的编码效率。

与H.265再次提高编码复杂度的做法不同,AVS-S2大幅度提高编码效率的主要“秘诀”是针对监控视频场景长期不变的特点,通过背景建模的方式去除7大量存在的“场景冗余”。监控视频与传统影视视频最大的不同在于其拍摄范围限定在一定场景中,“场景”冗余是传统视频编码方法没有深挖的“大金矿”。AVS-S2通过对监控背景和前景进行建模,大幅度提高了编码效率。对于固定摄像机拍摄的监控视频,通过背景建模和前景学习能够将编码效率提高一倍左右,这是编码领域的一个重要创新,下面具体介绍AVS-S2增加的背景建模技术。

首先,AVS-S2在传统基于块划分的混合编码框架的基础上,添加了纯背景帧预测编码技术,形成了新的编码框架。与传统基于块划分的混合编码框架相区别,AVS-S2的编码框架中包含新加入的背景建模单元(其目的是构造一个不含前景对象的纯背景,从而为后续图像的编码提供更好的参考)、更新的基于背景帧的帧间运动补偿预测单元、背景帧缓存以及与背景建模和背景帧预测相关的控制逻辑(蓝色标记),如图1所示。

其次.AVS-S2继承并改进了AVS-S中的背景预测技术。AVS-S2使用背景帧(G帧)来编码表示场景信息的背景图像,并扩展语法元素定义以保证该背景图像不显示输出。同时,AVS-S2沿用了AVS-S中可以零矢量参考G帧的背景预测帧(S帧)。

第三,更进一步地,在AVS-S2中,每一个P帧在图像层语法元素中,既可以选择以最近两帧为参考图像,也可以选择以最近参考帧和G帧为参考图像进行编码。G,S,P帧参考方式可以如图2所示。

第四,AVS-S2采纳了可选差分编码技术,该方法下的编解码流程如图3所示。

对于每一个P帧的宏块,除使用现有编码方法外,可以选择性的使用“最近参考帧与背景图像的差分结果”来对“当前宏块与其对应背景差分结果”进行预测编码,这种预测编码方式我们定义为差分编码方式。当前宏块编码为差分方式时,三处选择开关如图4所示:否则,将三处开关切换至另一端即为现有混合编码框架中的编码方式。

第五,在使用不显示输出的背景帧做参考图像时,为了保证运动矢量预测值的计算过程不发生除零错误并且提高预测值的准确性,AVS-S2改进了亮度运动矢量导出算法,对直接或间接参考不显示输出的背景帧时的运动矢量预测过程进行了特殊处理。

第六,为了保证在编码不显示输出的背景帧时不产生解码缓冲区溢出和播放停顿,AVS-S2改进了缓冲区检测机制,将不显示输出背景帧跟其后一帧绑定移出缓冲区。

第七,AVS-S2中沿用了AVS.s的提高抗误码性的技术如灵活条带集、核心图像、受限Dc模式、支持各类监控标记的语法元素、非参考P帧以及改进型的运动矢量缩放、自适应加权量化等技术改进。

集成背景建模和可选差分技术的监控视频编码框架如图5。这一方案的重要贡献是实现了模型编码(背景建模和前景编码)与现行标准的有机结合,为在现行视频编码标准中纳入模型编码方法开辟了一个有效途径。

集成上述所有技术的AVS监控视频编码标准已经作为AVS视频标准独具特色的一个档次,于2013年颁布为IEEE 1857国际标准。IEEE AVS标准中的监控档次(即AVS-S2)是AVS既有技术的集大成者,是全球第一个面向视频监控的国际标准。

以十个典型监控视频作为测试序列,将AVS-S2和国际标准H.264的高级档(High Profile)、AVS国家标准基准档(GB/T 20090.2-2006)和2012年发布的AVS广播档(AVS+)进行对比,对比软件均采用这些标准最新版本的参考软件。表1是AVS监控档次相对于其它三个标准的码率节省情况。从表中可以看出,在压缩这些监控视频序列时,AVS-S2与其它三个标准档次相比,平均码率节省都超过了50%,即编码效率是它们的两倍。

基于背景建模的编码方法实质上是消除常规标准没能消除的“场景冗余”,因此同样用于提高其它视频编码标准的效率。我们将这套方法增强即将颁布的国际标准HEVC(H.265),同样用上述十个监控视频序列和HEVC参考软件进行对比,实验表明能将HEVC的码率平均再降低44.78%,而且复杂度降低46.53%,即用约一半的复杂度实现了编码效率的翻番,压缩效率达到现行国际标准H.264的近四倍。我们正在将这套方法用到正在制定AVS2标准中(称为AVS2-S),预计在监控视频编码方面比HEVC高一倍,这是国际范围内监控视频编码效率的最高水平。

结束语

从1996年我国专家第一次参加视频编码国际标准ISO/[EC MPEG会议算起,我国在追赶和超越视频编码国际标准方面已经走过17年的历程。2002年AVS标准工作组的成立是我国在这一领域走向自主发展的标志性事件。如果说2006年GB/T 20090.2视频编码国家标准的颁布是我国打了一个漂亮的翻身仗的话,2013年IEE批准AVS则是AVS全面走向国际的新里程碑。

IEEE AVS中独具特色的一个部分是针对视频监控应用的档次AVS-S2。AVS-S2的编码效率是H.264/AVC的两倍,而且编码复杂度只有后者的二分之一。这套消除监控视频“场景冗余”的背景建模技术还能将H.265/HEVC国际标准的效率提高约一倍,在监控视频编码领域遥遥领先,标志着我国的视频编码技术和标准在视频监控领域已经实现跨越。

在AVS-S2码流中,已经可以基本判断出各个编码宏块的类别(前景块、背景块、边缘块),基于这个信息进行前景对象检测跟踪,能够在提高分析速度的同时降低误识率。以行人检测为例,目前行人检测算法普遍存在的问题是易受背景的干扰,另外面向单张图片的行人检测算法因为性能问题而无法有效地扩展到视频序列中。利用AVS-S2编码提供的背景图像,对原始视频提取前景,得到每个前景区域中的外接矩形,然后再利用变形部件模型做行人检测。实验结果显示,在检测精度为90%时,召回率比基于单张图片的行人检测算法提高了6个百分点,同时速度提高了70%。

监控视频已占据全球“大数据”的半壁江山,AVS-S2标准的出台为大幅度降低监控视频的传输和存储成本创造了巨大的技术和产业机遇,希望我国视频监控产业行业能够在国家相关部门大力支持下,抓住这个机遇,同样实现跨越发展。

猜你喜欢

视频监控
基于特定类型物体检测的药店视频监管系统
基于变电站的微机防误系统的可视化监控技术研究
地铁高清视频存储技术的应用分析
基于视频图像采集移动目标检测系统的设计
数字化监控系统的企业应用
基于嵌入式Linux的视频监控系统的设计与实现
基于HTML5的视频监控微课设计浅析
智能视频检索技术在校园安防建设中的发展应用