AVS标准最新进展

2019-02-19赵海武李响李国平滕国伟王国中

自然杂志 2019年1期

赵海武，李响，李国平，滕国伟，王国中

上海大学通信与信息工程学院，上海 200444

1 AVS起源

随着计算机和通信技术的发展，广播电视在20世纪末开始快速发展。发展的两个主题是高清和数字化。世界各国纷纷制定了数字电视发展规划。数字电视需要一系列的工业标准，以取代传统的模拟电视三大制式。中国在数字电视领域的研究起步较晚，特别是参与数字电视国际标准的研究较少，又恰逢相关标准采用了大量专利技术，而且没有对专利的许可进行任何限制，这给中国的数字电视产业发展埋下了隐患。然而，引爆专利炸弹的并不是数字电视，而是DVD。DVD也算广义的数字音视频产业。2002年，中国的DVD产业经历了从迅速窜升到迅速衰落的戏剧性变化，引起广泛的关注和讨论。焦点问题是中国类似产业特别是数字电视产业会不会重蹈覆辙，这也直接促成了数字音视频编解码技术标准(AVS)的诞生。

其实，遇到专利收费问题的不仅仅是中国企业，国际上的相关企业也面临着过高、过于复杂的专利收费问题。在国际上，两大组织在制定视频编码标准，一个是国际电信联盟电信标准分局(ITU-T)的视频编码专家组(VCEG)，另一个是国际标准化组织ISO/IEC的运动图像专家组(MPEG)。VCEG和MPEG在制定标准时只要求提案单位披露相关专利，对将来专利的许可方式没有任何要求。这使得在标准发布以后，专利权人处于明显的优势地位，造成专利收费过高，而且存在很多的收费主体。虽然一部分专利权人联合成立了MPEG-LA，但是还有很多专利权人没有加入MPEG-LA，而是选择单独收费。因此，一个企业必须和多个收费主体分别谈判，这在MPEG-4和H.264相关专利的收费过程中得到了体现。

2 第一代AVS标准

2002年6月21日，经原信息产业部科技司批准，“数字音视频编解码技术标准化工作组”(简称AVS工作组)在北京翠宫饭店正式成立。自主知识产权是AVS工作组制定标准的第一目标。为了实现这一目标，AVS工作组进行了一系列制度创新。总结下来大致包括以下几点：

(1)要求会员单位对自己的专利的许可方式进行承诺。比如免费、加入AVS专利池、RAND等。

(2)审议提案时不仅要讨论技术的先进性、可行性等技术指标，还要讨论相关的专利情况，必要时成立专门的调查小组，对某个技术环节涉及的专利进行深入调查。第(1)条所述的许可方式也在考虑之列。

(3)成立AVS专利池，该专利池包含AVS标准中的所有专利，可以做到一站式授权。

(4)设计专利池管理委员会的席位构成及议事规则，保证专利权人、被授权人和公众利益代表拥有适当的发言权。

(5)聘请第三方对专利的必要性进行独立评估。

有了这样的制度设计，就保证了AVS标准具有完全的自主知识产权。这里要特别说明的是，AVS工作组的会员单位中，不仅包含国内的企业、大学和科研机构，还包括很多国际著名的公司。只要这些公司同意遵守AVS标准的章程，就可以加入AVS工作组。这样不仅提高了AVS工作组吸收技术的范围，同时也可以保证专利收费是可控的。

AVS工作组致力于制定一套数字音视频编解码标准，类似于MPEG标准，包括视频、音频、系统等核心部分，还包括符合性测试、参考代码等辅助部分。在不懈的努力下，2004年AVS工作组完成了第一个视频标准《信息技术先进音视频编码第2部分：视频》。又经过一年多的测试、报批，该标准于2006年2月被颁布为国家标准GB/T 20090.2[1]，并从当年的3月1日起开始实施。这是AVS工作组制定的第一个标准，简称AVS标准。后来第二代AVS标准公布后，为了区分两个标准，也将它们分别称为AVS1标准和AVS2标准。GB/T 20090.2更准确的称谓是AVS1-P2。

AVS1-P2是中国制定的第一个具有完全自主知识产权的视频编码标准，具有划时代的意义。AVS1-P2采用了传统的混合编码框架，编码过程由预测、变换、熵编码和环路滤波等模块组成，这和H.264[2]是类似的。但是在每个技术环节上都有创新，因为AVS标准必须把不可控的专利技术拿掉，换成自己的技术。在技术先进性上，AVS1-P2和H.264都属于第二代信源编码标准。在编码效率上，AVS1-P2略逊于H.264，在压缩低分辨率(CIF/QCIF)的视频节目时相差多一些；但AVS1-P2的主要应用领域是数字电视，分辨率主要是标清和高清节目。

完成标准的制定只是第一步，接下来是更为艰巨的推广应用工作。为此，AVS工作组在2005年就着手组织成立了AVS产业联盟，希望通过产业界的合作，实现AVS标准的推广应用。AVS标准的推广离不开核心产品。作为音视频编解码标准，核心产品就是编码器和解码器(在数字电视中通常称为机顶盒)，而解码器的核心部件是解码芯片。在编码器的研发方面，上海国茂数字技术有限公司(原上海广电(集团)中央研究院流媒体事业部)起到了关键作用。2006年，上海广电推出第一台广播级商用AVS编码器，并在山西太原的数字化电视工程中中标。后来陆续推出系列AVS编码器和转码器，以及AVS机顶盒、头端监看系统、测试码流等一系列产品，在湖南、山东寿光和邹平、上海、杭州、乌鲁木齐、云南等地实现商用。特别值得一提的是，2010年，上海国茂数字技术有限公司的AVS产品走出国门，在老挝、古巴、斯里兰卡、吉尔吉斯斯坦等国家的数字电视项目中被采用。自2010年起，上海国茂数字技术有限公司和上海大学建立了长期合作关系，上海大学开始参与AVS标准的制定及产品研发。上海大学王国中教授曾担任AVS产业联盟理事长，并担任AVS工作组总体组成员；上海大学赵海武担任实现组组长及系统组联合组长。在2017年3月召开的“国际音视频产业论坛暨AVS标准十五周年年会”上，赵海武老师获得了“AVS十五周年个人突出贡献奖”，上海国茂数字技术有限公司获得了“AVS十五周年单位突出贡献奖”。

随着高清电视和3D电影的兴起，为了解决中国广播电影电视亟待开展的相关业务，国家广电总局科技司以及工信部电子信息司，在2012年3月联合下发了《关于成立“AVS技术应用联合推进工作组”的通知》，在2012年3月18日AVS推进工作组正式成立，设立了领导小组以及专家组。领导小组由国家广电总局科技司司长王效杰和工信部电子信息司司长丁文武担任组长，专家组由中央电视台总工程师丁文华和AVS工作组组长高文院士担任组长。为了进一步提高AVS1在数字电视领域的性能，AVS推进组决定在AVS1-P2的基础上补充少量技术，形成一个新的类(profile)。AVS工作组经过近4个月的努力完成了该类，命名为广播类(broadcasting profile)。2012年7月10日，广播类首先作为行业标准《广播电视先进音视频编解码第1部分：视频》颁布并立即实施，标准号为GY/T257.1-2012[3](简称为AVS+)；同时启动国标GB/T20090的修订工作，将AVS+作为国标的第16部分[4]，即AVS1-P16。改进后，AVS+在压缩效率上和H.264已经一样了。在AVS推进组的大力推进下，AVS+迅速实现了产业化应用。目前中国的卫星电视节目已经全部采用AVS+。

2013年1月国家相关6个部委联合发布《关于普及地面数字电视接收机的实施意见》，该意见要求国内所有销售的地面数字电视产品都必须采用且唯一支持AVS标准。目前，AVS标准已经在全球范围内的1 000多个电视频道中使用。

AVS1标准在中国的数字音视频产业的发展中发挥了非常重要的作用。2013年1月18日，在代表中国科技界最高荣誉的国家科学技术奖颁奖大会上，时任中共中央政治局常委、国务院副总理李克强宣布，“数字音视频编解码技术国家标准AVS与产业应用”获得国家科技进步二等奖。

AVS1的完整构成[1,4-12]见表1。

表1 AVS1的构成

3 第二代AVS标准

在第一代AVS标准成功颁布后，为了满足超高清视频以及3D视频业务的需求，赶超国际相关标准，AVS工作组随后于2008年底开始了第二代AVS标准(简称AVS2)的工作。AVS工作组在审议600多项提案并采纳了其中189项后，完成了AVS2系列标准的第一个部分，即《高效音视频编码第2部分：视频》，并于2016年12月30日颁布为国际标准，标准号GB/T 33475.2-2016[13]。此前于2016年5月6日，该标准已由国家新闻出版广电总局颁布为行业标准，标准号GY/T299.1-2016[14]，简称AVS2-P2或AVS2。

在2016年颁布的AVS2-P2中，包含了三个档次(profile)，分别是基准图像档次(main picture profile)、基准档次(main profile)、基准10位档次(main-10bit pro fi le)。其中，基准图像档次面向图像编码的应用，基准档次面向2D的高清和超高清视频应用，基准10位档次面向采样精度达到10位的2D超高清视频应用。

近年来，图像编码的压缩效率进步不明显，目前主流格式还是jpg。JPEG标准已经发布快30年了，技术上早已明显落后。虽然后来JPEG工作组又发布了JPEG2000标准，但是在压缩效率方面提高不大，在市场上并没有取得成功。随着视频压缩编码效率的不断提高，视频编码中的I帧(可以独立解码，相当于一幅图像)的压缩效率已经超过了JPEG。实际上，在H.264发布以后，就有学者做过JPEG、JPEG2000和H.264 I帧压缩效率的对比测试，测试结果表明，H.264的I帧的压缩效率已经超过了JPEG和JPEG2000。随着图像的数据量的爆炸式增长，市场上急需一种压缩效率更高的图像编码格式，因此，AVS2中特别设计了基准图像档次，以满足市场需求。AVS2颁布以后，腾讯公司率先将AVS2应用于自己的产品中，又建议AVS2定义了相关的文件格式标准，叫做TPG。TPG的压缩效率比JPEG要高40 %左右。

AVS2基准档次是AVS2-P2的基础，面向最重要的高清和超高清视频应用，其编码技术构成了整个AVS2-P2的基本框架。AVS2视频编码采用了传统的混合编码框架，分为帧内预测、帧间预测、变换、量化、环路滤波、熵编码等模块，其编码框架如图1所示。

AVS2的框架结构与最新的国际标准H.265[15]基本一致，但AVS2在主要的技术环节上都采用了新的技术，使得AVS2的编码效率在某些方面明显高于H.265。AVS2标准采用的新技术以及带来的增益，如表2所示。

图1 AVS2编码框图(来自www.avs.org.cn)

表2 AVS2采用的新技术

大众熟知的四叉树编码技术，和H.265是大致一样的，但是这并没有影响到AVS标准的自主知识产权，因为该技术的贡献者三星公司也是AVS工作组的会员，四叉树编码的相关专利也会按照AVS工作组的方式许可。

另外，AVS2针对监控视频、视频会议的视频内容增加了背景帧编码技术，使编码效率得到大幅度提升，其编码框架如图2所示[16]。这些视频的特点是背景基本不变，在AVS2中称为“场景视频”。场景视频的冗余主要来自背景。AVS2在编码场景视频时，会选择一幅图像作为背景帧(G帧)或者通过若干幅图像综合出一幅图像作为背景帧(GB帧)，G/GB帧的质量很高，而且长期被参考，从而达到减少冗余、提高压缩效率的目的。G帧和GB帧都叫背景帧，它们的区别是：G帧是视频序列中拍摄得到的帧，解码时要输出显示；GB帧是编码器构造的帧，解码时不需要输出显示。采用背景帧以后，相对于不采用背景帧，压缩效率可以提高一倍。

当然，背景帧也带来一些新的问题。首先，背景帧会影响随机访问。解码器一旦错过码流中的背景帧，就必须等到下一个背景帧出现时才能完整解码。背景帧的间隔时间很长，造成用户要等待较长的时间。当然，背景帧包含的信息量其实不大，在观看时用户往往主要关心前景。因此，AVS2规定按照随机访问的需要，每隔一段时间要有一帧仅参考背景帧编码，这样的帧叫做“S帧”。S帧可以部分解码，而且S帧后面的帧都参考S帧，不再参考背景帧。这样S帧就起到了传统I帧的作用。在下一个背景帧来到之前，解码器可以从任意一个S帧开始解码，使用户可以看到视频中的前景。

图2 基于背景建模的监控视频编码框架

背景帧带来的另一个问题是码率波动过大。背景帧的质量很高，码率也很高；采用背景帧编码后，平均码率又很低。因此，当背景帧出现的时候，会造成码率的波动特别大。在视频编码和解码中，通常利用码流缓冲区来平滑码率。码流缓冲区平滑码率的能力和缓冲区容量以及延迟是密切相关的。缓冲区容量越大，平滑码率的能力越强。就目前的技术而言，增加缓冲区容量不是问题，成本也不高，但是缓冲区越大，带来的延迟也越大。从解码器开始接收码流到开始解码输出，这段时间叫码流缓冲延迟，是编解码总延迟的一部分。延迟过大，也会严重影响随机访问性能。为了解决码率波动问题，AVS工作组又补充了背景帧部分刷新技术。也就是背景帧不是整帧传送，而是被拆分成一些较小的部分，分散在一段时间内分别传送。这样就有效解决了背景帧带来的码率波动问题。当然，用户看到的可能是逐渐呈现的背景，不是一下子就完整呈现的背景。

AVS2-P2的基准10位档次，面向HDR和WCG的超高清视频应用。HDR是高动态范围的缩写，WCG是宽色域的缩写。随着视频采集和显示技术的进步，已经可以采集、呈现更高对比度的视频内容，于是国际上提出了HDR和WCG的概念，主要体现在2012年下半年，国际电信联盟无线电通信部门(ITU-R)颁布的面向新一代超高清视频制作与显示系统的BT.2020标准。在BT.2020中，规定HDR和WCG视频的每个像素分量的数字化表示至少需要10位，而不是传统的8位，因此AVS2-P2中特别设置了基准10位档次。其实从8位到10位编码算法没有什么变化，但是对于编码器和解码器，必须额外处理多出来的两个比特，带来的复杂度增加还是很明显的。

已经颁布的AVS2-P2的编码效率，经国家新闻出版广电总局广播电视规划院的测试，在通用视频场景下，已经和国际标准H.265相当，比AVS1提升了一倍以上。针对监控视频场景，AVS2的场景编码模式压缩效率则高出H.265一倍。按照视频编码标准的世代划分，AVS2与H.265都是第三代视频编码标准。AVS2的颁布，标志着中国的视频编码标准已经超过了国际标准，实现了弯道超车。

除了上述的已经颁布的三个档次外，AVS2-P2还在面向其他的应用制定标准，例如面向3D视频的档次和面向屏幕内容的档次以及面向制作域的档次。在3D档次中，AVS2采用多视点加深度的方案，在基准档次的基础上补充视间预测和深度图编码技术。随着远程教育、联网游戏等应用的发展，需要将计算机屏幕显示的内容进行编码传输。计算机屏幕显示的内容和自然场景视频明显不同，具有一些显著的特点。如何根据屏幕内容的特点设计高效的编码方案是屏幕内容档次的核心。AVS2采用了像素串编码技术。制作域的视频编码的主要特点是高质量。视频节目的制作过程中，为了控制失真的积累，必须保持很高的质量，通常要达到主观无损的质量。在这种要求下，某些技术会变得不那么有效。另外，制作域还要求最高的随机访问性能，通常要求可以从任意一帧开始解码，也就是全I帧。这时P帧和B帧就不能用了。

相比于AVS视频标准的顺利推进，AVS音频标准却经历了更多的波折。AVS1-P3至今没有颁布，尽管实际上标准早已制定完成，也经过了各种严格的测试。AVS1-P10面向移动的语音和音频编码标准[9]于2013年12月颁布。2018年6月7日，AVS2的音频标准《信息技术高效多媒体编码第3部分：音频》(AVS2-P3)被颁布为国家标准[17]，2019年1月1日起实施。该标准与AVS2视频编码配套，主要适用于超高清和3D等的音频编码场景。

4 第三代AVS标准

纵观视频编码标准的历程，从1994年的第一代信源编码标准，到2003年的第二代，再到目前推广使用的2013年制定的第三代，发展趋势是每10年左右编码效率提高约1倍[18]。据此规律可以预见，第四代信源编码标准预计将于2023年左右完成。AVS工作组紧跟时代步伐，已在2014年启动第三代AVS标准的制定工作。关于第三代视频编码标准的技术框架，经过了长时间的讨论，曾经有几个选项：①传统的混合编码框架；②基于云计算的编码；③基于AI的编码框架。经过多次研究讨论，基本确定了AVS3依然沿用传统的视频编码框架，也就是选择了方案①。

基于云计算的编码方案，利用云的强大计算能力，将视频内容中的各种对象分离出来，逐步形成视觉词典。新生成的视频内容中，如果包含视觉词典中已有的对象，则只需记录视觉对象的索引，这样就可以消除不同视频节目之间的冗余，从而极大地提高压缩效率。同时，编码过程也就是对视频内容的识别过程，可以彻底解决视频的压缩编码与智能检索之间脱节的问题。然而，这种方案在现阶段的研究还不够深入，还存在很多实现方面的问题没有解决，因此不适合作为一个工业标准。

人工智能在最近两年变得非常热，也有人在研究人工智能与视频编码的结合，但是，目前可以实用的技术并不多。结合传统的编码框架，利用人工智能改善某些环节的技术是一个比较可行的方案，因此不论是国际上的MPEG/VCEG工作组，还是AVS工作组，在制定下一代视频编码标准时，都选择了沿用传统的视频编码框架。

基于传统的视频编码框架，目前可用的技术主要有二叉树编码、基于AI的环路滤波、更高效的运动矢量预测、更精细的帧内预测和插值等。从已经发布的研究结果看，综合各种新技术，已经在传统视频编码框架下将压缩效率提高了近一倍。可以说，第四代视频编码标准已经呼之欲出了。

5 AVS标准国际化

AVS标准虽然立足于自主知识产权，但是它的应用绝不仅限于国内。AVS工作组一直非常重视国际化工作。除了前面提到的AVS标准已经出口到多个国家之外，在2007年5月7日召开的国际电信联盟(ITU-T)IPTV FG第四次会议上，AVS1与MPEG-2、H.264、VC-1并列为IPTV可选视频编码标准。

2012年3月，由中国专家主导的IEEE1857工作组成立，这是中国视频编码标准迈向国际化的一个重要里程碑。IEEE SA也是一个重要的国际标准制定组织，曾经制定了802.11等国际标准。IEEE1857工作组致力于面向网络多媒体应用制定音视频编码和系统标准。2013年6月4日，IEEE出版了IEEE1857-2013，该标准可以看成是AVS1视频相关部分的英文版。此后，又陆续出版了IEEE1857.2音频(AVS1音频)、IEEE1857.3系统(AVS2系统)和IEEE1857.5移动语音等部分。另外还有其他几个部分正在制定中，如IEEE1857.4视频(AVS2-P2)、IEEE1857.9沉浸式视频等。

这里要特别介绍一下IEEE1857.9，该标准是面向虚拟现实的视频编码标准，是目前IEEE1857系列标准中唯一不是由AVS工作组专家发起的标准。2015年12月IEEE-SA的主席决定开始VR视频编码的标准化工作，并将该任务交给IEEE1857工作组。后来，在AVS工作组中也成立的虚拟现实视频编码专题组，和IEEE1857.9工作组成立了联合工作组VRU。VRU工作组目前已经完成了第一版VR视频编码标准，主要工作是规范全景视频到平面视频的映射方案，其中上海大学提出的等积双极方形映射被采纳到该标准中。

6 AVS标准的产业化

AVS1的产业化应用在第二部分已经介绍了，这里不再重复。AVS2标准在2016年颁布后，经过国家新闻出版广电总局、工业和信息化部“AVS技术应用联合推进工作组”研究决定将OTT超高清视频服务作为AVS2的首个应用对象。同年，在中国网络电视台(CNTV)的统一组织下，AVS2网络电视直播解决方案已在CNTV的CDN和P2P直播平台上建成并测试完毕，完成了2016年里约奥运会部分赛事的网络直播任务。

2017年12月23日，国内首个4K超高清电视在广东电视中心演播厅广东广播电视台试验播出。此次播出，由国家新闻出版广电总局广播电视规划院进行了全面的检测，并通过验收。广东广播电视台的这次超高清节目的试播是全国首个超高清电视节目的成功播放，这次的验收测试也是规划院中心所国内4K检测技术首次在实际系统中的成功应用，为我国4K技术的推广应用积累了宝贵的经验。

2018年3月30日，由中国电信上海研究院张明杰主编的《IPTV 业务系统AVS2实施指南(2018年)》正式发布，包括中关村视听产业技术创新联盟、中国智慧家庭产业联盟、中国视频体验联盟、广东4K生态产业联盟、上海国茂数字技术有限公司在内的30多家单位指导和参与了编写工作。《指南》中提到IPTV产业致力于为用户提供全4K新体验，AVS2对规范IPTV产业端到端系统技术和促进IPTV业务良性发展具有重大意义[19]。在2018年1月，AVS2的高清实时编码器xavs2(V1.0)就已经开源，其他支持AVS2的插件也在加紧研发，争取在2018年下半年完成并开源。AVS2开发工具的开源，将大大降低数字音视频编码的技术门槛，加速AVS2标准的产业化进程。