音/视频压缩编码技术及专利性分析
2016-02-22何琳琳中国信息通信研究院技术与标准研究所知识产权中心专利咨询师
何琳琳 中国信息通信研究院技术与标准研究所知识产权中心专利咨询师
音/视频压缩编码技术及专利性分析
何琳琳中国信息通信研究院技术与标准研究所知识产权中心专利咨询师
摘要:随着相关技术的快速发展,音/视频通信的应用范围也逐渐扩大。音/视频通信中最关键的技术是压缩编码技术。而随着移动互联网的发展,移动和互联网业务的结合已经成为发展最快的业务。将自适应的压缩编码技术应用于移动通讯终端上,是音/视频数据传输领域关注和研究的热点。本文简要介绍音/视频压缩编码的理论基础、若干标准以及发展现状,并对音/视频压缩编码技术的可专利性进行分析。
关键词:音频;视频;压缩;编码;专利性
1 压缩编码技术的基础理论
音/视频通信是人类工作和生活中不可缺少的一部分,有关研究表明,人与人之间进行沟通时,55%的有效信息来自于面对面的视觉效果,38%来自于说话者的语音,而只有7%来自于内容,因而采用传输图像的通信方式,其沟通效果要远远优于电话、传真等传统通信工具。但是,图像通信由于所占的带宽太大,无法很好地应用于实际的通信中,然而,近20年以来,随着音/视频通信的相关技术的快速发展,音/视频通信的应用范围也逐渐扩大。音/视频通信目前主要应用于视频会议、视频电话、远程学习和培训、远程医疗、视频点播等方面。
音/视频通信中最关键的技术是压缩编码,即通过使用特定的压缩技术,对文件的音/视频格式进行转换。
通常而言,压缩编码技术分为无损数据压缩和有损数据压缩两种。其中,无损数据压缩方案可以在解压缩后逐位恢复原始数据信息,通过预测过去样本中的值,消除存在于音/视频信号中的统计冗余,可以实现小压缩比。而有损数据压缩方案使用感知编码技术,放弃低于阈值的所有信号以消除音/视频信号中的感知冗余,可以实现较高的压缩比。
根据处理帧数的不同,还可将压缩编码技术划分为帧内和帧间压缩。其中,帧内压缩也叫空间压缩,在压缩一帧图像时,不考虑相邻帧之间的冗余信息,而仅仅利用本帧图像的数据。帧内压缩一般是有损压缩,通常达不到很高的压缩率。帧间压缩也叫时间压缩,通过比较时间轴上不同帧之间的数据进行压缩,利用了视频或动画的连续两帧之间的冗余信息。帧间压缩一般是无损的,通过压缩相邻帧之间的冗余量,进一步提高压缩量,减小压缩比。
另外,根据编码方案的对称性,又可将压缩编码技术划分为对称和非对称编码。在对称编码算法中,压缩和解压缩的速度相同,该算法可应用于对实时压缩和传送信号要求比较高的场景,比如视频会议。而不对称编码算法中,压缩和解压缩的速度不同,一般而言,压缩所需的时间远大于解压缩的时间,因而适合于电子出版等预先压缩处理好音/视频的多媒体应用场景中。
2 压缩编码技术的若干方案
自从A.H.Reeves在1937年提出脉冲编码调制PCM,压缩编码技术至今已经有60余年的历史。目前,该技术主要包括ITU-T组织制定的H.26x系列、ISO组织制定的MPEG系列以及其他一些标准,以下分别进行简要介绍。
2.1H.26x标准
H.26x系列是由ITU-T主导的编码系列,主要应用于会议电视等实时通信领域,包括H.261、H.263、H.264、H.265等。
●H.261
H.261最初是针对可视电话、视频会议等双向声像业务而提出的,是最早的运动图像编码标准,其详细制定了压缩编码涉及的多项技术的具体实现方案。H.261是恒定码流可变质量编码,在编码时占用很少的CPU资源。为了优化带宽占用量,该标准在图像质量与运动幅度之间采用了平衡折衷的原则。
●H.263
H.263相比于H.261标准有着显著的提高,可以进一步划分为H.263、H.263+、H.263++等一系列标准。H.263可以应用于基于H.324、H.323、H.320、RTSP和SIP的系统。H.263+通过在H.263的基础上引入许多新技术,进一步扩展了H.263的应用范围。而H.263++则又在H.263+的基础上增加了选项U、V和W,进一步提高了抗误码性能,增强了编码效率。
●H.264
H.264是在H.263之后由ITU-T组织制定的下一代编解码器,也叫做AVC或者MPEG-4 Part10,它与MPEG-4的第10部分相同,在性能上超越H.263很多。H.264是一种高压缩技术,集中体现了当今国际编码解码技术的最新成果,其采用帧内预测编码技术,在相同的重建图像质量下,能够提供更高的压缩比和更好的网络信道适应性。H.264可工作于多种速率,划分为基本档次、主要档次和扩展档次三档,适用于多媒体流服务、实时多媒体监控、交互式多媒体应用、可视游戏、视频点播、数字电视等应用场景。
●H.265
H.265是ITU-T继H.264之后所制定的新的压缩编码标准,在H.264的基础上,采用新技术以平衡码流、延时、编码质量和算法复杂度之间的关系,从而实现最优化设置。具体的研究内容包括:提高压缩效率、减少实时的时延、减少信道获取时间和随机接入时延、提高鲁棒性和错误恢复能力、降低复杂度等。H.265可在低于1.5Mbit/s的传输带宽下,实现1080p全高清视频传输。
2.2MPEG标准
MPEG是MovingPictureExpertsGroup的缩写,该标准包括MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等一系列压缩编码标准。
●MPEG-1
MPEG-1方法在单位时间内采集并保存第一帧图像的信息,在对单帧进行有效的压缩时,只存储其余帧图像中相对第一帧图像发生变化的部分。该方法采用了非对称压缩算法,编码速率最高可达4~5Mbit/s/,其可被用于数字电话网络上的视频传输,也可以用于记录媒体或者在因特网上的音频传输。
●MPEG-2
MPEG-2是以提高图像质量为目标的通用国际编码标准,其在MPEG-1的基础上,增加了场间预测技术。MPEG-2的编码速率可达3~10Mbit/s,能够提供较宽的压缩比范围,以适应系统对存储容量、画面质量、带宽的不同要求。
●MPEG-4
MPEG-4标准主要应用于视像电话、视像电子邮件和电子新闻等,提供4.8~64Mbit/s的编码速率,能通过帧重建技术,利用很窄的带宽压缩和传输数据,以最少的数据获得最佳的图像质量,其适合在因特网上进行传输,也可以在移动和数字广播领域开发新的应用。
●MPEG-7
MPEG-7标准对庞大的图像声音信息进行管理和快速搜索,能够快速且有效地搜索出用户需要的不同类型的多媒体资料。MPEG-7可以独立于其他MPEG标准而使用,也兼容MPEG-4中定义的对音、视频对象的描述,其适用于在线或离线的存储应用,也适用于广播等流式应用。
●MPEG-21
随着“电子商务”的兴起,为了保证数字媒体消费的简单性,很好地处理“数字类消费”中的各种问题,MPEG组织提出了MPEG-21标准。MPEG-21标准实质上是一些关键技术的集成,它将不同的协议、标准、技术等有机地融合在一起,对全球数字媒体资源进行透明的、增强的管理。
2.3其他标准
音/视频压缩技术还涉及了其他的一些标准。
●EAAC+
2004年,3GPP的R6标准引入了增强的音频编解码器EAAC+,其增加了差错隐藏工具、立体声到单声道的向下混合工具、Spline重采样率工具等,提供的最佳工作码率范围是18Kbit/s。
●AMR
自适应多码率AMR语音编解码器是第3代移动通信系统的强制性编解码标准,该标准采用代数码本激励线性预测技术,提供8种单声道的数码率,对于快速变化的无线信道情况和本地流量情况提供了一种自适应的跟踪方法。
●VMR-WB
可变速率多模式宽带VMR-WB语音编解码技术是专为cdma2000标准而设计的,其以16kHz采样率在50~7000Hz的频带上进行语音编码。在数据速率相同的情况下,VMR-WB标准相对于现有的窄带语音编解码器,能提供更好的宽带语音通话质量,因而适合应用于宽带话音呼叫、VoIP、视频会议、音频会议、点到点和多点业务应用、流媒体应用等方面。
●AMR-WB+
增强的自适应多码率宽带AMR-WB+语音编码技术是一种宽带音频编码标准,其在ACELP的基础上引入了变换编码激励、高频编码和立体声编码等技术,提供6~48Kbit/s的码率范围,用于传送高音质的语音和音频内容,可以应用于3GPP的分组交换流、多媒体短信业务、多媒体广播业务以及下载业务等。
●OggVorbis
OggVorbis是一种高质量的音频编码方案,涉及视频音频等方面的编码开发,并能支持多声道。Ogg Vorbis是一种灵活开放的音频编码方案,在编码方案确定之后可以对音质进行明显调节或者对算法进行改良。
●杜比AC-3
杜比AC-3技术把整个音频频带分割成若干个较窄的频段,各频段的宽度不完全一样,每一个频段占有的数据量不是平均分配的,具有良好的遮蔽效应。
●MUSICAM编码技术
掩蔽型自适应通用子频带综合编码与复用技术MUSICAM是将宽带PCM信号的频谱分割成等宽的32个子频带,把时域的PCM信号转换成频域的声音信号,对各个频带的音频取样值分别进行数据率降低的编码,应用于数字电视广播中。
3 压缩编码技术的专利性分析
当前,移动通讯终端成为人们日常工作和生活中必不可少的常用工具。目前,市面上的移动通讯终端大多具备多媒体功能,视频、音频文件的播放功能几乎成为目前手机的标准配置。而随着移动互联网的发展,移动和互联网业务的结合已经成为发展最快的业务之一。以往在计算机上实现的很多通信业务,已经转移到在移动通讯终端上实现。比如,可以在移动通讯终端上实现即时通信业务(MSN、QQ、微信等),这对视、音频文件的播放提出了更高的要求。这些即时通信业务通常提供语音对讲和视频聊天的功能,因而涉及了对语音信号和视频图像的实时采集、压缩编码、存储和传输等操作。
由于移动通讯终端相对于计算机,通常具有较小的存储空间,因而要求存储的音/视频文件尽量占用较小的存储空间,这对声音/图像信号的压缩编码技术有着较高的要求。如何在保证声音/图像信号质量的前提下,选择合适的音/视频压缩编码技术,从而减小压缩后的音/视频文件大小,是软件设计人员需要重点考虑的技术问题。因而,自适应的压缩编码技术在移动通讯终端上的应用,是音/视频数据传输领域关注和研究的热点。
目前,在移动通信业务发展较快的国家,比如日本、韩国以及一些欧美国家,已经对上述领域开展了深入的研究,取得了一定的成果,并获得了较多相关技术的专利保护。比如,微软公司提出的申请号为200410090193的发明专利申请,提供了一种用于提供数字音频信号的高质量扩展和压缩的系统和方法;比如,三星公司提出的申请号为200680041592的发明专利申请,提供了一种自适应的基于时间/频率的音频编码和解码设备和方法;比如,杜比实验室提出的申请号为201180009098的发明专利申请,提供了一种用于对便携式装置内的音频信号的响度进行非破坏性标准化的系统和方法;再比如,法国电信公司提出的申请号为200780006023的发明专利申请,提供了一种识别和衰减变换编码生成的数字信号中回声的方法和设备。
然而,国内相关领域对于该项应用的关注程度还不够,只有少数通讯企业、高校、运营商等企事业单位,对于即时通信业务和压缩编码技术的结合进行了一定的研究,并获得较少的专利保护。比如,浙江大学提出的申请号为201210096448的发明专利申请,提供了一种终端均衡速率的无线音视频并行传输方法,基于多网络接口的多模终端估计网络延时和丢包率等参数,智能地将音视频数据分配至多个无线网络,在各网络上以不同的速率并发地传输音视频码流。当前,对大多数国内企事业单位和科研机构而言,基于移动通讯业务的自适应音/视频压缩编码技术具有更深入的研究空间和良好的专利性前景。如果能对相关技术投入更多的研发资源,则将取得更好的研究成果,获得更多的专利保护。需要注意的是,由于音/视频压缩技术本身相对成熟,对于该技术纯粹的算法改进的相关研究,并不存在很好的专利性前景,如何将该技术更好地应用于移动通信业务才是值得关注的专利性焦点。并且,由于该技术在国外获得了较多的专利保护,我国企事业单位和科研机构在研发过程中,将面临较多的专利壁垒和较大的风险,因而要对照自己的研发方向,积极关注国外公司的专利、专利申请或新的研发动向,及时调整自己的研发策略,规避风险。同时,国内企事业单位和科研机构应当更加注重专利申请的质量,只有高水平高质量的专利才能给予技术强有力的保护。
参考文献
[1]赵军武.视频编码技术的提高促进视频通信的发展[J].铁路通信信号工程技术,2005(2).
[2]崔丹丹,张才千.多媒体信息压缩中的MPEG技术[J].农业网络信息,2005(10).
[3]钟文涛,谢斌.浅谈数字音频技术应用[J].科技信息,2009(5).
收稿日期:(2016-4-25)
Audio/video compression coding technology and patentability analysis
HE Linlin
Abstract:With the rapid development of related technologies,the application of audio/video communications has been extended.The most key technology of audio/video communications is compression coding technology.While with the development of mobile internet,the combination of mobile business and internet business has been the fastest developing business.Applying adaptive compression coding technology to mobile communications terminal is the focus of attention and research in audio/video data transmission field.This paper summarizes the theoretical basis,some standards and developmental status of Audio/Video compression coding technology,and analyzes the patentability of Audio/Video compression coding technology.
Key words:audio,video,compression,coding,patentability