视音频信号的数字化压缩技术要点简述
2016-03-05余晓忠
余晓忠
视音频信号的数字化压缩技术要点简述
余晓忠
(作者单位:新疆新闻出版广电局安全监测中心)
本文介绍了视音频信号的数字化过程,对视音频信号数字化的编码方式、取样格式和压缩编码技术要点进行分析。
视音频信号;数字化;压缩技术
数字电视由于有着图像传输质量好、频谱利用率高、节省发射功率、易于实现信号存储和处理等优点,自诞生后迅速取代模拟电视得到了广泛应用。
1 视音频信号的数字化过程
模拟视音频信号实现数字化需完成取样、量化、编码三个过程,称为脉冲编码调制PCM(Pulse Code Modulation)。
取样,是指在时间(或空间)上用有限个取样点来代替连续无限的坐标位置。根据奈奎斯特取样定理,取样频率必须大于等于2倍模拟信号的最高频率,在接收端通过低通滤波器恢复离散的模拟样值序列。
量化,是对取样得到的样值序列的幅度进行离散化处理,将连续变化的无穷多个样值的幅度用有限的近似样值的幅度来表示,把离散脉冲的幅度进行舍零取整的过程。量化的级数的多少取决于量化比特数的多少,量化比特数越多,量化级越多,产生的量化误差越小,解码后恢复的模拟信号失真也越小。一般每增加或减少1 bit,就使量化信噪比增加或减少6 dB。对于音频和视频信号,通常采用非均匀量化,小信号时量化间隔小些,大信号时量化间隔随之大一些,使信噪比趋于一致。
编码是指用一组组二进制数依次表示一个个量化后的脉冲幅度值,并把它们排列起来组成数据信息流的过程。
2 视音频信号的编码技术
2.1视频信号的编码方式
视频信号的编码分为复合编码与分量编码两种。
复合编码是将复合彩色全电视信号直接进行数字化,编码成PCM信号。由于取样频率与副载波频率间的差拍造成的干扰影响图像质量,复合编码已经淘汰。
分量编码是对三基色信号R、G、B分量或者是对亮度信号Y和两个色差信号R-Y和B-Y分别进行数字化,编码成二进制的脉冲编码调制PCM信号,然后以时分复用的方式混合在一起,构成PCM分量编码信号。其优点是编码与电视制式无关,便于电视制式转换和统一;由于对分量分别编码,采用时分复用方式混合在一起,从而有效地避免了亮/色互相串扰,可获得高质量的图像。
2.2视频信号的取样格式
视频信号数字化时分为625行/50场制式和525行/60场制式。一副完整的图像都是通过两场隔行扫描完成的,一幅图像既有水平扫描又有垂直扫描。取样点通常采用正交结构,为了满足正交结构,要求取样频率必须是行频率的整数倍。为了实现两种扫描制式的兼容,采用同一种取样频率,即625行频和525行频的整数倍,同时还要满足奈奎斯特取样定理,确定亮度信号取样频率为13.5MHz。
由于色差信号的带宽比亮度信号的带宽窄的多,为了降低码率,在分量编码时两个色差信号的取样频率可以低一些。为了满足不同应用场合对图像质量的要求,亮度和色差信号的取样频率可以有不同的比例组合,即不同的取样格式。通常将3.375 MHz作为最低的基准频率。
4∶4∶4格 式, 即Y∶(B-Y)∶ (R-Y)=13.5 MHz∶ 13.5 MHz∶ 13.5 MHz,适用于高质量图像信号源;
4∶2∶2格 式, 即Y∶(B-Y)∶(R-Y)=13.5MHz∶6.75MHz∶6.75MHz,适用于标准清晰度电视(SDTV)演播室中;
4∶2∶0格式,即Y∶(B-Y) ∶(RY)=13.5 MHz∶3.375 MHz∶3.375 MHz,其实质上为4∶1∶1格式,适用于SDTV信源编码中。
2.3数字电视信号的码率
国际电信联盟的无线电委员会(称为ITU-R)数字演播室标准CCIR-601,确定了以分量编码4∶2∶2标准作为演播室彩色电视信号数字编码的国际标准,对彩色电视信号的编码方式、取样频率、取样结构等都做了明确的规定。625行/50场和525行/60两种制式的亮度信号每行取样点分别为864个和858个,有效取样点数均为720个,取样频率为13.5MHz,行逆程取样点数分别为144个138个。两个色差信号每行分别取样432和429行,有效取样点均为360个,取样频率为6.75 MHz,行逆程取样点分别为72个和69个。
标准清晰度数字电视(SDTV)的码率=亮度信号的码率+2个色差信号的码率 =13.5 MHz×10 bit+2×6.75 MHz×10 bit=270 Mbit/s(取10 bit量化)
高清晰度数字电视(HDTV)的码率=亮度信号的码率+2个色差信号的码率=1485 Mbit/s(亮度信号取样频率为74.25 MHz,取10 bit量化)
2.4音频信号的数字化
音频信号都是复合信号,基本参数有频率、幅度和带宽。频率决定音调高低,幅度决定声音的大小或强弱,带宽决定音频信号的频率范围。人耳能听到的最大频率范围是10 Hz~20kHz。衡量音频信号数字化有三个指标:取样频率的大小、量化比特数、声道的多少。取样频率通常为11.05kHz、20.05kHz、44.1kHz、48 kHz等,常采用8比特和16比特量化;声道数可分为单声道、双声道(立体声)、环绕立体声(5声道)。
数字音频存储量=取样频率×量化比特数×声道数/8bit(字节)
3 压缩编码技术
压缩编码技术就是在发送端对数字信号进行变换处理的一种方法,其目的是去掉数字信号中冗余信息(数据),尽可能地降低信号的数码率,形成一个传输效率更高的数字信号。数字信号首先进入预测编码器,消除数据中的统计相关冗余,包括空间相关与时间相关冗余,再经过变换编码,把时域信号变换为空间域(频域)信号,实现码率的压缩。之后再通过量化编码、熵编码及缓冲器进一步压缩数码率,并保证数码率以平稳的速率达到与信道容量相匹配。缓冲器输出的信号再通过多工时分复用器与伴音、同步及其他辅助数据信号组成复合信号,最后送入信道编码器。
预测编码:又称差分脉冲调制编码(Differential Pulse Code Modulation,DPCM)。利用某种数学模式和已经传输的像素值(数据)进行预测,预测出一个与当前传输的像素值相接近的估计值,进而把当前要传输的像素值减去预测值,得到一个误差值,将误差值编码后传输出去。在接收端将收到的误差值解码后,再与预测值相加,即可得到当前要传输的像素值。
变换编码:基本思想是不直接对空间域图像数据进行编码,而是首先将原来空间域上的图像数据变换到另一个正交向量空间(变换域或频域)中,得到相应的一组变换系统,然后对这些变换系数进行量化、编码和传输,又称为正交变换编码。常用的变换编码有离散傅立叶变换和离散余弦变换DCT(Discrete Cosine Transform)。为了避免傅立叶变换的复数运算,常采用DCT变换,将一幅图像分为多个8×8个像素样值的子像块,即64个点的离散信号,通过DCT输出64个正交基信号,每个正交基信号的幅值称为DCT系数。由于高频分量DCT系数经常为0,仅对低频分量系数进行量化编码,大大压缩了数据量。
熵编码:又称统计编码,是一种无损编码。常用的有霍夫曼编码,先把信源符号按出现的概率由大到小顺序排列,然后按相反的顺序分配码字的长度。缺点是要求事先知道各信源符号出现的概率,否则效率会明显下降。
数字视频的运动补偿编码:是一种帧间预测编码,具有较大的数码压缩率,是运动图像视频编码国际标准(H.261、MPEG-1、MPEG-2)采用的关键技术之一。帧间预测编码基本原理是选择前一帧作为预测参考帧,在传输前一帧的基础上,只要传输前帧与后一帧对应像素的差值信号,在接收端只要将前一帧与差值相“加”,同样能得到后一帧。
运动补偿编码主要解决两个问题,即运动估计和运动补偿。运动估计就是对运动物体从前一帧到后一帧位移的方向和像素数做出估计,也就是求出运动矢量。运动补偿就是对运动物体的位移量进行补偿。
[1]吴恩学.数字电视实用技术[M].北京:教育科学出版社,2009.
[2]车晴,王京玲.卫星广播技术[M].北京:中国传媒大学出版社,2015.