论非线性编辑系统中的视音频处理

2011-10-13江西电视台江西南昌330046

大众文艺 2011年10期

关键词：视音频视频信号音频

胡琨 (江西电视台江西南昌 330046)

论非线性编辑系统中的视音频处理

胡琨 (江西电视台江西南昌 330046)

非线性编辑系统是以计算机为操作平台的电视节目后期编辑制作设备，随着计算机技术的飞速发展，非线性编辑系统已广泛应用于电视节目的制作。本文介绍了非线性编辑系统中的视音频处理系统的组成及其工作原理。

非线性编辑；线性编辑；视频卡；视频压缩；采样频率；压缩比

一、非线性编辑的概要

20世纪末，科学技术和艺术的关系越来越密切，科学技术媒介被广泛的引入艺术实践领域，信息时代的数字技术作为一种媒介机制与艺术相结合，其中非线性编辑技术尤以其低成本、高效率、高质量和效果变换无穷的优点迅速进入了电影、电视、网络等传播领域。

非线性编辑是针对线性编辑而言的，在传统的电视节目制作中，节目的制作和编辑是在编辑机上进行的。编辑机一般是由一台放像机和一台录像机组成，编辑人员在放像机中选择一段需要的素材，然后把这段素材录制到录像机中的磁带上，然后再搜索下一个镜头，接着再进行记录工作，之后重复以上的操作，直到把所有需要的素材按照节目要求全部顺序记录下来。[1]

用磁带记录画面是顺序的，所以无法在已有的画面之间插入别的画面，也无法删除不需要的画面，除非把这之后的画面全部重新录制一遍，插入所需的画面，最后再把之前复制的画面接上，这种编辑方式就叫做线性编辑，它给编辑人员带来很多的限制，编辑效率非常的低下。

非线性编辑则是应用计算机图像技术，在计算机中对各种原始素材进行各种编辑操作，并将最终结果输出到计算机硬盘、磁带、录像带等记录介质上这一系列完整的工作过程。所有的原始素材是被数字化后才存储到计算机硬盘上的，信息存储的位置都是并列平行的，所以与原始素材输入到计算机时间的先后顺序没有关系。于是，我们就可以对存储在硬盘上的数字化音视频素材进行随意的排列组合，并可进行各种修改。这样，非线性编辑的优势就体现出来了，工作效率也提高了很多。编辑人员现在所要做的就是如何去创作他的作品，如何发挥他的想象力，再也不用受线性编辑的限制了。[2]

任何非线性编辑的工作流程，都可以简单地看成输入、编辑、输出这样三个步骤。当然由于不同软件功能的差异，其使用流程还可以进一步细化。以大洋D3-Edit为例，其使用流程主要分成如下5个步骤。

(1)素材采集与导入：采集就是利用大洋D3-Edit，将模拟视频、音频信号转换成数字信号存储到计算机硬盘中，或者将外部的数字视频存储到计算机硬盘中，成为可以处理的素材。导入主要是把其他视频、图片、声音等导入到大洋D3-Edit的素材库中。

(2)素材剪辑：素材剪辑就是在原始素材中选取所需的各个小片段，然后按照时间顺序组成不同新的素材的过程。

(3)特技处理：对于视频素材，特技处理大概分为转场、特效、合成叠加等。对于音频素材，特技处理分为转场、特效等。令人震撼的画面效果，就是在这一过程中产生的。而非线性编辑软件功能的强弱，往往也是体现在这方面。配合某些硬件，大洋D3-Edit还能够实现特技播放。

(4)字幕制作：字幕是节目中非常重要的部分，它包括文字和图形两个方面。大洋D3-Edit中制作字幕很方便，可以实现各种预期达到的效果，并且还有大量的模板可以选择。

(5)输出与生成：节目编辑完成后，就可以输出回录到录像带上；也可以生成视频文件，保存到移动硬盘上、发布到网上、刻录VCD和DVD等。

由此可见，音视频素材的采集与输入是整个非线性编辑流程的第一步，也是至关重要的第一步。没有对素材优良的采集编码，就谈不上好的非编系统，下面我们就来详细深入地研究音视频输入系统。

二、非线性编辑系统中的视频处理

首先，我们来说说人的视觉特性。人眼是依靠视网膜上光敏细胞一杆状细胞和锥状细胞获得了彩色视觉，人眼仅对电磁波谱中的可见光区（波长从380nm到780nm）敏感，人眼对亮度的敏感程度比对颜色的敏感程度高。

了解了人的视觉特性后，我们再来研究视频信号。一般评价和描述视频信号的好坏，就会提到一些指标，如分辨率、帧速率和色彩数等参数。分辨率就是画面的精密度，它反映了画面的清晰度。分辨率为384×288的电视图像与分辨率为384×576的电视图像的画面质量有明显的区别。电视节目后期制作中，要求图像分辨率为720×576或768×576（PAL制）。帧速率是指每秒钟刷新的画面的帧数，也可以理解为画面处理器每秒钟能够刷新几次。PAL制电视节目的帧速率为25fps（帧每秒）；制作多媒体光盘出版物时一般选15fps的帧速率。电影和NTSC制式电视的帧速率分别为24fps和30/29.97fps。色彩数就是屏幕上最多显示多少种颜色的总数。描述每一像素的字节数决定了最多可同屏显示多少种颜色，一般为256色、65536色和16777216色（即真彩色）。色彩数越多，能表现的彩色层次越丰富。[3]

视音频采集卡是非线性编辑系统的“引擎”，在非线性编辑系统中起着举足轻重的作用，它直接决定着整个系统的性能。它主要有以下功能：完成视、音频信号的A/D、D/A转换，即进行视频、音频信号的采集、压缩/解压缩和最后的输出等功能，也称这类卡为视音频处理卡。视音频处理卡是模拟信号与数字信号的分水岭，所有模拟视音频信号在此经过A/D变换后，每一段素材都成为了一个视频文件存放在硬盘阵列中，供计算机进行数字域的处理。需要输出的视音频数码流经过D/A变换成为可供记录或直播的视音频信号。视音频处理卡上包括模拟信号接口如复合、分量、S—VIDEO，已涵盖现有模拟电视系统的所有接口形式，也包括像IEEE—1394和SDI这样的数字接口。

视频处理卡是非线性编辑系统产品的决定性部件。一套非线性编辑系统所能达到何种程度的视频质量，与视频处理卡的性能密切相关。压缩与解压缩是视频处理卡的核心内容。在数字视频信号不能被有效而高质量地压缩时，非线性编辑都是在昂贵的工作站上实现的。因为庞大的数字视频数据量使苹果机和普通PC机都不堪重负，不能正常处理数码率高达216Mb／s的无压缩数字分量视频信号或者142Mb／s的无压缩数字复合数字视频信号，从而无法胜任无压缩数字视频信号的非线性编辑工作。然而，随着数字图像压缩技术的发展，各种图像压缩算法日臻成熟，使得在苹果机和PC机上进行视频非线性编辑成为了现实，这些图像压缩算法是实现相对廉价的视频非线性编辑的关键所在。而视频处理卡正是采用这样的压缩算法。只不过它把压缩程序集成在硬件中。目前，国内外的非线性编辑系统，大都是采用Motion-JPEG算法。Motion-JPEG可以理解为活动图像的JPEG压缩，Motion-JPEG基于静态图像压缩格式JPEG，对活动图像进行实时的帧内压缩，帧内压缩有一个好处就是可以精确的定位每一帧图像，这一点非常适合非线性编辑，在编辑过程中，可以随机存取任意一帧图像，对于帧编辑十分理想。Motion-JPEG采用DCT编码技术。由于这种算法不太复杂，可以用很小的压缩比(2：1)进行全帧采集，从而实现广播级指标所要求的无损压缩。若采用广播级指标进行2∶1压缩，经过压缩的数字视频信号其数码率仍有108Mb／s(分量视频)或71Mb／s(复合视频)。Motion-JPEG的压缩和解压缩是对称的，可以由相同的硬件和软件来实现，这对压缩／解压电路实现高度集成化有帮助。由于这种算法不太复杂，可以用很小的压缩比(2：1)进行全帧采集，从而实现广播级指标所要求的无损压缩。

Motion-JPEG的压缩过程（如图1）大概由5个主要部分组成：

图1 Motion-JPEG的压缩过程

色抽样：在视频处理器中处理的是分量信号（YUV），因此输入的信号不是分量信号，需要进行转换，亮度信号（Y）、色度信号（UV）各用8比特表示，每个采样共用24比特。信号转换后，亮度信号直接进入DCT编码器中，而色度信号需要进行再抽样、同步，然后进入DCT编码器，这个过程是个有损失的过程，有些信息丢失后无法还原。色度抽样时，处理U分量的同时，丢失V分量；处理V分量时，丢失U分量，这样减少了数据量，本来需要24比特来表示一个抽样，现在只用16比特（8比特的亮度信号，8比特的色度信号），这就是常说的4：2：2（Y：U：V）。不同的厂家可能有不同的处理方法，有的会提高压缩比，有的可能不做处理，而采用24比特的无损信号。色度抽样完成后，色度信号与亮度信号输入到DCT变换器中，DCT变换器的作用主要是用频率变换来表示图像。

DCT：分量信号的图像进入DCT变换器中，每帧被分割成许多8*8（像素）的正方形，一幅图像可以分割成几千个这样的正方形，DCT变换器对这些正方形进行分析，计算出其灰度变化，然后用频率表示其灰度值，比如大块图形或轮廓变化不大的部分用低频表示，对边缘或细节这样变化大的部分用高频表示，DCT变换器对所有正方形分析完后，在对下一幅图像进行分析。从DCT变换器输出的亮色信号使用频率来表示的，进入下一个过程-量化。

量化：量化过程决定了整个压缩过程的压缩程度，可以采用有损压缩或无损压缩，一旦进行有损压缩，丢失的信息无法还原。Motion-JPEG一般采用2：1的压缩比，在回放时，可以达到无压缩时的视觉效果。根据对人类视觉系统的分析，人眼对亮度和色度的敏感程度不同，在辨别一幅图形时，亮度信号对人眼的刺激更为重要，而色度信号在损失90%的情况下，人眼仍然可以分辨出图形。数字视频压缩技术参考了人眼的这个特点，对色度信号进行压缩，来得到较高的压缩比。量化级数是量化的重要参数，其范围从0到255，级数越大，图像信息丢失越多，图像质量越差，可以得到较高的压缩比。量化级数与每帧的数据量成反比，级数大，每帧图像的数据量小，反之亦然。通过量化，把图像的频率数据根据量化转换成一系列的数，记录了图像的信息。

零记数：量化过程产生一个数组，通过计算数组中的零的个数，来帮助在传输过程中判断数组的尾端。这个过程多采用RLE（run-length encoding）算法。

霍夫曼编码：霍夫曼编码是DCT编码的最后一步，对数据进行冗余计算，把多余的信息去掉，传递更少的数据。霍夫曼编码得到的结果，就是存储到计算机磁盘上的数据。如果要看视频影象，将这些数据解码，然后通过数字/模拟转换，得到模拟的视频信号，又可以在监视器上浏览或记录在录像带上了。[4]

从硬件构成的角度看，视音频采集卡可分为单通道和双通道两种。这里通道的意思是指在内部视频混合器之前的独立的视频回放通道。目前绝大多数的非线性编辑系统使用的都是M-JPEG算法，因此可分为只有一个M-JPEG Codec（编解码器）的单通道系统和有两个M-JPEG Codec的双通道系统。单通道系统只能对一路视频信号进行压缩记录和解压回放，这就意味着系统肯定无法完成多层画面的实时处理。双通道系统由于可以完成两路视频信号的解压回放，再与系统内部其他处理单元相配合，就可以完成两路活动画面的实时混合处理。

三、非线性编辑系统中的音频处理

自1895年法国卢米埃尔兄弟发明电影直到1927年影片《爵士歌王》出现以前，在30年里，电影一直是一个“伟大的哑巴”。在告别默片时代的今天，声音已经越来越成为现代电影和电视艺术表现手段的一个重要组成部分，它们与视觉画面一起共同构筑银屏空间，推动叙事，完成艺术形象的塑造。因此，在非线性编辑过程中，如何处理好音频也就显得非常重要。

录入非线性编辑系统中的声音多数以不压缩的采样波形文件的形式保存。在音频数字化时，模数转换的采样频率和采样深度影响系统中存储的声音信号的质量和音频素材所占用的磁盘空间。采样频率越高，采样深度越大，录制的声音质量就越好，相应占用的存储空间也越大。目前多数电视台播出时采用单声道的电视伴音信号，一般采样频率22KHz以上，采样深度16比特即可满足要求。[5]随着对伴音质量要求的提高，部分电视台已过渡到使用立体声音频信号进行部分节目的播出，相应地需要选择CD质量的声音处理方式，即以44.1KHz的频率采样，记录成16比特的立体声信号。

和视频处理卡一样，音频处理卡对音频信号的处理也是一个编解码的过程。音频信号由模拟信号转变为数字信号，使用压缩技术通过编码量化，记录在磁盘上。音频压缩系统是将音频信号的表示从时域转换到频域，以实现基于心理声学的音频压缩，所得的频域系数即是接下来要编码的内容，频域系数可数字量化，因为产生的量化噪声将与音频信号在同一频率上，由于心理声学掩蔽效应，对低的信噪比是可接受的，基于人类听觉的心理声学模型，对于每个单独的频率系数，比特分配操作决定了什么样的SNR（信噪比）可以接受，最后，频域系数数字量化到所需精度，并格式化音频的基本码流。基本码流包括了使音频解码器实现相同（对编码器）比特分配的必要信息，这样，解码器将基本码流频率系数进行分组拆装和反量化，从而重建频率系数。合成滤波器组是分组滤波器组的逆过程，它将重建的频率系数还原为时域信号。

我们再来了解音频卡中声音信号的处理过程（如图2）。输入的模拟音频信号经过前置放大器放大后，由程序可控增益放大器进一步对输入信号的幅度进行控制。抗混滤波器根据采样频率滤除可能引起噪声的频率。经过模数转换（A/D）和采样保持（S/H）电路，得到8位或16位数字化声音数据。DSP芯片对声音数据进行ADPCM压缩，以DMA传送方式，通过PC总线将数据存储在硬盘上。声音重放输出的过程正好相反，从硬盘读出的编码声音数据，被系统以DMA方式传道到DSP处理器，经DSP解码和数模转换（D/A），变成模拟信号，再由重建滤波器进行低通平滑（sinx/x）滤波。声音信号的输出电平在软件的控制下，经过功率放大器输出。

图2 音频卡中声音信号的处理过程

在质量较好的非线性编辑系统中，音频处理卡与视频处理卡往往是集成在一块卡上的，称之为视音频处理卡，完成视音频处理工作，如采集、合成、输出等。某些非线性编辑系统由于主处理卡没有音频处理功能，是通过外插音频处理卡来解决音频处理问题，如果使用普通的多媒体音频卡，其音频通道的频响、信噪比、接口形式及是否平衡输出都满足不了广播电视的要求，而且，这种低档的音频卡，处理速度缓慢，在采集和回放时，跟不上视频卡处理的速度，出现视音频信号不同步现象，为了保持视音频同步，就会出现丢帧现象。虽然使用外插卡往往造成不同步现象，并不是说使用外插卡就一定不能满足要求，有些高档的专业音频处理卡，性能优越，可以保持视音频信号的同步，提供专业音频接口，只不过价格相当高昂。所以音视频处理集成在一块卡上是比较合理的设计，既能保证音视频信号的同步，又降低了成本，在非线性编辑系统中普遍使用。[6]

四、结语

数字化电视系统发展的步伐日趋加快，计算机技术逐步渗透到广播电视的各个领域。非线性编辑技术经历了多年的发展，其软硬件技术日趋成熟。既能满足高端的电影特技制作逼真炫目的需要，又能满足低端的新闻剪辑制作。非线性编辑系统功能将更加完善，在广播电视行业占据的地位也会越来越重要，作为一项朝阳技术，其应用一定会迎来一个辉煌时代。

[1]余胜泉.非线性编辑系统[M].中国传媒大学出版社，2005

[2]张晓冬，李刚.国内非线性编辑及网络技术发展综述[J].广播与电视技术，2007（2）

[3]宣长林，鲁岩.非线性编辑技术发展

[4]张洪甫.线性编辑和非线性编辑[J].中国有线电视，2007（03/04）

[5]杨继荣.媒体数据传输及存储管理平台的发展思路[J].西部广播电视，2004（10）

[6]张大卫.谈非线性编辑系统[J].中国医学教育技术，2001(02)

胡琨（1983年- ），男，江西南昌人，本科毕业于武汉理工大学，在读中国传媒大学工程硕士，现供职于江西电视台新闻中心，助理工程师，从事后期制作和设备维护工作。