浅谈非广电标准的素材文件在转码时的注意事项

2023-09-10李海彬刘海兰

数字传媒研究 2023年7期

李海彬刘海兰

1.2.广西广播电视台广西南宁市 530022

引言

在融媒体时代，非线性编辑系统（简称非编系统）成为电视节目制作的主流工具，工作中经常需要将不同格式、编码的视音频素材文件转换为非编系统支持的格式。由于素材来源的不同，许多素材与非编系统采用的文件格式有较大的差别，如转码方法不正确，则会降低转码后的素材质量，本文针对来自第三方、非广电标准的节目素材，浅谈其在转码过程中需要注意的事项。

1 第三方素材的来源和缺点

在节目制作中，除了本台记者自采的素材外，还需大量来自第三方的素材。这些素材主要通过以下途径取得：一是用手机、数码相机、监控摄像头等设备摄录的素材，目前这些设备都具备很强的摄录功能，特别是手机视频，已广泛应用于抖音、快手等新媒体短视频平台；二是传统媒体或自媒体利用广电专业设备摄录，但通过新媒体平台发布后，又重新被其它电视媒体进行二次加工，一般通过互联网下载、传输、截屏等方式取得；三是各行业通讯员提供的用于记录本单位工作情况和事迹的一些素材，有些采用广电专业设备摄录，有些采用手机或相机拍摄，一些素材还进行了编辑合成，通过U 盘或光盘等介质提供素材文件；四是同行业电视台提供的素材，如县级台、市级台提供给省台，视频采用专业设备摄录，但大多时候是通过互联网传输，因此素材文件也不是广电标准的格式。

这些素材的缺点是在文件格式、编码、视音频参数等方面没有统一的标准，一般采用压缩率较高的编码方式，画面比例、图像分辨率、帧频等与广电行业中使用的可能也不相同，较难直接利用，需要通过非编系统或工具软件进行转码处理。

2 常用的第三方工具软件

当前各个非编厂商的软件系统越做越好，基本支持大部分主流视音频文件的转码，但新媒体技术的发展更为快速，不断有更新的格式和编码产生。非编系统的版本升级则相对滞后，可能出现无法正确识别的情况，因此需要通过第三方软件进行转码。常用的工具如下：

2.1 MediaInfo

MediaInfo 的功能是解析视频、音频、图片等文件的编码信息，它并不能对文件进行诸如编码、解码、修改内容等工作。这里将MediaInfo 放在首位进行介绍，是因为它支持解析的多媒体格式最多，获取的编码信息最为全面，其作用如同医院的化验单，只有知道化验结果，才能对症下药。

2.2 格式工厂

格式工厂是一款支持多种视音频格式转换的软件，并且支持视频裁剪、合并等功能，最大的优点是采用中文图形化界面，操作使用上较为简单。

2.3 FFmpeg

FFmpeg 是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，包含了非常先进的音频/视频编解码库。FFmpeg.exe 则是其在Windwos 平台下用于编转码的软件，通过DOS 命令行参数对视音频文件、网络视频流等进行各种编解码处理。FFmpeg功能强大，但它的命令行参数非常复杂，对于新手来说，操作使用上不是很方便。

2.4 FFmbc

FFmbc 针对FFmpeg 没有提供广电专业格式的缺点，在FFmpeg 的基本上修改而成，它可以生成符合广电行业播出标准的MXF、GXF、MOV等文件格式，视频编码包括松下公司的DVCPRO、DVCPRO50、DVCPRO HD，以及SONY 公司的DVCAM、 IMX30、 IMX50、 XDCAM HD422，转码生成的文件可以使用Omneon MediaDeck 等专业视频服务器输出。它的命令行参数与FFmpeg 相仿，但增加了一些广电专用参数。

相比于格式工厂，FFmpeg、FFmbc 的操作较为复杂，但后两者提供了更为灵活丰富的功能，可解决一些格式工厂处理不了的难题，因此建议广电行业技术人员能学会使用。

3 素材转码的注意事项

通过第三方途径取得的素材，如何保证转码后的素材质量呢？首先需要分析原始素材的一些编码参数（如通过MediaInfo），再与广电标准参数进行比对，从而选择合适的转换方法。下面列举一些素材转码过程中需要注意的事项：

3.1 视频分辨率和宽高比例

在广电行业中，标清、高清、4K、8K 指的是电视画面的分辨率，且不同国家会采用不同的制式，比如同为“标清”电视，国内标清为PAL 制，分辨率为720×576，每秒25 帧视频；日本标清为NTSC 制，分辨率为720×480，每秒30 帧视频。

关于电视信号的宽高比例，高清电视信号的宽高比是16∶9，而标清电视信号其宽高比通常为4∶3，但按真实的图像分辨率计算，PAL 制的实际宽高比为5∶4，NTSC 制为3∶2，这些实际宽高比是在转码时必须要注意的。

从第三方取得的视频素材，分辨率通常不按广电的标准设置，原因可能是摄录设备的图像分辨率的不同，或者是上传到新媒体平台后重新编码所至，因此视频分辨率没有统一的标准。在转换时，首先需要确定这些视频记录时采用的分辨率，再计算其宽高比例与广电格式的差异，以确定如何转换。

例如从网上下载的一个640×480 的视频文件，当要转为720×576 的PAL 制电视格式时，前者是标准的4∶3 比例，而后者俗称4∶3 实则5∶4，如果直接拉伸放大，则画面宽度将被挤压，人物被拉长了，如图1 视频分辨率的转换图所示，图1（a）是原视频直接拉伸的结果，可以看出人像被拉长了；图1（b）是将原视频按4：3 的比例裁剪后（红色虚线框区域）再进行拉伸，画面比例正常。

图1 视频分辨率的转换图

关于裁剪区域的计算，是根据原视频的宽高比大于或小于转码视频而定，这里原视频宽高比=640÷480≈1.33，转码视频宽高比=720÷576=1.25，前者比值＞后者比值，此时原视频高度不变，裁切其宽度，裁切后宽度=原视频高度×转码宽高比=480×1.25=600，一般取视频的中间区域；如果前者宽高比＜后者宽高比，则原视频宽度不变，裁切其高度，以720×576反转为640×480 为例，裁切后高度=原视频宽度÷转码宽高比=720÷1.33≈541，即裁剪原视频720×541 区域的内容后，再转为640×480 则画面比例不会变形。

3.2 视频帧频的转换

手机、数码相机拍摄的视频，帧频一般分为15、20、24、25、30 帧/秒，更高端的设备可以达到60 帧/秒及以上，国内广电的标清、高清电视均采用25帧/秒，这涉及到帧频的转换。

当原始帧频和转换帧频的关系是整数倍时，如50 帧-＞25帧，则每2 帧抽取1 帧视频即可，降帧后原帧画面出现的时间点不变，转换质量较好。

当原始帧频和转换帧频的关系不是整数倍时，容易造成画面不连贯、声画不同步、画面模糊等问题。以最常见的帧频30 帧-＞25 帧为例，一些编码软件会直接丢弃5 帧，采用的方法是每隔6 帧丢弃1 帧，这容易造成画面不连贯，且这种方法重新调整了每秒内各帧视频出现的时间点，同时会造成轻微的声画不同步。如图2 各帧视频出现的时间位置图，就是帧频分别为25 帧/秒和30 帧/秒时，1秒钟内每帧出现的时间点位，其中前者按40ms 递增，后者按33ms 递增，帧频转换后除首帧外，其它帧出现的时间位置都重新按40ms 递增调整，而音频采样率没有改变，从而会造成声画不同步。

图2 各帧视频出现的时间位置图

一些编码软件则重新对画面进行渲染，比如将第1 帧和第2 帧按一定的透明度比例进行渲染，产生新的第1 帧，将第2 帧和第3 帧渲染产生新的第2 帧，这些由2 帧视频合成为1 帧的素材，画面容易模糊。如图3 相邻2 帧画面渲染产生新帧图，就是通过渲染方式将5 帧视频合成4帧视频的效果。

图3 相邻2 帧画面渲染产生新帧图

对于原始视频的帧频，有时候无从选择，但有一种情况可以通过技术手段去避免，比如通过截屏器将电脑显示的内容转为SDI 信号时，则电脑显卡的刷新率设置是重点。假设网站视频的帧频是25 帧/秒，电脑显卡分辨率设为1920×1080 60P（逐行扫描，每秒60 帧），当通过截屏器转换为1080i（隔行扫描，每秒25 帧）的高清SDI信号时，其帧频变化为25 帧-＞60 帧-＞25 帧，帧频经过两次转换且都不是整数倍的关系，会造成画面质量的下降。如果将电脑显卡的刷新率设置为50P，则帧频变换为25 帧-＞50 帧-＞25帧，虽然同样进行了两次的帧频转换，但由于后者的帧频是整数倍的关系，则画质的损失会小得多。

3.3 图像内容的真实比例

视频的宽高比例可以通过工具软件查看，但图像内容的真实比例是否准确呢？在广电高标清同播的时代，这是不确定的。比如某电视台采用高清制作，标清播出，视频下变方式为“挤压模式”，即将1920×1080 的分辨率直接下变为720×576，画面比例由16∶9转为4∶3，在接收端，对于宽屏电视机而言，会将4∶3 的画面重新拉伸至16∶9，图像内容的比例仍然是正常的；对于老式的CRT 电视机而言，画面的内容因挤压而拉长了，图像内容的比例有一定的变形。俗话说，甘蔗没有两头甜，对于电视台而言，这样的信号处理方式也是种无奈的选择。

基于以上原因，对于原始素材除通过工具软件查看视频宽高比外，仍然需要通过肉眼去观察和判断视频画面的真实比例，并结合电视台的播出方式进行相应的处理。

举个例子，从某县级台拿到的素材是标清PAL 制的MXF文件，但原素材是从1080i 高清用“挤压模式”下变换为PAL制的。将素材导入高清非编系统时，图像编辑没有去看画面的真实比例，直接将标清信号采用“邮筒模式”（即原画面居中，左右遮黑）上变换为高清信号，而在送播时又采用了“挤压模式”进行标清输出。这样的变换使一个图像真实比例为16∶9 的视频，在进行了两次4∶3 变换后画面变形非常严重。转换过程如图4 所示，最终CRT 老电视用户所看到的画面是严重变形失真的。

图4 高标清多次转换后变形图

如果图像编辑在上变时，认真观察这个标清视频文件的真实图像比例是16∶9，采用“拉伸模式”将画面横向拉伸，将4∶3 的图像完全充满16∶9的屏幕，则完全可以避免这种问题的发生。

3.4 视频采样方式和编码

YUV 是电视行业采用的一种颜色编码方法，摄影机进行取像后把得到的彩色RGB 图像信号，经过矩阵变换电路得到亮度信号Y 和两个色差信号B-Y（即U）、R-Y（即V）。

YUV 各分量数据的采样方式一般分为4∶4∶4、4∶2∶2、4∶1∶1、4∶2∶0 四种，其中4∶4∶4 的方式并不多见，主要以后三种为主。以YUV422 为例，其采样时以4 个图像点为一组，分别抽取4 个点的亮度值Y，和其中2 个点的色度值U 和V，采样点从12 个变为8 个，采样数据仅相当于原来的66.6%，而如果是YUV411 和YUV420 则采样点为6个，相当于原来的50%，这大大节省了存储空间。

在电视节目的制作中，主要采用YUV422 采样方式，而从第三方取得的视频则很多是YUV420、YUV411 方式。转码时尽量不要进行多次采样方式的转换，特别是YUV420 和YUV411 之间的转换，因为这两种方式抽取的采样点位置不同，进行二次转换后数据失真较大。

如图5 所示，图5（a）是一个YUV444 采样图像的4×2 像素阵列，其中的YUV 分别是每个点各自的分量值。当采用YUV420 方式时，按2×2 阵列抽取4 个Y 样本，按图5（b）所标位置分别抽取U、V 样本，并做为其它3 个样本的代表，得到YUV420 的采样阵列；当采用YUV411 方式时，按4×1 阵列抽取4 个Y 样本，按图5（c）所标位置分别抽取UV 样本并做为其它3 个样本的代表，得到YUV411 的采样阵列。之后将YUV411 和YUV420 采样阵列进行互转，结果如图5（d）和图5（e）所示。图5 的各采样点数据中，当与YUV444 不同时用红字进行标识，其中YUV444 转换为YUV411 和YUV420 时，各有12个UV 值与原值有误差；再分别进行YUV411 和YUV420 阵列之间的互转，发现有14 个UV 值与原值有误差，且偏差值明显大于第1 次转换。

图5 YUV 采样和转换图

视频编码是指将视频内容按某种算法进行压缩，进而可以使用更小的空间存储文件，通常采用的是有损压缩的方式。在电视行业中主要采用MPEG-2 编码，当采用YUV422进行1080i 采样时，码率一般为50Mbit/s，每小时文件长度约为18GB。

由于MPEG-2 编码的文件太大，因此民用领域的摄录设备，以及网络视频点播主要使用MPEG-4、H.264等编码，其一般使用YUV420、YUV411 的采样方式，产生的视频文件较小，1920×1080 分辩率的视频码率一般为2～10Mbit/s，每小时文件长度约700MB～3.6GB。

将YUV420 的H.264 编码转换为YUV422 的MPEG-2 编码时，画质不会有任何的提升，而反过来转换时画质则会相应的下降，因为是有损压缩，每次重新编码都会带来一定的画质损失，且这个损失是不可逆的。

如果素材仅仅是文件封装格式上与广电标准不同，而其内部的编码、分辨率、采样方式完全相同，则可以试着使用FFmbc 将视频编码通过“复制”的方式重新进行格式封装，从而保证图像质量。

3.5 音频流和声道

音频格式转换所涉及的参数主要是采样率、编码、音频流和声道等。电视制作所使用的音频采样率是48000Hz，编码使用无压缩的PCM 编码；第三方素材常用的是22050Hz 和44100Hz，编码使用有损压缩的MP3 和AAC 编码，在进行采样和编码转换时会产生一定的失真，但对于单声道播出的电视节目而言，听觉上影响不大。

对于音频流，声道方面则需要注意，在一般的电影视频文件中，对于双语或多语种的视频文件，每个语种对应一个音频流，而每个音频流又含有多个声道，在播放时只能选择其中的一个音频流进行输出；而在电视制作中则不同，比如SONY 公司的IMX30、IMX50 只有1 个音频流，但内置4 声道，而XDCAM HD422 格式则是支持1～8 个音频流，每个流都是单声道（相当于每个音频流就是一个声道）。由于素材的来源不同，音频的流和声道之间存在1∶N、N∶1、N∶M 等多种关系，当使用转码软件时，可能会在转换过程中丢失某些音频流的数据。