融媒体语境下短视频的听觉空间构建与技术变革

2021-10-09范晓纬

电影评介 2021年13期

范晓纬

短视频是一种新的互联网内容传播方式，在互联网新媒体上传播的时长一般在5分钟以内，由于其短小精悍、內容丰富，快速在各大平台传播并获得大量的流量。近年来，短视频已经成为一种重要的移动端视觉表达方式。它短时的表意时空、碎片化的时间占用与个体化的观赏方式，成为重要的音视频表现方式之一。和传统的院线电影、电视、网络电影相比，其观片载体与方式的变革势必会带来声音制作中的工艺变革。本文从声音呈现方式、听觉空间需求两方面进行分析，并对工艺变革中应用的技术手段进行探讨。

一、短视频常见载体与声音呈现方式分析

在融媒体时代，短视频较其它依存网络环境发展的艺术形式，如网络电影、网络剧等相比，其播放载体单一地集中在手机端成为首要特点。电影电视的线上播出端通常为电脑、家庭电视以及平板电脑，这是由节目内容长度与观影方式决定的。电影与电视的镜头内包含较为丰富的时空信息，即使在家庭观片时，通过电视、投影或是大屏幕显示器也是最合理的方式。在这种呈现方式下，电脑自带的立体声扬声器、电视自带的扬声器或家庭影院系统成为主要的听音方式。即使是在移动端的平板电脑，也都是通过横屏模式来获取视觉呈现的最大化效果，因此平板电脑也设计了等同于笔记本电脑的立体声显示器，在横屏时通过扬声器进行扩声。因此在听众角度看，都属于传统的立体声听音方式。

短视频在技术输出所搭建的接受场域中，必须直面的问题是如何最大化地占领用户的碎片化时间，调动接受者对于时间的主动投入。因此早已融入现代人生活场域的手机几乎是唯一的观看方式。而人们常用的手机交互方式，几十年来都是竖屏呈现的信息交互作为手机最重要的功能，多年以来从电话、短信到即时交互软件如QQ，微信等，基本是竖屏的UI设计。即使在现有的手机应用中，必须要切换为横屏才能流畅使用的应用软件，也多为需要占用一段时间投入其中的游戏软件，如“王者荣耀”等。因此，为了尽可能占用碎片化的时间，并且和手机用户的使用习惯最大化融合，短视频的竖屏化制作观念成为最直观、最方便用户做观赏场景代入的方法论。已经发展成熟的短视频手机端软件体系，如抖音、快手等，及由腾讯开发植入在微信中的“朋友圈”与“视频号”功能，其短视频APP通常UI架构为竖屏全屏。微信视频号为正方形视频，在占满手机屏幕宽度的前提下，保持对横屏4：3及16：9的视频素材的兼容性，并留出下端评论区强调微信好友间的交流，在很长一段时间内，短视频节目素材将会覆盖从横屏4：3到竖屏9：16全屏的所有比例，如何合理利用手机竖屏空间是短视频建立新的制作模式的首要框架。

但手机的竖屏观看方式对声音呈现带来的影响是，扬声器分布于上下两端，竖屏状态无法实现立体声回放效果，而且在播放环境的伦理构建中，公共场合使用手机扬声器被认为是不礼貌的行为。因此，适应受众碎片化时间与移动空间的观赏需要，选择基于手机扬声器的单声道回放与基于蓝牙的立体声无线耳机回放，已经成为未来短视频声音技术制作的两种主流方案。扬声器回放的便捷与可共享性，耳机回放的私密性，在很长一段时间内将会并行于庞大的短视频用户的选择中。

二、短视频内容制作对听觉空间构建的需求

（一）以语音清晰度作为内容输出的首要条件

短视频的受众对于听觉内容的清晰和可分辨率具有较高要求，通过对音频频率与动态方面的调整，突出强化语音的输出，使得即使在较小音量的播放中，语音也能成为最易于分辨的听觉因素，不会淹没于环境音和无源音乐中。

目前短视频主要内容为剪辑类与原创类，剪辑类为对已有的影视作品的重新剪辑，为横屏影视作品的精华剪辑版或预告片，通常对听觉空间的要求较为简单，即单声道、声音传输清晰即可。原创类作品为本文探讨的主要内容，它包括但不限于所有与电影、电视相似的经过拍摄剪辑的节目，更包括大量自媒体原创短视频。自媒体短视频多数强调声音空间的单声道兼容性，但也有部分专门针对耳机听音观众的音频类自媒体，但无论哪种类型的自媒体，都非常重视内容输出中清晰的语音带来的对受众注意力最直接的引导。

在业余级短视频账号中，由于制作者的技术瓶颈（使用配套的“剪映”APP做短视频的音视频编辑）及短视频时间长度的限制（长度超过1分钟的抖音短视频有额外的审核体系），即使是剧情类作品也通常采取单声道音频，放弃对作品声音空间的利用，而在专业短视频运营团队中，对声音空间的利用基本等同于影视作品的级别。以千万级流量短视频账号“纯情阿伟”为例，来自网络电影制作团队使用Izotope RX8等数字音频后期修复处理技术，并通过多声道录音与后期音频剪辑手法处理多场景内语言与音效的平衡，因此在音视频制作技术水准中远远高于业余级账号。

（二）以背景音乐与音效的运用作为内容输出特色

在短视频制作平台的推广与制作中，背景音乐与音效从设计之初就是重要的内容展现手段。对于某些短视频制作者来讲，固化的声音体系的造型，是面向受众有记忆度的声音符号。

抖音短视频应用和Bilibili短视频应用从流量、特色等方面都有极广的覆盖度。对其做典型的流量数据分析，可以看出短视频内容对听觉空间的需求。本文以2020年7月的飞瓜平台数据统计为参考。抖音作为自媒体短视频的集中地，特点是受众范围广，受众的年龄、地域和职业基本全覆盖，因此短视频内容类型方面也有较强的说服力，网红、搞笑、情感、剧情、美食、美妆等作为主要内容占据了大量流量。在数据统计期的传播指数前50名的账号中，剧情类账号31个，影视娱乐类账号4个。在这些账号中，音乐与音效的符号化功能得到充分应用，加强观众的记忆点，建立鲜明的账号及角色特征。

以抖音剧情类账号“都市奇妙物语”为例进行进一步解析，其主打悬疑类作品账号不仅在质量上高居头部流量，在2020年7月的流量榜单前30强中，还有3个账号对“都市奇妙物语”的作品进行仿拍并爆火，足以见得其风格具有行业代表性。在抖音短视频制作体系中，背景音乐与音效是重要的内容展现手段。而对“都市奇妙物语”进行仿拍的账号中，也基本都延续了这一特征。其几乎固定的渐进式的叙事结构和夸张的语言风格，能够对观众的情绪阈值促成变化和持续引导，产生沉浸式体验的效果。其不仅通过视频特效、光影效果及剧情悬念冲突制造气氛，背景音乐与音效也起到强化记忆、匹配角色形象以及展现角色内心情感的作用。

（三）以沉浸式听觉场域的构建作为内容发展趋势

在融媒体时代，短视频的制作者越来越强调声音的场域性构建，对于听觉空间的塑造主要集中在动画、游戏、影视、音乐的沉浸感与包围感，并有与VR音视频接轨的趋势。

Bilibili作为年轻用户较多的短视频平台，与抖音的制作评价体系不同。Bilibili早期是基于电脑网页浏览器的网站，网站内容基础是视频再创作，以及强调弹幕评论这种交互方式。Bilibili网站的内容制造者通常是有一定电脑音视频制作基础的青年人，其制作内容的趋向性则更为用户向集中，分为动画、游戏、影视、音乐、生活、兴趣、轻小说、科技这几类，其中以动画、游戏、影视内容为核心的输出是该平台的立身之本。近年来，年轻群体的短视频用户越来越呈现出较高的视听需求，这种倾向性也体现在Bilibili的手机客户端当中。比如在音乐类内容中，就专门引入了耳机3D栏目，而且在很多短视频内容标题中也建议“戴耳机以获得更好的效果”。

从短视频的发展状况来看，越是高质量的短视频剧情内容，对听觉空间的需求级别越高。随着科技的进步，目前僅能应用于电脑端的虚拟环绕声及虚拟3D声音制作技术将会在加快进程普及到手机短视频制作软件。在2020年，美国苹果公司已经将虚拟3D听音产品化并实现在苹果无线耳机及配套的苹果专属的影音APP中，因此，对庞大而新兴的短视频制作行业来说，听觉场域的构建技术从软硬件结合转换为纯软件只是时间问题。

三、短视频听觉空间构建的技术手段与革新

（一）短视频音源输出的实现方式

在现有的短视频内容制作的市场中，音视频制作端的插件将三维空间内的声音利用HRTF渲染到人的耳机听音是较为惯常的操作。电脑制作端的插件联动蓝牙模块，以感应人头的旋转定位并实时映射到制作端插件从而在制作环节监听三维空间感。

在短视频的回放设备中，手机是主流，因此，其听觉空间构建就不可避免要和手机与周边硬件发生联系。在很长一段时间内，手机耳机是标准的双声道回放设备，并且仅仅是将立体声音源直接映射到双耳的传统立体声回放，形成传统的头中定位空间感。实际上在2010年前后，已有实验性的基于人头传递函数HRTF的实验性立体声渲染算法出现，这使得用耳机聆听到空间感成为可能。2015年，Waves音频公司推出的NX系列软件成为第一批面向双耳沉浸式声音制作与回放的软件程序。该系列软件包括了在音视频制作端的插件，及电脑与手机端回放的软件。

电脑与手机端的回放略有不同，目前电脑端软件已经可以插入在播放流与输出耳机端口之间，将播放流输出的立体声信号、环绕声信号及全景声信号（如果支持）实时渲染为适合耳机听音的binaural双耳听音信号。由于安全权限与商业方面的原因，手机端只能通过软件直接播放流媒体及手机存储内的文件，还无法做到插入在手机APP与手机音频端口间实时渲染。

在音频软件厂商试图占领手机听音空间的市场份额时，内容提供商也针对性开发了同类产品并加嵌在APP中，腾讯旗下QQ音乐与DTS音频技术合作开发让耳机立体声音乐听感更接近真实空间的DTS音效。

（二）短视频听觉空间构建的技术

听觉空间是听众对声源空间位置的判断。它主要依赖于双耳听觉，即对来自两耳信息的比较。而作为视听作品的短视频听觉空间，承担着受众对画面内容的充分理解、画面外内容的扩展感知与想象等重要功能，是沉浸式体验感最重要的载体之一。通过对上述几种产品的分析可以得知，短视频实现听觉空间构建的技术，有可能出现在以下几个环节：音视频制作环节、平台回放环节、第三方或系统对平台音频流的渲染环节。下面分别对三种渲染技术及内容制造时需要的技术手段进行分析与探讨。

1.音视频制作环节渲染

在音视频制作环节中，现有将音频渲染成耳机听感的技术手段虽已成型，但因用户接收端兼容性问题难以全面商用。

在现有的音视频制作体系中，基于Waves的NX系列插件、与森海塞尔合作的DearVR公司DearVR Pro插件及一系列同类型插件都可以在独立运行的音频制作软件或视频剪辑软件中应用。但近年来，该技术虽然已成熟却并未完全铺开，而是作为一种独立的音频节目呈现，主要是因为单声道兼容性不够好。由于被渲染后的信号模拟的是人耳在耳廓内的听感即耳机单元回放位置的听感，因此从立体声的技术上说，左右耳的信号各自完成了HRTF的不可逆渲染，因此只有通过耳机重放时才会忠实体现听觉空间，而使用立体声扬声器或手机扬声器进行回放时，两信号的相位会发生强烈且模型不可预估的干扰。因此很可能造成语音不够清晰甚至某些频段缺失。[1]因此，这种仅能为耳机服务而放弃单声道回放的音频制作方式在很长一段时间没有得到手机端作品的应用。

2.平台回放环节渲染

在平台回放的环节进行渲染，是目前最具发展前景的技术解决方案。作品内容按平台方要求以某种编码形式上传，由平台回放环节完成最终的听觉空间渲染，实现表意过程。

类似的编解码体系在几十年前的Dolby环绕声时代已经成熟，创作者将环绕声音频以某种约定俗成的方式进行编码，并加嵌在视频文件中，通过DVD光碟或其他载体进行传输，由DVD播放机或电脑端的视频解码软件进行播放恢复成环绕声音频。当前基于网络流媒体的编解码流程相比过去略有变化：作品的音频通过约定的编码方式上传，在手机播放端对该编码方式进行解码并渲染到双耳听音效果。随着全景声与VR音视频的成熟，现有3D的VR主流音频标准已经被大量商业公司所采用。

作品仅对音频内容编码而由平台进行渲染的优势在于，通过合理的技术手段实现单声道回放及多种回放方式的兼容性。以环绕声排列方式为例，在使用针对耳机听音的算法进行渲染时，环绕声分通道分别被渲染为耳机信号后叠加。由于在环绕声内容制作中多声道的分离度已经被合理控制，因此这种渲染后的叠加并不会造成双耳听音的相位干涉。而在扬声器模式中，信号被直接进行合并后以立体声或单声道输出，同样也不会造成单声道的兼容性干涉（单声道兼容性在环绕声制作中已经完成）。耳机模式与扬声器模式可以通过回放软件直接切换。但环绕声制作难度较高，要求内容制作单位拥有标准或近似标准的5.1声道制作平台，因此仅仅出现在环绕声电影通过手机端回放的过程当中。

为了克服环绕声编码的制作平台复杂度问题，以及保留足够的3D音频升级空间，目前基于Ambisonics的一阶全景声音频编码成为主流并已经在商业应用中形成成熟的体系。Ambisonics的运作原理为，通过若干个独立的音频通道及在空间中的角度关系，构造出360°全景声音频定位。在最常见也最简单的一阶AmbisonicsFormatB（下文简写为AmbiX）中，每个单声道音频都被渲染成4通道模式W＼Y＼Z＼X。其中W是无方向信息即单声道信息，而Y、Z、X三通道构建出声音在三维空间的方向性。AmbiX的特点是，占用通道数较少，仅比立体声多2通道信息，在现有流媒体数据量中微乎其微;不论包含多少内容与三维空间信息，音频通道数不变;单声道兼容性好。[2]

AmbiX及其相关扩展编码现在已经成为Youtube、Facebook等流媒体指定的VR音频标准，并同时成为一系列VR游戏的音频标准。AmbiX制作环节极其简单，仅需使用一部耳机，在电脑端的视频剪辑软件中插入对应制作插件并通过耳机监听。解码环节也仅需相关算法支持，同时可做个人化设定。因此对于短视频来说，内容上传的通道数限制与解码算法支持，将成为短视频3D听音空间构建仅剩的障碍。

3.通过第三方或系统对平台音频流进行渲染

通过第三方或系统对平台音频流进行渲染的解决方案，具有与手机及周边产品深度结合的优势。

短视频内容平台在操作权限上难以直接捕获到手机硬件的深层信息，因此難以对听众双耳定位信息进行响应，而这种响应在某些观影过程中能提供更多沉浸式效果。典型第三方系统为Audeze mobius 3D耳机及配套软件。Audeze mobius 3D耳机内置3D陀螺仪，可以直接联动AmbiX的算法，使得听众在偏转头部时可以保持虚拟声场定位在空间中相对位置。虽然这对于现有的短视频制作者的操作性空间还未形成市场规模，但在科技飞速发展的今天，硬件设备提供更多的可能性，而内容创造者负责将这种可能性转变为更加具有视听吸引力与沉浸感的内容。2020年春天，Apple公司推出的新系统与新蓝牙无线耳机，实现了Audeze mobius 3D耳机及配套软件的包括实时陀螺仪定位等所有功能，并将其固化为系统底层参数而非第三方参数，因此在数据权限上能获取更完整的应用程序信息。在这种情况下，短视频内容App不必完成解码渲染而是只需源码输出，交由系统底层来执行渲染功能。对于内容制作者在应用层面实际情况，听觉空间的实现技术通过何种方式进行解码、在什么层面进行解码不是首要被关切因素，未来短视频行业能否实现听觉信息传输的制作流程的标准化与操作难度的简化，才是符合行业规模化发展的民心展望趋势。

（三）短视频听觉空间构建技术革新与展望

手机端应用软件会持续高速发展，并在短视频领域形成软件之间相互合作的趋势，高端技术的民用化必将会经历“游戏——影音视听——平民化产品”的过程。

以VR视觉技术为例，高端技术的初期开发与成本分担必须通过强有力且稳定的消费群体来实现，电子娱乐业所面向的客户有足够的购买力，因此HTC等厂商的第一批VR视频穿戴类设备以昂贵的价格和优异的体验感占据市场后，呈现出成熟的制造产品线与大规模生产的成本控制优势体现。在此基础上，一系列中端产品如“暴风魔镜”“华为Glass”等侵入影音视听市场，在一年后，市场上已经充满从千元到万元级不同档次的VR眼镜类产品及各种VR视频与VR游戏。与VR眼镜不同，耳机在VR声音出现之前就已有长达几十年的成熟产品体系，对于沉浸式听觉技术的产品化实现来说，硬件的革新与推广面临巨大的阻力。因此，从算法和软件层应用快速突破是实现产业化的最大可能。在资本与科技双重推动下，沉浸式耳机与相关技术从游戏领域到影音视听应用再到平民化产品技术普及的变革速度将会远远快过VR视频市场。可以预见的是，VR音频或者基于HRTF的双耳沉浸式技术通过硬件研发与销售所获得利润，可能远远小于通过内容制造获取的商业价值变现。

在融媒体时代，视听产品在用户的交互体验感的升级是对于市场强有力的竞争力。近年来，抖音、Bilibili等一系列头部平台以及百度、腾讯、阿里三大网络巨头旗下的相关产业非常重视短视频市场的占有率，各平台大量资金的支持和技术的投入意味着短视频行业更激烈的竞争。在现有的短视频内容制造市场中，大部分内容输出是由用户独立产出，平台之间的内容倾向于同质化，难以拉开差异，因此资源的统筹与用户体验度的提升将是平台间竞争的战场。

短视频听觉空间标准的建立与完善对整个内容行业将会有巨大的影响力，并越来越多地影响平台与创作者的双向选择。目前，抖音与快手等平台的音频算法更偏向于手机扬声器用户，如抖音的音频算法强化声音的语音清晰度，对音频信号则会造成一定程度上的压缩，对于强调视听体验的创作者如音乐人来说，平台音频编码造成的音色损失对作品质量产生较大影响，导致一部分强调音频听感的用户将平台迁移到Bilibili或微信自带的“视频号”中。类似案例曾经出现在流媒体平台中，由于音频的过度压缩，大量音乐类自媒体用户对于平台选择时会对有较强烈的倾向性。短视频商业平台的视听技术变革动力来源于市场，也将作用于市场中的每位用户。因此对于短视频创作者来说，进行相应的沉浸式空间音频技术储备以获取更多的竞争力势在必行。

参考文献：

[1]Floyd E.Toole.声音的重现——理想听音环境构建指南[M].北京：人民邮电出版社，2016：15.

[2]朱蓉.Ambisonics声像重放的优化方法研究[D].北京：北京工业大学，2015：2-3.