短视频声音创作中“网感”的生成模式研究

2023-03-14王洋溢

新闻研究导刊 2023年2期

摘要：在网络传播的实践中，“网感”的营造是一个热门话题，“网感”强常常意味着具有娱乐性、话题性，能够迅速传播，从学术角度而言，“网感”是基于网络媒介特性，能够唤起网生一代内在认同的一种传播向度和内容模型。在短视频的声音创作之中，营造“网感”是传播的重要环节。文章要解决的问题是：什么样的声音是具有“网感”的？反映出网络媒体的哪些媒介特性？文章采用文献调查法、观察法等，分析抖音、快手、哔哩哔哩等原创网络视频平台的短视频，以赛博空间理论为依据，从时空观念、主体存在、发声身份等角度入手，得出了短视频声音的“网感”所包含的三重内涵：速度感、赛博化、预置型，旨在分析声音创作现象背后的理论路径，探索网络媒介背景中短视频声音创作的发展方向。

关键词：短视频；声音创作；网感；赛博空间；新媒体

中图分类号：G206 文献标志码：A 文章编号：1674-8883（2023）02-0001-04

基金项目：本论文为山西省哲学社会科学专项课题“山西本土新媒体创新驱动发展模式研究”成果，项目编号：2022YDJ61

“网感”一词，最初是在新媒体业内使用的，用来表达一种面向网络的传播态度，学界对这个概念的接受和研究，历史也仅能追溯到2015年[1]，这个概念是否具备充分的学理性，还有待继续观察，但值得肯定的是它为人们提供了一种暂时无法替代的描述角度。在有限的研究中，“网感”往往包括了以下意涵：面向网生代受众、用网络思维贯穿创作和传播、参与感与互动感的营造等，单纯地将“网感”理解为对网络流行语的使用、娱乐感的提升、快节奏的加入等等，实际上只看到了技术层面，而对网络媒介特性的深入认识以及更深层次的文化、哲学思考还很不够。

约斯·德·穆尔总结了数字媒介的三种特性：多媒体性、互动性、虚拟性[2]，而“网感”的营造实际上就是指在内容生产中，更多地在语言范式、交互体验和传播方式上体现出网络的特性。在视频内容的生产中，“网感”对应的应该是“影感”与“视感”，这个概念的创生和拓展，意味着影像突破了由电影和电视建构起来的欣赏习惯和创作范式，开始在视听内容生产中形成新的语言。

什么样的声音让人一听就知道是由网络媒介生产出来的？听觉体验中的这种“网感”从何而来？短视频、直播、播客、越来越多的影像形态不断地生成着新的形式和内容，一种崭新的声音生产方式也逐渐形成并区别于电影和电视的声音使用方法，它是由网生一代的用户，在赛博空间中的生产、传播、接受中逐渐产生的一种仅属于网络，而且深刻体现出互联网特质的一种声音。

一、速度感：多维化的时空观念

时间与空间往往被用来互相描述，而这两者实际上是互相涉入、相辅相成的概念，尤其是在赛博空间中，并没有物理上的实体存在，所以人们的空间感知就很大程度地通过速度体现出来。麦克卢汉首次提出，现已被广泛接受的“地球村”概念——这种无远弗届的媒介景象——实际上就深刻体现了时间和速度对人们空间观的深度重塑。

在网络时代，摆脱了地理和物理限制的空间知觉同时影响着人的时间知觉，传播速度的提升使得受众获取信息的能力大大增强，受众逐渐习惯了单位时间内更大信息流的不断涌入。浙江卫视主持人华少在《中国好声音》广告播读中创造的每秒7个字以上的速度，象征着在声音尤其是播音创作中“速度”已经成为一种独特的媒介景观。

单纯的语速提升只是速度观念变革带来的一个方面，在技术统摄下，被人为改造的、扭曲的速度和声音则更具“网感”色彩。在用户生产视频中，后期加速的声音成了一种常态，语句之间的跳接被大量地使用，不仅播音外部技巧中的停连、节奏等不再重要，日常沟通中追求的清晰流畅甚至也受到了影响。

在电影或电视中，后期加速的声音几乎只用于滑稽场面或者快速剪辑段落，虽然在时间轴上的压缩并没有改变音高和响度，但是从声音的波形上看，波峰和波谷之间的过渡失却了自然条件下的平滑，所以在听感上显得更为跳跃，带来了一种陌生化的听觉刺激。

在网络视频中，后期加速的声音最早出现于吐槽类视频中，这种效果是为了增加喜剧性和滑稽感，然而这种后期的提速却被创作者们广泛接受。抖音中的探店类播主、知识普及类播主，几乎都不约而同地采用了快到近乎夸张的语速。

必须肯定，这种后期加速的声音是由传播效率要求的，网络视频的制作流程决定了精雕细琢的声音设计是不可能的，所以传播者和制作者就不约而同地选择在需要加快语速时直接压缩时间线。但这种后期加速的声音所带来的影响却不仅止于内容，它还塑造了一种全新的美学和传播形态。

首先，它带来了一种未完成的作品形态，意味着沟通的平滑要在观众的心目之中最终完成，换言之，从冷热媒介的角度去理解的话，它使得视频中呈现的声音形态较电视更冷，意味着观众更大程度地参与。而这种速度之所以只可能在网络语境中发展成一种成熟的声音形态，原因就在于网络传播不再局限于单向的“去过不留”式的线性时间，如果对内容感兴趣，观众们就会用暂停、重播、变速来反复收听，而不是只允许在一次传播中满足所有人的接受能力。

其次，它是对空间的重新建构。影视作品中的空间由于蒙太奇的存在，因此脫离了物理空间，成了构成空间。马塞尔·马尔丹指出，“电影在处理空间时的一种方式是去构成空间，创造一个综合的整体空间，这种空间在观众眼里是统一的，但实际上却是许多空间段落的并列和连接，这些空间段落彼此之间完全可以毫无具体联系”[3]。

这种构成空间是精心设计的，目的在于将物理的时空重新拼接组合为一个完整自足的存在。而在网络视频之中，空间的完整不再是一种公认的法则，创作者们也不再致力于构建一种对真实空间的模拟，他们毫不在意地加速时间、拼贴时间，使得作品的时空形态赛博化、多维化，形成了由物理空间到构成空间，再到解构空间的转变。

最后，它还是一种将互联网互动操作内化进视频内容的行为，是一个非常典型的媒介与内容的互相塑造的例子。在视频网站的播放器中都有倍速选择，在快节奏、速食化的文化消费习惯影响下，直接加速播放成了很多用户的选择。在这种用户习惯的影响下，内容的生产和传播也产生了变化，有一些主播在视频中加入了变速观看的提示：“此段1.5倍速播放”“看干货直接拖到几分几秒”，使接受者实现了从观众到用户的转变，产生了双向的互动。此外，哔哩哔哩网站的播主，还可以根据视频结构，把视频的各个时间节点做成超链接式的目录放在评论区，提示受众根据需要改变观看节奏和顺序，在线性的时间轴之外实现了非线性观看。

变速的声音越来越成为一种固定的网感声音形态，是互联网传播和互联网使用共同建构的结果。这种速度感对生成“网感”的意义在于：

在人们的日常经验中，虚拟经验所占比重越来越大，从时空感受到速度感知，再到对视听内容的认识，都面临着再次定义。周传基先生将声音的真实感、空间感视作电影、电视、广播声音创作的根本所在，认为“后期配音与同期录音是一个有关电影本性的基础理论之争”，“电影电视的发明所依靠的是人的视听生活经验，最完美的同步效果是同期录音。所以同期录音不是什么技术条件、技术选择的问题，而是电影本体的一部分，是造成声音幻觉的先决条件”[4]。

带有“网感”的声音不是通过录音手段、发声技巧来模拟现实的听感，而是使声音脱离真实感的负累。不是去用人为的手段制造真实，而是用真实的素材进行一种无场所、无声场的发声实践，使得受众的听觉体验彻底地超越空间的阈限。赛博空间将声音的时空关系从真实世界之中解放出来，声音为什么可以变速？为什么可以非线性欣赏？原因就在于无限的网络空间给了接受者们反复、跳跃式欣赏的可能，接受者们的主体性被空前激发出来，打破了传授双方固定的时空关系，建构出了一种崭新的媒介想象。

但也必须认识到，速度感实际上是“网感”在追求听觉刺激过程中的一个副产品，短视频的声音需要契合受众的内心需求，同时要超越受众的听觉经验，于是短视频声音的创作就成了一场追逐极限的游戏，强度、速度、力度都不断增强，虽然达到了即时快乐的效果，但是长此以往必将影响短视频用户的接受心理，导致用户的欣赏阈值不断提高，难以被深度、慢节奏的高质量内容所打动。作为最能够体现互联网特质的一种“网感”，速度感值得进一步思考。

二、赛博化：去身体化的主体

在模拟时代，留声机的出现使人声开始脱离身体，摆脱物理局限，被工具记录和传递。到了数字时代，在记录的基础之上，人声又可以通过完全虚拟的工具制造、改变，技术的革新使得人声的生产和传播逐渐呈现出去身体化的趋势。

在梅洛庞蒂的理论中，网络的用户可以在虚拟世界中摆脱身体的限制，实现虚拟的生存，但是在影像和声音中，身体的在场又是无法回避的。声音并不是身体本身，而是身体在空间中的延伸，当身体在虚拟的身份和存在背后隐形，声音作为一种物理现象同样被赛博化了，它的传递不再单纯以空气为介质，用户们也完全可以脱离自身的限制，制造和发出超越现实质感的音色。在这个从现实到虚拟的历程中，声音产生了某种变形与失真，随后产生了一种独特的赛博美学。

在哔哩哔哩网站中的音乐区，有专属的鬼畜视频板块，供网友发布自制的声音作品。用户运用雅马哈公司的博歌乐插件，输入音调和歌词，将某人的声音作为采样，通过改变音调，就可以用影视人物、网络红人的声音唱出任意内容的歌曲。对声音的处理力度越大，就越容易失真，所以作品中最终呈现出来的声音形态非常奇异另类，使不熟悉这一形式的受众很难理解。

这种声音形态的复杂之处在于，它是由多重主体共同生产出来的，音色的来源、歌词的来源、曲调的来源都是不同的，而又由视频创作者整合发布，所以人们很难像过去一样轻松认定歌曲的歌唱者。在这类视频中，声音的音色一般来源于影视角色或网红名人，例如著名的影视角色李云龙、诸葛亮以及武术师马保国等；唱出的曲调来源于各种各样的歌曲；歌词则是网友重新改编的。那么这首歌究竟是谁唱的？发出声音的主体究竟是谁？

发出声音的身体，当然属于这些被采样的影视人物，但他们的声音只是一种创作的素材。在鬼畜声音的发声实践中，发声的身体并没有与发声主体合二为一。声音这一身体的延伸，开始脱离物理束缚，成为赛博化的一种存在，是由鬼畜作者创造的虚拟身份——“创作者”发出的。在威廉·吉布森的小说中，赛博朋克们通过改造身体，实现了由爱好电子设备的外设极客向改造身体的赛博朋克的转型，去身体化的虚拟生存成了一种时尚追求。而对于将人声也彻底赛博化的鬼畜实践，就成了一种在赛博美学声音创作中的具体表征。

另外的例子是充满科技感的人工智能的声音。在抖音作品中，有一个流传很广的配音：“狗肉汤，是用狗肉做成的汤……”它是由手机的智能语音读出来的，被用户们用来搭配宠物调皮捣蛋的视频。在冰冷机械的声音中，连具体的发声身体都不存在了，而使用者也并没有参与声音的创作，只是单纯地复制。这就造就了一种出位的存在——既发声又不发声，既在场又不在场。

“出位揭示了主体在赛博空间中共在与在现实空间中共在的差异。”[5]以往认为的所谓网络空间的匿名性，实际上是与身体的不在场联系起来的，用户和用户之间是通过虚拟的方式进行交往的。而在视频作品中，身体可以隐形，但身体的表征却无法彻底遁形，播主们借助赛博化的方式实现了身体的表达。

传统的电影和电视的声音创作往往力图追求一种贴近现实体验的听觉幻象，而当使用网络时的虚拟经验成为生活中至关重要的一部分，这种追求真实感的美学便不再是唯一的选择。声音的立体空间感、距离感、运動感开始与物理空间脱离同步，这种失真的感觉逐渐成为审美的对象，人们不再对这些扭曲的、机械的音调感到诧异，而是逐渐学会欣赏其中的趣味。

赛博化的声音充当了网络用户与外界交往的中介物，既不是工具又不是身体，既非真实又非虚假，而是介于两者之间，成了存在本身的一种仿真。鲍德里亚提到，“仿真的对象也不再是国土、指涉物或某种物质。现在是用模型生成一种没有本源或现实的真实：超真实”。发声主体“创作者”，正是这种超真实的生产者。鲍德里亚不无犀利地指出了这样的一种现实，“佯装是假装没有，而仿真是假装有。一个暗示在场，另一个暗示缺席”[6]。仿真掩盖的是“真实”的不在场，而合成声音、挪用声音的背后深刻折射出的则是当身体隐形之后网络媒介呈现出的出位和仿真本质。

三、预置型：可更换的既成身份

随着数字影像设备的发展，简单易用的拍摄、制作工具俯拾皆是，普通人也逐渐拥有了生产影像的能力，所以有学者认为数字技术是对影像生产的一次平权。进入互联网时代后，影像生产和传播的层级更为扁平，制作—发布—欣赏等各个环节逐渐被打通，形成了一种影像生态。基本的影像素养也成了互联网生存所必备的一项要件，用户们通过使用影像，塑造、建构着自己的互联网身份，体验着“另一种人生”的乐趣。

在短视频创作之中，用户们被赋予了更多塑造自我身份的手段。在不同的视频制作应用中，通常都预置了滤镜、剪辑特效、动画等画面造型手段，用户们很容易从视觉方面建构起自我的身份。在声音创作上，除了影视语言之中常用的同期声和配乐之外，短视频平台还为用户提供了“原声”和变声器这两种预设选项，把“创造”身份变为了“选择”身份。

“原声”这个词的内涵不是原本的声音，而是其他用户原创的声音，在快手中被称作“创意原声”，在抖音中被叫做“用户创作的原声”，每个作品的原创声音都是“原声”的来源，其他网友可直接在自己的视频作品中挪用其他人的“原声”。这种“原声”包括带有故事情节的对话、音乐剪辑片段、笑声等音效，丰富的“原声”资源覆盖了各种情绪、情境和氛围，可以很方便快捷地匹配上各种画面。

一方面用户们在使用“原声”，另一方面“原声”也在塑造着用户们的表达。在没有“原声”的时代，人们是先拍摄视频，再运用后期软件添加、修改声音，而当“原声”出现之后，声音变成了短视频创作的先决条件，“卡点”视频、合拍视频、热曲舞蹈等现象刺激着受众们的表达欲。

例如在类似于换装魔术的短视频中，音乐被截然划分为两段，中间由重音鼓点或音效分隔，在首段的铺垫下，播主们展示着自己平凡的一面，而镜头一转，他们就换好了盛装，释放自己的魅力。对于语言类“原声”，网友们更是展开了自己充满想象力的对口型表演。在热门“原声”下，竟然有多达几万条类似的视频。这样的“原声”中实际上就携带了现成的叙事和情感结构，很容易引发其他网友的复制和跟拍。

在短视频应用中，变声器也是一个值得关注的工具，用户可以从萝莉、小姐姐、大叔、机器人等设定中任意选择，改变自己的音色。用户们为什么要使用变声器呢？是出于模仿和扮演的目的吗？恐怕不是，因为这些音色是卡通化、虚拟化的，所以用户们并非在模仿真实的人物，而是在将声音向着更符合“网感”的方向塑造，既为自己的声音穿上了一层外衣，又不因模仿而导致对自我的否定——他们不想变成他人，只想创造出一个独属于网络的自我。所以从欣赏效果来看，这些音色为作品增添了趣味，而从用户的自我认同角度来看的话，变声器的使用正是用户通过电子书写重新定义自己网际身份的一种方式。

如果将拍摄视频并发布出去理解为戈夫曼意义上的日常表演的话，人们可以将视频的成品理解为表演的前台，而对于视频的拍摄、制作等创作过程，就成了表演的后台。“我们最熟悉的、与表演者自身系为同一，总是跟随其身的那些项目，例如性别、年龄、种族、身材与外貌、言谈方式、面部表情、躯体姿态等等。”[7]这些个人前台，都可以在网络视频的场域中得到润饰、修改和替换。

对声音来说，可选择的“原声”、预置的音色，为用户们提供了一种模式化、可复制的表演前台，人们原本丰富多彩的个性被划分为了不同的“人设”。所以，在戈夫曼所说的日常生活的表演中，短视频用户对于自我呈现的诉求，就被转换为一种对于群体的认同。滤镜、神曲、“卡点舞”、“夹子音”等等，都是这样的一种现成的、经过流量验证的叙事和传播模型，穿上它之后，就可以参加这场由拼贴和复制构成的能指狂欢。

这些预置的声音，越来越发展为一种完整自足的叙事文本，从表面看，似乎这些预置声音已经足够建立起一个百科全书式的声音数据库，复制和选择完全可以代替发声。然而，与此同时却发现，需要由声音传递的信息和情感开始趋同和汇流，偶尔看到一条没有配上预置音轨的视频，总觉得少了些什么，那么究竟是什么使自然的声画同步的视频变得不自然了？

在鲍德里亚的《宿命的策略》中，他提出“随着后现代的来临，主体丧失了对客体的控制权，大众、信息、媒体和商品这些客体，形成了一股仿真的流变，它们摆脱了主体的控制，不断地超越界限，诱惑主体去创新和仿真。客體已经取代了主体的地位”[8]。

预置声音实际上已经在很大程度上影响了用户的发声行为，当你选择了使用预置的声音，便选择了进入声音本身的叙事序列，声音不再是被“发出”的，用户反而成了整个网感声音自主发声的载体。绝大多数的创作者都在形形色色、新奇有趣的预置声音面前放弃了对同期声的保留，复制和选择使得发声成了一种互动游戏，实际上这是以损失声音的多样性为代价的。

四、结语

在以上几个侧面中，可以看到网络媒介对声音的“真实性”观念的挑战，声音对于主体和身体的脱离和重构，以及预设声音对于声音多样性的影响。在网络的介入下，声音逐渐摆脱了物理的时空和实体，产生了新的审美特征，“网感”正是产生在这一过程之中的。通过探讨“网感”生成的基本模式和过程，有助于对网络媒体区别于传统媒体的媒介特征产生新的认识，有助于在内容生产中更好地运用网络媒介独特的手段，探索短视频声音创作的发展方向。

参考文献：

[1] 徐茂利.网感的养成[J].国际公关，2015（5）：8.

[2] 约斯·德·穆尔.赛博空间的奥德赛[M].麦永雄，译.南宁：广西师范大学出版社，2007：89.

[3] 马赛尔·马尔丹.电影语言[M].何振淦，译.北京：中国电影出版社，1980：170.

[4] 周传基.再论电影电视广播中的声音空间感[J].电影艺术，1997（2）：21-26.

[5] 曾国屏，黄锫坚，孙喜杰，等.赛博空间的哲学探索[M].北京：清华大学出版社，2002：44.

[6] 让·鲍德里亚.仿真与拟象.马海良译[M]//汪民安，陈永国，马海良.后现代性的哲学话语：从福柯到赛义德.杭州：浙江人民出版社，2001：330.

[7] 欧文·戈夫曼.日常生活中的自我呈现[M].黄爱华，冯钢，译.杭州：浙江人民出版社，1989：24.

[8] 贝斯特·凯尔纳.后现代理论：批判性的质疑[M].张志斌，译.北京：中央编译出版社，2002：75.

作者简介：王洋溢，讲师，研究方向：电影美学、网络视听。