无所不在的数字转型<br/>——2021年音频产业趋势与变革

无所不在的数字转型
——2021年音频产业趋势与变革

2021-11-27李建刚

视听界 2021年2期

关键词：音频

李建刚

音频产业（Audio Industry）是一个富有创造力和令人兴奋的领域，但是它的复杂性、多元性与交叉性也同样容易令人困惑，这种情况不仅在消费级音频产品中普遍存在，对于专业音频器材与制作领域也是如此。模糊的产业边界，复合的制作流程，快速更新的技术应用以及变化中的消费者需求，都使得关于音频产业趋势和变革的判断面临挑战。

一、问题、方法与路径

“根据行为理论，组织利用外部搜索跨越组织边界并超越本地搜索”[1]，从广泛的产业信息中创造和重组知识，识别和收集非自身创造的新知识，将大幅减少创新盲点和风险。因此，外部搜索的概念和方法受到关注。前瞻性外部搜索的目的是积极主动地确定和预测多种未来路径与方案并得出对于自身发展的影响。并非所有的历史数据都可用于技术预测，通过关注新兴技术与媒介趋势的早期迹象，提前发现未来变革，从而及时调整创新发展方向。

到目前为止，大量的音频研究并行发展且重点不同，但是在数字社会、数字经济和数字文化的通用视角下似乎逐渐向同一方向整合。本研究立足分析前瞻性音频技术创新应用的进展与细节，并考虑一系列广泛的未来可选性与可行性，这些通常涉及应用中的高度复杂性与模糊性。有学者呼吁加强预见性文献与管理创新理论整合以加强该领域理论基础，特别是有必要将预测研究与行为理论相联系，以获得对于有效的前瞻性搜索实践的更为深刻的实证洞见。这有益于媒介研究与传播创新，从技术、媒体、产业和社会的综合系统出发搭建研究与实践的桥梁，可以更深入和更完整地理解该方法，并推动媒体、文化与科技企业发展成为前瞻性组织。因此，以下研究问题将指导本文：第一，音频产业的重要知识主题和分布是什么；第二，如何从音频创新和产业应用预测研究中获得可靠见解。第一个问题以专家知识系统的代表性文献和观点分析来回答，这有助于快速建立研究对象的基本框架并确定外部检索的相关维度。在此基础上以研究框架及假设在全球化和媒介化的产业环境中进行讨论及检验。与个人搜索行为相反，组织搜索关注组织层面。在开放式创新范式的演变下，强调获取卓越和特定知识对于可持续竞争优势的重要性。随着知识积累和多样性增加，集成和利用知识的创新成本将上升。

竞争与协作基础上的技术创新和产业变革是世界文明重要的推动力量，专业知识只有将其集中到任务才能变得富有成效。1992年，彼得·德鲁克（Peter F.Drucker）在研究中指出，“我们处于这样一个转变时期。只有这次的转变并不局限于西方社会和西方历史。根本变化之一是不再有西方历史或西方文明，只有世界历史和世界文明。”[2]音频科技的创新很少涉及政治与意识形态，但是当与产业融合之后，便具有连接个体、媒介、文化与社会的作用，音频产业的发展与创新自然成为国家文化战略实施和软实力输出体系的重要构成。

二、专家系统视域下音频科技的知识创新图谱

音频科学技术创新与社会发展之间的关系随着时间推移不断变化，尽管不同国家对于音频领域都发布了许多重要研究，但是很少有共同的定义框架，缺乏对于音频科学技术创新的范围、类别与影响的综合理解。专业学会可以较好地提供业界与学界的连接，推动专业知识的创新与实践突破。

全球有影响力的声音与音频研究机构包括：美国声学学会、音频工程协会、英国声学研究所、电气电子工程协会、无线电工程协会、广播电视工程协会和电影电视工程协会。其中，音频工程学会（Audio Engineering Society，简称AES）于1948年在美国成立，是唯一专门致力于音频技术的专业学会，如今已经发展成为国际化组织，旨在通过促进音频技术的科学进步与产业实践，传播新的知识和研究，并形成全球化的专业知识与人才社区。本文选择音频工程学会作为全球化背景下音频专家系统的典型代表，通过对AES当前音频创新与实践的专业文献和知识描述进行整理分析，为音频产业重要的趋势与变革分析提供路线与参考，具体包括：

●存档、还原和数字图书馆（Archiving, Restoration and Digital libraries）：对音频媒体进行存档，保护声音遗产，并使人们能够接触到它们。确保可持续地获取信息，保持稳定性和最佳可读性。确保数字化格式可以长期保存与访问。

● 音频编码（Audio Coding）：是多学科交叉领域，使高质量音频传输和存储成为现实，彻底改变人们的音频处理方式，新需求包括3D声音、沉浸式音频和与个性化音频渲染。

● 音频教育(Audio Education)：世界上大多数学院音频课程面向：第一，音乐录制、制作和现场娱乐，进行大众传播；第二，包括电子新闻、广播、电影、电视；第三，与工程艺术和科学结盟，包括电气工程、信号处理、声学和心理物理学。

● 音频取证（Audio Forensics）：调查已记录音频的使用情况，例如音频法医学、音频鉴识。

● 虚拟现实与增强现实音频（Audio for Virtual and Augmented Reality）：该领域增长迅速，通过音频增强真实感，添加“超现实”，使沉浸式体验内在且真实。

● 音频网络（Audio Networking）：涉及国际标准与广播应用。20世纪90年代以来，VoIP和专有音频网络协议技术突飞猛进。

● 汽车音频（Automotive Audio）：汽车音频是一个非常复杂的话题，远远超出扬声器和放大器。最近五年，音频已经从信息娱乐主题转移到声音设计主题，支持工程师设计车辆的声音，包括汽车因振动和空气噪声而产生的声音。

● 广播与在线交付（Broadcast and Online Delivery）：广播音频包含使用多种分发网络来设定、播放音频信号并传输给用户的技术。在互联网兴起之前，音频信号已经数字化。如今，广播机构通常提供线性频率以及流媒体平台，用户可以直接访问点播内容。

● 耳机（Headphones）：展示出科学和技术的广度，耳机、沉浸式音频、辅助性听力和移动计算之间的界限模糊，无缝收听体验面临挑战。

● 听力和听力损伤预防（Hearing and Hearing Loss Prevention）：听力是生活和职业的重要组成部分，大音量声音（包括音乐）会使听力下降，从隐性听力丧失研究、监测和控制的新方法都具有开创性。

● 高分辨率音频（High-Resolution Audio）：高分辨率已经成为专业和高质量音频消费的公认组成部分，涉及音频格式、信号含义、交付模式及批判性感知。

● 听力测试（Listening Tests）：研究声音质量评估与音频工程，尝试以科学方式区分人们对于声音的选择。

● 响度（Loudness）：数字音频有广泛的动态范围，需要基于感知建立测量和响度归一的方法，用于广播媒体、游戏、音乐流、播客和虚拟现实。

● 新兴音频格式的音乐创作（Music Production for Emerging Audio Formats）：音乐制作正在发生变化。在艺术和技术上从未有过如此多样的创作和消费音乐的途径，融合高分辨率、流媒体、空间音频、双耳声音、交互式音乐和基于对象的音频。

● 音乐录音（Music Recording）：不论是录制交响乐，还是中小型录音棚中多麦克风录音，涵盖从麦克风、音频工作站、插件和效果的工作与创造。

● 扬声器指向（Preferred Loudspeaker Directivity）：扬声器指向性如何影响听众，音色和空间如何优化，这些问题随着大量独立通道和基于对象的音频出现，正在形成新趋势。

● 录音（Recording）：从20世纪50年代立体声录音技术开创至今，立体声技术与录音室的发展密切相关，这个领域侧重历史文献与技术知识发展。

● 语义分析与深度学习 (Semantic Analysis and Deep Learning)：随着数字多媒体数据的普及，通过自动化方法来处理、分析和理解此类数据已成为工程和计算机科学的中心问题。

● 声场控制（Sound Field Control）：可从广义上解释为创建一组扬声器信号以在聆听区域上创造某种聆听体验的过程。所需声场可在物理或感知上定义，可以向共享空间的多个听众提供个性化音频内容。

● 音质预测（Sound Quality Prediction）：音质在有关音频的几乎所有领域都是至关重要的。产业界和学术界研究人员致力于开发客观模型来预测声音质量。这些模型可进行快速、可重复的测量，同时保持感知有效性。

● 声音增强（Sound Reinforcement）：当前挑战是大型户外活动的噪声污染，重点是实用性和保持良好的听众体验。

● 空间音频（Spatial Audio）：空间音频在过去10年中发展迅速，引入新环绕声格式提供3D聆听体验。基于对象的音频（OBA）是一种用于产生和传递空间音频内容的新方法，该方法已经被电影和广播电视迅速采用。

● 双通道立体声（Two-channel Stereophony）：两个通道如何创建沉浸感和包围感，声音图景最有价值的感知属性是什么，大脑如何解释空间感和音源。

围绕这23个重要主题的知识积累与创新是音频产业进一步发展的基础和动力，有些特殊领域未能涵盖，例如警务、军事和国防。围绕信息传播、文化艺术、数字娱乐等领域的发展具有高度的叠加性与穿透性，包含知识图谱中的绝大部分领域，因此在推动音频产业发展、改善声音体验方面扮演着至关重要的角色。

2020年 6月 2日 -5日，AES第 148届大会线上举办，这也是有史以来该协会首次在线会议，会议例行的首日纪念演讲由弗朗西斯·拉姆西（Francis Rumsey）发言，题目是“互动和扩展现实时代的音质”[3]。参加本次在线会议的AES注册会员来自59个国家，前十名是：美国：441（31.5%），德国：147（10.5%），英国：131（9.3%），日本：87（6.2%），加拿大：66（4.7%），奥地利：57（4%），波兰：41（2.9%），中国：30（2.1%），法国：28（2%），意大利：25（1.7%）。[4]从参会者所在国家和数量分布上可以看出，美国、德国、英国、日本和加拿大五个国家在参会人数上占据62.2%，这五个国家的音频科研机构与企业是全球音频产业核心科技领域的主要构成并形成了联盟，欧洲从传统声学到最为前沿的音频创新方面一直保有优势，美国在技术产业化、内容娱乐化和传播全球化方面处于领导者地位，日本在精密电子产品开发和制造方面基础牢固,美欧日形成了音频产业事实上的“铁三角”，在近百年视听产业发展中掌控着话语权。

三、2021年音频产业需要关注的重要突破与转变

2021年音频产业的技术展望主要关注那些具有革命性和推动型的行业标准和转型技术。同以往的数字化相比，新的变革也被称为“无所不在的数字转型”，这种趋势并没有受到COVID-19的阻断，而是超速前行，通过文化、网络和商业实现更大的全球互联性，对于组织领导者而言，“战略远景已经大幅压缩，预计在五到十年内发生的重大变化已经压缩到数月或数周范围内”[5]。传媒业需要重视将来具有竞争优势的技术与可能性，包括来自传媒业知识体系之外的优势与资源。在经过大量文献分析的过程后，本研究认为2021年音频产业的变革与趋势将着重体现在以下五个方面：

（一）高分辨率流式音乐

判断数字音乐音质的一种方法是观察它的比特率或者文件传输的数据量，通过播放器进入耳朵的数据越多，声音越好。音乐的混合和掌握方式也非常重要。诸如Apple Music或Spotify之类的音乐流媒体服务允许传输比特率为320kb的高品质MP3。CD音乐文件受到存储格式的限制，比特率为1.411kbps，高分辨率（High-Resolution）音乐的比特率可达9.216kbps，近乎CD的七倍。采样率越高，用户听到的低音和高音部分越多。CD和MP3的最大采样率均为44.1KHz，高分辨率音乐采样率可以在96KHz和352.8KHz之间。绝大多数高分辨率音乐文件的采样率为96KHz或192KHz，高于其他数字文件44.1KHz上限，超出目前大多数智能手机播放音频的上限。

高分辨率流媒体音频领域存在广泛的竞争,大部分功能相似，譬如在数百万首曲库中按需播放，无损品质的专辑音乐，以及下载本地离线收听。由于高分辨率音乐具有更多数据，因此文件比相同歌曲的CD或MP3版本大很多，这意味着下载时间更长并且消耗更多数据流。目前亚马逊、苹果、Spotify均提供320kbps的压缩流，质量的提高带来订阅成本的增加。对于古典音乐迷，Primephonic提供超过350万首古典音乐曲目。亚马逊的Music HD曲库则拥有超过5000万首曲目。

（二）语音界面

语音控制仍处于应用初期，尽管市场对于该技术潜力的反应非常积极。人们几乎会在所有地方用到语音技术，尤其是在家庭中。随着语音助理越来越智能，其体验也将具有更多真实感。语音作为人机接口的下一个前沿，将把信息传播带入物联网世界，例如，由于疫情影响，电梯控制和信息显示将限制触摸。随着用户逐渐习惯于语音用户界面（Voice User Interface,简称VUI），这些硬件系统可能很快将增加语音控制的升级和修改。精心设计的语音界面可以让用户轻松使用新技术和新设备，而不会出现明显的学习曲线。为了充分利用这些新设备，越来越多的音频处理技术从云端移向边缘计算，这不仅可以改善用户界面，降低延迟，还可以节约成本。用户在这些应用中也将获得更可靠的性能。

2020年初部分企业和个人已经开始了远程工作，这为工作场所远程互动创造了新的模式。根据Gartner Research最近一项调查显示，超过80%的企业负责人计划允许员工部分时间进行远程工作，另外47%的受访者将允许员工进行全职的远程工作，这也将带动企业语音技术与服务的发展。[6]

（三）人工智能、机器学习和数字神经网络

人工智能已经成为当今音频产业的主要驱动力,被称为媒体及附加产业的颠覆式创新技术（Disruptive Technology）,传统的音频系统组件，如麦克风、音频放大器等也在使用人工智能技术。

在许多方面，音频可能是AI的最早采用者。音频工程师喜欢完全控制他们工作时的声音，不论是电平和EQ微调，还是通过频谱可视化控制峰值音量和动态范围，这产生了一些后来被定义为人工智能的早期应用。这种操作由数据驱动，消除了对于个人的经验需求，有助于实现制作中的自动化处理，尽管不能将这个行业中任何自动化的工作都称为人工智能，但是自动化确实是媒体工作流程即将面对的深度变革。

机器学习、数字神经网络与人工智能容易混淆。人工智能包罗万象，作为术语已经存在数十年。工程师更偏爱机器学习这个术语，其含义是一种数据分析方法。机器学习不同于数字神经网络（DNA），DNA基于大量来自特定情况的训练数据，如识别特定的声线（Vocal Lines）、口音或声音，如交通或环境噪音。一些音频和声音后期工作室在十余年前已经开始使用机器学习，2012年，DNS 8 Live多通道对话噪声抑制器推出。这种录音机能够智能化去除语言录音的背景噪声。今天，音频软件的高级降噪处理几乎都使用机器学习的数据分析方法。

（四）音频链

人工智能将推动音频链（Audio Chain）应用曲线大幅增长，这是一种由语音识别和智能语音引擎驱动，将云端、边缘计算和智能硬件集成的综合应用。一方面，音频链带动麦克风传统电子音频产业的复兴,通过在麦克风中加入智能芯片，产生高品质声音，增强麦克风在嘈杂环境中对于周围环境的理解，提高识别准确性。另一方面，基于语音的个人助理（Voice Personal Assistant，简称VPA）在智能手机、智能扬声器、智能手表、无线耳机、汽车、智能电视及其遥控器中越来越受欢迎，甚至有的垃圾桶也集成了语音识别功能。在2018年和2019年，智能手机市场放缓，用户的升级时间更长，可听性和智能扬声器的爆炸式增长弥补了这一差异。目前，VPA正在推动所有这些设备中麦克风和微型扬声器的集成。全球麦克风和音频芯片消费市场的复合年增长率有望达到6.6%，从2018年的141亿美元增长到2024年208亿美元。麦克风市场目前价值17亿美元，预计2024年复合年增长率为3%，达到20亿美元。[7]

（五）动态聚焦空间音频

从历史上看，收听音频的方式只有两种：通过扬声器大声地、公开地倾听，或者是静悄悄地戴着耳机。新的动态聚焦音频技术将创造出不带耳机、移动收听沉浸式3D音频的新产品与新体验，是新一代音频通信和娱乐服务的基石。

“聚焦音频”不是“定向音频”，“定向音频”扬声器自2000年开始发展，使用超声波技术将声音直射前方，产生“声音气泡”，只有站在设备正前方的人才能听到。定向音频扬声器在贸易展会和博物馆等地方很受欢迎。聚焦音频技术要比定向音频更加智能和先进，能够通过高频超声波和3D跟踪技术识别和追踪听众耳朵位置，在对象移动时主动移动声音束。例如，这种音频技术能够对相隔1米之外的区域进行-20分贝的音量衰减，这意味着周围的人只能听到目标用户所听声音的10%。这是个人音频空间体验上的关键性突破，从而建立一种全新的聆听方式。动态聚焦的声音传送技术可应用于智能家居、视频会议，包括在流媒体音频平台上收听播客,在健身环境中使用这种技术也会更加身临其境。

（六）音频数据隐私保护

便利性和效率带来个人语音助理应用的快速渗透，除了语音技术自身发展的重大突破，大型互联网科技平台公司发展语音的另一个动机是透过VPA获取用户数据，像谷歌、苹果、脸书、亚马逊和微软都在推动VPA的进一步渗透，通过语音技术提取的数据具有真正的价值，可以帮助平台理解用户场景和真实需求。

对于用户而言，音频比图像更容易接受，原因是音频对于个人数字空间较少具有“侵入性”，因此对于主营数据业务的平台而言，这是从人们那里收集数据的好方法。一些公司正在利用数据开展业务，而另一些公司则在利用可确保用户隐私的集成技术展开营销。例如，苹果宣扬隐私保护，并使这种策略成为强大的营销资产。VPA离不开智能式传感器的普及，这意味着VPA不仅能听到用户的声音，还能听到他们的环境并理解其环境，这便是对话式人工智能的应用模式——像人类一样交流。麦克风厂商应同时开发保护用户隐私的技术，例如如何让麦克风从声音中移除用户的情绪数据，只保留和呈现语义数据。

四、隐匿的全球化

围绕音频技术主题，我们当前看到的大部分研究都是描述音频产业的新生态和新变化，却容易忽略音频产业在历史长期发展中不断涌现的具体的生命周期和与国家、民族、地域文化所形成的深层的内在联系。二十年前，由AES Fellow巴里·布莱瑟（Barry Blesser）和德里克·皮尔金顿（Derek Pilkington）联合发表的一篇重要论文指出：“由于音频历史案例的研究很难判断具有一致性的模式，因此，是否存在不变的模式，这一点很难回答。从我们日常世界的微观层面，也很难看出全球化的模式。”[8]音频产业的全球范式始终处于变化之中，有时这种变化融入人们的思想与生活以至于难以觉察。因此，“变化”一词在音频产业中无处不在，同时具有极大的隐匿性。

从上述分析可以看到，音频产业当下的主要创新和变革发生于传统媒体之外，或者可以认为，音频技术正在填充和发展一种全新的数字生态，在这个生态中，基于人类听觉的声音文化和音频创新不断向构建智能化的数字社会的方向发展。这显然比20世纪大众传播时代媒体的功能和责任扩展了很多，同时也超出了音频在媒体和信息传播中的应用目标和要求，而成为界面、连接和网络的一部分。纵观整个创意产业，内容不断被分割、切片、长尾化和播客化。面对数字革命新的格局与维度，我们依然缺乏将音频产业的变革转化为文化竞争力的结构化的分析，这会导致视野的失真乃至遮蔽，本文希望在该领域研究中发展一种方法或模式，瞄定媒体、技术和商业的整体结构来讨论产业的变化和影响，即便有时这种结构会超出媒体与传播，但是从数字社会高质量发展的角度来看,对于传媒业的自我更新却也不无益处。

面对变革，研究提出三个建议：第一，传媒机构要重新建立和评估组织内外专业技术人员在技术预测方面的潜力与贡献。在数字时代初期，音频产业的专业人士就参与了技术开发，专业人员为专业人员创造技术，因为他们是唯一知道如何处理新技术的人。第二，传媒业要增强音频的音质和美学对于大众市场的教育，消费者在产品的便捷性和音频质量的衡量上同样需要教育和引导，这应该从媒体所能提供的最高品质的内容开始。20世纪90年代末期音频与计算机和网络的融合，推动了高压缩、低音质的文件格式的流行与泛滥，这对于消费者在音质听觉审美方面是某种倒退。第三，发展数字生态视野下的传媒音频传播创新合作机制，例如，音频产业受到其他强有力的行业的支持和影响，有时这种影响甚至是依赖性的。一些行业创造出音频技术的新用途并开发出相关的新技术，就像音乐产业促进了音乐制作和新录音格式的发展。今天，音频产业更加依赖于其他产业来推动它前进。

音乐、广播、电视、电影、游戏、现场娱乐等领域的内容生产、技术加工和传播所构成的产业涉及广阔，声音成为连接这一切的线索。尽管2020年突如其来的疫情对于音频产业造成巨大冲击，但是新技术、新应用的研究并未停止，音频技术的性能和体验都得到显著提升。与此同时，媒体与娱乐业内容生产与发布流程中对于高质量音频赋能的需求不断增长，5G、语音识别和物联网的进步为音频的连接性创造更加可靠的通讯条件，消费者对于新的声音体验充满好奇与向往，这些都将推动音频产业在2021年重新回到快速增长的轨道上来。

注释：

[1]Polier, Sara.Forward-looking External Search as a Driver for Innovation: An Empirical Analysis of the Value Contribution of Different Search Strategies for Corporate Foresight[M]. Hamburg: Springer Gabler, 2018:2.

[2]Peter F. Drucker.The New Society of Organizations[EB/OL].[1992-09].https://hb r.org/1992/09/the-newsociety-of-organizations.

[3]1999 年 5 月，AES 技术委员会、董事会和 Richard Heyser 奖学金基金共同设立了 Richard c. Heyser 纪念讲座系列，以表彰这位杰出人士对学会做出的广泛贡献。

[4]148th Convention“Virtual Vienna”June 2-5, 2020[EB/OL].[2020-08].https://www.aes.org/events/reports/148thConvention.pdf.

[5]Emerging Technology Predictions 2021[EB/OL].[2021-02-01].https://www.forbes.com/sites/splunk/2021/02/01/emerging-technology-predictions-2021/?sh=4ae04cb86f7e.

[6]Brian Crannell, Knowles Corp.Consumer Audio: 2021 As We Hear It[EB/OL].[2021-01-19].https://www.eetimes.com/consumer-audio-2021-as-we-hear-it/.

[7]Anne-Françoise Pelé.Where Is the Real Value in the Audio Chain?[EB/OL].[2021-02-11].https://www.eetimes.com/where-is-the-real-value-in-the-audio-chain/.

[8]Barry Blesser, Derek Pilkington. Global Paradigm Shifts in the Audio Industry-Part 2[J]. JAES, 48(10), 2000(10): 946+948+950-952+954+956-959.