AI技术革新视听体验开启未来视听无限可能

2024-07-04任少峰

网络视听 2024年8期

随着大模型、数字人技术的迅猛发展，AI技术为视听行业的不断创新带来更多可能。成立于2014年的趣丸科技，是一家集人工智能、电子竞技、兴趣社交等业务于一体的创新型科技企业。作为音频行业的代表，趣丸科技始终站在技术前沿，积极探索和布局AI技术的研发与应用。凭借多年积累的人工智能和音频技术，趣丸科技自主研发了集成运用音频处理技术和集人工智能深度学习、大数据分析、音乐制作于一体的AI自动作曲技术，一站式解决音乐创作的全流程问题，为行业带来了关于AI技术革新视听体验的新范例。

一、未来声音的趋势和发展

（一）声音的重要性

声音在人类生活、科技领域和文化领域中具有极其重要的作用。在人类生活中，声音是一种重要的交流方式，能够传达情感、思想和信息。人们通过说话、歌唱、交谈等方式，使用声音沟通和表达，建立人际关系，传递知识和交流情感。

在科技领域，声音被广泛应用于语音识别、语音合成、声音识别、声音编辑和制作等方面，在智能家居、智能设备、虚拟现实和增强现实等方面发挥重要作用。

在文化领域，声音艺术如音乐、配音、演讲等占有重要地位，能够传达情感、表达思想，对人们的精神生活产生深远影响。

（二）声音技术的发展历程

声音技术的发展历程是一个不断进步和变革的过程，涵盖了从最初的模拟技术到现代AI音频技术的演变。主要时间节点包括：

1.传统音频（模拟音频技术）。19世纪末期，最早的录音技术诞生，托马斯·阿尔巴·爱迪生发明了留声机。

2.磁带与录音技术。1928年，磁带录音技术出现，声音可以被存储在磁性介质上，这种方式比留声机的蜡筒或唱片更为灵活且易于编辑。

3.数字音频。20世纪70年代末，数字音频技术出现，声音被转换成数字信号进行处理和存储。1982年，CD（Compact Disc）面世，它为数字音频的普及打下了基础。

4.网络音频与MP3。20世纪90年代，随着互联网的普及，网络音频开始发展，MP3格式被发明并迅速流行，这使得音频文件可以在互联网上被轻松共享和下载。1993年，MP3格式标准化。

5.流媒体音频。21世纪前10年，网络带宽的提升促使流媒体音频服务兴起，改变了人们获取和消费音乐的方式。

6.AI音频。21世纪10年代至今，AI技术开始被应用于音频领域，出现了自动化音乐创作、智能音频编辑、语音合成等技术。

近年来，深度学习技术的进步使得AI音频技术日益成熟，比如，能够模拟特定人声的合成器、智能音乐推荐系统等。AI音频技术的发展至今仍在继续，随着人工智能和机器学习技术的不断进步，我们可以预见在音频合成、音乐生成、声音识别和处理等方面，将有更多突破和创新。

（三）AI技术在音频领域的应用

AI技术在音频领域的应用已经非常广泛，并且随着技术的进步，这些应用在不断扩展和深化。

在音乐生成领域，AI可以用来创作音乐，包括生成旋律、和弦、鼓点等。一些软件能够根据用户提供的参数或者学习过的海量音乐数据自动创作歌曲。

其中，声音识别是AI在音频领域的著名应用之一，包括语音识别和声音识别。AI能够识别和转录人类语音，以及识别特定的声音模式。

在语音合成领域，AI能够将文本转换为听起来自然的语音，这在语音助手、自动化客服和阅读器中得到广泛应用。

在虚拟数字人领域，它可以提供自然、个性化和多功能的语音表达和理解能力，从而增强了虚拟数字人与用户的交互体验。

在声音监测和安全性方面，AI能够监测异常声音，可用于安防系统或者监测噪声污染等。

二、音频合成技术的应用案例

以趣丸科技的技术应用为例，我们研发了集人工智能、音频处理、深度学习、大数据分析以及辅助作词、作曲、编曲、混音等为一体的创新性AI技术。其功能包括三词成曲、三键成曲、哼唱成曲等，可以自由选择乐器、和弦组合及演奏方式，创作者即便不会使用乐器，也能轻松实现弹唱，大幅降低内容创作门槛，让专业用户获得灵感，让“小白”用户轻松迈入音乐创作殿堂。

AI音乐是技术与艺术的融合，既需要用户创作时的灵光乍现，也需要技术带来的无限可能。我们的算法团队围绕“让人人都能自由创作音乐，让专业音乐人不再被灵感枯竭所限”的目标，在音乐创作流程的“作曲”“编曲”“演唱”等多个环节持续创新，开发了诸如“自动作曲技术”“多维织体编曲技术”“AI歌姬演唱技术”等系统。

同时，我们针对不同音乐风格，实现了多种音乐旋律生成的垂类模型（如BERT掩码模型、GPT模型），针对用户选择的不同风格、情绪，实现从歌词到旋律自动作曲，智能化控制每句歌词的音高与节奏；在歌词写作方面，采用NLP大模型技术，实现歌词自动写作功能，用户只需输入关键词，即可生成结构性强的歌词；为了保证模型生成高质量的旋律乐谱，在自动作曲系统的后端，我们融合了基于强化学习、对比学习等技术方案的乐谱打分模块，多个模块的串并联，让AI音乐更具备“可记忆性”“有关联性”及“音乐前后的结构性”，真正为AI作曲注入灵魂。

多维织体编曲技术不仅结合了编曲业内学院派的严谨编曲作风，同时积极学习风格不同编曲人的自由与创新精神，为了让音色选择及乐器搭配符合不同风格需求，团队开发了基于CNN的配器推荐模型。该模型能够根据用户风格、情绪、场景，甚至歌手、年代等参数，推荐适配度最高的乐器。为了进一步让和弦及乐器织体的编排符合和声学的框架，同时让两者具备更多自由度与多样性，我们开发了多维织体生成框架，包含基于Transformer的深度学习模型，以及由业内编曲专家打造的机器学习专家系统。该框架为每一个织体都赋予了7至10种维度属性，让乐器织体与和弦能够最大程度地匹配用户情绪及音乐曲风。两项核心技术共同构筑了我们的自动编曲大框架，为用户精准生成“心中的音乐”。

针对不善于歌唱的用户，基于Diffusion概率扩散模型的技术方案，开发了“AI歌姬演唱”歌曲合成技术，能够让用户自主选择歌姬的音色，实现歌曲自动生成，极大程度降低了音乐创作门槛。

为了进一步提高用户参与度，获得音乐创作乐趣，在“AI歌姬演唱”技术中，引入了音色克隆技术。团队成员借助声纹识别、音色迁移等技术，可以实现Zero-shot零样本音色克隆技术，仅需用户极短的声音采样，就可以使用用户的音色唱出用户心中的歌曲。这个技术的研发，满足了用户个性化歌声音频生成场景的需求，丰富整个产品的可玩性。

其中，三词成曲又叫文生音乐，输入三个关键词，使用简易提示，关键词扩充生成完整歌词，再使用文本输入自由控制音乐风格，根据输入的歌词及音乐元素，一键作曲编曲混音生成歌曲，创作者还可以对生成结果二次调整编辑，可控性更强。创作者也可以录制自己的声音，上传成为虚拟歌手，用自己的声音演唱，这就是我们刚才提到的音色克隆技术。

三键成曲是一种作曲中用到的即兴创作手法。在AI加持下，用户只需根据AI提示，敲下3至6个键作为“动机”，AI根据你的输入生成指定风格的完整曲目。通过这项技术，普通人也能零门槛体验专业作曲。

哼唱成曲，用户只需哼唱5秒钟，AI就能捕捉这短暂的声音，并将其扩展成一首完整的音乐作品。哼唱玩法极大简化了音乐创作复杂性，使得每个人都有机会将自己的灵感转化为音乐。无论是纪念一个特别的时刻，还是记录一个有趣的声音，都能让那些有意义的声音变成音乐作品。

AI音乐在行业中应用非常广泛。在音乐发行方面，AI音乐可以生成大量风格各异的音乐，大大降低了音乐创作和制作成本，提高了音乐作品的产量和质量。这对于独立音乐人、小型音乐工作室、独立电影制作人等音乐需求者来说，都是非常实用的工具。在短视频BGM（Background Music）方面，AI音乐还可以根据视频内容自动生成适合的背景音乐，为短视频提供更加丰富和个性化的配乐选择。

未来，将持续布局数字经济新赛道，抢占数字经济发展高地，并持续在AI、大数据、音视频、兴趣社交等技术领域深耕。推出的TT语音平台已成为“Z世代”圈层中流行的兴趣社交平台，累计注册用户超过2亿。旗下电竞俱乐部TT电竞是华南地区唯一拥有四大顶级电竞联赛席位的俱乐部。

我们坚信，随着AI技术不断演进，数字化视听内容创新将展现更加广阔的发展前景。唯有通过共同的努力，从业者才能够引领这一创新浪潮。同时，趣丸科技将不断创新，继续深耕数字化视听及人工智能领域，为人们带来更多娱乐、教育、科技和文化的可能性。W

（作者任少峰系广州趣丸网络科技有限公司副总裁、总编辑）