APP下载

深度学习技术在音频自动标注中的应用研究

2024-09-12王培刚

科技资讯 2024年15期

摘要:自动音频标注的目的是从音频输入生成能够描述此音频的一段文字。目前,音频标注模型的效果欠佳,并且在改善音频标注效果的过程中很少有应用预加载模型。自动音频标注的目标为音频片段产生合适的描述语句,要能够拥有处理音频模态和文本模态数据的能力。为此,对音频模态及文本模态的预加载模型进行研究,并提出基于音频模态的自动标注和基于文本模态的自动标注,解决传统标注方法中训练和测试阶段目标不一致的问题。

关键词:音频标注自动标注深度学习预加载模型

中图分类号:TN912.3

ResearchontheApplicationofDeepLearningTechnologyinAutomaticAudioTagging

WANGPeigang

HubeiCommunicationsTechnicalCollege,Wuhan,HubeiProvince,430202China

Abstract:Thepurposeofautomaticaudiotaggingistogenerateaparagraphoftextthatcandescribetheaudiofromtheaudioinput.Currently,theeffectivenessofaudiotaggingmodelsisnotgood,andtherearefewapplicationsofpreloadingmodelsinimprovingtheaudiotaggingeffect.Thegoalofautomaticaudiotaggingistogenerateappropriatedescriptivestatementsforaudiosegments,andtohavetheabilitytoprocessaudioandtextmodaldata.Therefore,researchisconductedonthepreloadingmodelsofaudioandtextmodalities,andautomatictaggingbasedonaudiomodalityandtextmodalityareproposedtosolvetheproblemofinconsistentgoalsinthetrainingandtestingstagesoftraditionaltaggingmethods.

KeyWords:Audiotagging;Automatictagging;Deeplearning;Preloadingmodel

随着机器学习技术在各个领域的深入应用,很长时间以来机器学习的研究领域不断丰富,近期对单音频模态的研究也愈发成熟,机器学习用于单音频模态领域的典型代表就是音频分类[1]。作为机器学习的一种,深度学习在信息技术领域尤其是计算机视觉领域有广泛的应用。然而,由于音频中携带的信息通常远远小于图像所携带的信息,因此深度学习在此领域的应用程度和成熟度远远比不上在计算机视觉领域的应用。

伴随深度学习应用浪潮的兴起以及大模型的诞生,将深度学习方法用于音频处理又开始逐渐成为新的潮流。借助神经网络模型这一工具,并在使用GPU设备过程中辅助大量参数来对训练大规模音频数据集的神经网络,可以使神经网络模型具有良好的分析和处理能力。深度学习的这一特性使其在音频处理领域的效果要明显比传统机器学习算法好,因此目前研究人员的目光不再局限于传统单一音频模态的音频分类,而是开始转向比其更复杂的多模态领域。

作为一项复杂的多模态文本生成任务,自动音频标注的最终目标是从一个原始的音频片段生成恰当的描述语句,这一过程需要将音频片段输入音频标注系统中,最终得到的描述语句要能够以抽象的方式描述输入音频。为此,自动音频标注系统不仅要可以处理音频模态,还应该具有处理文本模态数据的能力[2]。

1音频自动标注的模型及算法

现有音频标准模型使用的通常都是编码器-解码器结构,其中编码器的作用是对音频模态的输入数据进行处理,加码器的作用是转换编码器的输出成为文本描述语句,也就是常说的音频标注。合适的神经网络模型对于处理音频模态数据非常重要,而且也有利于音频标注前的预训练。

  • 循环神经网络模型

音频数据是由序列流构成的,循环神经网络(recurrentneuralnetworks,RNN)非常适合用于处理序列流,在应用到音频标注任务的时候,有一个RNN网络用作编码器,另外一个RNN网络作为解码器[3]。和传统的深度神经网络相比,循环神经网络在音频标注应用中可以接受变长的输入,而且输出结果的长度也可以改变。最重要的是,循环神经网络的层次不是固定的,而是可以根据需要进行定制,这样的神经网络结构使得音频输入信息可以在神经网络内部按照时序向后传递,提高了音频标注的效果。

循环神经网络最大的问题是当网络结构较深时可能会产生梯度消失现象。为了解决这一问题可以为每个神经元添加状态,状态可让每层网络结构中的神经单元据此添加或删除部分信息,这种改进的循环神经网络称为LSTM(LongShortTermMemory)[4]。LSTM的上述特性使得网络中越接近末端的神经网络层越容易得到关键信息。LSTM用于音频标注时网络结构中神经元包括3个状态门:输入门、遗忘门以及输出门,它们分别接收输入数据、降低冗余数据、整合输出数据。LSTM进行自动音频标注时,编码器负责提取输入音频特征,输入音频片段在经过函数分割后提取其对数梅尔谱;解码器使用指定的数学函数当作输出激活函数。LSTM应用于自动音频标注会受到数据集质量的限制,因此实际效果欠佳,但是这种编码器-解码器形式的网络框架成为以后音频标注工作的基础。

  • 卷积神经网络模型

为解决LSTM算法存在的问题,业界后来尝试使用卷积神经网络(ConvolutionalNeuralNetworks,CNN)来处理音频输入,即以CNN作为编码器。

卷积神经网络主要包括特征提取部分和分类器两个环节,其中特征提取部分根据功能可以分成两种主要的网络层[5]:卷积层和池化层。卷积层的输入是音频输入以及卷积核,并对这二者进行卷积操作,以此提取特征并进行特征压缩;接下来会使用一个激活函数对输出特征进行调整。池化层会对输入完成下采样工作,所以池化层也被称为下采样层。池化层中常见的操作包括平均池化和最大池化两种,平均池化的作用是对卷积操作后的数据取平均值,最大池化直接选取卷积窗口中最大的数据。经过池化层下采样后,数据量会得到指数级别的降低,这样可以通过降低维度的方式去掉冗余数据。

在计算出特征后,就可以使用分类器计算它们的得分,这也是卷积神经网络的最后一层,在这一层中输入的各种特征会被组成一个向量,以便全连接的前向反馈神经网络完成分类操作。需要注意的是,全连接层需要大量运算,因此一般情况下卷积神经网络的分类器只包含两层全连接网络。

卷积神经网络的运算规则使其不必担心音频输入包含大量高维数据,而且由于运算对象主要是音频输入特征,因此借助卷积操作在高效提取音频输入特征的同时也能够很好地完成对数据规律的学习。最重要的是卷积神经网络不会删除音频输入数据相邻空间的关系,因此其效果要优于RNN编码器。

2基于音频模态的自动标注

目前并没有性能强大的多模态预加载模型,因此本文探索使用不同单模态预加载模型的组合来改进音频标注这一多模态任务的性能。序列到序列模型的编码器-解码器结构目前在音频标注领域得到广泛应用,因此可以选择序列到序列模型结构,并选择CNN卷积神经网络充当编码器,而解码器方面选用的是在处理文本上更有优势的Transformer。编码器之后连接一个分类器完成标注的输出工作。

我们设计的编码器由4个卷积块构成,其中每个卷积块都包含两个3×3的卷积层,然后使用ReLU当作激活函数[6]。为了加快模型的训练速度,还使用了批量标准化。为了克服传统CNN在数据集不足时产生的训练问题,本文还利用预训练模型对编码器参数进行初始化。标准的Transformer通常由两部分构成,即编码器和解码器,但由于标准的转换器能够处理的输入长度只有512字节,而提取出的音频特征长度可能远远超过此长度,所以本文仅使用Transformer的解码器部分生成音频输入特征的标注内容。Transformer的解码器部分如图1所示。

在进行模型训练前需要完成一项前置工作:输入数据的预处理,对于原始音频输入而言需要先提取其对数梅尔谱图。本文使用44.1kHz的采样率,并且快速傅立叶变换的窗口长度是1024。另外,本文还对标注语句进行了预处理,即将标注语句内的标点符号都去除,并且把所有的单词全部转化为小写字符。

模型选定并且数据预处理完成后,本文借助音频标注数据集AudioCaps对其进行预训练,目的是对编码器进行参数微调,以此提升音频标注的整体表现。模型参数调整完毕后,本文使用Clotho数据集进行正式的训练。这是一个专门进行音频自动标注的数据集,虽然为便于训练而去除了标注中的特殊单词、符号等内容,导致其数量上比AudioCaps数据集少,但它的标注语句相对而言更加可靠[7],而且不同音频片段的标注语句侧重点及长短都不一样,因此更加适用于音频标注任务的正式训练。

3基于文本模态的自动标注

目前的文本训练任务中虽然常见的训练方式能够解决模型训练速度的问题,但是训练时为提高模型的精度通常要求为每一层输入真实数据,从而导致模型对真实数据的依赖性非常高。在测试阶段的标准工作缺乏真实数据,此时根据实际输入进行预测就会因为当前输出的不断累积而导致整个模型的预测结果出现偏差,这就是曝光误差。

传统的音频标准模型在处理过程中可能存在曝光误差问题,本文使用的编码器-解码器结构在两者间并没有注意力机制,所以编码器的工作与解码器的工作可以认为是相互独立的,这样从解码器的角度看音频标注任务就是一项多模态的文本生成任务,因此也难以避免上述问题。

为此本文将SCST(Self-criticalSentenceTraining)这种文本模态预训练手段应用到音频标注系统中,其算法流程如图2所示。

SCST算法使用CIDEr指标来对文本标注进行评价,它计算每个词组的TD-IDF获得权重,并把每个句子转换为向量形式,然后计算模型输出语句和标注预计的余弦相似度。从图中可以看出,训练过程中任意时刻会产生两个输出:分别是基于采样得到的输出以及模型测试阶段的输出;测试阶段,本文使用贪心算法分别计算这两个输出的CIDEr,然后更新模型的参数。本文采用的SCST方法主要针对的是解码器部分进行优化,也就是改进的模态生成任务,这样就可以生成一个更符合文本评价指标的预加载模型。

这种文本模态自动标注方法在训练时能够把评价指标以前向传播的方式进行,这样就能够保持测试阶段评价指标与训练过程中目标的一致性,解决了常见自动标注方法的训练和测试阶段目标不一致的问题。另外,模型训练过程中的训练对象是“句子文本”,并以此更新模型参数,这也一定缓解了曝光误差问题。

4结语

本文对深度学习技术在音频自动标注中的应用进行研究,研究音频模态及文本模态的预加载模型,对音频模态及文本模态的预加载模型进行改进。结果表明使用此模型的音频自动标注可以得到更高得分的标注文本。

参考文献

[1]陈耕耘,李圣辰,邵曦,等.基于迁移学习与强化学习的自动音频标注系统[J].复旦学报(自然科学版),2022(10):520-526.

[2]刘畅.数字音频工作站作为音乐标注工具的功能研究[D].上海:上海音乐学院,2023.

[3]李海涛.基于深度学习的弱标注多声音事件检测研究事件检测研究[D].青岛:青岛科技大学,2022.

[4]于超,盛萱竺,崔翛龙.基于图卷积神经网络的分布式半监督自动标注方法[J].网络安全与数据治理,2023(12):231-235.

[5]蔡杰锋.基于隐私感知的自动精确图像标注方法研究[J].信息记录材料,2023(12):236-239.

[6]赵洁,袁永胜,张鹏宇,等.轻量化Transformer目标跟踪数据标注算法[J].中国图象图形学报,2023(10):3176-3190.

[7]范静.考虑音符序列的钢琴演奏和弦指法自动标注算法[J].常州工学院学报,2022(10):39-45.