APP下载

基于C-LSTM 的鸟鸣声识别方法*

2021-06-03邢照亮吴伟银张正晓陈麒麟倪东明

科技创新与应用 2021年15期
关键词:鸣声鸟类准确率

邢照亮,吴伟银,张正晓,陈麒麟,倪东明

(1.先进输电技术国家重点实验室(全球能源互联网研究院有限公司),北京 102209;2.国网浙江省电力有限公司永嘉县供电公司,浙江 温州 325100;3.北京林业大学 工学院,北京 100083)

鸟鸣声中包含的丰富的生态学信息,是衡量生物群落总体平衡的重要指标[1]。基于音频采集的鸟类监测系统具有非干扰、实时等优点,在国外已经得到广泛应用。然而该监测方法运行时会产生海量的鸟鸣声数据,依靠生态保护工作者手动处理这些数据,需要耗费大量的时间、人力和物力[2]。

国内外学者对鸟鸣声识别方法开展了大量研究。徐淑正等[3]将基于动态时间规划模板的算法用于多标签的鸟声识别,最终在11 类的鸟声分类中达到0.92 的准确率。刘昊天等[4]用特征迁徙学习的鸟类识别方法,在多物种鸟声数据集上取得了较高的识别准确率。Zhang 等[5]用鸟鸣声的光谱图案和纹理特征作为输入,用基于SVM的分类方法对2762 个鸟类事件进行了分类并得到了较好的分类效果。Selin 等[6]用无监督的分类器SOM 和受监督的分类器MLP 对8 种鸟类的鸣声进行分类,最后分别达到了0.78 和0.96 的识别准确率。谢将剑等[7]利用线性调频小波变换(Linear Chirplet Transform,LCT)、短时傅里叶变换(Short-Time Fourier Transform,STFT)、梅尔频率倒谱变换(Mel Frequency Cepstrum,MFCT)获得3种语谱数据集,用VGG16 模型对18 种鸟类语谱图进行分类达到了较高的识别准确率。鸟鸣声中不仅包含个性声音的空间特征[8],而且包含了鸣声段之间的时序特征,上述鸟鸣声识别方面的研究均没有充分利用鸟类声纹时序特征。

长短时记忆网络LSTM(Long Short-Term Memory)是一种时间递归神经网络,该网络适合于处理具有时间关联度的声纹信号。本文在深度卷积神经网络的基础上加入了长短时记忆网络LSTM(Long Short-Term Memory)提取鸟声语谱图帧间的时间关联度特征,形成了CLSTM 识别模型。以Xeno-Canto 中的5 种鸟类作为研究对象,通过对比实验验证了本文提出模型的优越性。

1 鸟鸣声数据及其预处理

1.1 数据集介绍

本文采用的鸟鸣声数据集来自Xeno-Canto(https://www.xeno-canto.org/)数据库,选取了5 种鸟类的鸣声数据,具体的物种信息如表1 所示。每个鸣声信号均为WAV 格式,采样频率均为44.1kHZ。

表1 5 种鸟鸣声信号的信息

1.2 数据集的预处理

为了补偿鸟鸣声信号传播时高频成分的衰减,首先需要对鸣声信号进行预加重处理,即用高通滤波器对鸣声信号进行滤波:

式(1)中,μ 通常取值为0.97。

为了减少静音段占用内存空间增大计算量的影响,需要对输入的鸣声信号做去静音段处理,其中去除静音段的无声阈值为0.5。由于鸣声信号为非平稳的随机信号,在对鸣声信号进行时频变换前,需要对信号分帧和加窗,其中窗函数采用Hanning 窗函数,分段的时间长度为300ms,段与段之间的重叠率为0.5。

分帧和加窗以后,对各个帧信号进行梅尔频谱倒谱变换(Mel Frequency Cepstrum,MFCT),其计算参数如表2 所示。

表2 梅尔频谱域倒谱变换计算参数

最后再将变换后的每一帧信号输出为224*224 的RGB 图像,图1 所示为5 种鸟类的梅尔语谱图的示例图像。

图1 5 种鸟类的语谱图

2 基于C-LSTM 的识别模型

本文模型的特征提取部分采用了VGG16 模型[9],VGG16 卷积神经网络是牛津大学在2014 年提出来的模型,VGG 模型采用3*3 的小型卷积核和2*2 的最大池化核,通过不断加深网络结构来提升性能,在图像分类和目标检测任务中都表现出非常好的结果。在2014 年的ILSVRC比赛中,VGG 在Top-5 中取得了92.3%的正确率。

LSTM(Long Short-Term Memory)是一种长短时记忆序列网络[10],其核心的概念在于细胞状态以及“门”结构。细胞状态相当于信息传输的路径,让信息在序列中传递下去。信息的添加和移除可以通过“门”结构来实现,“门”结构在训练过程中会去学习该保存或遗忘哪些信息,如图2 所示为LSTM 网络单元结构图。

图2 LSTM 网络单元

基于VGG16 的空间特征提取能力及LSTM 的时序特征建模能力,本文提出了C-LSTM 模型,如图3 所示,模型由三部分组成,分别是VGG16 卷积层、LSTM 层及全连接层。

图3 C-LSTM 模型框图

其中模型输入的为鸟鸣声语图序列,首先通过VGG-16 卷积层提取图像的特征,作为LSTM 的输入。对于输入的图像序列,通过CNN 网络后的输出特征为4 维向量,而LSTM 的输入的大小为3 维向量。因此本文采取了将卷积后的输出特征先降维,然后再转置的运算。最后再将经过LSTM 单元输出的特征向量连接到2 个全连接层和Softmax 输出层组成的分类器中,如图4 所示为CLSTM 模型结构图。

图4 C-LSTM 模型结构

3 实验结果与分析

3.1 模型训练设置

实验在Win10、64 位操作系统下,Python3.6 的编程环境,基于深度学习框架Tensorflow1.8.0 完成。实验建立的数据集训练样本数如表3 所示。

表3 数据集训练样本

选择平均识别准确率MAP 作为模型的评价指标,MAP 的计算公式如下:

其中:q 为鸟类物种编号,AveP(q)为对应物种的识别准确率。

3.2 C-LSTM 模型和VGG16 模型性能对比

为了验证长短时记忆网络(LSTM)对模型的提升效果,选择VGG16 模型进行对比实验,C-LSTM 和VGG16模型的训练参数均采用表4 所示的参数值。

表4 训练参数

选择表3 中的5 种鸟类的梅尔语谱图样本集作为输入,分别对物种识别模型进行训练和验证。图5 为模型在验证时损失函数值随迭代次数的变化。

由图5 可得,在相同的训练参数条件下,训练初期C-LSTM 的损失值大于VGG16,但随着迭代轮数的增加,C-LSTM 的损失值收敛为小于VGG16 模型的损失值。

图5 VGG16 和C-LSTM 测试损失值变化

图6 为验证时VGG16 和C-LSTM 模型的MAP 值随迭代次数的变化。

由图6 可知,VGG16 和C-LSTM 随着训练迭代次数的增加,MAP 值一直处于上升趋势。在训练初期,CLSTM 的MAP 值小于VGG16,但随着迭代轮数的增加,C-LSTM 的MAP 值收敛为大于VGG16 的MAP 值。

表5 记录了VGG16 和C-LSTM 网络在测试时MAP的起始值和最终值。

综合分析图5、图6 和表5 可得:

图6 VGG16 和C-LSTM 测试准确率变化

表5 VGG16 和C-LSTM 测试结果对比

(1)在训练初期,由于训练模型迭代次数较少,C-LSTM 网络对语谱图输入序列的时序特征的学习能力还未体现出来,所以此时VGG16 的性能要优于CLSTM。

(2)随着迭代次数增加,C-LSTM 模型将CNN 网络对语谱图空间特征的学习能力及LSTM 网络对输入语谱图序列时序特征的学习能力有效结合,其最终MAP 值在测试集上达到了0.9147,优于VGG16 模型的0.8628,验证了C-LSTM 模型的优越性能。

4 结论

本文提出了一种基于C-LSTM 模型的识别鸟鸣声方法,该方法首先通过计算得到鸟类鸣声的梅尔语谱图,然后输入到融合CNN 和LSTM 的C-LSTM 模型中,实现鸟类的识别。实验结果表明,与传统的CNN 网络模型相比,C-LSTM 作为识别模型时能够更好地对鸟鸣声的时间特征进行学习,具有更高的识别准确率,可以为鸟鸣声识别提供新的思路及方法。

猜你喜欢

鸣声鸟类准确率
善于学习的鸟类
口袋(外一首)
自制乐器
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
我的湿地鸟类朋友
鸟类
长白山地区3种跃度蝗鸣声结构的比较研究