APP下载

三种鱼类发声信号频带能量特征提取与分类研究

2021-05-10陈德昊林建恒衣雪娟江鹏飞

声学技术 2021年2期
关键词:黄花鱼波包频带

陈德昊,林建恒,衣雪娟,江鹏飞

(1. 中国科学院大学,北京100049;2. 中国科学院声学研究所北海研究站,山东青岛266114)

0 引 言

随着人类对海洋渔业资源需求的日益增加,利用声学技术开采海洋渔业资源越来越受到人们的重视。目前各国已经广泛采用各种主动声呐技术探测、开发和利用海洋渔业资源。同时,被动声学技术也成为海洋渔业资源评估和海洋生态系统监测的重要手段和工具。

对于鱼类发声信号,可在时域、频域或梅尔频率倒谱域等变换域下进行分析。文献[1-7]采用了带通滤波技术、时域分析、频域分析、时频分析和混合神经网络算法等信号处理方式对鱼类发声信号进行分析。然而,传统的时域或频域分析无法同时兼顾频域和时域信息,故无法全面地分析信号。陈功等[8]于2013年利用仿声技术发现,可将鱼类发声信号类比说话人语音信号进行分析。他们将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC) 作为鱼类被动声信号的特征信息,该特征具有维数少、区分度大、鲁棒性强、计算量小的优点。时频分析虽可以同时兼顾时域和频域,但选取的方法不同,结果会存在差异。常见的时频分析方法有短时傅里叶变换(Short-Time Fourier Transform,STFT)、维格纳分布(Wigner Distribution Function,WDF)、希尔伯特-黄变换(Hilbert-Huang Transform,HHT)以及小波变换(Wavelet Transform, WT)等。短时傅里叶变换计算简单,但无法同时兼顾时域分辨率和频域分辨率,不太适合处理具有瞬态非平稳特性的鱼类发声信号。维格纳分布会出现“交叉项效应”,且复杂度较高。希尔伯特-黄边换在检测微弱突变信号具有一定优势,但其结果不具有解析形式[8-9]。对于小波变换,在选取合适的小波基条件下,它的优势才能更好地发挥出来,且其结果具有解析形式。小波包变换是小波变换的推广,张静远等[10]验证了基于小波包变换的特征提取对主动探测水下目标声信号的有效性。Harakawa等[11]提出了一种在水下环境中自动检测鱼类声音的方法,这种方法是结合K近邻(K-Nearest Neighbor, KNN)、支持向量机(Support Vector Machine, SVM)和新型逻辑回归(New Logistic Regression, NLR)的混合方法,他们表示这种混合分类方法性能优于其中的单个分类方法,他们通过对部分石首鱼类展开实验,验证了这种混合分类方法的有效性。文献[12-14]中将深度学习中的深度卷积神经网络应用于鱼类图像的分类识别。文献[15-18]中采用了线性频率倒谱系数(Linear Frequency Cepstrum Coefficient, LPCC)、梅尔频率倒谱系数(MFCC)、香农熵(Shannon Entropy, SE)、音节长度(Syllable Length, SL)、信号波形、信号时频图等特征,并结合了支持向量机、随机森林(Random Forest, RF)、人工神经网络(Artificial Neural Network, ANN)和深度卷积神经网络(Deep Convolutional Neural Networks, DCNN)等分类器,得出了不同分类方案下鱼类发声信号的分类结果。Lin等[19]对比了不同情况下有监督和无监督方案在鱼类被动声监控中的应用。焦奎奎[20]将小波包变换特征应用到了淡水鱼鱼体回波信号的主动声识别研究,得出了小波包变换特征在支持向量机分类器下的性能总体优于反向传播(Back Propagation, BP)神经网络的结论。综上可知,对鱼类发声信号的分类识别已经开始由传统的智能分类方法逐步过渡到用人工神经网络分类甚至是深度学习方法。尽管如此,一些经典的“特征提取+分类器”方法仍然在鱼声识别中发挥着重要作用。本文分别将黄花鱼(yellow croaker)、大米鱼(rice fish)和黄姑鱼(yellow drum)三种鱼类发声信号经过小波包变换得到的频带能量特征作为分类特征,尝试分析了该特征在不同分类器下的有效性。

三种鱼均属于石首鱼类,均是我国重要的发声经济鱼类,Ramcharitar等[21]介绍了部分石首鱼类的生物声学机制。对黄花鱼、大米鱼和黄姑鱼的发声信号进行特征提取与分类研究,可为改善这三种海洋鱼类资源的开发和利用环境提供研究思路,同时也为其他鱼类识别方法提供技术参考。

本文首先概述了小波变换和小波包变换的基本理论,然后说明了数据采集和预处理方法,分析了用小波包分解得到的实验环境背景噪声时频图和三种鱼发声信号时频图,尝试利用小波包分解提取三种鱼类发声信号的频带能量特征并对其进行分类判别。最后依据总体准确率和预测得分评判准则对比分析了基于小波包分解的频带能量特征在不同分类器下的分类性能。

1 小波变换与小波包变换概述

小波变换作为一种经典的时频变换方法,实现了泛函分析、傅里叶分析、调和分析以及数值分析理论之间的紧密结合,成为继傅里叶变换后,另一个重要的信号处理方式。小波变换中的多分辨分析具有良好的时频局部化能力,能够通过在时域或频域逐步精细步长,实现对信号细节的聚焦,从而能更加全面细致地描述信号特征,尤其是非平稳信号。鱼类发声信号作为一种典型的瞬态非平稳信号,应用小波变换有时要比傅里叶变换和短时傅里叶变换等一些传统方法而言具有更显著的优势。

小波变换分为连续小波变换和离散小波变换。考虑数字化,实际应用通常采用离散小波变换。离散小波正变换和重构逆变换可以表述为式(1)和式(2),信号S的三层小波分解树示意图如图1所示。

图1 小波分解树示意图Fig.1 Schematic diagram of wavelet decomposition tree

小波包分解,又称为小波包变换或最优子带树结构,是对小波变换的进一步优化。小波包分解由于保留了小波分解舍弃的高频细节分量信息,故相比小波分解具有更强的时频分析能力。图2给出了对信号S进行三层小波包分解的示意图。小波包树每一层的节点个数等于2n,n为分解层数。总的来说,小波包分解要比小波分解更加精细化。

图2 小波包分解树示意图Fig.2 Schematic diagram of wavelet packet decomposition tree

2 数据采集与分析方法

2.1 数据采集与预处理

2.1.1 数据采集

本次实验采集时间于秋季傍晚,采集地点位于中国东海的某养殖场网箱,具体细节如下:

黄花鱼发声信号的采集时间为 18:21:36~22:41:36。采集信号分为大黄花鱼和小黄花鱼发声信号。小黄花鱼鱼龄为 4~5个月,体重不详。大黄花鱼体重和鱼龄均不详。

大米鱼发声信号的采集时间为 18:10:32~23:40:32。被测的大米鱼重 1 000 g~1 500 g,鱼龄20个月。黄姑鱼发声信号的采集时间是15:34:06~23:34:06。被测的黄姑鱼重500 g左右,鱼龄24个月。

2.1.2 预处理

对三种鱼的发声信号每间隔10 min采集一次,原始采样率为 64 kHz。三种鱼 10 min的时域信号样本如图3所示。由于鱼类发声信号主要分布在低频,所以为了在低频范围内观察和分析信号,将每个采集到的原始10 min时域信号做降采样处理,降采样率设为4 000 Hz。

图3 三种鱼的时域发声信号Fig.3 Time domain diagrams of the vocal signals of the three kinds of fishes

2.2 小波包分解与特征提取

2.2.1 小波包分解

将预处理后的三种鱼发声时域信号进行分帧,帧长设为 1 s,对每帧信号用“db6”小波基进行 7层小波包分解。在小波包分解树的第7层将得到的128个节点按频率段递增的顺序依次排序,形成128×600维的时频分布矩阵,128表示7层小波包树最底层节点的频带数、600表示时长。矩阵中的每一列表示每帧信号用7层小波包分解后,第7层节点对应的128个频带在排序后各自的能量分布。在此基础上得到不同样本10 min的时频图,结果如图4所示。其中,图4(a)为鱼声稀疏条件下的实验环境背景噪声时频图,图中的鱼声信息成分较少。图4(b)给出了黄花鱼密集发声时的时频图,可见,黄花鱼的发声频率主要集中在 300~800 Hz,且随时间变化保持一致性。这和任新敏等[1]在利用快速傅里叶变换分析大黄鱼发声信号时所得出的“大黄鱼发声信号幅度峰值在 800 Hz”的结论相近。同时,本文的分析结果表明,大米鱼和黄姑鱼发声信号的主要频率范围和黄花鱼基本一致,结果如图4(c)和 4(d)所示。

图4 实测背景噪声和三种鱼类发声信号的时频分布图Fig.4 Time-frequency maps of the measured background noise and vocal signals of the three kinds of fishes

2.2.2 特征提取方法

本文将基于小波包分解的频带能量作为三种鱼发声信号的分类特征。具体的提取方法为:在小波包分解时频图(或时频分布矩阵)的基础上,取每一行的均值,也就是每个频带在10 min内的能量均值,从而得到128维的特征向量。将这128维的频带能量均值特征作为基于小波包分解的频带能量特征。

提取得到的3种鱼各自所有样本的频带能量特征分布如图 5所示。以图 5(a)为例,它表示了 27个黄花鱼时域发声信号样本基于小波包分解的频带能量特征分布情况。在这3幅图中,三种鱼所有发声信号样本的频带能量特征分布差异较为明显。具体来讲,大米鱼发声信号的频带能量特征分布较为集中,黄花鱼的次之,黄姑鱼的最为分散。此外,由图5(a)、5(b)、5(c)也可发现,三种鱼的发声信号在128个频带下的能量变化趋势也有较大差异。因此,在有合适分类器的条件下,这些差异将有助于得到较好的分类效果。

图5 三种鱼发声信号的频带能量特征分布图Fig.5 Band energy distribution of the vocal signals of the three kinds of fishes

2.3 分类决策方法与分类结果

将这三种鱼所有的特征样本分为训练集和测试集。其中,训练集采用 15折交叉验证,得到对应的交叉验证集。三种鱼的特征样本划分方式如表1所示。

表1 大黄鱼、大米鱼、黄姑鱼的特征样本划分Table 1 Feature sample division of the three kinds of fishes

将提取好的特征样本输入到8种分类器中进行分类。在分类过程中,为了进一步验证分类结果的可靠性,本文将训练集和测试集进行了一次交换。交换前后采用相同的方法处理。两次分类验证得到如表2和表3所示的总体准确率。

表2 输出结果比较好的5种分类器及对应的总体准确率Table 2 Five classifiers with better output results and corresponding overall accuracy

表3 输出结果比较差的3种分类器及对应的总体准确率Table 3 Three classifiers with worse output results and corresponding overall accuracy

在表2分类器的参数选择上,线性判别(Linear discriminant)采用全协方差结构(Full covariance structure)。随机子空间维度设为64,学习器的数量设为30。支持向量机采用线性核(Linear kernel)和二次多项式核(Quadratic polynomial kernel),多分类拆分策略采用一对一(one-versus-one)间接方案。

表 2、3中,交换后的总体准确率用括号里的粗体数字表示。交换后的线性判别模型和随机子空间判别模型在 46个测试集样本中的预测得分分布如图6所示。图6是堆叠式的条形图,每个条形段的高度代表判别模型输出的每个样本类别的预测得分,每个样本所有类别的预测得分之和均为 1,预测得分最高的类别即为该模型最终预测的类别。其中,在横坐标对应的样本分布上,前8个样本的真实类别是大米鱼,第 9~19个是黄花鱼,后 27个是黄姑鱼。

图6 线性判别模型和随机子空间判别模型分类的预测得分Fig.6 Prediction scores of linear discriminant classifier and random subspace discriminant classifier

通过对比8种分类器在测试集的总体准确率和预测得分分布可知,基于小波包分解的频带能量特征在表2中的线性判别和随机子空间判别分类器表现出较好的分类性能。但通过进一步对比两者的预测得分分布,得知随机子空间判别的预测得分稳定性相比线性判别较差,故可靠性不如线性判别。此外,表3中的三种分类器表现较差。将训练集和测试集交换后,仍然可得出相同的分类结果。

3 总 结

本文基于小波包分解提取了黄花鱼、大米鱼和黄姑鱼三种鱼发声信号的频带能量特征,然后对该特征进行分类验证。研究结果表明:三种鱼发声信号的主要频率范围在300~800 Hz之间;在已有的样本数量和参数条件下,将基于小波包分解的频带能量特征作为分类特征,线性判别和随机子空间判别分类器在交叉验证集和测试集中均达到了 100%的总体准确率,而由于随机子空间判别相比线性判别预测得分不稳定,故可靠性相比线性判别较差。即便如此,基于小波包分解的频带能量特征在结合线性判别分类器和随机子空间判别分类器的情况下,仍均可实现三种鱼发声信号的有效分类。

本次研究是在信噪比相对较高的网箱环境下对指定的三种石首鱼发声信号进行特征提取与分类研究,没有考虑海洋环境噪声干扰,也没有考虑不同鱼龄、不同鱼体行为和不同时间、不同海域的分类差异。这些内容将成为下一步研究的重点。

猜你喜欢

黄花鱼波包频带
Wi-Fi网络中5G和2.4G是什么?有何区别?
葱丝姜丝蒸黄花鱼
单音及部分频带干扰下DSSS系统性能分析
基于小波包Tsallis熵和RVM的模拟电路故障诊断
双频带隔板极化器
基于小波包变换的电力系统谐波分析
黄花鱼学眨眼睛
小波包理论与图像小波包分解
调谐放大器通频带的计算及应用
黄花鱼的绝招