基于图像处理的回声定位信号检测方法
2022-02-19段德鑫刘宗伟杨春梅吕连港
段德鑫,姜 莹,刘宗伟,杨春梅,吕连港,4*
(1.自然资源部 第一海洋研究所,山东 青岛 266061;2.自然资源部 海洋环境科学与数值模拟重点实验室,山东 青岛 266061;3.山东省海洋环境科学与数值模拟重点实验室,山东 青岛 266061;4.青岛海洋科学与技术试点国家实验室 区域海洋动力学与数值模拟功能实验室,山东 青岛 266237)
鲸豚类海洋哺乳动物普遍可以发出回声定位信号,该信号是一种短时脉冲信号[1],可应用于海洋哺乳动物的定位、觅食等活动[2]。相比通讯交流信号,回声定位信号的发声频率较高[3]。若能准确检测鲸豚类海洋哺乳动物的回声定位信号,有助于确定该种动物的存在及出现,有利于研究其种群和生物生态学[4]。针对海洋哺乳动物回声定位信号检测方法的研究有助于更快速、准确地检测海洋哺乳动物发声,进而为海洋哺乳动物保护提供技术支撑。
目前,回声定位信号的检测方法可以分为三大类:第一类方法是基于频域的算法,通过测量短时间内超过频率阈值的信号能量,将其瞬时能量与长期平均值进行比较来判断是否为回声定位信号[5],但该方法中的频率阈值和长期平均值等参数均依赖于观测物种以及现场情况,参数选择的适应能力差。第二类方法是基于时域的算法,即Teager-Kaiser能量算子算法(简称TK算法)[6-7],其通过计算时域信号的Teager-Kaiser能量峰值检测并获取回声定位信号位置,对属于脉冲信号类型的回声定位信号检测效果较好。但其性能取决于信噪比,在低信噪比时表现较差。第三类方法是基于时频分析的回声定位信号检测算法[8],在快速傅里叶变换后将高于阈值分贝的脉冲信号检为回声定位信号,相较频域检测,增加了时间维度的信息,找全能力有所提高。但其对阈值的选择仍然依赖于物种,对噪声干扰的排除能力仍然较弱。因此,需要一种在低信噪比条件下抗干扰能力强且能够自适应地进行参数选择的算法以检测回声定位信号。
为了更准确地检测鲸豚类海洋哺乳动物的回声定位信号,本文提出了一种基于图像处理的回声定位信号检测方法。该方法首先对采集到的信号进行分帧,获得每帧信号的时频图,随后对时频图进行滤波以凸显线条状信号;然后在滤波后对图像进行直线检测并提取特征;最后利用信号特征训练了一个参数自适应选择的随机森林分类器生成检测模型以检测鲸豚类动物的回声定位信号,以期为鲸豚类海洋哺乳动物的研究提供技术支撑,更准确地研究并检测海洋哺乳动物的发声。
1 研究对象和数据来源
本文选取柏氏中喙鲸(Mesoplodon densirostris)、领航鲸(Globicephalamelas)、露脊鲸(Eubalaena japonica)和伊洛瓦底海豚(Orcaella brevirostris)四种动物的声信号数据作为实验数据。柏氏中喙鲸属鲸目,齿鲸亚目,喙鲸科动物。领航鲸与伊洛瓦底海豚同属鲸目,齿鲸亚目,海豚科动物。露脊鲸属鲸目,须鲸亚目,露脊鲸科动物。这4种动物均属于鲸目下典型的鲸豚类海洋哺乳动物,且均能发出回声定位信号。
柏氏中喙鲸、领航鲸和露脊鲸的声数据来自MobySound数据库[9]。该数据库是一个开源的动物声学数据库,提供在全球不同海域采集到的多种海洋哺乳动物的声音数据。柏氏中喙鲸的声数据源于2005年10月在西班牙耶罗岛与加那利群岛附近海域采集的数据[9],领航鲸的声数据源于2005年9月在巴哈马群岛附近海域采集的数据[9],露脊鲸的声数据源于2001年在ORCAWALE航次调查期间采集的数据[10]。伊洛瓦底海豚的回声定位信号数据来自2017年1月至5月在文莱湾实测的信号数据[11]。
4种动物的数据文件均为24 bit的WAV格式音频文件,每种动物的数据文件均只含有单一物种的回声定位信号数据(图1),且均已通过前期的人工处理获取了回声定位信号的起始位置信息。所有的数据信息如表1所示。实验使用数据首先经过归一化处理,随后通过控制幅值系数向原始数据中加入高斯白噪声以获取不同信噪比的测试数据。
图1 4种鲸豚类海洋哺乳动物的回声定位信号波形Fig.1 Waveform examples of echolocation signals from four odontocetes animals
表1 实验所用数据信息Table 1 Data used in the experiment
2 方 法
2.1 基于图像处理的自适应检测方法
2.1.1 图像处理
首先,将4种哺乳动物声数据按照1 s的固定帧长切分成若干段短时帧,随后用短时傅里叶变换做出分帧时频图,存为灰度图。然后,使用Frangi滤波器对图像进行滤波[12]。Frangi滤波器在检测管状信号方面效果较好,主要应用于医学方面如医学影像中的血管检测等[13],但未应用于鲸豚类海洋哺乳动物回声定位信号的检测。实验时使用该滤波器对每一幅图像的Hessian矩阵H计算出其特征值λ1和λ2,并约定λ2>λ1。最后,根据特征值计算出滤波器的输出值V0(σ),即滤波后图像的灰度值,具体计算公式为:
式中,RB为图像弧立点的响应,在弧立点时,值较大,;S为图像背景的响应,在背景点处,值比较小,;β和C均为参数,β=1,c=12。
滤波前的时频图像像素点以不同灰度值显示(图2a),滤波后的时频图中灰度为0的像素点显示为黑色(图2b),非0像素点以不同灰度值显示。滤波后时频图中的孤立噪点被滤除,但由于回声定位信号与脉冲型噪声在时频图像中均近似为一条直线段,故脉冲型噪声在时频图中仍未去除,需要对数据中的信号与残留噪声进行进一步的检测区分。因此对滤波后的图像进行直线检测,能够精确确定信号的起始位置,便于提取出频域特征信息。直线检测是利用式(2)将x-y平面中的点(x i,y i)映射至r-θ坐标平面中[14],计算公式为:
x-y平面中的一个点在r-θ平面中为一条曲线,x-y平面中位于一条直线上的多个点映射到r-θ平面中为相交于一个点的多条曲线。设定r-θ平面中曲线在一点相交次数的阈值,当相交次数超过阈值时,认为检测到了x-y平面中的一条直线[14-15]。若阈值过低,大量噪声将被判定为直线检出,增加了样本量与模型的计算成本,将使模型生成时间增加。而部分信噪比较低的回声定位信号在时频图中并不连续,若阈值过高,此部分低信噪比信号将被漏检,从而导致召回率降低。因此,需要尝试不同的阈值以在计算成本与召回率中取得平衡。在本文实验中,经过调整优化参数,将直线检测的最优交汇阈值选择设置为50。得到模型后,检测测试数据时仍固定阈值为50。
将滤波后时频图(图2b)中灰度非0的像素点映射到r-θ平面中进行直线检测,结果如图2c所示。本文中4种动物的回声定位信号持续时长均不超过0.002 s,在时频图像中均不超过2像素宽度,当直线检测时出现相邻2条检测直线时,取2条直线的横纵坐标均值作为检测到的目标直线。根据回声定位信号的声学特点,本文定义了8种特征并给出相应的计算公式(表2),根据各特征对应的计算公式提取时频图中的检测信号。
图2 图像处理过程示例Fig.2 Example of image process procedure
表2 回声定位信号的特征Table 2 Features of echolocation clicks
根据表2中的定义从原始灰度时频图中(图2a)提取每一条检测到的直线对应的特征值。与人工标注回声定位起始位置的正确标签比较,进行0/1分类,即回声定位信号标注为1,非回声定位信号标注为0。将此分类信息添加至特征矩阵的最后一列,最终形成维度为N×9(N为检测到的直线的数量)的数据集以检测自适应特征。
2.1.2 自适应特征检测
本文使用随机森林分类器对实验数据中的回声定位信号进行自适应检测。随机森林分类器是一种典型的机器学习算法,是在决策树分类器的基础之上,通过随机、有放回的采样随机选取数据集中的样本和特征,构造多个决策树,并由各决策树分类结果的众数决定最终的类别划分,从而降低单个决策树的过拟合风险,得到一个鲁棒性较强的分类模型[16]。其能根据样本自动调整不同特征在进行分类时的权重,具有自适应的特点。
一组数据集D在原始的决策树模型下的基尼指数g(D)为[17]:
式中,C k为D中属于第k类的样本子集,K为类的总数。
数据集中包含若干个不同特征,若根据特征A的某一取值将D分割为集合D1和集合D2,则在特征A的条件下,集合D的基尼指数g(D,A)为[17]:
在每个节点上计算不同样本点的基尼指数,并选择基尼指数最小的特征值及其对应的切分点作为最优特征与最优切分点。据此,在现结点生成2个子节点,将训练数据集分配至子节点并递归地循环以上步骤,便可生成决策树。
为了减少过拟合,随机森林分类器在数据集的不同子集上训练若干棵决策树,并对它们的决策进行平均。在给定一个输入后,随机森林分类器内通过不同的决策树投票表决产生分类结果,给出最后的输出值。
随机森林分类器对数据分类的过程中,可以通过基尼指数评估不同特征的权重。令X j为数据集第j个特征,那么特征X j在节点m上的权重,即节点m分枝前后基尼指数的变化量VIM jm为[17]:
式中,g I l和g I r分别表示分枝后两个新节点的基尼指数。
如果特征X j在决策树i中出现的节点在集合M中,那么X j在第i棵树的权重为[17]:
假设随机森林分类器中一共有n棵决策树,那么
式(7)即为特征X j在随机森林分类器中的权重评分。归一化后,可以通过权重评分得到不同的特征在决策分类中的重要程度[17]。
在实验中,将单一物种数据单独进行实验。每种动物数据集的90%作为训练集输入随机森林分类器进行训练,通过抽取训练样本,对选取特征进行节点分裂,生成随机森林。随后使用网格搜索算法[18]配置随机森林最优参数,得到随机森林检测模型。最后,将数据集的10%作为测试集输入此随机森林检测模型以测试上述随机森林分类算法的检测性能,即测试本文提出的基于图像处理鲸豚类动物回声定位信号检测方法的准确率和召回率。
2.2 TK算法
TK算法是目前最常用、最广泛的回声定位信号检测算法。该算法通常被用于抹香鲸回声定位信号的检测[19],其对抹香鲸的回声定位信号检测的平均准确率能够达到94.05%,被证明非常有效。
通过人工检查数据,针对不同数据的背景噪声情况设定不同的信噪比阈值。数据通过分帧处理后,计算每一帧信噪比(Signal-to-Noise Ratio,SNR)。其中高于阈值的帧作为候选帧。TK算法利用利用3个连续采样点进行瞬时能量计算并检测回声定位信号[19],离散时域下的TK能量算子Ψ定义为:
在每个挑选出的候选帧中,可利用式(8)计算出TK算子输出值。将每个候选帧内TK算子最大值记为回声定位信号并确定其具体位置,进而统计TK算法的检测性能指标即准确率与召回率。
2.3 实验平台
本次实验使用的操作系统为Linux,内核版本为3.10.0-693.el7.x86_64,CPU为Intel Xeon Silver 4110 CPU@2.10 GHz,GPU为Tesla V100-SXM2-32GB。实验所用的程序语言为Python,版本为3.7。
3 结果与讨论
比较利用本文提出的基于图像处理的算法和TK算法开展的实验的准确率与召回率结果(图3)可知,2种算法的召回率均与信噪比呈正相关关系,即召回率随着信噪比的下降而下降,然而本文算法的召回率均高于TK算法,这是由于TK算法采用了阈值检测,当信噪比低于某一阈值时召回率降至0,即不能检出信号,例如:柏氏中喙鲸和伊洛瓦底海豚数据的SNR≤0 d B时,以及领航鲸和露脊鲸数据的SNR≤6 dB时,TK算法无法检出回声定位信号(图3)。相反,本文算法在此较低信噪比条件下仍能检出信号且具有较高准确率。
图3 不同信噪比条件下本文提出的基于图像处理算法和TK算法的检测性能Fig.3 Performance of the proposed detection method based on image processing and TK method in different SNR
海洋哺乳动物的回声定位信号在时频图像中类似一条线段。Frangi滤波器可以过滤掉图像中的孤立噪点并凸显线条状信号。而直线检测能在低信噪比条件下检测到时频图中更多类线段的信号,使得本文所提出的图像处理算法在低信噪比条件下具有较高的召回率。直线检测还可以精确确定直线形信号在图像中的起始与终止位置,并根据信号特征定义计算相应特征值制作数据集,训练生成随机森林检测模型,以区分回声定位与非回声定位信号,从而进一步提升本文算法的准确率。
对于柏氏中喙鲸与领航鲸的数据,TK算法的准确率会在信噪比较高时出现下降,当SNR为18 dB时,准确率分别降至78%和65%。而基于图像处理的算法的准确率随SNR变化较小(不低于85%)。TK算法准确率在高信噪比时出现下降的原因在于:相应动物的数据中存在部分脉冲型噪声,这些噪声在低信噪比时被添加的白噪声淹没,未被检出;在高信噪比时,此部分噪声被当作回声定位信号检出,降低了TK算法的准确率。而基于图像处理的算法通过随机森林分类器根据特征对噪声与回声定位信号进行了学习,能够对其进行区分。
在随机森林检测模型训练完成后,根据式(7)可以计算出每项特征在检测模型中所占权重。将特征权重归一化后得到每种动物的回声定位信号检测模型的特征权重百分比(图4)。色阶能量具有最高的权重,这说明针对4种动物的回声定位信号数据,信号的色阶能量是区分回声定位信号与非回声定位信号最重要的特征。
在柏氏中喙鲸、领航鲸和露脊鲸的检测模型中,色阶能量的权重明显高于其他7种信号特征的权重(均低于15%)。而在伊洛瓦底海豚的检测模型中,信号特征“截止频率”具有较高的权重(超过20%)。这是因为柏氏中喙鲸、领航鲸和露脊鲸这3种动物回声定位信号的截止频率低于70 k Hz,与干扰噪声相比差异不显著;而伊洛瓦底海豚的回声定位信号频率较高,其截止频率超过160 k Hz,与干扰噪声信号有着较明显区别。因此,截止频率对伊洛瓦底海豚的回声定位信号检测具有较高的权重(图4)。
图4 随机森林检测模型的特征权重Fig.4 Feature weights of random forest detectors
4 结 论
本研究首次将Frangi滤波器与直线检测等图像处理方法应用于鲸豚类海洋哺乳动物回声定位信号检测中,对来自开源数据库中柏氏中喙鲸、领航鲸、露脊鲸的发声数据和实测伊洛瓦底海豚的数据进行加噪处理,在不同信噪比条件下开展本文提出的基于图像处理算法与传统TK算法的对比实验,结果表明,在低信噪比条件下,基于图像处理的算法拥有更高的召回率,同时保持了较高的准确率,验证了本文所述算法的有效性和鲁棒性。在低信噪比条件下基于图像处理的算法能更好地检测鲸豚类海洋哺乳动物回声定位信号,能够为未来鲸豚类海洋哺乳动物的声信号研究提供一定的技术支持。
本文所述算法根据回声定位信号的声学特点构建了“起始频率”“截止频率”“频带宽度”“色阶能量”“质心频率”“中心频率”“峰值灰度”和“峰值频率”八个信号特征,其在检测模型中分别具有不同的权重,代表了这些特征的重要程度。按照权重的大小,选取部分特征来构建模型,能否在保持算法有效性的同时,降低计算成本,有待进一步研究。同时,不同的物种信号特征的权重有所不同,比如伊洛瓦底海豚的“截止频率”特征权重超过露脊鲸的4倍。因此,或许能够通过选取不同的信号特征构建模型,实现发声物种的分类识别,这将是下一步的研究目标。