基于改进AlexNet网络的泥石流次声信号识别方法

2024-04-29刘敦龙桑学佳张少杰

计算机与现代化 2024年3期

袁莉，刘敦龙，桑学佳，张少杰，陈乔

（1.成都信息工程大学软件工程学院，四川成都 610225；2.四川省信息化应用支撑软件工程技术研究中心，四川成都 610225；3.中国科学院水利部成都山地灾害与环境研究所，四川成都 610041；4.中国科学院重庆绿色智能技术研究院，重庆 400714）

0 引言

泥石流次声监测预警的应用越来越广泛，学者们对此进行了大量研究与探索［1-2］。然而，自然界中很多现象和事件（如大风、暴雨、雷电、爆破等）都会辐射出频率较低和特征明显的次声波信号，因此，在泥石流次声现场监测过程中将不可避免地受到环境干扰噪声的影响，从而影响预警的准确性。

针对上述问题，Liu 等人［3］通过区分泥石流次声与环境干扰次声的关键特征参数，提出了一种泥石流次声信号识别方法，可在一定程度上提高次声监测预警准确率。然而，由于山区中的各类环境噪声与地形地质等条件的复杂性，不同沟道甚至同一沟道不同场次的泥石流事件产生的次声信号特征均有所差异，其特征值通常会在一个范围内变化，呈现出一种非线性的特征分布［4］，因此，通过传统方法对比分析次声信号特征难以准确判识出监测到的次声信号是否为泥石流次声。随着人工智能技术的快速发展，学者们开始把深度学习应用到声学信号识别研究中［5-7］。谭笑枫等人［8］利用改进的深度卷积神经网络分类模型对化学爆炸和天然地震信号进行了分类识别，准确率达到82.72%，但由于输入的是一维信号数据，无法获取信号的时序特征和空间分布特征，限制了模型对复杂信号的识别能力。吴涢晖等人［9］将化学爆炸、闪电、台风3 类大气低频声信号的一维信号数据转换成图像数据，输入到卷积神经网络中进行识别，并通过生成式对抗网络改进学习过程，获得了较好的性能。鉴于深度学习在声学信号识别中表现的性能，可将该技术应用到泥石流次声信号判识中，大幅提升报警准确率。

在常用的卷积神经网络中，AlexNet 在语音信号识别方面有着较好的表现［10-11］。对比LeNet、VGG16、ResNet18 等卷积神经网络结构，AlexNet 具有层数较少、参数少和耗费计算资源低等优势［12-13］。为了进一步提升泥石流次声信号识别准确率，本文通过修改卷积核尺寸、批量归一化和选择Adam 算法改进AlexNet 网络，从而构建泥石流次声信号智能识别模型。首先，对原始次声数据集进行滤波降噪等预处理，再利用小波变换生成时频谱图像，并将得到的时频谱图像作为模型输入，实现泥石流次声信号的智能识别，为泥石流次声监测提供可靠的技术支撑。

1 次声信号数据的获取

本文所使用的次声信号数据主要来源于野外实地监测和水槽模拟实验。其中，野外监测数据来源于云南东川蒋家沟部署的次声监测设备，位于门前沟和多照沟2 条支沟交汇处（经度：103°9′6.00″E，纬度：26°15′2.00″N）。次声信号的获取是由次声信号采集、传输系统和次声信号实时处理系统共同完成，如图1所示。次声采集系统对设备周边的次声信号进行实时采样（采样频率为100 Hz），通过无线网络远程将采集数据传输到监控室的服务器上。此外，由于粘性泥石流具有多阵性，一场泥石流活动可提取出多段泥石流从启动到停止这一运动过程产生的次声信号。

图1 次声数据采集流程

由于沟道中真实发生泥石流事件较少，导致野外监测的泥石流次声数据有限，不利于后续智能识别模型的构建。为了获取充足的泥石流次声数据进行分析，本文开展了1.5 t/m3、1.7 t/m3、1.9 t/m3这3种不同容重的泥石流水槽实验，共54 组，分别用来模拟稀性泥石流、过渡性泥石流和粘性泥石流。为了完整采集不同容重泥石流产生的次声信号，本文以15 s 作为一个次声信号片段，截取泥石流运动过程中产生的典型次声信号，共得到203个泥石流次声样本。

在泥石流次声的野外监测过程中不可避免地受到环境噪声干扰。蒋家沟山区中常见的环境干扰噪声来源于雷电、大风、崩塌、爆破、飞机引擎和卡车引擎等事件。因此，本文在实验场周围也对它们分别进行了采集。除了这些明显的环境干扰噪声外，同时采集了没有发生泥石流和上述几类环境干扰噪声情况下监测设备周边的次声信号，将它们作为“其他”类别。综上所述，本文共获取了7 类事件产生的次声信号，共计900 个样本，其中泥石流217 个、雷电120 个、爆破103 个、引擎105 个、大风144 个、崩塌64个，其他147 个。鉴于泥石流次声信号是非平稳信号，为了清晰反映泥石流次声信号频率随时间的变化特性，本文采用时频联合分析法（如小波变换）处理上述7 类事件产生的次声信号。将采集的这7 类次声数据经小波变换得到了各自的时频谱图像，如图2所示，其中（1）为波形图、（2）为时频图。

图2 7种次声数据的波形图和时频图

2 次声信号数据预处理

2.1 数据扩充

为了提高模型的泛化能力，使用大量样本的数据集进行训练是必要的［14-15］。常见的信号数据扩充方式有数据切片、时间平移和添加噪声［16］。具体操作如下：

1）数据切片是将长时间的信号切割成较短的片段。由于泥石流持续时间较长（至少15 min），对采集到的泥石流次声数据按照15 s 时长进行切片处理，如此可增加样本数量，又能包含较多的信号特征。切片后的数据为一个样本（长度不足的以0值填充）；

2）时间平移是将次声信号在时间轴上进行平移，在［-3，+3］s时间窗内沿时间轴滑动，选取2 s的步长沿着时间轴进行微调处理；

3）添加噪声就是向采样的泥石流次声信号中添加白噪声，本文添加均值为0、标准差为1的高斯白噪声，增强数据的鲁棒性。

2.2 滤波降噪

次声采集的过程中会受到环境中其他不同频率信号的干扰，使得采集到的样本次声信号存在各种频率的噪声。为了消除大气扰动和随机噪声的影响，通常采用滤波去噪方法对次声信号进行清洗［17］。本文拟采用切比雪夫Ⅱ型低通滤波器（设计参数：采样率为100 Hz，阻带频率范围为25～30 Hz，通带频率范围为0～20 Hz，通带最大衰减量为1 dB，阻带最小衰减量为60 dB），该滤波器能够较好地保留低频成分，具有较好的滤波效果［18］。图3展示了利用切比雪夫Ⅱ型低通滤波器对泥石流次声信号进行滤波后的时、频图像，其中（a）为波形图、（b）为时频图、（c）为频谱图。

图3 滤波后的泥石流次声信号

泥石流次声信号属于非平稳信号，即其频率分布在时间上会发生变化，小波变换非常适用于这种非平稳信号处理［19］。为了提升信噪比，对采集到的次声数据进行小波阈值去噪处理。通过对常见的小波基进行对比分析［20］，选用Cmor 小波，分解层数为3 层。小波阈值去噪的关键在于阈值和阈值函数选取［21］。阈值函数分为硬阈值和软阈值，如公式（1）和公式（2）所示。

1）硬阈值：硬阈值就是会把绝对幅值小于等于阈值的点置0，所以在正、负阈值处存在断点，重构后的信号会产生振荡和模糊。

2）软阈值：软阈值虽然不存在断点，但是整体会收缩，重构后的信号会与原始信号存在偏差。

针对以上问题，本文对阈值函数进行了改进：将大于阈值的小波系数模值阈值化，变成该模值平方与阈值平方差的开方，而小于阈值的小波系数模值阈值仍为0，得到改进的软阈值函数如公式（3）所示。其目的是在消除阈值函数的不连续性的同时，使函数迅速靠近硬阈值函数。

上述公式中的w是量化后的小波系数，x为分解的小波系数，λ为阈值，sign是符号函数。对于阈值的选取，若选择的阈值过大，则会导致有用的信号被当作噪声滤除；若过小，则导致噪声滤除得不够彻底，导致信号失真。本文所选取VisuShrink 阈值，具有较强的适应性，如公式（4）所示。

其中，N为信号长度，σ为噪声的均方根误差，σ=，x（1，k）表示第一次小波变换后的高频系数，0.6745为噪声标准方差的调整系数。

在对泥石流次声分析中发现，有用信息主要存在于信号突变的波峰和波谷中，通过对比处理图4 中标识的波峰波谷处信号细部效果可知，硬阈值去噪会在信号突变出产生振荡，造成“毛刺”现象，软阈值去噪会在处理信号突变处过于光滑，这会使得在突变处的有用信息被忽略，而改进后的阈值函数很好地纠正了以上阈值去噪方法的缺点。

图4 3种阈值去噪方法的去噪结果

3 次声信号智能识别模型

3.1 特征变换与特征提取

采集到的次声数据包含了时域和频域上的信息。不同类型次声信号的时、频域信息有所不同。为了同时兼顾时、频域特征展示，本文提出用时频谱图像来表达次声信号随时间推移而发生的频率组成变化。考虑到卷积神经网络主要用于图像识别，无法直接将其应用于一维信号识别［22］。小波变换是一种适用于非平稳、非线性信号的时频分析方法，通过平移和缩放小波基函数来描述时域和频域特征［23］。本文选用“db6”小波基，对每个次声样本数据进行连续小波变换，得到对应的时频谱图像。图5 为从7 种类型的次声数据中各随机选取一个样本，经过预处理后的结果。可以发现，滤波降噪预处理后的时频图更能清晰地凸显信号的时频域特征。

图5 7种次声信号样本经过预处理后的时频谱图

3.2 AlexNet模型的改进

AlexNet 是卷积神经网络在ImageNet 图像分类上的经典模型，其由5 个卷积层和3 个全连接层组成，5层卷积层分别使用11×11、5×5、3×3、3×3、3×3 的卷积核进行特征提取［24］。AlexNet 采用ReLU 作为激活函数并提出了局部响应归一化（Local Response Normalization，LRN），对激活函数得到的数值进行归一化处理，以提高模型训练速度和泛化能力［25］。AlexNet 在结构上具有局部连接、权值共享以及时间和空间上的下采样等特性，其较浅的网络结构和较少的参数量在训练效率上具有一定优势，且相对于传统卷积神经网络可以得到更多的特征表达能力［26］。

然而，传统的AlexNet 网络结构的第一个卷积核是大尺寸，通常用于捕捉更大范围的特征，但对于提取图像细节特征的能力有所欠缺。为了提升识别准确率和收敛速度，本文对传统的AlexNet 网络进行了如下的改进：

1）改变卷积核大小。不同的卷积核可捕捉不同尺度和方向的特征。AlexNet的第一个卷积层的卷积核大小为11×11，尽管大卷积核能扩大感受野，但是卷积核过大不仅会丢失一些局部特征，而且还会增加模型的复杂度。因此，本文在AlexNet 的8 层网络结构的基础上，将第1个卷积层的卷积核大小改为5×5，减少感受野的大小，使网络更加关注输入图像的局部特征，提高模型对细节特征的提取能力。

2）批量归一化（Batch Normalize，BN）。对前2个卷积层进行BN 操作，舍弃原来的LRN 层。在处理因参数更新迭代而造成的不稳定现象方面，BN 更优于LRN。BN 操作能够更好地控制数据分布，加快模型收敛速度，在梯度传播和优化的过程中，抑制梯度消失和梯度爆炸问题，有助于减少模型过拟合［27］。

3）优化算法。选择Adam 算法，通过计算梯度的一阶动量和二阶动量来计算不同参数个体自适应学习率，有助于平滑梯度更新过程，具备更好的收敛速度，不会因为参数更新对损失函数造成很大的影响［28］。

如图6 所示，改进的AlexNet 模型在网络主体结构上与传统的AlexNet模型相同，都有5个卷积层和3个全连接层构成，保留了第1、2、5 层的卷积层的最大池化模块。

图6 改进的AlexNet网络模型

4 实验验证与分析

本文实验采用PyTorch框架和PyCharm IDE进行本文模型搭建，设定迭代周期为500 次，BatchSize 为32，初始学习率设置为0.0002，并采用在自然图像数据集ImagNet-1k 上训练的模型权重作为预训练权重进行迁移学习，以准确率和F1值为模型的评价指标。在对时频谱图像进行模型训练之前，需要对其标准化处理，本文利用open.cv 库里面的Resize 函数将图像尺寸调整为227×227。将处理后的时频谱图加入数据集中，并按照9：1划分成训练集和测试集，最后训练集共855张图片，测试集共95张图片。

在其他参数条件不变的情况下，仅改变卷积核尺寸，测试结果如表1 所示。当卷积核尺寸为5×5 时，算法对泥石流次声信号的识别准确率比卷积核尺寸为11×11 时的准确率提升了6.52 个百分点。从模型检测速率来看，当卷积核尺寸为5×5 时，模型每秒可以检测498 张图片，高于卷积核为11×11 时的检测速度。以上结果表明，当卷积核为5×5 时，模型在训练准确率和检测速度上均有所提升，可以节约时间成本，具有更高的实用性。

表1 卷积核尺寸为5×5与11×11时指标对比

在其他参数条件不变的情况下，去除LRN 层并添加BN 层，测试结果如表2所示。在卷积核一定时，添加BN层可以显著提升算法对泥石流次声信号识别的准确率和综合评价指标F1 值。其中，当卷积核尺寸为5×5 时，添加BN 层的算法比未改进的算法在准确率上高4.48个百分点，综合评价指标F1值高4.8个百分点；当卷积核尺寸为11×11时，添加BN 层的算法比未改进的算法在准确率上高9.51个百分点，综合评价指标F1值高9.76个百分点。

表2 不同归一化方法下指标对比

为了研究优化器对分类结果的影响，本文对自适应矩阵（Adam）和随机梯度下降（SGD）2 种优化器进行实验，结果如表3 所示。设计优化器的激活函数均为ReLU，迭代次数以训练至网络收敛或损失率不再下降为准，学习率为0.0002。可以看出，在相同学习率条件下，Adam 相较于SGD 具有更高的稳定性和准确率。

表3 不同优化器下指标对比

由表4 可知，改进的AlexNet 模型相对于原有模型具有更高的准确率和综合评价指数F1 值，平均准确率高达91.48%，相比于原有模型提升了21.36 个百分点，F1 值高达90.41%，相比于原有模型提升了20.3个百分点。图7 直观反映了改进后的AlexNet 模型在准确率和损失值的变化中均具有更好的表现。

表4 改进前后AlexNet算法的分类性能对比

图7 改进的与传统的AlexNet的准确率与损失值对比

表5 总结了与已报道的泥石流次声信号识别模型的分类性能对比。与Leng 等人［4］提出的LeNet-5网络模型相比，改进的AlexNet 模型对泥石流次声信号识别准确率提升了约7.38 个百分点。相较于胡至华等人［29］提出的最小二乘支持向量机（LS-SVM）模型，改进的AlexNet 模型识别准确率提升了约4.48 个百分点。以上结果均表明改进的AlexNet在泥石流次声信号分类上有较高的识别率和较好的鲁棒性。

表5 与已报道的分类性能对比

5 结束语

在泥石流次声监测过程中经常受环境噪声干扰，影响泥石流次声信号识别准确率。针对这一问题，本文通过减小卷积核以及使用BN 层和Adam 算法对AlexNet 模型进行改进，提升了对时频谱特征图像的局部特征提取能力，并加快了模型收敛速度，从而在一定程度上提高了泥石流次声信号识别准确率。经过大量实验测试，结果表明，在迭代次数为500 次时，改进的AlexNet 模型识别准确率收敛于90%以上，远高于准确率在70%左右的传统AlexNet 网络模型，且比传统的AlexNet 模型收敛速度更快，并且具备网络体量小、易于在计算资源有限的设备上实现等优势。因此，本文的研究成果可为泥石流次声监测预警提供高效、可靠的技术支撑。