异常声信号采集与识别系统设计与实现

2022-04-01郭梦寒谭景文刘亦凡江富荣赵丹诚

电声技术 2022年1期

郭梦寒，谭景文，刘亦凡，江富荣，赵丹诚

（桂林电子科技大学，广西桂林 541004）

0 引言

在传统公共安全监测领域，大多数系统仅通过摄像头采集视频信息来监测是否有异常情况出现。由于存在光线、角度及位置的限制，视频监控系统只能监控特定场景，存在监控盲区，而且捕获的图像只是被记录下来，在危险发生后进行验证，无法进行实时报警[1]。伴随着社会经济的快速增长和科学技术的不断发展，人们对公共安全的监测要求越来越高，视频监控系统的局限性更加凸显。因此，与视频监控相比，高效且成本低的异常声监控系统逐渐受到科研人员的广泛关注[2]。

本文研究了异常声信号的采集与识别。采集部分使用Respeaker 开发板，识别部分应用声音信号的梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）特征，同时通过卷积神经网络（Convolutional Neural Networks，CNN）对尖叫声、鸣笛声、鞭炮声三种异常声的数据集进行训练，得到异常声模型，通过提取异常声信号的特征与模型进行匹配，输出识别结果。

1 系统架构

异常声监控系统分为采集与识别两部分。当拾音器检测到环境中有异常声时，开始执行采集程序，录制音频。被采集到的异常声信号会通过采样、量化及编码等过程由模拟信号转化为数字信号，并通过无线传输的形式实现服务器对异常声信号的接收与保存，等待后续识别程序的执行。本文采用的异常声识别方案是对输入的异常声信号先进行预处理，得到有效声音片段，然后提取特征参数并将其与训练好的异常声分类模型进行匹配，输出识别结果，总体流程如图1 所示。

图1 总体方案流程图

2 异常声识别算法

2.1 异常声信号预处理

预处理部分使用双门限法对异常声信号进行端点检测，确定异常声的起始点和终止点，将有声段和无声段区分开。双门限法是一个基于音频短时能量和短时过零率这两个特征来完成端点检测的方法，共设有3 个阈值。前两个是音频短时能量阈值，第三个是音频短时过零率阈值。

2.2 异常声信号特征提取

在异常声监控领域，声音特征参数和分类器的选择直接影响监控系统的复杂度和识别性能[3]，选择并提取出合适的特征参数，可以减少后续识别阶段的数据计算量。MFCC 是基于人的听觉特性、利用人听觉的临界带效应，在Mel 标度频率域提取出来的倒谱特征参数，很好地模拟了人的听觉特性，是使用最为广泛的特征。在此基础上，本项目研究了异常声信号MFCC 特征的提取方法，具体流程如图2 所示。

图2 特征参数提取流程图

2.3 卷积神经网络

常用的分类模型有CNN、高斯混合模型（Gaussian Mixture Model，GMM）、隐马尔科夫模型（Hidden Markov Model，HMM）和支持向量机（Support Vector Machine，SVM）等[3-4]。CNN 是一类包含卷积计算且具有深度结构的前馈神经网络，可以进行特征学习，它提供在时间和空间上的平移不变性卷积，可以克服异常声信号所面临的多样性，提高异常声识别率，目前已被广泛应用于语音识别领域，以改进传统声学模型的鲁棒性弱、实时性差、识别性能低等缺点[5]。

本项目采用CNN 训练尖叫声、鸣笛声、鞭炮声三种异常声模型，并将异常声的特征与异常声模型进行预测，从而输出识别结果，训练流程如图3 所示。CNN 整体结构包含了输入层、卷积层、池化层、拼接层以及全连接层，在提取样本的MFCC 参数和LOGMEL 参数后，通过CNN 对特征参数进行训练，同时进行异常声的识别。CNN 的结构如图4 所示。

图3 异常声训练流程图

图4 卷积神经网络结构

3 实验结果

3.1 实验数据集的特点及评估指标

本实验从数据集中选取了两种比较典型的异常声即尖叫声和鸣笛声，每种类别的声音样本数量均为900 余条，然后按照7 ∶3 的比例将声音样本随机划分为训练集和测试集。鞭炮声通过团队采集制作成适合实验使用的数据集。评估异常声信号识别方法的评估指标为查准率（Precision），表示正确识别到的异常声信号数量占识别到该异常声信号数量的比率，计算时采用公式（1）：

式中：TP称为真正例（Ture Positive），FP称为假正例（False Positive）。在评估指标中，查准率越高，说明检测系统性能越好。

3.2 实验内容及结果分析

实验时，使用蓝牙音箱播放异常声，拾音器进行异常声的采集与传输。拾音器与蓝牙音箱间无遮挡物且拾音器、蓝牙音箱距声音反射物体（墙壁、板、管道等）的最小距离不小于1 m。

团队在教室室内和校园中几处不同的地点分别做了多次测试。先求取每个室外或室内地点5 m范围内的平均识别率，然后再求出整体的平均识别率。表1 为在室内5 m 范围内对三种异常声进行采集测试的平均识别率，其中系统对尖叫声和鞭炮声的平均识别率较高，对鸣笛声识别率较低；表2为在室外5 m 范围内对三种异常声进行采集测试的平均识别率，测试结果与表1 相似，即系统对尖叫声和鞭炮声较为敏感。

表1 室内5 m 范围内异常声的平均识别率

表2 室外5 m 范围内异常声的平均识别率

4 结语

本文设计并实现了一种异常声信号采集与识别系统，使用蓝牙音箱和拾音器在室内外对尖叫声、鸣笛声及鞭炮声进行测试。实验结果表明，系统对尖叫声和鞭炮声的平均识别率高于对鸣笛声的平均识别率，但是同一类型的异常声在室内外的识别率波动不大。系统对部分类型的异常声识别率不高，可能是提取的声音特征过于单一等原因造成的。如何提高卷积神经网络对异常声的识别性能是今后的研究重点。