基于声音采集与分类技术的报警系统设计

2022-12-03沈丹丹朱习松

电子与封装 2022年11期

徐婕，沈丹丹，潘硕，朱习松

（中科芯集成电路有限公司，江苏无锡 214072）

1 引言

在现代环境质量评价体系中，环境噪声指标日益受到重视，成为评价一个场所舒适度的重要标准，准确检测、记录环境声音具有重要的现实意义[1]。在完成声音能量检测的同时，确定主要声音类别，一方面可以指导工作人员确定主要工作方向，尽量杜绝此类声源以提升环境质量；另一方面通过捕捉例如尖叫声、哭喊声等异常声音[2]，给出报警信息，配合视频监控，有利于安保人员第一时间判断危险源并进行应急处理，可以弥补视频监控的不足[3]。

本文论述了一种声音报警系统，以模数转换、控制、传输电路搭建硬件平台，以声音的端点检测、特征参数提取和分类技术为算法核心，实现对环境声音大小的实时检测及声音分类、异常报警等功能。

2 系统架构

报警系统的硬件部分主要选用国内外成熟的元器件和设备，包括麦克风（MIC）装置、运算放大器（AMP）、模数转换电路（ADC）、电平转换、FPGA、以太网PHY RJ45 芯片、电源、时钟系统、配有识别算法及报警显示的主控计算机，系统结构硬件如图1 所示。

图1 系统硬件结构

远端采集部分器件的功能及选用原则如下：

1）MIC 装置实现声音电信号的转换，需要具有拾音准、干扰小、采集范围大的特点，此处选用高性能拾音器；2）AMP 有调整模拟信号的作用，可根据后级器件调整信号幅度，其高输出电阻特性可有效避免信号失配，考虑后级转换器件的差分特性，选择全差分AMP XX6362，其具有全差分、低失调、噪声小、轨到轨传输的特点，能够满足系统要求；3）ADC 是声音采集的核心器件，它将模拟信号转换为数字语音，因声音变化量丰富，选用16 位高精度专用语音电路XX73311；4）电平转换器件可适配不同电压的总线互联，选用XX0108，其具有电压范围宽、工作速率快、自适应方向的特点，可应用于推挽或开漏的不同总线信号传输；5）远端控制器主要完成模数转换器的配置、数据读取，按照以太网UDP 协议打包发送数据，FPGA可以胜任此项工作，且设计简单，考虑成本及体积因素，选用XX25-363[4]；6）计算机数据传输选用以太网，其速率快且上位机设计方便，经实际计算，选用百兆以太网PHY 电路XX83848，其性能稳定、使用简单，协议部分由FPGA 完成；7）系统中的电源采用多路DC-DC，模拟电源单独加低噪声的LDO，时钟以晶振直接提供，FPGA 的配置电路使用专用的PROM，型号为XX32P。

3 采集终端实现

3.1 硬件构成

考虑到系统链路较为复杂，本研究主要论述系统的声音采集部分，XX73311 是一款功能强大的语音芯片，其内部包括1 路16 位Σ-Δ 型ADC、1 路16 位DAC、输入输出增益模块、基准等结构，支持3.3 V 或5 V 2 种电源电压。采用SPI 接口传输配置及数据信息，输入可选交直流耦合模式，最终输入端口信号需满足电压要求。考虑5 V 供电的共模电压对AMP 的适配性更好，XX73311 及XX6362 均采用5 V 供电。XX6362 承接前端拾音器单端信号，差分输出给XX73311，XX73311 的数字接口电压跟随电源电压，因FPGA 端口电压为3.3 V，使用XX0108 适配两端器件的接口电压，时钟选用16.384 MHz 典型频率，采集终端硬件电路如图2 所示。

图2 采集终端硬件电路

3.2 XX73311 的配置

XX73311 时钟采用多级分频，其中外部主时钟MCLK 分频后，DMCLK 作为内部系统主时钟，DMCLK 再次分频后作为SPI 的时钟SCLK，DMCLK/256 作为编码时钟。XX73311 的SPI 总线主要是主控型，SCLK 由其发出，每个信息须有FS 脉冲信号引领才能识别，并允许最多8 个器件级连，使用时需严格按照时序图的设计。在总线中，XX73311 的读写使能位、地址位为1 个字节，每个数据位或寄存器为1 个字节，其内部共有5 个功能寄存器。系统配置信息如表1 所示，寄存器用CR 表示，CR-E 默认为初始值。

表1 XX73311 配置表

一般应优先配置寄存器B/C/D/E，然后配置寄存器A，使器件从编程模式转为数据收发模式。XX73311可提供灵活的调试帮助，在编程模式中使能模拟回环（ALB）、数字回环（DLB）2 个回环模式，可轻松检查模拟端或数字段的信号链路功能。

4 声音分类的实现

4.1 工作流程

本系统算法部分以计算机为平台，基于MATLAB完成，使用基于MATLAB GUI 的可视化设计，既可以连续、实时地显示声音信号，还可以对异常信息报警[5]。系统工作流程如图3 所示。

图3 系统工作流程

在研究阶段选用部分公共场所常见声音作为验证样本，有汽车鸣笛声、人的说话声、尖叫声、哭声、雷声、狗叫声、物体撞击声和爆炸声等。根据声音代表的信息，将其分为危险声源和一般声源。尖叫声和哭声有可能表示有人受到侵害，爆炸声则表示有人违反公共场所管理规定燃放烟花、爆竹等，将其列为危险声源，其余声音为一般声源[6]。

4.2 声音处理

获得声音信号以后，为使信号的频谱变得平坦，提高信号的高频部分，保持在低频到高频的整个频段中，能用同样的信噪比求频谱，系统需对声音信号进行预加重处理。预加重有多重形式，本设计选用数字滤波器实现，对n 时刻的采样值x(n)预加重，得值y(n)为：

式中a 是预加重系数。

根据声音信号的短时平稳性特点，系统对声音信号进行分帧处理。为使特征参数平滑变化，在分帧过程中，系统采用部分重叠的办法实现过渡，使声音特征平滑过渡，保持其连续性。声音分帧的效果如图4所示。

图4 音频分帧

对声音信号x(n)的处理中进行分帧。

式（2）采用卷积形式，相当于通过一个单位冲激响应为ω(m)的FIR 滤波器。

4.3 声音能量检测

短时能量高是异常声音最突出的表现，实时计算声音能量既可监测声音强度，又可划定异常声音范围。采用双门限法可提取异常声音段[7]。以一段0.3 s 的声音信号为例，其声音波形和对应的短时能量波形如图5 所示。

图5 中TH 为设定的高门限，TL 为设定的低门限，首先对声音信号进行逐帧判断，当某帧能量幅值高于TH 时，往两边寻找声音边界TL，当某帧能量幅值小于TL 时，即认为声音结束。

图5 门限值与能量波形对比

4.4 MFCC 特征参数提取

在得到声音段的起始帧以后，系统需要提取异常声音段的特征参数，常用的特征参数有线性预测倒谱系数（LPCC）和Mel 频率倒谱系数（MFCC），鉴于MFCC 在信噪比降低时的良好识别性能，同时较好地利用听觉模型的研究成果，本研究选用MFCC[8]。MFCC 是在Mel 标度频率域提取出来的倒谱系数，其特征参数提取原理如图6 所示。

图6 MFCC 特征参数提取原理

对声音样本取帧长256、帧移128 进行预处理、端点检测、提取MFCC，对样本的参数按声音类别合成匹配文件模板库，由8 类模板库组成总模板库。部分声音的MFCC 特征参数三维图像如图7 所示，从图7 中可以很直观地观察到信号的MFCC 随Mel 阶数的变化情况，不同声音类别之间区别明显。

图7 MFCC 特征参数三维对比图

4.5 BP 神经网络分类

声音识别属于模式识别的应用范畴[9]，在声音识别的发展过程中，有动态弯折算法[10]、隐马尔可夫模型[11]、高斯混合模型[12]、神经网络[13]、支持向量机[14]等多种算法，本研究只需要识别出声音的几种类别，应用相对简单，因此选用算法成熟、工具箱函数丰富的BP 神经网络算法。

以MFCC 模板库作为BP 神经网络的训练样本，对数据进行归一化处理。BP 算法建模包括BP 神经网络的构建、BP 神经网络的训练和BP 神经网络分类3步。首先是BP 神经网络的初始化，模型拓扑结构包括输入层、隐含层和输出层，本研究采用12 阶的MFCC，所以BP 神经网络输入层的神经元个数是12，网络输出神经元取4 个，目标输出一个4 位二进制数，足以表示8 类样本，隐含层设置为15 个神经元。取学习率0.1，训练误差0.01，训练次数2000 次，2 次显示之间的训练步长为10，隐含层神经元的传递函数采用S 型正切函数，由于输出模式为0-1，输出层神经元的传递函数采用S 型对数正切函数f(x)，