APP下载

基于卷积神经网络的语音识别报警系统

2022-04-25屈晓静林佳聪彭东城钟其麟

物联网技术 2022年4期
关键词:池化层麦克风报警

屈晓静,林佳聪,彭东城,钟其麟

(广东工业大学华立学院,广东 广州 511325)

0 引 言

随着中国人口老龄化现象的加重以及二胎政策的开放,老人与儿童群体的看护问题已经逐渐成为影响社会安定的重要因素之一。与此同时,老人、儿童独自在家发生意外的事件仍然一再发生,这当中因无法及时求救而造成无法挽回的后果的事件不在少数。空巢老人与留守儿童的安全一直以来都是社会重点关注的问题,传统的报警方式如电话、手机、智能手表等,能满足一般的报警需求,但当老人、儿童独自在家发生意外时,例如重摔无法起身、身体不适行动不便而无法到达报警设备旁时,传统的通信设备报警方式作用有限。

基于此,本项目设计了一种基于卷积神经网络的声音识别报警系统,该系统基于卷积神经网络算法,在一定程度上提高了语音识别的正确率。老人或儿童独自在家发生意外时,在身边无通信设备的情况下,只需通过呼叫即可向特定联系人求救,无需移动即可紧急通知联系人。例如,重摔无法起身或身体不适,行动不便无法到达电话旁时,只需在原地呼救,待系统识别后可即时通过GSM模块以短信方式通知设定的联系人。

1 系统设计原理

系统主要由Raspberry Pi 3 Model B、GSM模块、麦克风阵列、语音识别模块等组成。由于卷积神经网络在时间与空间上具有平移不变的卷积特点,所以可以对外界环境以及说话者的多样性进行克服性处理,提高语音识别率。图1所示为声音识别报警系统的整体框架。在特殊情况发生时,当事人可以通过发出特定语音信号向现场指定联系人发送短信。该系统以Raspberry Pi 3 Model B作为主控制器,通过串口向GSM模块发送AT指令,即可实现向住户发送短信的功能。

图1 系统整体框架

2 主要功能模块介绍

2.1 Raspberry Pi 3 Model B

该项目中使用的Raspberry Pi 3 Model B配备了64位ARM Cortex-A53 1.2 GHz四核处理器、蓝牙和WiFi。同时,还具有1 GB的RAM内存,以及以太网端口和40个GPIO引脚,并搭载有DSI显示连接器、微型USB电源接口、摄像头接口、HDMI接口、RCA影音端口。Raspberry Pi 3 Model B具有较小的体积、强大的系统功能、较强的兼容性且支持多种计算机语言,适合作为本系统的开发平台。树莓派GPIO引脚定义如图2所示。

图2 树莓派GPIO引脚定义

2.2 GSM模块

本设计采用的A6 Mini GSM模块体积小,尺寸为22.8 mm×16.8 mm×2.2 mm,工作电压为3.5~5 V,睡眠模式下电流为0.9 mA,功耗低,工作温度范围广,支持GSM850、EGSM900等频段,支持短消息传输功能。GSM模块和Raspberry Pi 3 Model B通过TTL线路连接,连接时需重新分配串口。GSM和树莓派之间的连接如图3所示。

图3 GSM模块与树莓派连接图

系统使用AT命令完成发送短消息的操作。操作开始时,需要初始化串行端口以获得GSM模块的波特率。其次,短信模式设置为文本模式,首先发送“AT+CMGF=1”,然后发送“AT+CSMP”设置文本模式的参数,通过发送“AT+CSCS=UCS2”设置UCS2编码字符集,然后设置紧急联系人的手机号码,编辑短信内容后发送“0x1A”,GSM模块即可实现短信通知紧急联系人的功能。GSM模块发送短信流程如图4所示。

图4 GSM模块发送短信流程

2.3 麦克风阵列

麦克风阵列依据一定的几何结构,将一组麦克风进行排列放置,每个麦克风同时采集和处理声音信号。获得信号的时域和频域信息后,可以获得声音的位置信息。麦克风收集的声音信号质量与环境有关。当声源远离麦克风且周围环境有噪音时,麦克风采集的声音信号质量受到很大影响,语音识别的效果会严重降低。为实现声音的降噪与抑制功能,以便达到对语音信息的优化处理和提高对环境中语音的识别率,本系统需要对已采集的声音进行麦克风阵列优化。

ReSpeaker 6-Mic圆形麦克风阵列具有2个ADC(X-Power AC108 ADC)芯片和1个DAC(X-Power AC101 DAC)芯片,包括6个高性能贴片模拟麦克风,兼容树莓派接口,灵敏度高。ReSpeaker 6-Mic支持多通道输入和输出,并可以捕获3~5 m半径内的语音,从而实现更强大的语音功能。

3 基于卷积神经网络的语音识别

语音识别即经过时频分析后的语音频谱。与此同时,还需要考虑语音输入的干扰因素,如扬声器和环境的多样性。为此,解决语音信号的多样性问题是提高语音识别率的关键。在空间和时间上,进行语音识别的声学建模时可以通过卷积神经网络具备的卷积平移不变特性,完成对语音信号多样性的处理。

该系统基于卷积神经网络处理用户的语音信号,其核心实现步骤包括卷积神经网络的Mel频率倒谱系数特征提取、数据归一化、数据分类等。

3.1 梅尔频率倒谱系数特征提取

梅尔频率倒谱系数特征提取流程如图5所示。

图5 梅尔频率倒谱系数特征提取流程

结合语音信号的静态和动态特征,可以提高系统的语音识别能力。因此,系统采用由静态梅尔频率倒谱系数、动态差分参数和帧能量组成的梅尔频率倒谱系数方法。

3.1.1 静态MFCC特征的提取

为实现对所采集的语音高频部分的优化处理,需要进行预加重操作,从而提高语音的高频分辨率,以便后续的优化操作。依据相同的信噪比从而对查找频谱进行精准定位。预加重一般通过高通滤波器实现。框架划分完成后,每个框架都乘以汉明窗口,以增加框架左右两端的连续性。然后对每帧进行FFT变换获得每帧的频谱,并对频谱模式进行平方处理获得语音信号的功率。

对频谱的平滑处理操作可以减少特征数据量和计算机量,从而消除谐波带来的影响。三角滤波器的频率响应如下:

式中,f(m)为中心频率,m=1, 2, ..., n。

计算每个滤波器组输出的对数能量:

通过DTC变换对Mel频谱进行倒谱分析即可得到相应的MFCC系数:

式中:L表示Mel倒谱系数的阶数;M表示滤波器的总数。

3.1.2 动态差分参数的提取

获得的Mel频率倒谱系数参数仅反映了语音的静态特性,为了更好地反映语音信号的时域连续性,采用一阶差分参数和二阶差分参数来描述语音的动态特性。差分参数的计算公式如下:

式中:d表示第t个一阶差分;C表示倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,系统值K为1。

为提高精度,必须在梯度下降的条件下寻找最优速度。

3.2 基于卷积神经网络数据分类

Mel频率倒谱系数特征提取完成后,利用语音信号特征的标准差归一化,达到加速梯度下降寻找最优解速度的目的,转换公式如下:

式中:σ表示原始数据标准差;μ表示原始数据的均值。

典型的卷积神经网络主要由卷积层、最大池化层和全连接层组成。在通过标准差归一化处理后,所得数据需要做进一步的分类处理。

卷积层由若干卷积核组成,具有信号特征提取功能。卷积内核在输出层计算能力的实现方式是对在该层获得的滑动卷积数据的结果求和,然后将各层的偏差数据进行累加求和。

池化层极大地简化了卷积层输出的复杂性,减少了网络层的参数,该系统通过使用最大池化方法极大地优化了流程。池化层所在区域后的值由图像区域的最大值定义。池化层后的数据通过结合非线性操作线性整流函数(remu)提高模型的识别性能。

全连接层将使用非线性运算获得的数据与向量和权重矩阵的乘积及偏差相结合。

3.3 卷积神经网络结构模型

该系统的卷积神经网络模型主要由输入层、卷积层和池化层等组成,如图6所示。输入层、池化层和输出均为一层,卷积层为两层。本系统中,卷积神经网络输入层的初始设计尺寸为11×39×3,激活函数使用remu函数。卷积层的输入是前一个池化层的输出,并且与系统每个完全连接的层紧密相关,每个层的输入是前一个层的输出。

图6 卷积神经网络模型

4 语音识别系统测试

语音识别效果与系统所处环境有关。在该实验中,选择3个人分别在安静的环境和少量噪声的环境中进行测试。在每个环境中测试200次,测试数据由系统输出识别结果得到,测试结果见表1所列。

表1 语音识别测试结果

从表中可以看出,语音识别的准确率平均为95.5%,准确率较高,能够满足预期的语音识别效果,证明了语音识别报警系统的可行性。

5 结 语

在声音识别原理和GSM技术的基础上,设计并实现了基于卷积神经网络的声音识别报警系统。系统实时监控家庭环境中的语音报警信号。实验测试表明,该系统工作稳定,具有良好的语音识别效果,有效保障了人们独自在家的安全,具有广阔的市场前景和应用价值。

猜你喜欢

池化层麦克风报警
卷积神经网络模型研究分析*
基于深度学习卷积神经网络的人体行为识别研究
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
基于数字麦克风的WIFI语音发射机
基于全卷积神经网络的SAR图像目标分类*
LKD2-HS型列控中心驱采不一致报警处理
2015款奔驰E180车安全气囊报警
死于密室的租住者
奔驰E260车安全气囊报警