基于音频特征的工程车辆工况识别研究*
2022-08-19刘文才姚凯学
刘文才,姚凯学,杨 乘
(1.贵州大学计算机科学与技术学院,贵州 贵阳 550025;2.贵州师范大学物理与电子科学学院,贵州 贵阳 550001;3.贵州省教育厅汽车电子技术特色重点实验室,贵州 贵阳 550001)
1 引言
随着建筑施工行业对信息化建设探索的不断深入,信息化也越来越趋向于具体工程项目的落地应用,越来越多的信息化技术被应用于工程项目管理中。在工程项目管理中,项目成本控制是项目施工管理的核心内容,施工阶段是工程项目成本发生的最主要阶段,对企业利润率有着最直接最关键的影响[1]。施工阶段的成本主要包含人工费、材料费、工程机械使用费和其它费用[2]。其中,工程机械使用费主要是针对工程车辆产生的,准确地识别工程车辆工作状态,是工程项目管理中工时计算的重要依据,有助于工程车辆调度和工程人员管理,是成本管理的关键,对工程项目管理具有重要意义。
传统的工程车辆管理流程主要由人工交接记录,且采用人工纸质申请单,这种方式效率低下且容易出错。随着信息技术的发展,工程车辆管理正朝着智能化、网络化的方向发展。目前主流的工程车辆管理是通过使用GPS/北斗等定位技术、GPRS/4G等通信技术,构建工程车辆智能管理系统[3],提升工程车辆的利用率。但是,工程车辆在施工作业中依然存在部分作业人员在无人监管的情况下,将工程车辆长期处于怠速工况,并不进行施工作业,不但造成柴油浪费,还会降低工程车辆的使用效率。目前主流的智能管理系统还不能有效地解决该问题。因此,如何有效地识别工程车辆的工作状况,成为工程车辆管理的关键技术。
由于工程车辆在作业时会产生音频信号,在怠速和作业等不同工况下产生的音频信号有不同的表现。因此,本文提出一种基于音频信号的无接触式工况识别方法,通过采集车辆产生的音频信号,提取信号的Mel倒谱系数作为主要特征,最后使用循环神经网络模型识别工程车辆的状况。
2 音频信号产生机理
2.1 车辆内部音频信号产生机理
车辆运行时所产生的音频信号满足噪声信号的基本特性,可以理解为车辆的噪声信号。车辆噪声信号由很多声源组成,从传播途径角度,车内噪声信号可分为空气噪声和结构噪声2类[4]:
(1)空气噪声:由车辆系统和空气动力激励产生的噪声,通过空气传播。空气噪声是高频信号,是否关闭车门、车窗等对空气噪声影响很大。空气噪声对工程车辆音频信号的贡献较小。
(2)结构噪声:由于车辆结构振动而产生的噪声,在车内引起振动,从而产生结构噪声辐射。结构噪声主要为中频和低频噪声,其频率一般小于1 000 Hz。工程车辆产生的音频信号主要是结构噪声。
受到路面激励和空气阻力等因素影响,行驶中的车辆产生的音频信号与非行驶状态的车辆产生的音频信号有较大区别。在车辆行驶过程中,还需要考虑轮胎噪声和风噪[5]。轮胎噪声受到车速、车重和路面影响,车速越快噪声越大,车辆越重噪声越大。通常情况下,当车辆行驶在湿路面或车速大于100 km/h时,轮胎噪声会成为车辆噪声的主要来源。风噪是车辆行驶时引起的气流振动,受到车辆的大小、形状、底盘结构和车速等因素影响,当车速达到100 km/h时,气流会随着车速增加而迅速增大,车辆速度达120 km/h时,迅速增加的气流噪声与轮胎噪声的声级相同[6]。
2.2 工程车辆音频信号分析
工程车辆在作业时,运动具有加速度小、瞬时速率低等特点,其工作环境空旷,背景噪声远远低于车辆本身的音频信号,因此背景噪声可以忽略不计[7]。工程车辆一般都是独立工作,不同车辆之间互相干扰比较小,在工况识别中也不需要考虑互相干扰的情况。
当工程车辆点火启动时,首先进入怠速状态,车辆的音频信号主要来自发动机,怠速工况下发动机在无负荷的情况下运转,只需克服自身内部机件的摩擦阻力,不对外输出功率,怠速状态下由发动机产生的音频信号很稳定[8]。当车辆进入工作状态后,随着车辆速度的增加,轮胎噪声和风噪增强,但发动机噪声依旧是主要噪声,其强度占驾驶室内噪声强度的80%以上[9]。工程车辆在作业时,产生的音频信号主要为低频和中频噪声,噪声主要由发动机产生。
3 信号采集
3.1 端点检测
端点检测VAD(Voice Activity Detection)是指在一段音频信号中,准确地确定音频的起始点和终止点,用于检测音频信号的有声段和无声段[10]。端点检测技术可以排除无声段的噪声干扰,有效减少无用数据。端点检测技术相关算法可以分为:基于阈值的VAD算法、基于分类器的VAD算法和基于模型的VAD算法[11]3类,具体描述如表1所示。
Table 1 Typical endpoint detection algorithms表1 典型的端点检测算法
在车辆音频信号采集中,端点检测需要在资源有限的采集设备上完成,因此本文采用基于阈值的端点检测算法。在基于阈值的VAD算法中,信号的短时平均过零率和信号的短时能量具有计算过程简单和检测效果良好等优点,适用于车辆音频信号的端点检测。
3.1.1 短时平均过零率
信号的过零率指信号采样序列通过零值的次数,相邻取样值改变符号即通过零值1次,信号x(t)的短时过零率定义如式(1)所示:
sgn(x(t1-1))|w(t2-t1)
(1)
其中,Z表示信号过零率,w(t)是窗函数,sgn(·)是符号函数,t1为窗函数起始采样点,t2为窗函数结束采样点。
工程车辆在工作环境中容易受到噪声的严重干扰,按式(1)计算会产生虚假过零率,需要在计算过零次数时引入门限阈值T来抑制虚假过零率。本文将过零率定义为跨过正负门限的次数,如图1所示。
Figure 1 Threshold short-time zero-crossing rate图1 门限短时过零率
加入门限的短时过零率计算如式(2)所示:
sgn(x(t1-1)-T)|+|sgn(x(t1)+T)-
sgn(x(t1-1)+T)|}w(t2-t1)
(2)
按式(2)计算的短时平均过零率具有一定的抗干扰能力,即使存在噪声,只要不超过门限阈值,就不会产生虚假过零率。用2种不同方法计算的过零率如图2所示。
Figure 2 Comparison of zero crossing rates with different calculation methods图2 不同计算方法得到的过零率对比
3.1.2 短时能量和短时平均幅值
在信噪比较大的音频信号中,有效音频信号和噪声的区别在能量上有很明显的体现,即有效音频信号的能量比噪声信号的能量大,信号x(t)的短时能量定义如式(3)所示:
(3)
信号的能量是对信号采样序列进行平方运算,这不但扩大了高低信号之间的差距,而且还增加了设备的计算量。短时平均幅值能简化计算过程,可以节省计算资源。信号x(t)的短时平均幅值定义如式(4)所示:
(4)
短时平均幅值和短时能量虽然特性不同,但是都能反映信号强度。对于同一段音频信号,短时平均幅值与短时能量对比如图3所示。
Figure 3 Comparison between short time energy and short time average amplitude图3 短时能量和短时平均幅值对比图
从图3不难看出,使用短时平均幅值和短时能量的判断效果相近,因此可以用短时平均幅值替代短时能量用于端点检测。
综上,本文采用短时平均幅值和短时平均过零率相结合的方法进行端点检测,这2种方法计算简单,一定程度上反映了信号的时域特性和频域特性,能识别出音频信号的有声段。采集设备在存储和上传数据之前,对音频信号进行端点检测。在无声段降低采样频率,停止数据存储和上传;在有声段提高采样频率,进行数据的存储、上传和车辆工况识别等工作。这样的工作模式可以有效降低采集终端的能耗。
Figure 4 Sampling frequency distribution of engineering vehicle under different working conditions图4 工程车辆在不同工况下的采样频率分布
3.2 数据采集
音频信号在传播过程中的衰减与采样点的距离相关,信号幅值随传播距离的增加而降低,因此拾音传感器的安装位置与采集到的数据精确度息息相关。驾驶室具有噪声小、距离发动机近等优点,因此本文将采集设备安装在车辆驾驶室内。
此外,信号的采样频率也会影响到采集信号的质量,采样频率过高,单位时间内的数据量会增加,导致设备的计算量增加;采样频率过低又会丢失大量数据,导致信号严重失真。根据香农采样定理,为了不失真地恢复信号,采样频率应该不小于模拟信号频谱中最高频率的2倍[12]。本文对4种工程车辆在不同环境下的音频信号进行快速傅里叶变换,得到各工程车辆在不同工况下的频谱分布,如图4所示。图4中各子图的横轴为频率,纵轴为幅值。从图4中不难看出,不同工程车辆产生的音频信号的频率分布不同,同一工程车辆在不同工况产生的音频信号的频率分布也有差异。具体表现为怠速工况下频率成分比较单一,正常作业工况下频率成分较复杂。4种工程车辆在怠速工况和正常作业工况下的最大频率都在1 000 Hz以内,在保证采集的信号不失真的前提下,为了尽可能降低采集设备的功耗,本文使用2 048 Hz的采样频率对音频信号进行采样。
4 特征提取
本文使用的采样频率为2 048 Hz,即音频信号每秒包含2 048个数据样本。若将数据样本直接作为模型输入,会使得模型的输入层体量过大,因此在使用人工智能技术对音频信号分类识别前,需要对音频信号进行特征表示,用较小尺寸的向量表示原始音频信号。音频特征是指从音频信号中提取出的最明显的特征[13]。
音频特征提取技术的发展历程中,研究人员研究了很多相关特征参数,如临界带特征矢量、线谱对、线性预测系数和Mel频率倒谱系数MFCC(Mel Frequency Cepstral Coefficient)。音频特征的提取主要从时间域、频率域和倒频谱域等维度进行,表2从不同维度列出了几种常见的音频特征。
Table 2 Typical audio features表2 常见的音频特征
在表2的音频特征中,MFCC是基于人类听觉系统研究成果推出的音频特征,与其他音频特征相比具有更好的鲁棒性,更符合人耳的听觉特性,在信噪比较低的环境下仍然具有较好的识别性能;MFCC具有计算简单、区分能力好等突出优点,是目前使用最广泛的语音特征之一。本文使用MFCC作为工程车辆音频信号的特征表示。
MFCC提取包括信号分帧、加窗等预处理和计算MFCC求得特征矩阵等过程,提取示意图如图5所示。
Figure 5 Schematic diagram of MFCC extraction图5 MFCC提取示意图
4.1 信号预处理
预加重是为了增加音频的高频分辨率,一般通过一阶高通数字滤波器来实现,其传递函数如式(5)所示:
H(z)=1-az(-1)
(5)
其中,α为预加重系数,0.9<α<1.0,本文取值0.97。若t时刻的音频信号采样值为x(t),则经过预加重之后的结果y(t)可表示为y(t)=x(t)-ax(t-1)。
音频信号具有短时平稳的特性,使用窗函数截取一小段信号帧可以有效体现该特性,但在信号截断中,截断处发生的跳变会导致能量泄露。能量泄露分为主瓣泄露和旁瓣泄露,主瓣泄露可以有效减少栅栏效应带来的谱峰幅值估计误差,但是旁瓣泄露是完全无益的。为了抑制旁瓣泄漏,可采用不同的信号截断函数对信号进行截断,截断函数又称为窗函数,常见的窗函数有矩形窗、汉宁窗、海明窗(Hamming)和布莱克曼窗等[14]。
工程车辆产生的音频信号包含多个频率分量,在处理中既要关心其频率点分布,又要兼顾各频率点上的能量大小,因此使用升余弦窗进行信号截断。Hamming窗是一种改进的升余弦窗,其频率响应主瓣窄、旁瓣小且随频率快速衰减,主瓣峰值与第1个旁瓣峰值衰减为40 db,时域连续的Hamming窗表达式如式(6)所示:
(6)
其中,I为窗的宽度。为了使帧与帧之间平滑过渡,本文采用交叠分段的方法进行分帧,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为(0,0.5]。虽然几种工程车辆在不同工况下产生的信号频率分布不同,但是最大频率主要分布于50 Hz~700 Hz,即信号周期在1.5 ms~20 ms。傅里叶变换需要重复足够多的次数才能更好地分析频率特性,本文使用的窗口宽度为40 ms,帧移为20 ms。经过加窗分帧处理后的每一个短时信号帧都可以视作平稳信号分析,可以进一步提取其MFCC。
4.2 MFCC特征提取
人的听觉系统是非线性系统,对于不同频率声音信号的响应灵敏度是不同的。学术界常用Mel频率来描述人耳感知频率与线性频率的近似关系,Mel频率fMel与物理频率f的关系如图6所示,代数关系如式(7)所示:
fMel=2595×lg(1+f/700)
(7)
Figure 6 Relationship between frequency and Mel frequency图6 频率与Mel频率关系图
从图6可以看出,曲线的斜率随着频率的升高而逐渐变小,这说明人耳对低频音频信号的感知更敏感。在Mel频域内,人对音调的感知度为线性关系,MFCC的计算流程如图7所示。
Figure 7 Flow chart of MFCC extraction图7 MFCC提取流程
提取MFCC的步骤如下所示:
(1)对预处理好的信号逐帧进行离散傅里叶变换,得到线性频谱Si(k),如式(8)所示:
(8)
其中,N是傅里叶变换的样本数,si(n)为已经预处理的时域信号帧,其离散功率谱pi(k)可以由频谱取模平方得到,计算如式(9)所示:
(9)
(2)将能量通过一组Mel尺度的三角形带通滤波器组,将线性频谱转化为Mel频谱。具体实现是在音频频谱范围内设置若干带通滤波器Hm(k),1≤m≤M,M为滤波器的个数,滤波器的中心频率为f(m)。三角滤波器如图8所示,在线性频率上,随着m值的增大,f(m)之间的距离也随之增宽。在Mel频率范围内,这些滤波器是等带宽的。带通滤波器如式(10)所示,其传递函数如式(11)所示[15]:
(10)
(11)
其中,fl为滤波器频率范围的最低频率,fh为滤波器频率范围的最高频率,fs为采样频率。
Figure 8 Triangular filter for calculating MFCC图8 计算MFCC的三角滤波器
(3)为了提高识别系统的鲁棒性,需要计算每个滤波器组输出的取对数能量,从线性频谱X(m)到对数频谱S(m)的传递函数如式(12)所示:
(12)
(4)利用离散余弦变换即可求得倒谱系数,对数频谱S(m)经过一个傅里叶变换的逆变换运算,即可得到MFCC,如式(13)所示:
(13)
MFCC仅描述单帧的功率谱包络,很好地反映了音频信号的静态特性,但是音频信号随时间不断变化,还具有动态特性。音频的动态特性用其静态特性的差分来表示。常见的MFCC差分有一阶差分ΔMFCC(Deltas MFCC)、二阶差分ΔΔMFCC(Delta-Deltas MFCC),本文使用式(14)来计算差分系数:
(14)
其中,d(t)是第t个一阶差分倒谱系数;D是时间差,一般取值为1或2;Ct是第t个倒谱系数。在参数选取时,并不是选取所有维度的MFCC系数,一般采用舍弃前、后若干维MFCC系数的方法,来获取最终的MFCC系数。
使用上文提到的算法逐帧计算样本的音频特征,分别得到短时平均幅值、短时门限过零率、MFCC、ΔMFCC和ΔΔMFCC。在计算MFCC时,采用的阶数为13,其倒谱系数是C0~C12,其中第一维C0值很大,故把C0当成能量系数去掉,取C1~C12共12维作为MFCC系数。
5 工程车辆工况识别
5.1 循环神经网络
深度学习目前已广泛应用于各种领域,因为输入数据的特征不同,深度学习发展出了循环神经网络RNN(Recurrent Neural Network)[16]、卷积神经网络CNN(Convolutional Neural Network)[17]和深度神经网络DNN(Deep Neural Network)[18]等不同类型的网络架构。其中,RNN将时序的概念引入到网络结构设计中,使其在时序数据分析中表现出更强的适应性。RNN的网络结构如图9所示,RNN假设t时刻能接收来自t-1时刻的数据,即当前时刻的状态与历史时刻相关,它使网络能根据过去状态和当前输入数据来决定当前的状态,网络的输入层和前一时刻隐藏层的输出共同组成了当前时刻隐藏层的输入,这使其能够记忆长期的依赖关系。
Figure 9 Network structure of RNN 图9 RNN网络结构图
尽管RNN能够有效地处理时间序列,但是随着时间滞后的增加,RNN就像一个非常深的前馈神经网络,训练过程中会出现梯度消失和梯度爆炸问题。为了解决这个问题,Hochreiter等[19]提出了长短期记忆LSTM(Long Short-Term Memory)神经网络。LSTM神经网络是将隐藏层的RNN细胞替换为LSTM细胞,使其具有长期记忆能力。LSTM神经网络被广泛应用于时间序列预测问题中[20]。LSTM神经网络结构如图10a所示,LSTM神经网络用输入门、遗忘门和输出门来控制网络的输入值、记忆值和输出值。
Figure 10 Two variants of RNN neural networks图10 2种RNN神经网络的变体
Figure 11 Training process图11 训练过程
此外,LSTM神经网络还演化出了很多变体,其中最成功的一种是Cho等[21]在2014年提出的门限循环单元GRU(Gated Recurrent Unit)。GRU神经网络结构如图10b所示,GRU神经网络是LSTM神经网络的简化版本,其主要变动是将LSTM细胞中的输入门、遗忘门和输出门替换为更新门和重置门,但是保留了LSTM神经网络的长期记忆能力[22]。因为GRU神经网络极大简化了计算过程,使GRU神经网络与LSTM神经网络具有很强的可比性[23],所以在实际应用中当使用GRU神经网络也能取得良好的效果时,一般优先使用GRU神经网络。
5.2 对比实验
本文实验分别采用LSTM神经网络和GRU神经网络对数据进行建模。数据样本为压路机、装载机等4种工程车辆在信噪比不同的环境下采集而来,每种车辆分别处于停止、怠速和正常作业3种工况。使用前文提取的MFCC、ΔMFCC和ΔΔMFCC等38维音频特征,每2秒为时间步长输入到神经网络中进行训练,网络的损失函数采用交叉熵损失函数,评价指标为分类准确率。
训练过程如图11所示。图11a中,横坐标为训练次数,纵坐标为损失值;图11b中,横坐标为训练次数,纵坐标为准确率。从图11可知,在训练过程中,2种模型的收敛速度都很快,都能快速达到所需误差精度。随着训练次数的增加,GRU神经网络模型的分类准确率比LSTM神经网络模型的更稳定。
5.2.1 模型对比实验
为了对比2种模型识别车况的准确率,将信噪比不同的测试集分别输入LSTM神经网络模型和GRU神经网络模型进行测试,识别效果如表3所示。
从表3可以看出,2种模型在测试集上都具有不错的抗干扰能力,LSTM神经网络模型虽然以很小的差距略胜一筹,但是与GRU神经网络模型相比差距很小,因此本文使用更简化的GRU神经网络模型对车况进行识别。
Table 3 Recognition effect of LSTM model and GRU model表3 LSTM模型与GRU模型识别效果
5.2.2 特征向量对比实验
模型对比实验中使用短时平均幅值、短时门限过零率、MFCC、ΔMFCC和ΔΔMFCC等组成的38维向量作为模型输入特征,这使得模型输入维度大,模型训练时间长,设备功耗大。为了对比不同特征对识别效果的影响,从而舍弃部分冗余的特征,使用不同特征组合训练GRU模型,对于不同的车型的识别效果如表4所示。
Table 4 Recognition accuracy using different audio features表4 使用不同音频特征的识别准确率
从表4的对比结果看,仅使用MFCC作为特征集训练的GRU模型,对部分车型的识别效果仅为90.84%,无法达到要求;使用MFCC+ΔMFCC和ΔΔMFCC训练的GRU模型的识别效果没有显著性差异,在不同车辆的工作状态识别中都得到了很好的准确率。
6 结束语
本文详细介绍了音频特征及特征提取的方法,提出了一种基于GRU循环神经网络的工程车辆工况识别方法,有效提高了工程车辆的使用效率,节约了企业成本。
本文使用的数据集都是在不同车型单独工作时采集的,没有研究多种工程车辆在小范围内同时工作的情况,在这种极端情况下,各种车辆之间相互干扰,可能会导致识别率下降。在下一步研究中,将会引入盲源分离等技术,提高多种工程车辆在小范围内同时工作的识别准确度,使研究更有应用价值;同时也会引入GPS传感器和陀螺仪等做为辅助识别。