融合MFCC 和IMFCC 特征的电厂设备声音识别算法

2022-04-13翟永杰彭雅妮胡东阳王新颖

现代电子技术 2022年8期

翟永杰，彭雅妮，杨旭，胡东阳，王新颖

（1.华北电力大学自动化系，河北保定 071003；2.华北电力大学计算机系，河北保定 071003）

0 引言

发电厂作为我国电能供应的主要来源之一，承担着重大的供电任务。研究更加安全有效的状态监测方法，对保障电厂平稳、安全、高效的供能有着重要意义。发电厂的生产主要依靠汽轮机、发电机等旋转机械设备，实现从机械能到电能的转换来完成。当旋转机械设备出现严重故障时，需要停炉检修，会对发电厂造成极大的经济损失。为更好地对设备进行实时监测，实现早期故障诊断，研究人员针对多种发电厂常用旋转机械设备的机理特性，从设备温度、电流、振动等方面对设备的测点位置、监测方法等做了很多研究。刘耘彰针对火电厂三大风机（一次风机、送风机、引风机），利用多元状态估计方法（MSET）对风机进行状态建模，根据历史正常数据提出故障预警的阈值，实现风机的故障预警；高明提出一种基于多元状态估计（MSET）和相似性测度的方法，通过提取正常工况下监测参数的聚类中心，计算估计值与聚类中心的相似性测度，确定送风机的当前工作状态，实现送风机故障的早期预警；李芒芒利用加速度传感器采集风机叶片的振动信号，根据叶片的振动模态参数来诊断故障，并结合人工神经网络确定其损伤程度；张保钦等通过对风机叶片的振动信号进行时域和频域分析，提取出最显著的故障特征，实现风机叶片的实时监测；刘志刚等人将振动信号通过小波包分解，以分解后的能量信息作为输入能量，使用BP 神经网络进行识别和诊断。

这些研究中，都需要在旋转机械设备上选取测点安装传感器来监测设备参数，多元状态估计方法（MSET）需要依赖系统正常状态时的历史数据以及各个参数之间的关系，由于监测的参数较多，往往导致误报率较高；振动信号的采集同样需要传感器与设备接触，对传感器的日常维护有较高要求，且目前的方法在性能和精度上还难以满足故障预警的要求。而基于声音信号的监测能够提供一种无接触式的方法，为上述问题提供解决思路。

旋转机械设备由于内部构造不同，在不同工况下，机械振动产生的声音也具有一定的辨识度。目前研究人员对可听声分析法在设备故障诊断和在线监测方面进行了不少研究。王东峰等研究了小波变换在含有强噪声信号的条件下对故障信号的间断点准确定位的特性；舒畅等提出了基于自适应白噪声完备集成经验模态分解（CEEMDAN）算法，利用支持向量描述（SVDD）对典型放电故障进行分类与识别；李建鹏提出振⁃声联合分析的方法，针对高压断路器的振动信号和声波信号展开分析，利用经验模态分解的方法提取特征，并利用支持向量机对断路器典型机械故障进行了识别。这些研究都是基于声音的时域特征，但对于时域特征类似的不同设备或工况的分类，识别率就会降低。文献[10]针对三相异步电动机的四种运行状态，通过计算频谱差异提取特征，使用最近邻分类器、BP 神经网络和基于文字编码的改进分类器进行故障识别；文献[11]中选择单相异步电动机作为研究对象，提出了基于频率的特征选择方法，在利用最近平均分类器对健康、轴承故障和绕组线圈短路故障的三个电机进行分类时，得到了较好的分类效果。这些方法采用从频域中提取的特征向量作为识别诊断的依据，但提取的特征仅考虑到频域中信号的部分信息，从而遗漏了频域部分的有效信息。研究表明，频谱特征更能表征目标特点，而基于梅尔尺度的梅尔滤波器组充分考虑人耳的听觉特性，能够提高特征的有效性并且具有很高的识别性，能够较好地表现频域特征的梅尔频率倒谱系数（Mel⁃Frequency Cepstral Coefficients，MFCC）特征，目前还没有被广泛运用到电力领域中。因此，本文提出一种基于梅尔频率倒谱系数的特征融合方法，首先在ESC⁃50 的部分数据集上进行实验，同时提取声音信号的MFCC 特征和IMFCC 特征；再将两者通过差异性指标进行特征选择，融合得到新特征，进行识别效果验证；最后在现场采集的电厂设备声音数据集上进行应用研究。

1 基于MFCC 和IMFCC 的特征融合算法

1.1 特征生成

特征生成是用较少维数表征声音信号特征的过程，因此设备声音识别率的高低取决于生成的特征是否准确。特征参数不仅要表现出声音的特性，还需要把不同旋转机械设备以及同一设备的不同工况区分开。发电厂设备在运行时包含从低频到高频各种频率成分的振动，因此产生的声音频域不只分布在低频部分。而梅尔滤波器组在低频部分密集，高频部分稀疏，可能导致设备声音的高频有效信号缺失等问题。因此，本文选取的两种听觉特征分别为基于梅尔滤波器组的MFCC 特征和基于翻转梅尔滤波器组的IMFCC 特征，具体生成过程如图1 所示。

图1 MFCC 和IMFCC 特征生成过程

梅尔频率倒谱系数是一种具有高识别性的特征参数，因此它是许多识别系统最佳的特征参数。特征生成方法如下：

1）切分。为了统一声音样本的时长，将声音信号切分为0.5 s，即一个声音样本。

2）预加重。为了使声音信号的频谱变得平坦，能在低频到高频段中用同样的信噪比求频谱，本文对每个样本的声音信号进行预加重处理。预加重处理即将声音信号通过一个高通滤波器：

式中0.9<<1.0，本文取0.97。

3）归一化。对预处理后的声音信号的频谱进行归一化处理，减小不同类别声音频率范围的差异：

4）分帧、加窗。声音信号在短时是平稳的，这个短时长一般为10～30 ms，为便于特征分析，需要对声音信号就进行分帧处理。为保证相邻两帧之间的平滑过渡，需要对帧信号进行叠加处理，之后用每一帧乘以一定长度的窗函数进行加窗滤波处理。本文采用汉明窗，窗函数为：

5）在每帧信号乘以汉明窗后，还需要经过快速傅里叶变换以得到在频谱上的能量分布：

6）对得到的频谱能量取模的平方，得到离散功率谱，再通过一组梅尔滤波器组进行滤波，计算滤波器组输出的对数能量()：

7）将得到的对数能量经离散余弦变换（Discrete Cosine Transform，DCT）得到静态MFCC 参数：

式中：为三角滤波器的个数；为MFCC 系数的阶数。

8）经加权差分计算得到多阶动态MFCC 参数。动态差分参数包括一阶差分和二阶差分，将静态和动态特征结合起来能够有效提高系统的识别性能，但当阶数升高到一定程度时，系统识别性能的改善将变得很小，系统的复杂度却大大增加。因此，本文仅考虑静态参数和一阶差分参数。

IMFCC 特征提取方法与MFCC 基本相同，唯一差别在于经FFT 变换后的信号需通过翻转梅尔滤波器组滤波，经离散余弦变换后得到IMFCC 特征。梅尔滤波器组结构如图2a）所示，在低频区域分布集中，高频区域分布稀疏；翻转梅尔滤波器的结构如图2b）所示，刚好与传统梅尔滤波器相反，在低频区域分布稀疏，在高频区域分布集中。

图2 两种滤波器结构

1.2 特征选择

以上两种滤波器组结构呈互补关系，可结合两种特征参数的优势以获取更好的识别结果。但是直接将两者叠加会增加特征的维数，从而增加训练和识别的计算量。除此之外，由于特征的各个维度的区分度不同，其中维度区分度很低的冗余特征以及干扰信息会直接影响识别性能，因此不能直接叠加，需要进行特征选择。

本文提出一种基于统计学的特征选择方法，按照特征提取方法，提取每段0.5 s 的所有声音样本特征，得到个×的特征矩阵：

式中：为总样本个数；为帧数；为特征维数。

计算M 的平均值，得到个1×的特征向量′：

将′按照类别分为类，分别计算每类特征矩阵的平均值，得到一个×的矩阵，计算每一维的方差，最终得到1×的方差向量。由于方差向量的第12 维之后数值差异较小，因此，计算前12 维方差向量的平均值ˉ，当σ>3ˉ时，选择第维向量作为特征向量。

1.3 特征融合

两种特征在经过特征选择后基本去除了冗余特征和干扰信息，可以进行融合。本文将特征选择后具有特定维数的MFCC特征和IMFCC特征通过首尾相连的方式进行组合。通过特征融合后的M⁃IMFCC特征矩阵为：

式中：为帧数；为选择后MFCC 特征的维数；为选择后IMFCC 特征的维数；F为第帧、第维的MFCC特征；E为第帧、第维的IMFCC 特征。

2 实验与结果分析

2.1 基于ESC⁃50 数据集的实验

基于声音信号分类的方法多用于环境音、语音分类，在电力领域还没有公共数据集。本文采用ESC⁃50数据集中具有非平稳特性的部分数据进行实验，其中包括昆虫、雨、风、洗衣机、吸尘器、直升机、发动机、火车这八类声音，每类总时长为20 s。为保证数据一致，均采用44100 Hz 采样率，帧长取32 ms，帧移取16 ms，窗函数采用汉明窗，窗长取1412 个采样点。训练集与测试集按照7∶3 的比例，在Matlab R2018a 环境下将八类声音训练集的特征参数输入到SVM 中，运用LibSVM 选取径向基内核RBF 核函数得到八个分类模型，分别对MFCC、IMFCC 和M⁃IMFCC 三种算法进行比较，并对不同特征的结果进行分析。本文采用24 个梅尔滤波器进行滤波，所以MFCC 特征和IMFCC 特征的维数也是24 维，经过特征选择后，新的特征由MFCC 的第1，2 维和IMFCC 的第1，3 维组成。

表1 为8 种声音在三种特征下的平均识别率，每种特征的下脚标为特征维数。从实验结果来看，当生成的特征维数均为24 维时，MFCC 特征的总体识别率更高，说明声音信号低频段的特征更显著；两种特征与选择后的4 维特征相比，融合特征M⁃IMFCC 的总体平均识别率最高，这是因为该算法融合了两种信号特征，使得特征更加完整，也改善了MFCC 特征在高频段缺失有效信息的缺陷，因而识别率更高；昆虫音在两种特征下的识别效果都很高，说明昆虫音在低频段和高频段具有较少的冗余信息，因此在进行特征选择时会失去部分有效信息；风声和吸尘器工作声音在IMFCC 特征下的识别率较低，说明两种声音的有效特征多分布于低频段，因此融合高频特征后的识别率会受到干扰。虽然融合特征M⁃IMFCC 在昆虫、风和吸尘器这三个类别中的识别率相对于MFCC 特征较低，但总体上，融合特征M⁃IMFCC还是使用较少的特征维数达到了较高的分类效果，说明融合特征更适用于有效特征分布于全频域的声音分类。

表1 不同特征提取方法识别率（ESC⁃50） %

2.2 基于电厂采集数据的实验

根据公共数据集上的实验结果可以看出，融合特征M⁃IMFCC 在具有非线性、非平稳特性的声音数据集上具有较好的分类效果。为了研究基于声音信号的发电厂设备监测方法，本文选择从某火电厂在全封闭、处于稳定工况的环境下，采集的供油泵、连接轴、磨煤机、磨煤机箱体、凝结水泵、凝结水泵电机、循环水泵、引风机这八种设备音进行识别分类。采集设备及采集过程如下：

采用的设备为96 通道声像仪。设备采用一体化集成设计，包括96 通道麦克风阵列、数据采集器和摄像头，如图3 所示。麦克风阵列采用平面多臂对数螺旋阵结构，平面阵中心安装摄像头。该设备小巧轻便，可手持或用三脚架支撑测量，适于狭小空间内的声场测量，可应用于工业设备噪声源分析等方面。

图3 96 通道手持声像仪实物图

通常阵列与被测设备距离1 m 左右，如果是大型设备，可能需要进一步拉大距离使设备在声像仪监控范围内。确定采集装置位置后，固定装置并开始采集。采集设备通过声像定位来调整采集频率，因此采集到的声音信号能很好地表征被测设备的特性。这些声音按照时间序列被放入8 个文件夹中，每类每个通道的声音时长平均为150 s。

为保证样本数量和计算时间的合理性，本文选择1 通道的声音信号，并且将声音信号的时间序列打乱，保证样本的随机性。八类设备声音信号的时、频域分布如图4 所示。

图4 八类设备的时、频域分布

由图4 供油泵（a）、连接轴（b）、磨煤机（c）、磨煤机箱体（d）、凝结水泵（e）、凝结水泵电机（f）、循环水泵（g）、引风机（h）这八种设备的时域、频域分布可知：八类设备在正常工作时，在时域上的分布差异并不明显；八类设备声音的频域信号集中分布于低频段（200～300 Hz），其中部分设备声音的频域信号在中频段（200～300 Hz，800～1000 Hz）和高频段（1000 Hz 以上）上有零散分布，相对于时域分布，频域具有更明显的差异。

将八类设备音按照特征提取、特征选择的方法处理后，八类设备声音的′按照类别分布，如图5 及图6 所示。根据图5 和图6 的箱型图可以看出：对于MFCC 特征，前三维特征与其他维的特征差异较大，且基本没有异常值出现；对于IMFCC 特征，第一维特征与其他维特征具有明显差异，特征分布较为密集。这说明这几维特征具有一定的稳定性，且能够充分体现不同类别的声音信号的差异性。最终经过差异性指标计算，选择MFCC特征的1，2，3 维和IMFCC 的第1 维特征作为火电厂八类设备声音信号的融合特征M⁃IMFCC。

图5 MFCC 特征的M′N 的箱型图分布

图6 IMFCC 特征的M′N 的箱型图分布

为进一步证明融合特征M⁃IMFCC 在非线性、非平稳特征信号上分类的有效性，针对电厂设备总共1200 s的声音信号，首先将采样率统一到16000 Hz，帧长取32 ms，帧移取10 ms，窗函数采用汉明窗，窗长取512 个采样点，随机挑出所有样本的10%，20%，30%，40%，50%，60%，70%，80%作为训练样本，其余作为测试样本使用，在Matlab R2018a 环境下，使用SVM 分类器对MFCC、IMFCC、M⁃IMFCC 三种算法进行比较及分析。

图7 展示了三种算法在不同训练样本数量下的分类准确率。图7a）为ESC⁃50 部分数据集上的测试结果，图7b）为电厂设备声音数据集上的测试结果。从图7 的实验结果可以看出，随着训练样本的增加，融合特征M⁃IMFCC 在两个数据集上的平均识别率均高于MFCC 特征和IMFCC 特征，证明了融合特征M⁃IMFCC 的优越性。从电厂设备声音数据集的测试结果可以看出，融合特征M⁃IMFCC 在少样本前提下依然具有很高的识别率，在训练样本为总样本的70%时，识别率基本达到稳定状态。MFCC 特征和IMFCC 特征随着训练样本集的扩增，识别率逐渐上升，MFCC 特征在训练样本数量达到80%时，识别效果才能接近于融合特征；MFCC 特征的识别率一直稍高于IMFCC 特征，这是由八类设备声音的频域分布特性导致的；融合特征M⁃IMFCC 在训练样本数量为70%和80%的识别率之间仅相差0.14%。因此，本文认为在训练样本数量达到70%时，融合特征具有最好的识别效果。

图7 在SVM 中三种特征提取方法的识别率

八类设备声音信号在训练样本数量为总样本数量的70%的识别结果如表2 所示。

表2 不同特征提取方法识别率（发电厂设备） %

发电厂设备声音数据集的平均识别率如表2 所示。根据表2 可以看出：当特征维数均为24 维时，MFCC 特征的平均识别率整体偏高，说明这八类发电厂设备的工作声音在低频部分具有更明显的特征；从三种特征的平均识别率来看，融合特征M⁃IMFCC 在除供油泵以外的其他七类设备中都表现出了更好的识别效果；而供油泵在MFCC 和IMFCC 特征上相比于其他设备识别率更高，这表明供油泵的这两种声音特征基本都是有效特征。因此，在使用本文方法进行特征选择时，会丢失一部分有效信息，从而降低识别率，而相较于MFCC 特征，供油泵平均识别率仅降低了1.09%，总体平均识别率却提高了4.12%。

3 结论

为了将基于声音信号的非接触式监测方法应用于发电厂设备的日常监测，实时掌握设备的运行状态，以便实现设备的故障诊断，避免损失电厂效益，本文提出一种融合MFCC 特征和IMFCC 特征的方法。在MFCC和IMFCC 特征的基础上，通过差异性指标进行特征选择和特征融合，并在ESC⁃50 部分数据集以及电厂设备声音数据集上，对三种特征进行对比实验。实验结果表明：融合后的M⁃IMFCC 特征能够通过较少的维数表征声音信号频域部分的有效信息，有效去除了MFCC 和IMFCC 特征中存在的冗余特征和干扰信息，降低了计算量，提高了识别速率；能够准确地反映电厂设备声音信号的非平稳特性和各设备之间的差异性，解决了从频域中全面捕获声音信号特征的问题，实现了八类电厂设备声音信号的识别；融合特征M⁃IMFCC 的训练样本需求较少，准确率高，更适用于设备的故障诊断研究。