基于改进EMD算法的熵性能研究

2018-11-08于本成丁世飞

郑州大学学报（理学版） 2018年4期

于本成，丁世飞

(1.中国矿业大学计算机科学与技术学院江苏徐州 221116； 2.徐州工业职业技术学院信息与电气工程学院江苏徐州 221004)

0 引言

熵，最早用来表征物质热力学状态，通过描述熵和状态变量之间的关系来度量体系的混乱程度[1].熵具有灵敏度高、抗干扰能力强等优势，已被广泛应用于故障诊断、误差测试、图像分割及质量评估、信用评价等不同领域[2-18].文献[12]提出了基于熵权法的灰色点估计权重计算方法，并结合小样本数据进行了参数估计的仿真实例实验，验证了方法的有效性.文献[13]提出了一种新型的电机轴承故障检测与分类的混合模型.用计算振动信号的置换熵来检测轴承的故障，该方法对电机轴承故障的检测和分类具有一定的有效性和鲁棒性.文献[14]研究了图像模糊信息的多属性决策问题，建立了一种基于模糊交叉熵的多属性决策方法，并验证了该方法的可行性和有效性.文献[15]提出了基于最大熵值的灵武长枣彩色图像分割方法，实现了图像分割的准确性，提高了机器识别的精度，为灵武长枣智能采集提供理论依据.文献[16]在图像分割中提出了一种新的基于熵的图像阈值方法，该方法在分割NDT图像、红外图像和其他图像方面具有一定的优越性.文献[17]提出了机械设计方案模糊熵权综合评价，将模糊熵应用于减小振动装置的优化设计方案评定.文献[18]提出了一种新的建筑施工企业信用评价模型，将层次分析法与熵权法相结合来计算指标权重，并验证了模型的有效性、合理性.

熵的种类繁多，度量序列混乱程度的能力也不尽相同，如何判断不同种类熵描述混沌能力的大小，且如何选择一种合适的手段对时间序列进行处理以更好地凸显熵的特征则变得具有重要的现实意义.

本文通过计算仿真信号信息熵、近似熵及模糊熵这3种常用熵值，证明了模糊熵在不同的噪声比例下都能很好地度量序列的复杂程度，并在一特定值时不会在较大程度上影响计算效率.且提出了基于经验模态分解和相关系数原理的虚假本征模态函数(intrinsci mode function，IMF)筛选方法，求出了各阶真实本征模态函数的模糊熵，计算出各阶真实本征模态函数的能量比例，加权平均求出模糊熵值.实验结果表明，经验模态分解模糊熵值比直接计算模糊熵值稳定，能更好地度量序列的混乱程度.

1 三种熵的定义与性能比较

1.1 信息熵

设有随机变量X={x1,x2,…,xn}，p(x)为输出概率函数，则变量X的信息熵为

1.2 近似熵

1) 设m维矢量X(i)由序列u(i)组成，即X(i)=[u(i),u(i+1),…,u(i+m-1)]，其中i=1,2,…,N-m+1.

1.3 模糊熵

6) 得到原时间序列的模糊熵为FuzzyEn(m,r,N)=lnφm(r)-lnφm+1(r).当模式维数m=1，2，相似容限r=(0.1～0.25)·SD时，模糊熵的分类效果较佳，具有良好的统计性[19-20].

1.4 3种熵的性能比较

为了比较3种不同的熵的性能，本文用仿真信号加以验证.信号表达式为

(1)

对仿真信号分别求取信息熵、近似熵和模糊熵，并统计了在Matlab中的运行时间，如表1和表2所示.

据文献[21]知：熵在描述随机事件的不确定性时，熵值与不确定性成正比，由表1可知，从衡量序列复杂度的角度看，相比于信息熵，近似熵和模糊熵具有更好的性能.近似熵和模糊熵值随噪声含量的不同，变化较信息熵更为明显.当a>0.3，即噪声比例超过70%时，近似熵的值会有所降低.此时，近似熵已不能较好度量一时间序列的混乱程度.相比于近似熵，模糊熵在不同的噪声比例下都能很好地度量序列的复杂度.

表1 a取不同值时仿真信号信息熵、近似熵、模糊熵值

表2 a取不同值时仿真信号信息熵、近似熵、模糊熵运行时间

由表2可知，信息熵由于算法简单，运算量小，计算速度很快，耗时最短.近似熵和模糊熵由于算法复杂，计算运行时间较长.但相比于近似熵的运行时间，模糊熵运行时间不足近似熵运行时间的十分之一.综上，虽然模糊熵的运行时间长于信息熵，但其值在0.6 s附近波动，不会在较大程度上影响计算效率，且考虑到模糊熵的优良性能，可以认为在3种常用的熵值中，模糊熵的优势最为明显.

2 改进的经验模态分解

2.1 经验模态分解

信号经EMD自适应分解后会得到有限个从高频到低频，而且可以是不等带宽的、包含了信号真实物理信息、能够反映信号内部波动性的分量，把所得的各阶分量称为IMF分量.这些IMF分量满足：在一完整的数据段内，极值点和过零点的数目必须相同或至多相差1；信号关于时间轴对称，即无论信号处于哪一时刻，由其局部极大值构成的上包络和局部极小值构成的下包络的平均值为零[22-23].具体分解步骤如下.

1) 确定信号x(t)所有局部极大值点，利用3次样条曲线连接所有局部极大值点，形成上包络.

2) 确定信号x(t)所有局部极小值点，利用3次样条曲线连接所有局部极小值点，形成下包络.

3) 计算出上、下包络线的均值，记为m1：x(t)-m1=h1.理想的，如果h1满足IMF的两个条件，则h1就为x(t)的一个IMF.

4) 若h1不是x(t)的一个IMF，则把h1作为原始信号，重复步骤(1)～(2)得到上下包络线的新的均值m11：h1-m11=h11.

判断h11是否满足IMF条件，如不满足，则再重新循环k次，有h1k-1-m1k=h1k.使得h1k满足IMF条件，令c1=h1k，c1即为信号x(t)的第一个IMF.

5) 将得到的c1从x(t)中分离出来，有r1(t)=x(t)-c1(t).

把r1(t)作为原始信号，重复步骤(1)～(4)可得到信号的第2个IMF：c2.往复循环n次，就可得到属于x(t)的n个IMF，同时：

2.2 基于相关系数原理的虚假IMF分量的剔除

虚假IMF是原信号在EMD自适应分解时产生的，不能体现信号的真实成分，会对原信号的分析造成一定的影响.相关系数可以反映分解得到的各阶IMF与原信号的相关程度，通过设定阈值来剔除虚假IMF分量.相关系数的定义为

其中：c为矩阵[x,IMF]的协方差矩阵；x(t)为原始信号.

下面以一仿真信号为例说明，仿真信号x(t)为

x(t)=(1+0.8sin (2π·6.5t))cos (2π·30t+0.6sin (2π·10t))+sin (2π·100t).

图1 仿真信号x(t)波形Fig.1 The waveform of emulation signal x(t)

设置采样频率fs=1 000 Hz，时间t在[0,1]间以0.001等间隔取点.仿真信号x(t)波形如图1所示.该信号由一个100 Hz的正弦信号和基频为30 Hz、调制频率为10 Hz的调幅信号叠加而成.其调幅部分的幅值为a(t)=1+0.8sin (2π·6.5t).所以有0.2≤a(t)≤1.8.

接着对调频部分分析，对t求导得到角频率

60π+12πcos (20π·t).

(2)

对x(t)进行EMD处理，可得到8个IMF分量和1个余项.如图2和图3所示.

图2 x(t)经EMD处理后的结果Fig.2 The results of x(t)obtained after EMD processing

表3 各阶IMF与原信号的相关系数

IMF1和IMF2分别对应着信号100 Hz的正弦成分和调频调幅成分，对应x(t)的解析式可发现IMF3至RES均为多余分量.这是由于EMD在分解时采用3次样条差值方法造成的.求取除余项外各阶IMF与原信号的相关系数，见表3.可以发现，IMF1和IMF2与原始信号的相关系数明显大于其余IMF与原信号的相关系数.在这里，设定阈值为0.2.即当IMF与原信号的相关系数大于0.2时，该阶IMF为真实分量，否则该阶IMF为虚假分量.对该较为复杂的仿真信号的分析表明，原信号与其经EMD处理后得到的IMF的相关系数可以在一定程度上判别真实IMF与虚假IMF.

将虚假IMF分量剔除后，对前两阶IMF合成Hilbert谱和边际谱，如图3和图4所示.从谱图中可以清晰地反映出信号的真实成分：信号由100 Hz正弦信号和调频调幅信号叠加而成，调频调幅部分的幅值波动范围在0.2～1.8，频率范围在24～36 Hz.

图3 真实IMF合成的Hilbert谱Fig. 3 Real IMF synthetic Hilbert spectrum

图4 真实IMF合成的边际谱Fig.4 Real IMF synthetic marginal spectrum

3 基于改进EMD的模糊熵算法

上述对3种熵的分析证明了模糊熵具有更好的性能和实用价值.改进的EMD方法可以将信号自适应分解到不同的频段上，使信号成分在真实IMF分量中得到更好的体现.本节将改进的EMD方法与模糊熵算法进行有机的结合，即对原信号进行EMD分解，运用相关系数法筛选出真实IMF分量，求出每一阶真实IMF分量的能量百分数.计算每阶IMF的模糊熵与能量百分数的乘积，最后通过加权平均得到最终的模糊熵值.

下面在式(1)所表示的仿真信号中选取3个有代表性状态，即时间序列极度混乱(a=0.1)、较为混乱(a=0.5)和几乎不混乱(a=0.9)状态，在这3种情况下改进EMD方法的模糊熵值见表4.

从总体上看，相比于表1中a取0.1、0.5和0.9时模糊熵的值，3种不同状态下的加权模糊熵值间的差距要大于模糊熵值.这说明用改进EMD方法求出的加权模糊熵值能更好地区分出不同状态下仿真信号混乱程度的差异.

对以上3种不同状态下的仿真信号分别求取30次加权模糊熵和模糊熵，计算出两种熵值的标准偏差，如表5所示.