EMD方法在高频数据去噪中的应用
2013-10-10宋国锋董小刚秦喜文
宋国锋, 董小刚, 秦喜文
(长春工业大学 基础科学学院,吉林 长春 130012)
0 引 言
在很多实际问题中,由于数据本身的问题或者人为因素的影响,数据既是非线性又是非平稳的,在高频数据中尤为如此[1-3]。而经典的传统数据处理方法,有的仅仅能处理非线性的信号,有的适用于处理非平稳的信号,但是在这种既是非平稳又是非线性的信号面前往往显得无能为力。经验模态分解方法(简称EMD)适用于这种数据的预处理。在将原始信号进行EMD分解之后,很多信号分析方法就可以很好地应用了。EMD方法在提出之后得到了发展[4-6]。
通常EMD方法把原始信号分解为有限个信号,这些信号称为本征模态函数(Intrinsic Mode Function,IMF),这些IMF分别表示信号内在的不同的频率和不同的时间尺度。通过对这些IMF的分析,进而实现对非线性非平稳数据的分析。由于高频数据受到各种干扰因素的影响,会出现波动剧烈、个别值离散等异常现象,传统的处理高频数据的方法无法从各个层面上良好地解读高频数据异常值的成因,通过EMD方法可以把高频数据进行分解,把噪声剥离出来,更好地解释和分析高频数据[7]。
文中用EMD方法分析高频数据,减小高频噪声[8]。首先对高频数据进行EMD分解,然后剔除高频噪声,再重新构造出信号,从而根据重新构造出来的信号分析原始信号的一些本质属性,更好地进行估计和预测。
1 EMD方法
1.1 特征时间尺度
通过信号的两个基本参数研究一个信号的特征:也就是频率和时域。参数频率可以反映出信号的本质特征,但是缺点是不够直观。相比之下信号的时域观测较为直观,可以得到信号的类似频率的特征,这就是特征时间尺度。大的频率与小的时间尺度相对应,小的频率与大的时间尺度相对应,可见频率与时间尺度是相关的。时间尺度参数是用来描述信号本质特征的参数。对于非平稳的信号,若要研究它的本质特征,可以从它的时间尺度入手。
对于任意一个信号x(t),可以由零点定义该信号的时间尺度参数,若
满足上式的时刻t为该信号的零点,可以通过相邻零点的时间跨度来定义零点时间尺度。
另外,也可以通过极值点定义时间尺度,这种方法是通过信号的极值点来确定时间尺度的,即若
满足式(2)的t值就是极值点,而极值点间的时间跨度就是极值时间尺度。
由于想讨论的是信号的局部情况,所以无论使用哪一种时间尺度参数,研究相邻的特征点都是很重要的。要想得到一个复杂信号的零点是十分困难的,因此通常采用极值尺度参数。不管所要分析的这个复杂信号是否过零点,时间尺度参数都是描述模态函数时间跨度的量,它是从某一个极小值(或极大值)到另外一个极小值(或极大值)的。
1.2 本征模态函数
EMD方法中需要定义本征模态函数(IMF),它是一类具有瞬时频率的信号,同时它在每一个时刻频率是唯一的。一个本征模态函数满足以下两个条件:
1)在所有样本高频数据集内,零点的数量必须和极大值或者极小值点的数量一样,或两者相差最多不过一个。
2)任意时间内由样条插值得到的上、下包络线局部上来看是关于时间轴对称的,即均值为零。
以上两个条件保证了瞬时频率有意义,本征模态函数反应出信号本身的波动性,使得每个周期上只有一种波型。本征模态函数的零点数和极值点数相同,所以从波形图上来看,类似于将一个标准正弦信号通过调频和调幅得到新信号图形。
1.3 EMD方法——“筛分”过程
首先提出这样一个假设:无论信号是平稳的还是不平稳的,线性的还是非线性的,每一个复杂的信号都可以把它看成是几个本征模态函数构造出来的,这些本征模态函数零点和极值点的数目是一样的,在两个相邻的零点间只有一个极值点,而且通过拟合得到的上下包络线是关于时间轴对称的,这些IMF都是彼此正交的。有限个本征模态函数可以合成任何复杂的信号。若初始的信号满足本征模态函数条件,就直接用信号处理方法作用于该信号上,可以得到瞬时频率解析图。若初始信号不是一个本征模态函数,则采用EMD方法将收集到的高频数据分解为若干个本征模态函数和一个趋势项,然后再使用信号分析的方法,基于以上思想,用EMD方法对一个时间序列x(t)进行分解的步骤如下:
1)首先找出所获得数据的所有的极大值点和极小值点,然后采用三次样条插值的方法将获得的这些极大值点连接起来形成上包络线,同理得到下包络线,则所有的数据都位于上下包络之中,这也是包络一词的来历。
2)求出上下包络的均值m1,用原始时间序列x(t)减去这个平均值m1得到h1
判断h1是否满足IMF的两个条件,若满足则得到了第一个IMF分量。
3)若h1不满足IMF的两个条件,把h1看作原始数据,再次执行以上的两个步骤,得到新的均值m11,再由h11=h1-m11得到h11,若h11满足IMF的两个条件,则h11为第一个IMF分量;若h11不满足两个条件,则将此方法继续如上步骤2)的处理,直到做了k次处理,由h1(k-1)-m1k=h1k得到h1k,直到h1k满足IMF的两个条件为止。此时令C1=h1k,则C1是信号x(t)的第一个IMF分量。
4)从x(t)中将C1分离出来,得到r1
将r1作为新的原始数据,重复进行以上3个步骤便得到x(t)的第二个分量C2,经过n次处理,如此重复下去,便得到n个分量,即
这里需要一个结束循环的条件,即再得到的分量是不满足IMF条件,而是一个单调的函数或者常数。可以通过式(4)和式(5)将初始信号x(t)分解成如下形式:
式中:rn——趋势项。
EMD分解是一个将数据一层一层的根据其本质特征筛分过程,因此可以把EMD分解方法看成是一个滤波器。经过这样的分解,模态波形会变得对称。这些特征时间尺度Ci是依次按照由小到大分离出来的,而频率则是从高到低的。
2 高频数据的处理与结果分析
2.1 数据处理
高频数据具有数据时间间隔不等、数据时间间隔小、数据量大等特点。我们用EMD方法来分析高频数据的时频特征。选取从2010年5月27日13时至2010年5月27日15时两个小时股票代码为SH600383的实时价格组成的高频数据来进行EMD分析。该高频数据的时间间隔小于8s,记录的笔数为1 404。
将这笔数据首先用Matlab绘图,得到价格相对于时间的图像,如图1所示。
从图1可以看到,该信号没有什么规律可循,并且信号是非平稳、非线性的。
将该股票价格的高频数据进行了EMD处理,得到了7个IMF曲线,如图2~图8所示,图9为趋势项,它们的时间尺度从小到大,频率从高到低。
图2 IMF1
图3 IMF2
图4 IMF3
图5 IMF4
图6 IMF5
图7 IMF6
图8 IMF7
图9 趋势项r7
由于IMF的分解过程是按照频率从高到低的,所以IMF1,IMF2,IMF3为高频的噪音项,把该3项去掉后,由IMF4,IMF5,IMF6,IMF7这4个本征函数和趋势项r7来重构的信号如图10所示。
2.2 结果分析
原始数据组成的信号图1中,我们看到的信号能量波动没有任何规律可寻,并且看不出来任何趋势,而进行IMF分解后,得到了7个IMF以及一个趋势项,图2~图9中,我们看到每一个IMF近似于某一周期的正弦曲线,在图6~图8中,这种类似正弦曲线的周期性表现的尤为明显,而图2~图4则是高频的噪音项,波动都是十分细小的,图9趋势项r7则显示出了原始数据的波动趋势。与原始信号相比,将前3项高频噪音项剔除之后,使用后4个IMF与趋势项r7重构而成的信号曲线(见图10)更加光滑,达到了去噪的目的,且在很多部分都能清晰地看出大概的价格趋势。
图10 IMF4+IMF5+IMF6+IMF7+r7
3 结 语
实际上EMD方法由黄锷博士提出,并且在EMD方法的基础上使用了Hilbert变换,由此两大步骤构成了Hilbert-Huang算法,是处理非平稳非线性的时间序列的有效工具,很多人在此之后针对Hilbert-Huang算法的某些不足,将此方法进行了相应的改动,使得可以更好地处理非线性、非平稳的时间序列[9-11]。
将EMD方法应用于高频数据,将这种非平稳、非线性的高频数据分解为几个有限的IMF,在信号重构后,可以使得信号更加的光滑,将这种自适应性分析方法应用于高频数据去噪处理,挖掘出更多信号本质的直观信息,为预测高频数据提供了必要的信息。由于高频数据的能量在一些频段很微弱,且不可避免存在人为干扰,所以,对高频数据进行EMD分析后重构这样的去噪预处理是非常必要的。
[1]常宁,徐国祥.金融高频数据分析的现状与问题研究[J].财经研究,2004,30(3):31-39.
[2]余德建,吴应宇,周伟,等.金融超高频数据研究新进展[J].华南理工大学学报:社会科学版,2011(2):9-13.
[3]郭兴义,杜本峰.何龙灿.(超)高频数据分析与建模[J].统计研究,2002,11:28-31.
[4]杜修力,何立志.经验模态分解(EMD)中边界处理的新方法[J].北京工业大学学报,2009(5):626-632.
[5]杨建文,贾民平.希尔伯特-黄谱的端点效应分析及处理方法研究[J].振动工程学报,2006(6):282-288.
[6]窦东阳,英凯.利用ARIMA改进HHT端点效应的方法[J].振动、测试与诊断,2010(6):249-337.
[7]应益荣,包郭平.金融市场高频数据分析的建模进展[J].五邑大学学报:自然科学版,2006(4):63-68.
[8]张翀.基于EMD去噪方法研究[J].电脑知识与技术,2010(35):195-197.
[9]N E Huang,Z Shen,S R Long.A new view of nonlinear water waves the Hilbert spectrum[J].Annu.Rev.Fluid Mech.,1999,31:417-457.
[10]N E Huang,Z Shen,S R Long.The empirical mode decomposition and Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proc.R.Soc.London,Ser.A,1998,454:903-995.
[11]Z K PENG.An improved Hilbert-Huang transform and its applifcation in vibtation signal analysis[J].Jounal of Sound and Vibration,2005,286(9):187-205.