时间序列周期性检验方法研究进展
2013-12-04中山大学公共卫生学院医学统计与流行病学系510080张晋昕
中山大学公共卫生学院医学统计与流行病学系(510080) 周 倩 张晋昕
时间序列是按时间顺序根据一定采样间隔对客观事物进行动态观察得到的一组数据,由于每次采样存在随机因素的作用,各次观察指标都是随机的,因此时间序列被称作随机过程的一次样本实现。周期成分常常是一个时间序列具有的特征,如生物医学信号处理中的心电图、脑电图、医院月度门诊量等都具有一定的周期性。准确地把握时间序列的周期特征对于揭示动态数据蕴含的客观信息具有重要意义。一方面通过检测序列所具有的真实周期,用于序列的信息特征分析;另一方面,一些研究不局限于发现序列的周期成分,而是进一步利用具有周期特性的时间序列作为前提进行预测与预报、检测不规则波动、发现序列异同、判断移动假日效应等〔1〕。
时间序列通常由丰富的信息叠加而成,如序列按照时间变化的趋势、序列的周期或者季节波动、序列的随机波动等。具有明显周期成分的时间序列也会在图中显示出周期性质来,但时间序列的一些周期信息常常蕴含于序列内部,通过肉眼对时序图的判读不能发现它,需要通过特定的方法将这种周期信息提取出来。早在1929年统计学家Fisher就对时间序列周期性检验方法进行过研究〔2〕,他运用傅立叶变换获得时间序列周期图并提出基于周期图法的Fisher g统计量用于检测周期图峰值,并判断序列是否存在周期成分,该方法被研究者广泛引用〔3〕。但时间序列有不同特点,如序列长短不同、背景噪声大小不同,这些都在一定程度上影响了Fisher方法的周期性检验效果〔4〕;特别是针对取值为属性、类别的时间序列(定性时间序列),Fisher方法更是显现出较弱的检验能力。Stoffer等人〔5〕研究发现若将定性时间序列进行定量化处理,不同的量化方式会影响周期图的形式,从而对同一序列归纳出截然不同的周期特征。因此,有必要研究针对定性资料的时间序列周期性检验的方法。本文将对时间序列周期性检验方法进行综述。
定量时间序列周期性检测方法
1.傅立叶变换周期图检验法改进
定量资料周期性检验方法以傅立叶变换后周期图Fisher g统计量检验为主,但是g统计量只能检测出时间序列周期图有统计学意义的最大峰值,Whittle将其推广到检验第二大峰值g2;Granger和Rosenblatt进一步推广到检验第r大峰值gr,这样就可以依次检测出多个周期成分〔6〕。此外 Chin(1989)〔7〕、Liavas(1998)〔8〕等人也基于周期图各自构造了不同的统计量用于检验时间序列的周期性。检验统计量的重新构造为应用者提供了有力的周期图峰值检验工具,但是构造的统计量需要推导其概率分布或者给出计算P值的方法,理论性强,因此只在数理统计领域有所使用。
周期图Ij在统计量的构造中起着重要的作用。周期图Ij是功率谱f(λ)估计的一种,并且是f(λ)的渐进无偏估计,不是一致估计,即当N→∞时 E(I(λ)-f(λ))2不趋于0。改进功率谱估计方法,利用谱窗周期图估计、时窗周期图估计、平均周期图法等,是周期性检验过程中采用较多的一系列改进尝试〔3〕。
2.小波分析法
近年来,小波分析在信号分析、图像处理、语音识别等领域的广泛应用推动了其数学理论的发展,小波函数的形式越来越丰富。小波分析基于小波函数,它能够探索周期的局部变化。Benedetto等(1998,2002)〔9〕用基于小波变换的算法来检测心电图、脑电图周期成分。Broutin(2005)〔10〕对21个国家的百日咳数据进行小波分析探讨发病的周期特点。
小波分析与傅立叶分析适用范围最大的不同在于前者对于分析非平稳时间序列周期性有较好的效果。〔11〕傅立叶分析方法在处理复杂分布的时间序列时不适用,因为它不能考虑序列周期行为的变化即序列的非平稳性。小波分析对于识别随着时间推移序列周期的局部变化比较适合,除了可以提取时间序列的周期信息外,还能够提供周期成分随时间变化的演变过程。如决定序列的周期成分是不是在某变异发生前后有变化。Yi等(2010)〔12〕、George 等(2010)〔13〕、Ruhua等(2010)〔14〕基于小波变换的方法进行改进提出新的分析方法以及算法来实现对不同特征时间序列周期成分的检测,大大推进了非平稳时间序列周期性检验技术的发展。此外,当序列长度较短、噪声不明确时,Fisher统计量的检验效能较低,因此 Alan(2009)〔15〕、Ptitsyn(2006)〔16〕、Tominaga(2010)〔17〕等人讨论了针对短序列的周期性检测改进方法,Miew(2006)〔18〕、Niemisto(2007)〔19〕等人提出了针对噪声的周期性检测改进方法,这些方法在特定的序列如基因表达水平时间序列中的应用取得了较好的效果。贝叶斯方法在定量时间序列周期性检验中的应用也在不断发展〔20〕。现代谱估计方法如最大熵谱估计法,为克服经典谱估计检验效能的不足,近年来也运用到周期性检测〔21〕。
定性时间序列周期性检测方法
定性时间序列又称分类时间序列,是指观测值的取值范围为有限状态空间的时间序列,其取值只能表示状态或者类别。定性时间序列广泛存在于各个领域,图1是一个定性时间序列实例,该序列记录了一个正常足月婴儿的每分钟睡眠状态,共128分钟(睡眠状态包括六类:①轻度睡眠-微量交替,②轻度睡眠-高压,③中度睡眠,④活跃睡眠/REM-低压,⑤活跃睡眠-混合型,⑥清醒)。将各个状态赋值是为了描述的方便,每个状态取值可以是任意的,如果在当前赋值下进行傅立叶分析则只能测得这一种情况下序列的周期性,当赋值改变以后傅立叶周期图也将随之改变。此外,傅立叶变换将序列分解为不同正弦波之和,但从波形分解的角度看定性时间序列实际上是由不同于正弦波形的直方波型叠加而成,Stoffer等人〔22〕通过对图1所示分类时间序列研究发现,如果对其进行傅立叶变换周期图分析,只能发现一个长度为45分钟的周期,而该序列从实际意义的角度看还存在一个长度为9分钟的周期。这说明傅立叶分析对定性时间序列周期信息挖掘不充分,这将严重影响人们对定性时间序列结构的认识和以之为依据的后续研究。因此定性时间序列的周期性检验不能直接运用定量资料时间序列周期性检验的办法,需要寻找更适合的检验方法,但可以借鉴用于定量时间序列周期性检验方法的原理。
图1 正常足月婴儿睡眠状态时间序列图
1.谱封(spectral envelop)分析法
定量资料的时间序列分析采用傅立叶变换转为频域正弦波的叠加,得到傅立叶周期图。定性资料时间序列的频域分析则最早由 Stoffer等人(1991,1998)〔5,23〕进行系统研究,并提出谱封分析法用于检测平稳、定性时间序列的周期性。
将定性时间序列变换为与多元时间序列相联系的数值序列,进而应用傅立叶分析进行周期性检验是该方法的出发点。由于对定性时间序列不同类别赋值不同会导致周期信息发生改变,该方法提出在各个频率下探讨所有赋值方式的功率谱,其最大功率所占全部功率的比例即谱封,如果超过给定界值,则认为其对应赋值下的序列存在此频率的周期信息,于是基于所有可能赋值方法找到序列潜在的全部周期。由于该方法包罗了序列全部赋值情况下任何可能的标准功率谱,因此被命名为谱封分析法。尽管定性时间序列仍然是一维时间序列,但是谱封法首先不是对序列赋值而是对序列进行指示向量变换,即将每个类别独立成一个取值为0、1的时间序列,根据类别数最终将一个定性序列变换成类别数减1的多维0-1变量时间序列。然后运用该多维序列的功率谱密度作为媒介求出每个频率下的最优赋值组合。该方法对基因碱基序列bnrf1ebv(EBV)数据进行了检验,发现在长度为4000的序列上有且只有一个3的周期,并给出了其对应的赋值。根据谱封分析法思想,对原始序列进行此赋值后进行傅立叶分析即可发现这个周期,且进行任何其他赋值将无法找到周期。
2.小波分析法
由于功率谱分析法要求定性时间序列是平稳的,但是对于长时间序列,特别是DNA序列,除了考察整个序列的周期性外,还需要检测局部周期信息,这些周期信息可能会暗示序列潜在的结构规律,功率谱分析则无法达到此目的。Wang(2002)〔24〕等人在此问题上提出解决非平稳定性时间序列的周期性检验方法。该方法运用谱封法的思想并结合小波分析用于非平稳序列周期性检验,产生功率谱图(spectragram)和尺度谱图(scalograms)用于检测定性时间序列的周期。
3.其他功率谱分析法
功率谱分析是最常用于检验定性时间序列周期性的有效方法。Berger(2003)〔25〕等人对三种功率谱分析方法进行了比较,它们是DFT(离散傅立叶变换)、WDFT(反常离散傅立叶变换)和 WHT(沃尔什变换)。用DNA序列进行分析发现由于WDFT允许频率分辨率不断增加,WDFT能够观察到DFT不能观察到的周期行为,而对于已知周期T=2的行为的DNA序列用WHT有较好的表现。
由于沃尔什(Walsh)函数更符合定性资料时间序列的波形特征,因此沃尔什傅立叶变换周期图检验法有较多的应用。沃尔什傅立叶变换利用沃尔什函数的特点(直方波且只取值1和-1)对进行指示变量变换后的定性时间序列进行谱分析,得到沃尔什傅立叶变换周期图(Walsh-Fourier periodogram,WFP)。参考定量时间序列周期图峰值检验的Fisher统计量检验法,McGee(1998,2007)〔26〕构造出多个用于检验沃尔什傅立叶周期图峰值的统计量,包括检验最大峰值及第k个峰值,来判断序列对应的周期是否为有统计学意义的周期。通过比较分析,证实各个统计量均有相近且不错的检验效能。
医学领域应用展望
时间序列周期性检验一直以来都很受研究者重视,特别是对生物医学信号处理中的心电图、脑电图序列,以及近年来研究的热点DNA碱基序列,其周期性特征为病因诊断、发现异常提供了有力支持。Stoffer(1988)〔27〕等人收集了24名新生婴儿的睡眠状态定性时间序列(12名来自母亲在孕期戒酒的婴儿总体(非暴露组),12名来自母亲在孕期适度饮酒的总体(暴露组))进行沃尔什傅立叶变换,比较暴露组与非暴露组平均沃尔什变换周期图,发现两组在小周期处差异有统计学意义,在大周期处未检出差异。暴露组与非暴露组睡眠周期的差异反映了婴儿中枢神经系统发育的不同;暴露组婴儿睡眠状态失调可能揭示多种神经递质的改变,提示母亲孕期饮酒可能影响婴儿神经系统发育。由于样本量不够大以及检验方法发现差异的能力不足,因此无法做出因果推断,需做进一步研究。
DNA序列不是严格的时间序列,但是从广义角度来看它具有定性时间序列的特点,因此常借助定性时间序列分析的方法。对DNA序列的周期性研究,是为了揭示序列结构和功能的特征,广泛的研究发现DNA序列普遍存在3的周期〔28〕,但不同的序列各自也存在特定的周期特点,并且对于非正常人某基因片段的周期性可能异于正常人,因此周期性检验特别是周期图可以为疾病诊断提供依据〔31〕。
时间序列周期性的挖掘在医学领域有着广泛的应用价值,我国一直少有该方面的深入应用研究,特别是对定性时间序列的研究有待加强。因此将该方法引入医学研究并对方法进行适当改进以适应医学时间序列的特点,为疾病诊断、病因探讨提供一种新的方法和思路是有价值的。
1.薛允莲,张晋昕.时间序列分析中的移动假日效应.中国卫生统计,2009,26(5):502-504.
2.Fisher RA.Tests of significance in harmonic analysis.Proceedings of the Royal Society of London.Series A,Containing Papers of a Mathematical and Physical Character,1929,125(796):54-59.
3.Ahdesmaki M,Lahdesmaki H,Yli-Harja O.Robust Fisher's Test for Periodicity Detection in Noisy Biological Time Series.Genomic Signal Processing and Statistics,2007.GENSIPS 2007.IEEE International Workshop on,2007,1-4.
4.Stoffer DS,Tyler DE,Mcdougall AJ.Spectral Analysis for Categorical Time Series:Scaling and the Spectral Envelope.Biometrika,1993,83(3):611-622.
5.Stoffer DS.Walsh-Fourier Analysis and Its Statistical Applications.Journal of the American Statistical Association,1991,86(414):461-479.
6.顾岚.时间序列分析在经济中的应用.北京:中国统计出版社,1994:306-309.
7.Artis M,Hoffmann M,Nachane D,et al.The detection of hidden periodicities:A comparison of alternative methods.Paper provided by European University Institute in its series Economics Working Papers with number ECO2004/10.
8.Liavas AP,Moustakides GV,Henning G,et al.A periodogram-based method for the detection of steady-state visually evoked potentials.Biomedical Engineering,IEEE Transactions on,1998,45(2):242-248.
9.Benedetto JJ,Pfander GE.Periodic Wavelet Transforms and Periodicity Detection.SIAM Journal on Applied Mathematics,2002,62(4):1329-1368.
10.Broutin H,Guegan J,Elguero E,et al.Large-Scale Comparative Analysis of Pertussis Population Dynamics:Periodicity,Synchrony,and Impact of Vaccination.Am.J.Epidemiol,2005,161(12):1159-1167.
11.Grenfell BT,Bjornstad ON,Kappey J.Travelling waves and spatial hierarchies in measles epidemics,2001,414(6865):716-723.
12.Yi H,Fan QB.An algorithm for the determination of multi-period structure of time series.Information and Automation(ICIA),2010 IEEE International Conference on,2010,1684-1689.
13.George T,Thomas T.Discrete wavelet transform de-noising in eukaryotic gene splicing.BMC Bioinformatics,2010,11(Suppl 1):S50.
14.Cai RH,Fan QB.Period analysis based on SVM and wavelet variance for time series.Intelligent Computing and Integrated Systems(ICISS),2010 International Conference on,2010,404-409.
15.Liew AWC,Law NF,Cao XQ,et al.Statistical power of Fisher test for the detection of short periodic gene expression profiles.Pattern Recognition,2009,42(4):549-556.
16.Ptitsyn A,Zvonic S,Gimble J.Permutation test for periodicity in short time series data.BMC Bioinformatics,2006,7(Suppl 2):S10.
17.Tominaga D.Periodicity detection method for small-sample time series datasets.Bioinform Biol Insights,2010,4:127-136.
18.Miew KC,Kong CL,Levy D,et al.Periodicity Identification of Microarray Time Series Data based on Spectral Analysis.Systems,Man and Cybernetics,2006.SMC.06.IEEE International Conference on,2006:1281-1285.
19.Niemisto A,Nykter M,Aho T,et al.Computational Methods for Estimation of Cell Cycle Phase Distributions of Yeast Cells.Journal on Bioinformatics and Systems Biology,2007,2007(1):46150.
20.罗同勇,周敦金,Sumi A,等.最大熵方法-功率谱密度分析法在时间序列资料研究中的应用.中国卫生统计,2010,27(5):477-479.
21.Andersson C,Isaksson A,Gustafsson M.Bayesian detection of periodic mRNA time profiles without use of training examples.BMC Bioinformatics,2006,7(1):63.
22.Stoffer DS.Walsh-Fourier Analysis and Its Statistical Applications.Journal of the American Statistical Association,1991,86(414):461-479.
23.Stoffer DS,Tyler DE.Matching sequences:Cross-spectral analysis of categorical time series.Biometrika,1998,85(1):201-213.
24.Wang W,Johnson DH.Computing linear transforms of symbolic signals.IEEE Transactions on Signal Processing,2002,50(3):628-634.
25.Berger JA,Mitra SK,Astola J.Power spectrum analysis for DNA sequences.Signal Processing and Its Applications.Proceedings of Seventh International Symposium on,2003:29-32.
26.McGee M.Tests for Multiple Peaks in the Spectra of Categorical Time Series.Communications in Statistics-Theory and Methods,2007,36(16):2891-2900.
27.Stoffer DS,Scher MS,Richardson GA,et al.A Walsh-Fourier Analysis of the Effects of Moderate Maternal Alcohol Consumption on Neonatal Sleep-State Cycling.Journal of the American Statistical Association,1988,83(404):954-963.
28.Papaspiridis AA.Frequency-domain analysis for intron prediction.Information Technology and Applications in Biomedicine(ITAB),2010 10th IEEE International Conference,2010:1-4.