计量视角下离群值识别法的研究综述与展望
2023-08-26范兴宇杨阳
范兴宇 杨阳
摘 要:随着大数据时代的到来,样本数据的容量日趋增大且内容愈发复杂,对实证研究的准确性形成了巨大挑战,而计量领域内基于样本数据的离群值识别和处理会减少实证研究中的偏差,有效提升其研究的准确性。本文梳理和评述基于不同类型样本数据模型和估计的离群值识别法,继而提出未来研究的展望。
关键词:离群值;模型;估计;时间序列;面板数据
中图分类号:O212 文献标识码:A 文章编号:1673-260X(2023)07-0004-06
1 引言
目前,对离群值的识别和处理的课题一直备受学者们关注,这是因为离群值会大幅恶化基于模型和估计的实证结果,使其出现严重的偏差和错误的预测。目前,离群值最常用的识别和处理方法有简单去除法和缩尾处理法。简单去除法是学者们根据数据本身的特征和直观意识来判断,将那些极值点(离群值)直接去除,以得到更稳定更有效的实证结果,但从统计学角度来说,该处理方式会对估计量造成较大偏差。另一种常用方法为缩尾处理法[1]。学者们用样本数据分位数的值替代极值点而不是直接去除,但这种对原始数据进行随意修改的方法会过多或过少的考虑离群值对实证结果的影响,使实证结果的误差更大。虽然学者们提出了很多离群值识别法,但仍未有获得学术界广泛认同的识别法,本文认为可能的原因是离群值的定义不同或离群值的识别方法不同。
对于离群值的定义[2],包括描述性定义和定量性定义。离群值的描述性定义主要有:离群值是极端值或是数据中的不具代表性的观测值。离群值的定量性定义主要有:离群值是数量值与数据集不一致的值,或是导致回归系数结果发生剧烈变化的观察值,或是超过样本数据平均值至少三个标准差的观察值,或是样本数据中大于样本数据1.5个标准差的观察值。
离群值具有较强的隐蔽性,即便在样本残差的散点图上它们也很难被发现。考虑到离群值会对实证结果产生较大偏差,离群值还可以分为X-轴离群值,Y-轴离群值和回归离群值[3],其中X-轴离群值为水平方向上与样本其他观察值存在较大差异的观察值,Y-轴离群值为垂直方向上与样本其他观察值存在较大差异的观察值,回归离群值为考虑某些观察值后会直接改变回归属性(正相关、负相关)的那些观察值。目前,学者们认定的极值点大多被认为是X-轴离群值或Y-轴离群值,而对于回归离群值研究较少。此外,有些观察值被认定为X-轴或Y-轴离群值,但实际上它们是回归离群值,即它们并不改变实证中的回归属性,如果它们一直被认为是离群值,会过多的考虑了离群值对实证结果的影响,使实证结果的误差更大。
随着大数据时代到来,数据样本愈加复杂,识别和处理不同类型数据模型和估计的离群值识别法是构建准确实证研究的前提,鉴于此,本文将讨论基于不同样本数据模型与估计的离群值识别法。学者们很关注时间序列数据和面板数据的离群值识别法研究,特别是时间序列数据,但对截面数据的离群值识别法研究甚少,如基于截面数据的四种离群值识别法[4],分别为反常结果判别法、跳跃度判别法、预测区间判断法和罗曼诺夫斯基准则判别法,且有学者给出稳健的基于横截面数据的离群值识别法[5],这是因为其与时间序列数据结构相似。
2 基于时间序列数据的离群值识别
基于时间序列数据的离群值识别法一直广受学者们的关注,主要包括直接算法和间接算法的离群值识别法。经典的最小二乘法对于离群值是非常敏感的,这是因为OLS估计对离群值识别具有较大缺陷,包括不是离群值的观察值被识别为离群值(淹没现象,如基于低密度正则性的离群值识别法等),和本是离群值但并不被识别到(掩盖现象,如基于Cook距离的离群值识别法等)。早期文献[6]将离群值定义为加性离群值(Additive Outlier, AO)和革新性离群值(Innovation Outlier, IO),其中加性离群值考虑的是孤立的极端点,而革新性离群值考虑的是连续的极端点。针对基于时间序列数据的离群值定义,很多学者都给出了卓有成效的研究成果。有学者将离群值分为均值漂移(Level Shift, LS)离群值、暂时变化(Transient Changes, TC)离群值和方差变化(Variance Changes, VC)离群值[7]。特别的,有学者将离群值分为X-轴离群值、Y-轴离群值和回归离群值[3]。
目前,基于时间序列数据的离群值识别法的主流算法包括两种方法,分别为直接算法[8,9]和间接算法[10,11]。这两种离群值识别法具有不同特点,其中基于直接算法的离群值识别法为使用合适的算法在实证研究之前识别离群值,而间接算法的离群值识别法为结合模型和估计法来识别离群值。具体而言,估计法有很多的,如L估计量(基于序次统计量的线性组合),R估计量(基于残差的秩序),M估計量(通过考虑残差的大小由位置的M估计扩展而来),GM估计(或者叫广义M估计量,通过给予高权势点和大残差点较小的权重对M估计量的扩展),S估计量(将残差尺度的稳健M估计最小化),MM估计量(基于M估计和S估计,具有更高的崩溃点和渐进效率)。当下,由于学者们未给予离群值足够重视,导致基于间接算法的离群值识别法的成果要比直接算法的成果更少。有学者指出,相比于基于直接算法的离群值识别法,间接算法的离群值识别法更为准确且更切合实际,这是因为基于直接算法的离群值识别法并不能有效准确的发现离群值,而基于间接算法的离群值识别法能准确科学的发现离群值,特别是回归离群值[12]。
2.1 基于时间序列数据间接算法的离群值识别
对于基于时间序列数据间接算法的离群值识别法,有学者提出了基于最小二乘估计的离群值识别法包括:最小绝对偏差估计法、M-估计法、LTS估计和S-估计[3],但这些估计需要进行很多次的迭代计算且耗时较多,会造成实证结果误差越大。
针对这些问题,很多学者提出了基于模型和估计的离群值识别法,代表性的成果主要有:基于自相关函数和偏自相关函数估计的离群值识别法[13];基于极大似然估计的离群值识别法[14];基于干扰模型的离群值识别法[15];基于ARMA模型的离群值识别法[16];基于IO、AO型离群值的识别法[17];基于稳健Cook距离的离群值识别法[18]。由于这些间接算法的离群值定义不统一,基于模型和估计的间接算法离群值识别法更是差别较大,导致实证结果的误差并不能有效解决,有待深入的研究和探讨。
2.2 基于时间序列数据直接算法的离群值识别
针对基于时间序列数据直接算法的离群值识别法,早期代表性成果主要有:通过比较时间序列数据中观察值的偏度和峰度来完成离群值的识别[19];定义与大部分观察值存在较大跳动的观察值为离群值[20];定义意外语义特征的观察值为离群值[21];定义样本中心点最小邻域外观察值为离群值[22]等,但当样本数据容量较大时,这些识别法均不够完善。
针对基于时间序列数据直接算法的离群值识别法,学术界中经典算法主要有:向前搜索算法[8]、影响矩阵算法[23]、聚类算法[24]、遺传算法[25]和迭代算法[26]。随着基于时间序列数据的模型和估计法日益复杂,基于复杂直接算法的离群值识别法的研究成果颇受学者们关注。目前,主流的基于时间序列数据直接算法的离群值识方法主要有:似然比检验法[27]、影响分析检验法[28]和残差检验法[29]。此外,还包括一些基于前沿技术的直接算法的离群值识别法,主要有:应用最小体积椭圆法和最大截然似然估计法来判断离群值[30];应用多维空间线性化模型来判定离群值[31];运用神经网络方法判定散射型数据的离群值[32];应用小波分析来判定离群值[33];应用新息异常值诊断[34]。由于离群值的定义千差万别且这些基于时间序列数据直接算法并不能完全有效识别离群值,致使实证结果依然存在偏差,值得更深一层的研究。
3 基于面板数据的离群值识别
相对于时间序列数据和横截面数据,面板数据的容量更大,包含的离群值数量自然更多,在原始样本中识别和处理离群值,继而得到可靠正确的实证结论值得进一步研究。离群值的识别和处理对获得准确可靠的实证结果是非常重要的,往往错误的观察值很容易被复杂的数据结构掩盖[35,36]。面板数据模型主要包括静态模型,动态模型,变系数模型和随机前沿模型,但当下学者们广泛关注的面板数据模型为固定效应静态面板数据模型和动态面板数据模型的离群值识别法。
3.1 基于固定效应静态面板数据模型的离群值识别
近年来,基于固定效应静态面板数据模型的主流研究是将离群值分为四类:垂直离群值,垂直集中块离群值,水平离群值和水平集中块离群值[37,38]。对于该模型的离群值识别法主要有:基于固定效应静态面板数据模型和工具变量估计法的两个离群值识别法(包括基于二阶段广义M估计的离群值识别法和基于GMM估计的离群值识别法[39]),但对包含异方差或自相关误差的估计并非适用;基于面板数据模型和估计的离群值识别法,这些估计包括修正的群内估计[40]、转化的广义矩估计[41]和修正过高置信度的估计[42],但当面板数据为非严格平衡时,该文提出的离群值识别法存在误差;基于面板数据模型和高崩溃值估计的离群值识别法[37],包括广义群内M估计和群内MS估计(MS估计[43]),但计算需要花费很长的时间,特别是当面板数据容量较大时,该问题更加凸显。
3.2 基于固定效应动态面板数据模型的离群值识别
基于固定效应静态面板数据的离群值识别法较多但并未得到学术界一致认可,而将滞后一期被解释变量作为解释变量的固定效应动态面板数据模型的离群值识别法就更值得学者们进一步研究。目前,基于固定效应动态面板数据模型和估计的离群值识别法主要有:采用分位数和工具变量估计的离群值识别法[44],但基于面板数据模型和工具变量估计的离群值识别法很容易产生误差;基于中位数的离群值识别法[45],但该法仍存在很大的偏差;基于有界影响函数的GMM估计的离群值识别法[46],但该估计的有效性要比差分GMM估计差;基于加权估计的离群值识别法[47,48],但离群值的度量尺度并不准确;基于改进型GMM估计的离群值识别法[49],但实证研究之前无法确定样本是否存在离群值,且当面板数据中无离群值时,改进型GMM估计的有效性要比差分GMM估计差。
随着面板数据容量的急剧增加和估计法的不断创新,学者们开始关注以更多的估计法来识别基于固定效应动态面板数据模型中的离群值。目前,基于复杂面板数据模型和估计的离群值识别法主要有:基于混合分数阶ARIMA模型的离群值识别法[50];基于复杂合适估计的离群值识别法[51-53];基于高崩溃值的最小协方差估计的离群值识别法[54,55];基于自组织映射与自适应非线性映射相结合的多元离群值识别法[56];基于对数线性模型和高拟合度估计的离群值识别法[57];基于最小模式的离群值识别法[58];基于复杂中位数估计的离群值识别法[59],其中观测数N较大且时间周期数T较小;基于改进型一阶或高阶差分GMM估计的离群值识别法[49,60]。虽然已有复杂的离群值识别法能有效发现离群值,但对于复杂的样本数据计算的时间会很久且难以出现较好的实证结果。
4 文献评述与展望
目前,学者们过多关注X-轴离群值,Y-轴离群值的研究,而对于回归离群值研究较少,但X-轴离群值或Y-轴离群值有时是回归离群值,它们不改变实证研究中的回归属性,不应在样本中被直接剔除致使样本数据容量进一步减少,这样会过多考虑了离群值对实证结果的影响,反而会使得实证结果的误差更大。
基于时间序列数据的离群值识别法存在两个不足之处,其一,很多学者都是以特定时间序列数据来分析离群值对实证结果的影响,但并不能推广到一般情况下离群值对估计结果的影响;其二,部分学者提出的离群值识别法仍解决不了离群值对样本的“污染”现象,包括“淹没”现象和“掩盖”现象,类似问题在横截面数据中也依然存在。
基于面板数据的离群值识别法存在局限性,一方面,基于固定效应静态面板数据模型的离群值识别法大多集中于研究合适估计方法来规避离群值对实证研究造成的偏差,但面板数据量巨大,处理数据时间较长,特别是在实证研究之前消除离群值对其影响,但会忽略实证研究背后的理论分析,往往会给其带来更大偏差。另一方面,基于固定效应动态面板数据模型的离群值识别法研究开始关注以更复杂模型或更多复杂估计的离群值识别法,但他们对离群值的定义较为模糊且判别尺度极为复杂,致使离群值识别的有效性不断降低。
雖然当前基于不同数据类型的离群值识别法研究中构建基于复杂模型和估计的离群值识别法成为主流研究方向,但从计量角度而言此类研究都存在缺陷和不足,无法得到广泛应用。因此,对于离群值的识别和剔除只有通过合适的模型和估计、不同的离群值判定尺度来实现,面对不同类型样本数据,才能较好的识别和剔除离群值,有效去除离群值对实证结果的影响,使其结果更可靠更准确。
随着数据样本逐步复杂,由时间序列数据、横截面数据到面板数据,实证模型日益多样,由静态模型转变为动态模型,本文提出未来需要研究的离群值识别法,该法基于固定效应面板数据模型,搜寻合适的估计和离群值判别尺度,进而得到更精确的实证结果。此外,对于面板数据模型的离群值识别法研究较少,特别是对于基于固定效应面板数据动态模型的离群值识别法还未得到进一步研究,以及它们对应的奇异信息对研究全球经济关系的影响都值得更深层次的探讨。
参考文献:
〔1〕Lee M., Karlsson M. Trimmed and winsorized semiparametric estimator for left-truncated and right-censored regression models[J]. Metrika, 2015, 78(04): 1-11.
〔2〕Hawkins, D. Identification of Outliers[M]. London: Chapman and Hall, 1980: 20-23.
〔3〕Rousseeuw P., Leroy A. Robust regression and outlier detection[M]. Wiley-Interscience, 2003: 17-19.
〔4〕杜聪慧,崔永伟,李子奈.基于数据统计诊断的截面数据诊断方法[J].统计与决策,2012,10(01):7-9.
〔5〕Hawkes N. Six hospitals are named as "outliers" for mortality rates[J]. The British Medical Journal, 2014, 348(312): 1252-1252.
〔6〕Fox A. Outliers in Time Series[J]. Journal of the Royal Statistical Society, 1972, 34(03): 350-363.
〔7〕Tsay R. Time Series Model Specification in the Presence of Outliers[J]. Publications of the American Statistical Association, 1986, 81(393): 132-141.
〔8〕Hadi A., Simonoff J. Procedures for the Identification of Multiple Outliers in Linear Models[J]. Publications of the American Statistical Association, 1993, 88(424): 1264-1272.
〔9〕Liang T., Cao C. Outliers detect methods for time series data[J]. Journal of Discrete Mathematical Sciences and Cryptography, 2018, 21(04): 927-936.
〔10〕张德然.统计数据中异常值的检验方法[J].统计与决策,2003,5(01):53-55.
〔11〕王志坚.一种GARCH模型异常值的稳健检测法及其应用[J].统计与决策,2020,36(10):41-44.
〔12〕Shen C., Luo F., Huang D. Analysis of earnings management influence on the investment efficiency of listed Chinese companies[J]. Journal of Empirical Finance, 2015, 34(01): 60-78.
〔13〕Masarotto G. Robust Identification of Autoregressive Moving Average Models[J]. Journal of the Royal Statistical Society, 1987, 36(02): 214-220.
〔14〕Abraham B., Chung A. Expecation-maximization algorithms and the estimation of time series model in the presence of outliers[J]. Journal of Time Series Analysis, 1993, 14(01): 221-234.
〔15〕Box G., Tiao G. Intervention Analysis with Applications to Economic and Environmental Problems[J]. Publications of the American Statistical Association, 1975, 70(349): 70-79.
〔16〕Bruce A., Martin R. Leave-k-out diagnostics for time series[J]. Journal of the Royal Statistical Society, 1989, 51(03): 363-424.
〔17〕王志堅,王斌会.时序IO与AO型异常值稳健联合检测法及其应用[J].统计与决策,2019,7(01):13-16.
〔18〕王志坚,罗舒琪,王斌会.基于稳健Cook距离的时间序列异常值诊断[J].统计与决策,2022,38(03):40-44.
〔19〕Huber P. Robust statistics: A review. The Annals of Mathematical Statistics, 1972, 43(01): 1041-1067.
〔20〕Wolfgang S. Properties and actions[J]. Natural Language and Logic, 1990, 459(01): 221-232.
〔21〕Angiulli, F., Ben-Eliyahu-Zohary R., Palopoli L. Outlier detection using default reasoning[J]. Artificial Intelligence: An International Journal, 2008, 172(16/17): 1837-1872.
〔22〕Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey[J]. ACM Computing Surveys, 2009, 41(03): 1-58.
〔23〕Pena D. and Yohai V. J. The Detection of Influential Subsets in Linear Regression by using an Influence Matrix[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1995, 57(01): 145-156.
〔24〕Sebert D. M., Montgomery D. C., Rollier D. A. A clustering algorithm for identifying multiple outliers in linear regression[J]. Computational statistics & data analysis, 1998, 27(04): 461-484.
〔25〕Cucina D., Salvatore A., Protopapas M. Outliers detection in multivariate time series using genetic algorithms[J]. Chemometrics and Intelligent Laboratory Systems, 2014, 132(01): 103-110.
〔26〕Srivastava M. and Rosen D. Outliers in Multivariate Regression Models[J]. Journal of Multivariate Analysis: An International Journal, 1998, 65(02): 195-208.
〔27〕Gupta M., Gao J., Aggarval C., Han J. Outlier Detection for Temporal Data: A Survey[J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(09): 2250-2267.
〔28〕Kannan K., Manoj K., Arumugam S. Outlier Detection and Missing Value in Time Series Ozone Data[J]. International Journal of Scientific Research in Knowledge, 2015, 3(09): 220-226.
〔29〕Seo H., Yoon M. A sequential outlier detecting method using a clustering algorithm[J]. Korean Journal of Applied Statistics, 2016, 29(04): 699-706.
〔30〕Yuen K., Gilberto O. Outlier detection and robust regression for correlated data[J]. Computer Methods in Applied Mechanics & Engineering, 2017, 313(01): 632-646.
〔31〕Militino A., Palacios M., Ugarte M. Outliers detection in multivariate spatial linear models[J]. Journal of Statistical Planning and Inference, 2006, 136(01):125-146.
〔32〕Bullen R., Dan C., Nabney I. Outlier detection in scatterometer data[J].Neural Networks, 2003, 16(03): 419-426.
〔33〕Grané A., Veiga H. Wavelet-based detection of outliers in financial time series[J]. Computational Statistics & Data Analysis, 2010, 54(11): 2580-2593.
〔34〕汪志红,王志坚,王斌会.时间序列新息异常值稳健诊断新方法[J].统计与决策,2022,38(23):34-37.
〔35〕Zaman A., Rousseeuw P., Orhan M. Econometric applications of high-breakdown robust regression techniques[J]. Journal of Econometric Letter, 2001, 71(01): 1-8.
〔36〕Verardi V., Wagner J. Robust estimation of linear fixed effects panel data models with an application to the exporter productivity premium[J]. Journal of Economic Statistics, 2011, 231(04): 546-557.
〔37〕Bramati M., Croux C. Robust estimators for the fixed effects panel data model[J]. Journal of Econometric, 2007, 10(03): 521-540.
〔38〕彭斌,李雯萱.固定效应面板数据模型中偏误更正的截面相关性检验研究[J].统计研究,2022,39(07):150-160.
〔39〕Wagenvoort R., Waldmann R. On B-robust instrumental variable estimation of the linear model with panel data[J]. Journal of Econometrics, 2002, 106(02): 297-324.
〔40〕Alvarez J., Arellano M. Robust likelihood estimation of dynamic panel data models[J]. Journal of Econometrics, 2021, 226(01): 21-61.
〔41〕Ronchetti E., Trojani F. Robust inference with GMM estimators[J]. Journal of Econometrics, 2001, 101(01): 37-69.
〔42〕劉鑫,王维国,马超,李晓华.四分之一轮换面板下的稳健估计方法[J].统计与决策,2022,38(02):21-25.
〔43〕Maronna R., Yohai V. J. Robust regression with both continuous and categorical predictors[J]. Journal of Statistical Planning and Inference, 2000, 89(1-2):197-214.
〔44〕董婉莹,肖燕婷.基于众数回归的变系数部分线性工具变量模型的稳健估计[J].数学的实践与认识,2023,2(01):195-206.
〔45〕Dhaene G., Zhu Y. Median-based estimation of dynamic panel models with fixed effects[J]. Computational Statistics & Data Analysis, 2017, 113(01): 398-423.
〔46〕Lucas A., Van Dijk R., Kloek T. Outlier Robust Gmm Estimation of Leverage Determinants in Linear Dynamic Panel Data Models[J]. Ssrn Electronic Journal, 1997, 9(01): 1-30.
〔47〕Cí?觩ek P., Aquaro M. Robust estimation and moment selection in dynamic fixed-effects panel data models[J]. Journal of Computational Statistics, 2018, 33(02): 675-708.
〔48〕吴浩,彭非.基于协变量平衡加权的平均处理效应的稳健有效估计[J].统计研究,2020,37(04):114-128.
〔49〕Aquaro M., Cí?觩ek P. One-step robust estimation of fixed-effects panel data models[J]. Computational Statistics and Data Analysis, 2014, 57(01): 536-548.
〔50〕Chen W. Detecting and identifying interventions with the Whittle spectral approach in a long memory panel data model[J]. Journal of Applied Statistics, 2008, 35(07): 879-892.
〔51〕Willems G., Joe H., and Zamar R. Diagnosing multivariate outliers detected by robust estimators[J]. Journal of Computational and Graphical Statistics, 2009, 18(01): 73-91.
〔52〕Riani M., Atkinson A., and Cerioli A. Finding an unknown number of multivariate outliers[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2009, 71(02): 447-466.
〔53〕龐智强,王朝旭,牛玺娟.基于γ散度的单元水平模型小域稳健估计[J].统计与信息论坛,2023,3(01):3-15.
〔54〕Cerioli A. Multivariate outlier detection with high-breakdown estimators[J]. Journal of the American Statistical Association, 2010, 105(489): 147-156.
〔55〕宋鹏,刘程程,胡永宏.稳健高维协方差矩阵估计及其投资组合应用——基于中心正则化算法[J].统计研究,2020,37(07):116-128.
〔56〕Yan X. Multivariate outlier detection based on self-organizing map and adaptive nonlinear map and its application[J]. Chemometrics and Intelligent Laboratory Systems, 2011, 107(02): 251-257.
〔57〕Rapallo F. Outliers and patterns of outliers in contingency tables with algebraic statistics[J]. Scandinavian Journal of Statistics, 2012, 39(04): 784-797.
〔58〕Kuhnt S., Rapallo F., and Rehage A. Outlier detection in contingency tables based on minimal patterns[J]. Statistics and Computing, 2014, 24(03): 481-491.
〔59〕曾鑫,吴刘仓,曹幸运.混合偏正态数据下中位数回归模型的参数估计[J].昆明理工大学学报(自然科学版),2021,46(03):167-174.
〔60〕刘冲,沙学康,张妍.交错双重差分:处理效应异质性与估计方法选择[J].数量经济技术经济研究,2022,39(09):177-204.