基于经典和稳健方法的波士顿房价研究成果综述
2019-05-12王园园
摘要:利用波士顿房价数据,通过比较lm、lmrob、LMS和tau四种方法,重点是对经典估计方法和三种稳健估计方法进行分析,研究四种方法的差异及优劣,探讨在统计模型中,当实际观测数据偏离假设,在异常值不可避免的情况下,究竟是选择建立在某种理想分布基础上的经典估计理论模型,还是选择建立在符合数据实际分布基础上的稳健估计方法。
关键词:稳健估计;最小二乘法;M估计;MM估计;LMS估计
中图分类号:F222.1文献标识码:A文章编号:1008-4428(2019)03-0040-04
一、 引言
(一)研究目的
线性回归模型(Linear regression model)是统计中用来确定变量间相互依赖关系的基本模型,应用十分广泛。求解线性回归模型的经典方法是最小二乘法OLS(Ordinary Least sum of Squares),而最小二乘法的几个基础假设条件,其中之一为:随机变量服从正态分布。当观测数据不满足这些条件时,比如含有异常值(Outliers),估计结果会有很大偏差,甚至得出错误的结论。但是在实际观测中,异常值不可避免,观测数据大多来自中心分布的污染数据,这使得最小二乘法很不稳健。一般而言,这种情况下有两种选择:一是模型适合大部分数据,但是分布两端极不符合,二是模型适合全部数据,但整体拟合结果一般。简单地说,污染数据让准确估计完整模型非常困难,如果估计完整的模型是不可行的,退而求其次,寻求一个能准确拟合中心数据的模型,反而变得更可行。
更具体地说,鉴于一些观测值被污染,稳健估计方法试图估计参数的中心分布,利用接近中心的大多数观测来分析数据,不再试图估计所有数据的混合分布。本文最主要的实践是线性回归方程的估计。稳健估计是适应大多数情况的方法,比经典的方法受极端情况的影响要小。
本文数据来自波士顿住房价格数据,比较经典的方法与稳健估计方法对这一数据的拟合效果。首先,对极大似然估计法和M 估计(Maximum Likelihood Type Estimates)的位置参数及分布进行比较。其次,一些线性回归模型将采用经典的最小二乘估计(OLS)方法和稳健估计方法包括 MM 估计、最小中值平方估计(LMS)和 tau 估计。
(二)数据说明
本文所用的数据来自波士顿住房价格数据集,为1970年波士顿人口普查时506个人口调查区域的房屋数据,共12个变量。
二、 文献综述
(一)稳健估计发展
线性回归模型在科学研究和实践中应用非常广泛,并且取得了丰硕成果。它是许多模型的基础模型,它的理论成果以及实践应用会影响到其他一些复杂模型,因此,在统计模型中占有重要的地位。估计回归系数的经典方法是最小二乘法(OLS),然而最小二乘法很容易受到异常值的影响,是不稳健的。真实观测数据中,异常值很难避免,这时候利用最小二乘法进行估计,结果会比较差,进而使得预测结果也比较差,在一定程度上限制了线性模型的应用。因此探讨研究线性模型的稳健估计方法很有必要。
1953年,G. E. P. Box 首先提出 Robustness 概念。随后,J. W. Tukey, P. J. Huber 等人对参数稳健估计进行了有成效的研究。J. W. Tukey 反复研究传统统计方法的不稳健性,并确定了切尾均值及平均绝对离差等估计方法的优良稳健性。P. J. Huber 提出了一类未知参数的稳健估计方法——M 估计,并解决了相应的渐进极大极小问题。Huber 于 1973 年又将稳健估计方法推广到多维参数回归模型的参数估计问题。20 世纪 80 年代以来,Huber、F. R. Hampel 和 Rousseeuw 等人先后发表了很有影响的论著,为稳健估计理论奠定了基础。Huber 于 1981 年正式给出稳健估计定义,稳健统计学至此趋于成熟。截至今天,稳健统计已经取得了许多进展。在国内,许多学者比如陈希孺、赵林城等,在线性、非线性、部分线性模型以及稳健投影寻踪的 M 估计大样本特性方面取得了一系列成果。
在统计建模中,统计的结果既依赖于观测数据,又依赖于我们对所研究总体的一些特定的假设,比如分布形式、独立性等。稳健估计旨在克服当观测数据显著偏离假设时,经典统计学所面临的一些困难。稳健估计是在异常值不可避免的情况下,通过选择适当的估计方法,尽可能减免未知量估计值受异常值的影响,得出正常模式下的最佳估计。穩健估计的目标如下:在假设的观测分布模型下,估计值应该是最优的或接近最优的;假设的分布模型与实际的分布模型差异较小时,估计值受异常值的影响较小;假设的分布模型与实际的分布模型偏离较大时,估计值也不会受到破坏性影响。
在实际应用中,观测数据往往会偏离假设。经典估计理论是建立在某种理想的分布基础上,而稳健估计方法是建立在符合数据实际分布的基础上。这是经典估计和稳健估计理论的根本区别。在经典估计方法中,当观测数据不满足假设条件,比如含有异常值时,估计结果就会受到坏的影响,甚至得出完全错误的结论,而在实际观测数据中,异常值是不可避免的,这就说明经典的估计方法不稳健,适应性不好。所以,在实际统计分析问题中,研究者就要做出权衡,是选择一个理想状态的模型,适合所有的数据,但是不稳定,易受异常值的影响;或选择能够很好的拟合大多数数据,受异常值影响较小的模型。
实践表明,严格服从于某一特定分布的观测数据是不存在的。稳健估计理论假定数据来自污染分布,即大多数的数据是来自于所谓的中心分布,而小部分数据来自某些污染分布。稳健估计对所研究的对象假定一个模型,这由中心分布来表示:同时,稳健估计又允许实际问题仅仅是近似服从此模型。稳健估计要求在假定模型下,估计性能良好,同时,在模型附近,估计值性能稳定。基于上述优点,稳健估计方法已经在实际数据分析中有了广泛的应用。更具体地来说,稳健估计根据实际观测数据,估计前面我们所介绍的中心分布中的参数。在线性回归方程估计问题中,我们利用稳健估计方法得到的结果与经典估计得到的结果相比,受异常值的影响更小。
以往的住房数据研究,一般采用经典的统计方法,例如最小二乘法。但是由于住房数据价格的区间比较大,易出现极端值,如果用经典估计方法,得到的分析结果不稳定,易受异常值的影响。为了克服这一缺陷,本文用稳健估计方法对其进行研究,得到的研究结果与经典估计得到的结果相比,更加稳定。
本文基于波士顿住房数据,分别用经典估计方法和稳健估计方法对其分析,比较两种方法的区别以及优劣。首先,分别用极大似然估计和 M 估计对波士顿住房位置和分散程度进行分析,并比较二者区别。然后,用经典最小二乘法和稳健估计方法(包括 MM 估计、LMS 等)对线性回归方程进行拟合,比较经典估计和稳健估计的区别,并将二者的差异用不同的图形和表格呈现。
(二)模型简介
假设一个回归模型中包含有p个解释变量和一个截距项,我们可以将其表示成:
可以看出,MEDV的密度函数是厚尾的,同时从箱线图中可以看出,有相当多的取值极大的异常值。显然,ML估计受到异常值的影响是远大于M估计的。
四、 MEDV 的线性回归模型
(一)两个简单的回归模型
在这一部分中,我们将前面所讨论的4种方法应用到两个简单回归模型的拟合回归中。这里所说的简单回归模型,是指只包含一个解释变量和一个截距项的模型。为了更加形象化,我们在二维坐标轴中画出回归直线。这种方法可以直观地看到,稳健估计法试图很好的拟合大多数的数据,而不是试图拟合所有的数据。这两个模型如下所示:
(二)多元回归模型
现在考虑对全模型使用以上四种不同的估计方法。表1中的两个变量INDUS 和CHAS未使用,是因为运行结果显示这两个变量的系数不显著。因此,这里的全模型是指:
图5显示稳健估计方法在残差中有更多的异常值,同时在标准化残差下,稳健估计方法的残差明显比最小二乘法的残差集中,这表明可以通过改变一些变量或增加更多的变量来改善模型。显然,数据集有很多的异常值,这导致经典最小二乘法和稳健估计方法的估计结果相差很大。这意味着我们应该努力建立一个有用的模型来预测响应变量。例如,如果首要目的是预测未来的情况,而不考虑极端的情况,那么用稳健估计会更合适。
2. 多發事件预测
用弃一法交叉验证估计每个模型的绝对预测误差(Absolute PredictionError,APE)。图6为四种方法的绝对预测误差的密度分布。可以看出,稳健估计方法的绝对预测误差密度分布在尾端比最小二乘法的绝对预测误差密度分布更长、更厚。此外,稳健估计方法的密度分布更向右倾斜,换句话说,更集中在较低的值。从这次比较来看,稳健估计方法在预测多发数据时表现得比最小二乘法好,但是当有极端情况存在,稳健估计方法表现得不太理想。
如上所述,如果预测多发事件是目标,稳健估计方法应该会更好。因此,可以找出会导致稳健模型的残差出现异常值的事件,并将它们看作污染的数据。
在交叉验证中,利用四个模型仅对多发事件进行回归的绝对预测误差来评价模型的预测结果。因为都是非样本绝对预测误差,所以这等价于一个模拟过程,其中数据是被污染的,目标是利用这些数据建立一个模型来尽量准确的预测未来的多发事件。结果如表4:
五、 总结
样本均值通常是一个有着欺骗性的统计数据,因为即使是很少的极端值也会对它产生很大的影响。标准差也是如此。另一方面,用M估计来估计位置,用MAD来估计分布是稳健的。这不由得使我们想起在新闻和报纸中提到的平均工资、平均住房率等数据,显然,对一个变量,平均不是最可靠、最有代表性的信息。
毫无疑问,稳健估计方法不局限在估计位置和规模上。这个项目比较了三种线性回归的稳健估计方法和经典最小二乘法。在简单回归实验中,三种稳健估计方法回归线的斜率都比最小二乘法的要小,这表明稳健回归线更适合多发数据,而最小二乘回归更适合包含极端值的全部数据。在多元回归实验中已经证明,虽然稳健估计方法的绝对预测误差可能比最小二乘法的大,但是在只估计中心数据时,稳健估计方法一般完成得更加出色。
参考文献:
[1]D. Harrison, Jr. et D. L. Rubinfeld: Hedonic housing prices and the demand for clean air[J]. Journal of Environmental Economics Management,1978,5(6):81-102.
[2]P. J. Huber: Robust Estimation of a Location Parameter[M]. New York Springer,1992.
[3]P. J. Huber: Robust statistics[M]. Wiley,2009.
[4]M. Salibian-Barrera, G. Willems et R. Zamar: The fast-tau estimator for regression[J]. Journal of Computational Graphical Statistics,2008,17(3):659-682.
[5]V. J. Yohai: High breakdown-point and high efficiency robust estimates for regression[J]. Annals of Statistics,1987,15(2):642-656.
[6]R. H. Zamar: Robust regression.
[7]茆诗松.高等数理统计[M].北京:高等教育出版社,1998.
作者简介:
王园园,女,河北衡水人,中央财经大学硕士研究生,研究方向:数理统计。