混合空间自回归模型的异常值检验

2015-04-25金立斌戴晓文

统计与决策 2015年1期

关键词：方差残差扰动

金立斌，戴晓文，石磊

（1.中国人民大学统计学院，北京 100872；2.云南财经大学统计与数学学院，昆明 650221）

0 引言

1 模型介绍及得分检验

1.1 混合空间自回归模型

其中，y为n×1的因变量，ρ为空间自回归系数，W为n×n的空间权重矩阵，X，β分别为设计矩阵及相应的参数向量。若In-ρW 可逆，其中In为n阶单位阵，若略去前面的常数项，模型的对数似然函数为

由于参数的ML估计无法得到明显的运算式，故只能通过迭代求解。

1.2 异常值模型

为识别混合空间自回归模型中的单个异常值问题，我们同时考虑均值滑动模型和方差加权模型。并最终对两种模型的异常值检验的结果加以对比。

对于混合空间自回归模型，加入均值扰动的异常值模型如下：

ω表示第i个点的方差权重，若ω显著不等于1，则说明第i个数据点有不同于其他点的方差，因而为异常点，该异常值的检验问题可以归结为如下假设检验问题：

1.3 得分检验

2 SAR模型异常值的得分检验

对于SAR模型的均值滑动模型和方差加权模型，由于其参数的极大似然估计一般只能通过迭代求出。因此，一种常用的方法就是采用Score检验。我们首先考虑均值滑动模型，此时，对数似然函数为

高强度钢筋的推广应用，既有利于推动钢铁行业的转型升级和产品结构调整，又能促进我国各类建筑和基础设施的质量升级，推动建筑业的技术进步和装备水平的提高，具有显著的经济效益和环境效益，这也是我国建筑业和钢铁行业可持续发展的迫切要求。

3 应用

若将定理1和定理2的结论应用于一阶空间自回归模型，即可得出一阶空间自回归模型的均值滑动模型和方差加权模型的单个异常值得分检验统计量。

3.1 一阶空间自回归模型

显然，FAR模型与SAR模型相比，缺少了Xβ这个线性回归部分，即前者为后者的设计矩阵X=0时的特例。同样，我们可以求得模型的对数似然函数

同样由于参数的ML估计无显式解，所以只能通过迭代求解。

3.2 FAR模型的异常值得分检验

4 实例分析

我们将用哥伦布市社区犯罪数据说明本文检验方法的应用，分别采用SAR模型和FAR模型对数据进行建模，再根据两个模型对数据进行异常值检验。在识别出异常点之后，我们根据异常值模型的假设和异常值的检验结果建立优化模型，通过对比优化模型和原模型的性质来说明异常值检验方法的有效性。

4.1 基于SAR模型的分析

利用本文提出的方法，根据定理1和2的结论可知，SAR模型的均值扰动形式和方差扰动形式的得分检验统计量都服从分布χ2()1。分别考虑有标识和无标识的异常值检验问题，主要结论如下：

下面我们开始对数据进行分析，针对SAR模型，图1给出了模型的标准残差图，可以看出某些数据点存在一定的异常。

图1 SAR模型观测数据的残差图.

图2 (a)均值漂移模型下异常值 (b)方差加权模型下异常值检验统计量检验统计量

对比这SAR模型的两种异常值模型的检验结果，我们发现虽然扰动方式不同，但是检验结果较为相似。此外，从图2可看出，方差加权模型在识别哥伦布市社区犯罪数据时较均值漂移模型更敏感。

下面根据SAR模型异常值检验的结果，建立修正模型，并将之与原模型相比来验证检验方法的有效性.这一方法已被一些作者采用。本文采用无标识的异常值检验结果进行分析。

根据图2(a)的检验结果，SAR模型的均值优化模型可记为：

λ1，λ2分别为第4和34个元素方差上的权重系数。

我们分别从残差的峰度、偏度和残差的Q-Q图这两种角度来对比原模型和修正模型，并分析这两个修正模型的性质较原模型是否存在改进。若修正模型相对于原模型存在改进，即根据异常值检验结果提出的修正模型性质上优于原模型，则说明我们的异常值检验方法是有效的。

图3 (a)原模型残差 (a)优化模型(16)残差 (b)优化模型(17)残差的Q-Q图. 的Q-Q图. 的Q-Q图.

而从Q-Q图角度来看，若数据严格服从正态分布，则这些概率点将形成一条直线；若点偏离直线，则正态性较为可疑。原模型（1）下的残差的Q-Q图如图3(a)所示，虽然大部分概率点围绕在拟合直线周围，但是存在一个显著的离群点.修正模型（16）和（17）残差的Q-Q图分别如图3(b)和3(c)所示，两者所有概率点都紧密围绕在拟合直线周围，消除了离群点。所以从Q-Q图的角度，我们也得出了修正模型（16）和（17）性质远远优于原模型（1）。

图4 FAR模型观测数据的残差图

综合以上两点，我们可以判定所采用的异常值检验方法是有效的，并取得了理想的效果。此外，修正模型（16）和（17）也为数据中存在的异常情况提供了一个有效的处理办法。

4.2 基于FAR模型的分析

若采用FAR模型对数据进行描述，可得模型的标准残差图如图4所示，也可看出某些数据点存在一定的异常。

FAR模型的两种扰动形式的得分检验统计量均服从分布 χ2()1。同样考虑有标识和无标识的异常值检验问题，取置信水平α=0.05，可得FAR模型的两种扰动模式的Score检验结果如图5所示。

图5 (a)均值漂移模型下异常值 (b)方差加权模型下异常值检验统计量. 检验统计量

FAR模型的均值漂移模型的得分检验结果如图5(a)所示：在临界值为3.84时，4，17，34号个体为异常值；而临界值为10.79时，只有4号个体为异常值.方差加权模型的检验结果如图5(b)所示，检验的结果都是4，17号个体被识别为异常值。上述FAR模型的两种扰动模型形式的异常值检验结果也较类似，且方差加权模型在该数据时较均值漂移模型更敏感。

同样，我们根据FAR模型异常值检验的结果，建立修正模型来验证检验方法的有效性。我们也采用无标识的异常值检验结果进行分析。

λ1，λ2分别为第4和17个元素方差上的权重系数。

同样，我们通过考虑残差的峰度、偏度和残差的Q-Q图这两种角度来对比原模型和修正模型，进而论证异常值检验方法的有效性。

图6 (a)FAR模型残差 (b)优化模型(18)残差 (c)优化模型(19)残差的Q-Q图. 的Q-Q图. 的Q-Q图.

对于FAR模型，计算得原模型残差的偏度和峰度为SK=-1.416，K=7.2936，而均值修正模型（18）中残差的SK=-0.4622，K=4.4334 ，方差修正模型（19）中残差的SK=0.3068，K=2.4451，两者在残差的偏度和峰度的性质都大大优于原模型，从而说明了我们的异常值检验方法的有效性。

原模型下的残差的Q-Q图如图6(a)所示，存在两个显著的离群点。修正模型（18）和（19）残差的Q-Q图分别如图6(b)和6(c)所示：修正模型（18）将原模型的离群值从两个减少为一个，改善了残差的正态性；而修正模型（19）所有点都紧密围绕在拟合直线周围。所以从Q-Q图的角度，我们也得出了修正模型（18）和（19）性质远远优于原模型的结论。

综合以上两点，我们也可以判定所采用的异常值诊断方法是有效的，并取得了理想的效果。此外，修正模型（18）和（19）为数据中存在的异常情况提供了一个有效的处理办法。

5 结论

本文研究了混合空间自回归模型的单个异常值检验问题，考虑均值滑动模型及方差加权模型，分别导出了得分检验统计量及近似分布，并将结论推广到一阶空间自回归模型。我们运用提出的方法对实例数据进行分析，分别在SAR模型和FAR模型下进行分析，并基于均值漂移模型和方差加权模型进行异常值的检验，最终都识别出了其中的异常点。最后，我们基于异常值检验的结果建立了相应的修正模型，并通过对比说明了所提出的方法的有效性。本文得出的一些结论，为该数据的进一步分析提供了重要的信息。本文的方法可以推广到SAR模型的多个异常值的检验，只是识别过程更困难，有待于进一步研究。

[1]Barnett V,Lewis T.Outliers in Statistical Data[M].New York：John Wiley&Sons,1978.

[2]Lesage P J.The Theory and Practice of Spatial Econometrics[R].Working Paper,Department of Economics,University of Toledo,1999.

[3]Anselin L.Spatial Econometrics：Methods and Models[M].Boston：Kluwer Academic,1988.

[4]Cook R D,Weisberg S.Residuals and Influence in Regression[M].New York：Chapman&Hall,1982.

[5]Zhang X,King M L.Influence Diagnostic in Generalized Autoregressive Conditional Heteroscedasticity Process[J].Journal of Business and Economics,2005,(1).

[6]石磊.双向分类随机效应套模型中异常值的UMPU检验[J].应用概率统计,1997,13(2).

[7]石磊,何利平,黄梅.平衡单向分类随机效应模型中的多个异常值检验[J].数学物理学报,2007(3).

[8]韦博成,鲁国兵,史建清.统计模型诊断[M].南京：东南大学出版社,1992.

[9]王松桂,史建红,尹素菊,吴密霞.线性模型引论[M].北京：科学出版社,2004.