APP下载

稳健估计方法在多元线性回归中的有效性研究

2014-10-20姜佃高张娟娟葛永慧

统计与决策 2014年18期
关键词:参数估计稳健性回归方程

姜佃高,张娟娟,葛永慧

(太原理工大学 测绘科学与技术系,太原 030024)

0 引言

多元线性回归作为处理变量之间相关关系的数学方法,通常用最小二乘法(LS)求解回归方程的回归系数[1-3]。然而,在数据采集过程中往往混有粗差,LS易受粗差影响,使参数估值失真[4-6]。而建立在稳健估计基础上的稳健回归方法,具有良好的抵抗粗差干扰的能力[7,8]。王晓军等[9]将多元稳健线性回归方法引入到烈度衰减椭圆模型中,统计计算得到了研究区的烈度衰减关系。陈晓等[10]运用稳健回归方法优化Munich链梯法,更准确地提取了未决赔款准备金。张耀平等[11]提出了岩石抗剪强度计算的稳健回归模型,提高了估计参数的可靠性。

然而,不同稳健估计方法的稳健性不同。那么,对于多元线性回归哪些是相对更为有效的稳健估计方法呢?本文采用仿真实验的方法,以二元至四元线性回归为例,讨论了13种常用稳健估计方法在不同观测值数量、粗差数量和粗差数值情况下的稳健性,确定了多元线性回归相对更为有效的稳健估计方法。

1 材料和方法

1.1 稳健估计方法及其权函数

(1)Huber法:

(11)IGG方案:

1.2 两种参数估计方法的比较[12]

定义:观测值的真误差与观测值的残差之差为残余真误差,用 f表示。

式中,fk是残余真误差,Δk是观测值Yk的真误差,vk是通过参数估计方法得到的观测值Yk的残差。Δk=-Yk,vk=-Yk,其中是观测值Yk的真值,是观测值Yk的估值,n是观测值的数量。

两种参数估计方法比较的绝对指标—残余真误差均方误差(MSRTE):

两种参数估计方法比较的相对指标—相对增益(RG):

1.3 观测值中包含g个粗差的仿真实验[12]

设:i=1,2,…,S;S表示仿真实验的次(组)数。j=1,2,…,n ;n 表示观测值的数量。表示观测值的真值。δij表示服从正态分布N(0,的随机误差,由随机误差模拟函数生成。g表示观测值中包含粗差的数量。θij表示随机误差 δij是否被粗差 ε所取代,每一组θij(j=1,2,…,n)的值由g个1和n-g个0构成,由随机函数生成。对于其中的每一组随机误差 δij(j=1,2,…,n),当θij=1时,随机误差 δij用粗差 ε代替,生成S组同时包含g个粗差的随机误差Δij:

对于S组模拟观测值中的每一组,用参数估计方法计算观测值残差vij,进而计算残余真误差均方误差。用S组残余真误差均方误差的平均值作为该参数估计方法在观测值中同时包含g个粗差ε时的残余真误差均方误差。同样的方法计算不同参数估计方法的残余真误差均方误差,然后计算每一种稳健估计方法相对于LS法的相对增益。

1.4 多元线性回归仿真实验

1.4.1 二元线性回归

蒸发量y与温度x1和相对湿度x2的关系满足下面的二元线性回归方程:

1.4.2 三元线性回归

产值 y与氮投入x1,磷投入x2和钾投入x3的关系满足下面的三元线性回归方程:

1.4.3 四元线性回归

轴承整径力参数y与变形程度x1,摩擦系数x2,变形温度x3,套圈重量x4的关系满足下面的四元线性回归方程:

2 结果与讨论

2.1 一个具体的三元线性回归算例

本例说明了不同稳健估计方法的稳健性是不同的。在本文的仿真实验中,用于计算相对增益的残余真误差均方误差是1000次仿真实验的平均值。

表1 三元线性回归模拟观测值和计算结果

2.2 二元线性回归结果与讨论

图1为二元线性回归在n=6且g=1,n=7且g=1,n=8且g=1-2,n=9且g=1-2,n=10且g=1-2,n=11且g=1-2和n=12且g=1-3时,13种稳健估计方法的平均相对增益。

由图1可知,L1法和German-McClure法比其他稳健估计方法更能有效地消除或减弱粗差的影响。当ε=5.0 σ0时,L1法和German-McClure法的平均相对增益均为24%,而其他稳健估计方法的平均相对增益均小于或等于16%。当ε=10.0σ0时,L1法和German-McClure法的平均相对增益分别为51%和52%,而其他稳健估计方法的平均相对增益均小于或等于39%。

图1 不同稳健估计方法相对于LS法的平均相对增益(二元线性回归)

2.3 三元线性回归结果与讨论

图2为三元线性回归在n=9且g=1,n=10且g=1-2,n=11且g=1-2,n=12且g=1-3和n=13且g=1-3时,13种稳健估计方法的平均相对增益。

由图2可知,L1法和German-McClure法比其他稳健估计方法更能有效地消除或减弱粗差的影响。当ε=5.0 σ0时,L1法和German-McClure法的平均相对增益分别为20%和19%,而其他稳健估计方法的平均相对增益均小于或等于15%。当ε=10.0σ0时,L1法和German-McClure法的平均相对增益均为47%,而其他稳健估计方法的平均相对增益均小于或等于43%。

图2 不同稳健估计方法相对于LS法的平均相对增益(三元线性回归)

2.4 四元线性回归结果与讨论

图3为四元线性回归在n=9且g=1,n=10且g=1-2,n=11且g=1-2,n=12且g=1-3,n=13且g=1-3和n=14且g=1-3时,13种稳健估计方法的平均相对增益。

由图3可知,L1法和German-McClure法比其他稳健估计方法更能有效地消除或减弱粗差的影响。当ε=5.0 σ0时,L1法和German-McClure法的平均相对增益分别为18%和17%,而其他稳健估计方法的平均相对增益均小于或等于12%。当ε=10.0σ0时,L1法和German-McClure法的平均相对增益均为47%,而其他稳健估计方法的平均相对增益均小于或等于36%。

图3 不同稳健估计方法相对于LS法的平均相对增益(四元线性回归)

3 结论

本文采用仿真实验(1000次)的方法,以含有不同观测值数量、粗差数量和不同粗差数值的二元至四元线性回归为例,对13种常用稳健估计方法的稳健性进行了比较。

仿真实验结果表明,L1法和German-McClure法是多元线性回归相对更为有效的稳健估计方法。它们能更有效地消除或减弱粗差对回归系数估值的影响。

[1]茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社,2011.

[2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1999.

[3]王振友,陈莉娥.多元线性回归统计预测模型的应用[J].统计与决策,2008,(5).

[4]王素立,刘永.基于波动相关性及主分量变换的多元线性回归模型研究[J].统计与决策,2012,(22).

[5]高山,李孝军.关于最小二乘法的稳健性分析[J].统计与决策,2006,(8).

[6]何霞,刘卫锋.基于全最小一乘准则的灰色GM(1,1)模型参数估计[J].统计与决策,2006,(8).

[7]吴健平,张立.地理数据线性回归中的稳健估计方法[J].干旱区地理,1994,17(1).

[8]冯守平,石泽,邹瑾.一元线性回归模型中参数估计的几种方法比较[J].统计与决策,2008,(24).

[9]王晓军,文毅.陕西分区烈度衰减关系研究[J].灾害学,2012,27(4).

[10]陈晓,张连增.未决赔款准备金估计的Munich链梯法及其优化[J].统计与决策,2010,(2).

[11]张耀平,曹平,董陇军.岩石抗剪强度计算的稳健回归模型及其应用[J].科技导报,2010,28(7).

[12]Jia N.N,Ge Y.H.Remainder Reliability and Robust Estimation:A Case Study Using Twelve Simulated Leveling Networks[C].Zhang J.Information Technology Applications in Industry.Switzerland:Trans Tech Publications,2013.

猜你喜欢

参数估计稳健性回归方程
基于参数组合估计的多元控制图的优化研究
采用直线回归方程预测桑瘿蚊防治适期
浅谈回归方程在煤质检验中应用时应注意问题
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
会计稳健性的定义和计量
会计稳健性的文献综述
线性回归方程知识点剖析
不确定性、会计稳健性与投资效率
会计稳健性的经济后果研究述评
浅谈死亡力函数的非参数估计方法