考虑自变量误差的线性回归迭代算法*
2014-09-20汪奇生杨德宏杨根新
汪奇生 杨德宏 杨根新
1)昆明理工大学国土资源工程学院,昆明 650093
2)云南国土资源职业学院,昆明 650093
考虑自变量误差的线性回归迭代算法*
汪奇生1)杨德宏1)杨根新2)
1)昆明理工大学国土资源工程学院,昆明 650093
2)云南国土资源职业学院,昆明 650093
为解决线性回归中自变量含误差的问题,根据间接平差模型和总体最小二乘原理推导了一种总体最小二乘迭代算法。算例验证了该算法的有效性和可行性。
总体最小二乘;线性回归;自变量;迭代算法;平差模型
线性拟合通常是采用最小二乘法确定回归参数,在自变量不含误差的前提下得到最优参数值。实际上,拟合数据往往都含有偶然误差,需要在平差的同时考虑线性回归中自变量的误差。文献[1-2]提出以正交距离残差平方和极小为准则的正交最小二乘法,实质上是一个总体最小二乘[3]问题。由于总体最小二乘的常规矩阵分解算法不利于测量数据的处理,发展了一些迭代算法[4-8],将系数矩阵中的全部元素当成含有误差来处理,这就不适宜线性回归参数的求解。一般来讲,求解线性回归的总体最小二乘解采用混合总体最小二乘法[9],但解算复杂,难以理解且没有考虑到测量平差的优势。本文根据线性回归模型的特点推导了一种迭代算法,结果与混合总体最小二乘法一致。
1 总体最小二乘模型及迭代算法
1.1 总体最小二乘模型
线性回归数学模型为:
当有多组观测值并考虑自变量的误差时,其总体最小二乘平差模型为:
1.2 算法原理
将式(1)进行等价转换:
当有多组观测值并考虑自变量的误差时,式(3)可以表示为:
式中,⊗为矩阵的克罗内克积,vec(EA)是将矩阵EA按列从左到右拉直得到的列向量化矩阵。V是平差模型中(m×n)×1的误差向量,V=vec(EA)。若自变量与因变量独立等精度,根据总体最小二乘原理,相应的误差期望和方差为:
式中,Im和In分别为 m和 n阶单位矩阵。由式(6),Qv=Im×n,Im×n为 m ×n 阶单位矩阵。相应的平差准则为:
另将式(5)表示为:
则根据协因数传播定律可得:
按照拉格朗日原理求解目标函数的自由极值:
1.3 解算步骤
1)由式(1)根据最小二乘原理求得回归参数估值 a0、a1、an,再根据式(3)将其变换为 b0、b1、bn,并组成回归参数的初值X(0)=[b0b1… bn]T。
2)按下式计算新的回归参数值:
4)输出参数估值,按式(21)求单位权中误差。
2 实例分析
为验证本文算法的合理性,利用文献[10]中的观测数据(表1)拟合y=a+bx,其自变量和因变量都含有误差。分别设计如下5种方案对交换自变量与因变量分别进行拟合。
表1 观测数据Tab.1 Observation data
方案1:按最小二乘方法,以x为自变量、y为因变量拟合线性方程y=a+bx,得到的结果为y=9.507 7+9.747 0x;以y为自变量、x为因变量拟合线性方程x=c+dy,得到的结果为x=-0.824 6+0.100 4y,将其转换得 y=8.216 0+9.963 8x。
方案2:按总体最小二乘的奇异值分解法,以x为自变量、y为因变量拟合线性方程y=a+bx,得到的结果为 y=15.090 2+9.011 1x;以 y为自变量、x为因变量拟合线性方程x=c+dy,得到的结果为x= -1.674 6+0.111 0y,将其转换得 y=15.090 2+9.011 1x。
方案3:按文献[5]的总体最小二乘迭代算法,以x为自变量、y为因变量拟合线性方程y=a+bx,得到的结果为y=15.090 2+9.011 1x;以y 为自变量、x 为因变量拟合线性方程x=c+dy,得到的结果为x=-1.674 6+0.111 0y,将 其 转 换 得 y=15.090 2+9.011 1x。
方案4:按文献[9]的混合总体最小二乘法,以x为自变量、y为因变量来拟合线性方程y=a+bx,得到的结果为y=8.229 1+9.961 5x;以y为自变量,x为因变量来拟合线性方程x=c+dy,得到的结果为 x= -0.826 1+0.100 4y,将其转换得 y=8.229 1+9.961 5x。
方案5:按本文算法以x为自变量、y为因变量拟合线性方程y=a+bx,得到的结果为y=8.229 1+9.961 5x;以y为自变量、x为因变量来拟合线性方程x=c+dy,得到的结果为 x=-0.826 1+0.100 4y,将其转换得 y=8.229 1+9.961 5x。
比较5种方案可以看出,对于自变量含误差的线性回归问题,方案1采用的最小二乘法并没有考虑自变量的误差,因此交换自变量和因变量拟合出来的结果不一致。其他4种方案交换自变量和因变量拟合出来的结果一致,但4种方案拟合出两套结果。方案2和方案3的结果相同,方案4和方案5的结果相同。这是因为,方案2和方案3采用的总体最小二乘奇异值分解法和迭代解法都考虑到了线性回归平差模型中系数矩阵B的误差,但将系数矩阵所有元素都看成是含误差的,并对其常数列也进行了改正。交换自变量和因变量拟合出来的结果虽然一致,但实质上其拟合结果是有偏差的。而方案4采用混合总体最小二乘来解算,既考虑了自变量的误差又顾及了平差模型中系数矩阵B的常数列。只改正系数矩阵中含有误差的元素,得到的结果是合理的。方案5采用本文的算法,将回归模型进行等价转换,其系数矩阵由自变量和因变量组成,都含有误差,从而将原平差模型系数矩阵B的常数列转换成常数向量,得到的结果和方案4相同。
3 结语
1)对于自变量含误差的线性回归问题,采用总体最小二乘法求得的结果更合理。但不宜采用常规的迭代算法,因为常规的迭代算法不能顾及系数矩阵的常数列而是将系数矩阵所有元素都当成含有误差来处理,这对线性回归是不合理的。
2)本文给出的迭代算法是针对自变量含误差的线性回归问题,既能充分考虑线性回归中自变量的误差,又能顾及平差模型中系数矩阵的常数列,得到的结果与混合总体最小二乘相同。而与混合总体最小二乘相比,本文算法充分考虑了测量平差的优势,推导过程简单且更适于程序实现。
1 丁克良,欧吉坤,赵春梅.正交最小二乘曲线拟合法[J].测绘科学,2007,32(3):18 -19.(Ding Keliang,Ou Jikun,Zhao Chunmei.Methods of the least-squares orthogonal distance fitting[J].Science of Surveying and Mapping,2007,32(3):18-19)
2 丁克良,刘全利,陈翔.正交距离圆曲线拟合方法[J].测绘科学,2008,33(10):72 -73.(Ding Keliang,Liu Quanli,Chen Xiang.Fitting of circles based on orthogonal distance[J].Science of Surveying and Mapping,2008,33(10):72 -73)
3 Golub G H,Vanl C F.An analysis of the total least squares problem[J].Siam J Numer Anal,1980,17:883 -893.
4 鲁铁定,周世健.总体最小二乘的迭代解法[J].武汉大学学报:信息科学版,2010,35(11):1 351 -1 354.(Lu Tieding,Zhou Shijian.An iteration for the total least squares estimation[J].Geomatics and Information Science of Wuhan U-niversity,2010,35(11):1 351 -1 354)
5 孔建,姚宜斌,吴寒.整体最小二乘的迭代解法[J].武汉大学学报:信息科学版,2010,35(6):711-714.(Kong Jian,Yao Yibin,Wu Han.Iterative method for total leastsquares[J].Geomatics and Information Science of Wuhan U-niversity,2010,35(6):711 -714)
6 许超钤.基于整体最小二乘的参数估计新方法及精度评定[J].测绘通报,2011(10):1 -4.(Xu Chaoqian.New method of parameters estimation and accuracy evaluation based on TLS[J].Bulletin of Surveying and Mapping,2011(10):1-4)
7 邱卫宁,齐公玉,田丰瑞.整体最小二乘求解线性模型的改进算法[J].武汉大学学报:信息科学版,2010,35(6):708 -710.(Qiu Weining,Qi Gongyu,Tian Fengrui.An improved algorithm of total least squares for linear models[J].Geomatics and Information Science of Wuhan University,2010,35(6):708 -710)
8 邱卫宁.测量数据处理理论与方法[M].武汉:武汉大学出版社,2008.(Qiu Weining.The theory and method o f surveying data processing[M ].Wuhan:Wuhan University Press,2008)
9 丁克良,沈云中,欧吉坤.整体最小二乘法直线拟合[J].辽宁工程技术大学学报:自然科学版,2010,29(1):44-47.(Ding Keliang,Sheng Yunzhon,Ou Jikun.Methods of line-fitting based on total least-squares[J].Journal of Liaoning Technical University:Natural Science,2010,29(1):44-47)
10 何晓群.实用回归分析[M].北京:高等教育出版社,2008.(He Xiaoqun.Practical regression analysis[M].Beijing:Higher Education Press,2008)
ITERATION ALGORITHM OF LINEAR REGRESSION CONSIDERING THE ERROR OF INDEPENDENT VARIABLES
Wang Qisheng1),Yang Dehong1)and Yang Genxin2)
1)Faculty of Land Resource Engineering,KUST,Kunming 650217
2)Yunnan Land and Resources Vocational College,Kunming650217
Considering the error of adjustment problem for independent variable in linear regression,an iteration algorithm of total least squares was derived according to indirect adjustment model and total least squares theory.The algorithm is simple and easy to programming.The result indicates that the algorithms is more effective and more feasible than other algorithms.
total least squares;linear regression;independent variable;iteration algorithm;adjustment model
P207
A
1671-5942(2014)05-0110-04
2013-11-20
汪奇生:男,1989年生,硕士研究生,主要研究方向为大地测量数据处理。E-mail:wangqisheng0702@163.com。