总体最小二乘方法的适用性研究*
2014-09-21王乐洋
王乐洋 余 航
1)东华理工大学测绘工程学院,南昌 330013
2)江西省数字国土重点实验室,南昌 330013
总体最小二乘方法的适用性研究*
王乐洋1,2)余 航1)
1)东华理工大学测绘工程学院,南昌 330013
2)江西省数字国土重点实验室,南昌 330013
从数据拟合的角度探讨总体最小二乘方法的适用性,给出总体最小二乘残差距离与最小二乘残差距离之间的关系表达式并推广到多维情形;研究总体最小二乘准则、数据最小二乘准则和最小二乘准则之间的关系,给出适用场合;通过模拟计算分析,得出有益结论。
总体最小二乘;数据最小二乘;最小二乘;数据拟合
近年来,总体最小二乘理论在测量数据处理领域得到广泛应用[1-9],但某些情况下其解与最小二乘解在估值和精度方面相差不大[6]。因此,总体最小二乘与最小二乘在适用性等方面需要进一步探讨和分析。本文从数据拟合的角度探讨了总体最小二乘方法的适用性,定义与残差距离有关的角度,绘制最小二乘、数据最小二乘和总体最小二乘准则的几何关系图,通过模拟算例给出相关的分析和结论。
1 总体最小二乘残差距离与最小二乘残差距离
当以y为观测值时,最小二乘拟合的残差距离为:
总体最小二乘拟合的残差距离为:
图1 直线拟合的残差距离示意图Fig.1 Sketch of residual distance with linear fitting
在实际的直线拟合或参数估计问题中,以y为观测值的最小二乘拟合、以x为观测值的最小二乘拟合与总体最小二乘拟合得到的直线是不相同的,向量1、2和3并不会构成图 1 所示的直角三角形。若以向量1和向量2为直角边构成一个直角三角形(见图1),设其中一个角为α,则有:
在参数估计(直线拟合)时,分析如下:
1)当α=0°时,d2=0,即x的误差为零,是以 y为观测值的最小二乘拟合。
2)当0°< α <45°时,0<tanα =d2/d1<1,即 d2<d1,x的误差小于y的误差,以y的误差为主要误差源。在参数精度要求不高时,仍可忽略x的误差,以y为观测值进行最小二乘拟合;若要求较高,则必须使用总体最小二乘估计同时考虑x和y的误差。
3)当 α =45°时,d2=d1,x与 y的误差相等,在进行参数估计(直线拟合)时必须同时加以考虑,即进行总体最小二乘拟合。
4)当45°<α <90°时,1<tanα=d2/d1< +∞,即d2>d1,x的误差大于y的误差,以x的误差为主要误差源。参数精度要求不高时,可忽略y的误差,以x为观测值进行最小二乘拟合;若精度要求较高,则必须使用总体最小二乘估计同时考虑x和y的误差。
5)当α=90°时,d1=0,即y的误差为零,是以x为观测值的最小二乘拟合。
在多维情况下,若有如下线性估计函数模型:
式中,A∈Rm×n(m >n)为列满秩系数矩阵;X∈Rn×1为待估计参数;b∈Rm×1为观测值。则:
式中,0°≤α≤90°;bobs=[bobs1…bobsn]T为 b的观测值,btru=[btru1…btrun]T为b的真值;vec(·)为矩阵拉直算子,即将矩阵按列拉直得到的列向量;Aobs为系数矩阵A的观测值,Atru为A的真值。
多维情况下同样可得出上述结论。
2 总体最小二乘准则与最小二乘准则
对于式(5)的线性模型,估计准则如下。
1)最小二乘准则:
2)数据最小二乘准则:
3)总体最小二乘准则:
3 TLS适用性实验与分析
3.1 实验方案与结果
3.2 结果分析
图2 最小二乘与总体最小二乘准则的几何关系Fig.2 Geometrical relationship between LS norm and TLS norm
表1 模拟观测点真值Tab.1 True values of simulated data
表2 计算方案Tab.2 Calculation schemes
从方案2与方案4可以看出,无论y的误差大于x的误差,还是x的误差大于y的误差,总体最小二乘结果的精度较最小二乘、数据最小二乘都高。当y的误差大于x时,总体最小二乘结果和最小二乘比较相近,而数据最小二乘的偏差相对较大,精度也较差。当x的误差大于y时,总体最小二乘结果和数据最小二乘结果比较接近,而最小二乘结果的偏差相对较大,其精度也差。
从方案3可以看出,当x的误差与y相当时,最小二乘和数据最小二乘结果的精度都比总体最小二乘差,结果偏离真值的程度也大。此时,必须同时考虑x和y的误差,任何单一的以y或以x为观测值的最小二乘拟合都是不可取的。
为了更全面地比较,对表4作模拟计算发现,随着角度α的增大,最小二乘法的单位权中误差估值逐渐增大,数据最小二乘法的单位权中误差估值逐渐减小,而总体最小二乘法的单位权中误差估值稳定在0.66~0.69之间。当x的误差比y小(即α≤45°)时,最小二乘的解算精度与总体最小二乘相当;随着x误差的增加,最小二乘的解算精度逐渐差于总体最小二乘。因此,在测量数据处理中必须根据实际情况选用恰当的方法。
表3 各方案拟合结果Tab.3 Results of each scheme
表4 加入不同随机误差的结果Tab.4 Results of adding different stochastic error
续表4
1 Golub G H,Van Loan C F.An analysis of the total least squares problem[J].SIAM J Numer Anal,1980,17:883 -893.
2 Schaffrin B,Wieser A.On weighted total least-squares adjustment for linear regression[J].Journal of Geodesy,2008,82(7):415-421.
3 Tong Xiaohua,Jin Yanmin,Li Lingyun.An improved weighted total least squares method with applications in linear fitting and coordinate transformation[J].Journal of Surveying Engineering,2011,137(4):120 -128.
4 Shen Yunzhong,Li Bofeng,Chen Yi.An iterative solution of weighted total least- squares adjustment[J].Journal of Geodesy,2011,85(4):229 -238.
5 Xu Caijun,Wang Leyang,Wen Yangmao,et al.Strain rates in the Sichuan-Yunnan region based upon the total least squares heterogeneous strain model from GPS data[J].Terr Atmos Ocean Sci,2011,22(2):133 -147.
6 王乐洋.基于总体最小二乘的大地测量反演理论及应用研究[D].武汉:武汉大学,2011.(Wang Leyang.Research on theory and application of total least squares in geodetic inversion[D].Wuhan:Wuhan University,2011)
7 王乐洋,许才军,鲁铁定.病态加权总体最小二乘平差的岭估计解法[J].武汉大学学报:信息科学版,2010,35(11):1 346 - 1 350.(Wang Leyang,Xu Caijun,Lu Tieding.Ridge estimation method in ill-posed weighted total least squares adjustment[J].Geomatics and Information Science of Wuhan University,2010,35(11):1 346 -1 350)
8 王乐洋,许才军,鲁铁定.边长变化反演应变参数的总体最小二乘方法[J].武汉大学学报:信息科学版,2010,35(2):181 - 184.(Wang Leyang,Xu Caijun,Lu Tieding.Inversion of strain parameter using distance changes based on total least squares[J].Geomatics and Information Science of Wuhan University,2010,35(2):181 -184)
9 王乐洋,许才军.附有相对权比的总体最小二乘平差[J].武汉大学学报:信息科学版,2011,36(8):887-890.(Wang Leyang,Xu Caijun.Total least-squares adjustment with weighting scaling factor[J].Geomatics and Information Science of Wuhan University,2011,36(8):887 -890)
10 Stewart G W.On the invariance of perturbed null vectors under column scaling[J].Numer Math,1984,44:61-65.
STUDY ON THE APPLICABILITY OF TOTAL LEAST SQUARES METHOD IN SURVEYING ADJUSTMENT
Wang Leyang1,2)and Yu Hang1)
1)Faculty of Geomatics,East China Institute of Technology,Nanchang 330013
2)Jiangxi Province Key Lab for Digital Land,Nanchang330013
The applicability of total least squares studied systematically with data fitting.The relationship formula between total least squares residual distance and least squares residual distance was obtained and extended to the multi-dimensional cases.According to the relationship among the criterion of least squares(LS),data least squares(DLS)and total least squares(TLS),the applicability was determined.
total least squares;data least squares;least squares;data fitting
P207
A
1671-5942(2014)03-0121-04
2014-01-02
国家自然科学基金项目(41204003,41161069,41304020);江西省自然科学基金项目(20132BAB216004);江西省教育厅项目(GJJ13456,KJLD12077);地理空间信息工程国家测绘地理信息局重点实验室项目(201308);东华理工大学博士科研启动基金项目(DHBK201113);东华理工大学研究生创新专项资金项目(DYCA13001)。
王乐洋,男,1983生,博士,讲师,研究方向为大地测量反演及总体最小二乘平差的理论与应用。E-mail:wleyang@163.com。