无缝线性回归与预测模型
2017-01-07王苗苗李博峰
王苗苗,李博峰
同济大学测绘与地理信息学院,上海 200092
无缝线性回归与预测模型
王苗苗,李博峰
同济大学测绘与地理信息学院,上海 200092
建立回归模型常采用最小二乘方法并忽略自变量观测误差。尽管同时顾及自变量和因变量观测误差的总体最小二乘方法近年来得到了广泛研究,但在模型预测时,依然忽略了待预测自变量的观测误差。对此,本文提出了一种严格考虑所有变量观测误差的无缝线性回归和预测模型,该模型将回归模型的建立和因变量预测联合处理,在建立回归模型过程中对待预测自变量的观测误差进行估计并修正,从而提高了模型预测效果。理论证明,现有的几种线性回归模型都是无缝线性回归和预测模型的特例。试验结果表明,无缝线性回归和预测模型的预测效果优于现有的几种模型,尤其在变量观测误差相关性较大时,无缝模型对预测效果的改善更为显著。
无缝线性回归模型;模型预测;误差估计;误差相关性
变量间的关系包括确定性的函数关系与非确定性的相关关系[1]。回归分析是处理随机变量间相关关系的数学工具,目的是根据自变量和因变量以及关于变量的一些合理假设建立变量间的统计关系,即(线性或者非线性的)函数模型[2-4]。由于变量间的非线性关系往往可以通过变量变换等转化为线性关系,因此线性回归模型是回归分析中最常用的模型。
建立回归模型的最终目的是进行自变量的控制或因变量的预测。通常,先通过回归分析建立回归模型,然后根据回归模型控制自变量或者预测因变量,因此回归分析是模型应用的基础。传统的回归分析认为只有因变量含有观测误差(下文中都指随机误差),采用最小二乘求解回归系数。然而,实际应用中的自变量和因变量都来源于观测,不可避免地都含有观测误差,如果回归分析时忽略自变量的观测误差,则会影响求解的回归系数。对此,同时顾及自变量和因变量观测误差的(加权)整体最小二乘理论及其方法近年来得到了广泛的研究与应用[5-11],文献[12—13]在回归分析时还进一步考虑了自变量和因变量观测误差间的相关性并获得了合理的回归系数。
尽管采用同时顾及自变量和因变量观测误差及其相关性的回归分析方法能建立合理的回归模型,但采用该模型预测因变量时,现有方法依然忽略了待预测自变量的观测误差,从而影响了模型因变量的预测效果。为此,本文提出无缝线性回归和预测模型,该模型将回归系数解算与因变量预测联合处理,除了考虑解算回归系数时的自变量和因变量观测误差及其相关性,还严格考虑待预测自变量的观测误差。无缝线性回归和预测模型的本质是在求解回归系数的同时估计变量的观测误差;再根据变量观测误差间的相关性对待预测自变量的观测误差进行估计并改正,进而提高模型因变量的预测效果。
1 无缝线性回归和预测模型
1.1 自变量观测误差对模型预测的影响
根据给定的自变量观测值预测对应的因变量是回归模型的主要应用。利用回归系数β预测自变量观测值AP对应的因变量yP有
yP=APβ
(1)
式(1)忽略了AP的观测误差EAP。若考虑EAP,则有
yP=(AP-EAP)β
(2)
(3)
1.2 无缝线性回归与预测模型
(4)
式中,第1个方程是顾及自变量和因变量观测误差及误差相关性的回归模型,第2个方程是顾及待预测自变量观测误差的预测模型。向量y=[y1y2…ym]T由m个已知因变量观测值构成;设每个因变量对应n个自变量和1个常数项,则未知回归系数β=[β0β1…βn]T;矩阵A=[A1A2…Am]T,其中Ai=[1X1i…Xni]T已知;向量yP=[y1y2…yk]T由k个未知因变量构成;已知矩阵AP=[AP,1AP,2…AP,k]T,其中AP,i=[1XP,1i…XP,ni]T;向量ey和矩阵EA分别为y和A的观测误差。向量eA=vec(EA),EAP=vec(EAP),运算符vec()为矩阵向量化算子。正定矩阵Qyy为ey的方差阵;非负定矩阵QAA和QAPAP分别是eA和EAP的方差阵;QAy和QyA是ey和eA的协方差矩阵,且;QAAP和QAPA是eA和EAP协方差阵,且为了简单起见,式(4)忽略回归分析中的因变量和待预测自变量观测误差之间的相关特性。式(4)将回归分析和模型预测联合处理,并严格考虑了所有变量的观测误差及误差特性,因此称其为无缝线性回归和预测模型。
通常,回归模型中包含常数项,因而模型系数矩阵A和AP的第1列通常为常数,即矩阵EA和EAP的第1列都为0。对矩阵作如下变换
(5)
则新矩阵ER和EP中的所有元素不为0。根据向量化算子和克罗内克积运算法则[14-15]有
eA=vec(EA)=vec(ERH)=(HT⊗Im)er
eAP=vec(EAP)=vec(EPH)=(HT⊗Ik)ep
(6)
采用最小二乘准则求解式(6),有
(7)
对应的拉格朗日条件函数为
Ψ=Φ+2λT(y-ey-Aβ+(βTHT⊗Im)er)+ 2γT(yP-APβ+(βTHT⊗Ik)ep)
(8)
式中,λ和γ是拉格朗日乘常数向量。对各未知量求偏导数并令其等于0,则
(9a)
(9b)
(9c)
(9d)
(9e)
(9f)
(9g)
(10)
由(9c)和(9g)得
(11)
将式(10)、式(11)代入(9b)得
(12)
由(9d)可得
(13)
(14)
1.3 迭代公式
(15)
则回归系数估值为
(16)
(17)
单位权方差估值为
(18)
比较发现,无缝模型式(4)获得的回归系数估值及其协方差阵、单位权方差估值与文献[12]的结果相同,说明模型式(4)中的预测方程不影响回归模型的建立。
将式(13)分别代入式(10)—式(12),得各类变量的观测误差估值为
(19a)
(19b)
(19c)
根据误差传播定理导出它们的协方差阵为
(20a)
(20b)
(20c)
(21a)
(21b)
1.4 几种回归和预测模型的比较
无缝线性回归和预测模型式(4)严格考虑了所有变量的观测误差,若QAPAP=0,则无需估计并修正观测误差EAP;若QAAP=0,则无法估计EAP。此时式(4)的预测方程与式(1)相同,相应的回归模型为
(22)
该模型即文献[12—13,17—20]中的回归模型,此时式(4)与式(22)的回归分析和预测效果都相同;但当AP的确包含观测误差时,采用无缝模型式(4)能有效地估计并修正该误差,从而得到更加合理的预测结果。
若QAAP=0且QAy=0,则式(4)的预测方程与式(1)相同,对应的回归模型为
(23)
若QAAP=0且QAA=0(即EA=0),则式(4)的预测方程与式(1)相同,相应的回归模型为
(24)
综上所述,现有的几种回归和预测模型都是式(4)的特例。因此,顾及所有变量观测误差及误差特性的无缝线性回归和预测模型式(4)更具一般性。
1.5 预测值偏差
(25)
(26)
(27)
(28)
2 试验与分析
设计模拟试验进行一元线性回归与预测,分别采用无缝线性回归与预测模型和现有几种线性回归模型进行回归分析和因变量预测,通过比较试验结果,分析无缝线性回归与预测模型的应用效果。
2.1 试验设计
设自变量x和因变量y以及待预测自变量xP服从正态分布
(29)
表1 几种回归分析和预测模型Tab.1 Different regression analysis and prediction models
根据回归系数的求解和因变量的预测设计4种模型,如表1所示。其中,ETLS(extended total least squares)模型的求解参考文献[12—13],GTLS(general total least squares)模型即本文提出的无缝线性回归与预测模型,按2.3节的算法进行求解。LS只考虑因变量观测误差ey,是常用的回归分析和预测模型;WTLS同时考虑了ey和EA,但模型预测时忽略了EAP;ETLS不仅考虑了ey和EA,还考虑了它们的相关性QyA,但预测因变量时依然忽略了EAP。本文提出的无缝GTLS严格考虑了所有变量观测误差ey,EA和EAP以及它们之间的相关性QAy及QAAP。按预测值是否有偏又能将4种模型分为两类,即无偏预测模型(LS)和有偏预测模型(WTLS、ETLS、GTLS)。
试验中取β0=9,β1=2,分别模拟不同精度和观测误差相关性的观测数据。分别用表1中的4种模型求解回归系数并进行因变量预测,并统计预测值的均方根误差
(31)
2.2 试验分析
无缝线性回归和预测模型在回归分析时考虑了变量的观测误差及其特性,在模型预测时考虑了待预测自变量的观测误差EAP并利用变量观测误差间的相关性对其进行估计和改正,利用解算的回归系数和误差改正的待预测自变量预测相应的因变量。因此,本文着重分析变量观测误差相关性和待预测自变量观测误差对模型预测效果的影响。
图1 不同误差相关性的观测数据获得的预测值均方根误差Fig.1 Root mean squares of predicted dependent variables with different error correlated observations
图2 不同误差相关性的观测数据获得的回归系数估值0和1Fig.2 Estimated regression coefficients 0 (top) and 1 (bottom) from observations with different error correlations
图3 不同误差特性的观测数据获得的预测值均方根误差Fig.3 Root mean square errors of predicted dependent variables obtained from observations with different error characteristics
图4 观测误差时模拟的自变量误差与GTLS估计的误差Fig.4 The simulated and estimated (by GTLS)observation errors of independent variables when
图5 不同观测精度及不同误差相关性的观测数据获得的预测值均方根误差Fig.5 Root mean square errors of the predicted dependent variables obtained from observations with different precisions and error correlations
3 结 论
提高回归分析与模型因变量预测效果的关键是合理有效地处理各变量的观测误差。本文研究了回归分析及其预测应用中自变量和因变量的观测误差及其特性。
(1) 提出了具有一般性的、综合考虑所有变量观测误差及误差特性的无缝线性回归和预测模型。该模型不仅考虑回归分析时自变量和因变量的观测误差及其相关性,还严格考虑模型预测时待预测自变量的观测误差。
(2) 无缝模型将回归分析和因变量预测联合处理。其本质是利用变量观测误差间的相关性估计并改正待预测自变量的观测误差,利用误差改正的自变量预测因变量,进而提高因变量的预测效果。
(3) 无缝模型对观测误差的估计修复能力受误差相关性等多种因素影响,误差相关性越强,无缝模型对误差的修复能力越强,对因变量预测效果的改善越明显。
总之,提出的综合考虑所有变量观测误差及误差特性的无缝线性回归和预测模型可明显提高回归分析和回归模型的应用效果。
本文提出的无缝线性回归与预测模型的核心是采用最小二乘配置方法推估待预测自变量的观测误差EAP。最小二乘配置不可避免地涉及信号(观测误差)的协方差矩阵,而实际应用中变量观测误差的相关性通常难以准确获得,可通过协方差函数拟合或相关性分析等方法,并根据实际情况和经验判断给出观测误差的相关特性。
[1] 邓勃. 分析测试数据的统计处理方法[M]. 北京: 清华大学出版社, 1995. DENG Bo. Statistical Processing Method for Data of Analytic and Test[M]. Beijing: Tsinghua University Press, 1995.
[2] CHAMBERS J M, CLEVELAND W S, KLEINER B, et al. Graphical Methods for Data Analysis[M]. Belmont: Duxbury Press, 1983.
[3] CAMPBELL D, CAMPBELL S. Introduction to Regression and Data Analysis[R]. New Haven: StatLab Workshop Series, Yale University Center for Science and Social Science Information, 2008.
[4] SYKES A O. An Introduction to Regression Analysis[R]. Chicago: The Inaugural Coase Lecture, Law School, University of Chicago, 1993.
[5] SCHAFFRIN B, WIESER A. On Weighted Total Least-squares Adjustment for Linear Regression[J]. Journal of Geodesy, 2008, 82(7): 415-421.
[6] SHEN Yunzhong, LI Bofeng, CHEN Yi. An Iterative Solution of Weighted Total Least-squares Adjustment[J]. Journal of Geodesy, 2011, 85(4): 229-238.
[7] LI Bofeng, SHEN Yunzhong, LI Weixiao. The Seamless Model for Three-dimensional Datum Transformation[J]. Science China Earth Sciences, 2012, 55(12): 2099-2108.
[8] XU Peiling, LIU Jingnan, SHI Chuang. Total Least Squares Adjustment in Partial Errors-in-variables Models: Algorithm and Statistical Analysis[J]. Journal of Geodesy, 2012, 86(8): 661-675.
[9] 刘经南, 曾文宪, 徐培亮. 整体最小二乘估计的研究进展[J]. 武汉大学学报(信息科学版), 2013, 38(5): 505-512. LIU Jingnan, ZENG Wenxian, XU Peiliang. Overview of Total Least Squares Methods[J]. Geomatics and Information Science of Wuhan University, 2013, 38(5): 505-512.
[10] 曾文宪, 方兴, 刘经南, 等. 附有不等式约束的加权整体最小二乘算法[J]. 测绘学报, 2014, 43(10): 1013-1018. DOI: 10.13485/j.cnki.11-2089.2014.0173. ZENG Wenxian, FANG Xing, LIU Jingnan, et al. Weighted Total Least Squares Algorithm with Inequality Constraints[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(10): 1013-1018. DOI: 10.13485/j.cnki.11-2089.2014.0173.
[11] 王乐洋, 赵英文, 陈晓勇, 等. 多元总体最小二乘问题的牛顿解法[J]. 测绘学报, 2016, 45(4): 411-417. DOI: 10.11947/j.AGCS.2016.20150246. WANG Leyang, ZHAO Yingwen, CHEN Xiaoyong, et al. A Newton Algorithm for Multivariate Total Least Squares Problems[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(4): 411-417. DOI: 10.11947/j.AGCS.2016.20150246.
[12] LI Bofeng, WANG Miaomiao, YANG Yuanxi. Multiple Linear Regression with Correlated Explanatory Variables and Responses[J]. Survey Review, 2015. DOI: 10.1179/1752270615Y.0000000006.
[13] 王苗苗, 李博峰, 沈云中. 顾及自变量与因变量误差及相关性的线性回归[J]. 同济大学学报(自然科学版), 2016, 44(3): 446-453. WANG Miaomiao, LI Bofeng, SHEN Yunzhong. Linear Regression with Corrected Errors of Independent and Dependent Variables[J]. Journal of Tongji University (Natural Science), 2016, 44(3): 446-453.
[14] KOCH K R. Least Squares Adjustment and Collocation[J]. Bulletin Géodésique, 1977, 51(2): 127-135.
[15] KOCH K R. Parameter Estimation and Hypothesis Testing in Linear Models[M]. 2nd ed. Berlin Heidelberg: Springer, 1999.
[16] LI Bofeng, SHEN Yunzhong, ZHANG Xingfu, et al. Seamless Multivariate Affine Error-in-variables Transformation and Its Application to Map Rectification[J]. International Journal of Geographical Information Science, 2013, 27(8): 1572-1592.
[17] FANG Xing. Weighted Total Least Squares Solution for Application in Geodesy[D]. Hanover: Leibniz University Hanover, 2011.
[18] FANG Xing. Weighted Total Least Squares: Necessary and Sufficient Conditions, Fixed and Random Parameters[J]. Journal of Geodesy, 2013, 87(8): 733-749.
[19] FANG Xing. Weighted Total Least-squares with Constraints: A Universal Formula for Geodetic Symmetrical Transformations[J]. Journal of Geodesy, 2015, 89(5): 459-469.
[20] SNOW K. Topics in Total Least-squares Adjustment within the Errors-in-variables Model: Singular Cofactor Matrices and Priori Information[D]. Columbus: The Ohio State University, 2012.
[21] TEUNISSEN P G J. Adjustment Theory: An Introduction (Mathematical Geodesy and Positioning)[M]. Delft, The Netherlands: VSSD, Delft University Press, 2000.
(责任编辑:陈品馨)
Seamless Linear Regression and Prediction Model
WANG Miaomiao,LI Bofeng
College of Surveying and Geo-informatics, Tongji University, Shanghai 200092, China
The regression model was traditionally established by using the least squares (LS) method where the errors of independent variables were ignored. Although the weighted total least squares (TLS) method that captures errors of both dependent and independent variables was extensively studied for regression analysis in recent years, it still neglects the errors of independent variables when predicting the corresponding dependent variables.This paper puts forward a seamless linear regression and prediction model which estimates regression parameters and predicts dependent variables simultaneously by considering the errors of all variables.In the seamless model, the errors of independent variables in the prediction model are predicted and corrected to improve the prediction accuracy.The several existing regression models are theoretically proved to be the special cases of the proposed seamless model. The experimental results show that the proposed seamless model outperforms the other existing models in the sense of prediction accuracy, especially when the error correlation of variables is significant.
seamless linear regression model; model prediction; observation error estimation;error correlation
National Natural Science Fund of China (Nos.41374031; 41574023);China Special Fund for Surveying, Mapping and Geo-information Research in the Public Interest (No.HY14122136)
WANG Miaomiao(1989—),female, PhD candidate, majors in GNSS data processing theory and its applications.
LI Bofeng
王苗苗,李博峰.无缝线性回归与预测模型[J].测绘学报,2016,45(12):1396-1405.
10.11947/j.AGCS.2016.20160263. WANG Miaomiao,LI Bofeng.Seamless Linear Regression and Prediction Model[J]. Acta Geodaetica et Cartographica Sinica,2016,45(12):1396-1405. DOI:10.11947/j.AGCS.2016.20160263.
P207.1
A
1001-1595(2016)12-1396-10
国家自然科学基金(41374031;41574023);测绘地理信息公益性行业科研专项(HY14122136)
2016-06-14
王苗苗(1989—),女,博士生,研究方向为GNSS数据处理和理论应用。
E-mail:5wmmgps@tongji.edu.cn
李博峰
E-mail:bofeng_li@tongji.edu.cn
修回日期:2016-09-06