等式约束病态最小二乘的主成分Liu估计解法

2022-08-08邵德盛

广西师范大学学报（自然科学版） 2022年4期

翁烨，邵德盛，2*，甘淑，3

(1.昆明理工大学国土资源工程学院，云南昆明 650093；2.云南省地震局，云南昆明 650041；3.云南省高校高原山地空间信息测绘技术应用工程研究中心，云南昆明 650093)

多源数据有利于信息的全面和高效，比单一数据源获得更加精确和可靠的数据信息[1]。实际测量数据模型中，未知参数的平差值是不同观测量的一个加权统计量，相同观测条件下为等权观测量，不同观测条件下观测量具有不同权重[2]。另外，多源数据的融合也会出现一些函数模型和随机模型的先验信息，如参数间往往存在固有的几何关系，构成函数模型约束；也可能存在某些先验随机信息，构成模型等式约束[3]。病态模型的解法主要有有偏估计、无偏估计、直接解法以及智能搜索算法等。有偏估计的很多理论是基于线性回归模型进行研究，但是在实际问题中，观测量与参数之间不是简单的线性关系，可能会随着自变量维数增加出现多重共线性问题。对于有偏估计的研究，Hoerl等[4-5]通过对法方程矩阵对角线上添加一个常数k得到岭估计；Massy[6]、Hoerl等[4]提出一种新的估计方法——主成分估计，剔除存在多重共线性的因子，消除原有最小二乘估计(least squares，LS)因子中共线性问题的影响；主成分估计在于剔除系数矩阵中较小的主成分，或者选取前k个特征根之和在所有特征根总和中所占比例达到预先设定要求，实行矩阵分块计算，相比较岭估计而言，主成分估计的阈值更容易选取。

为了克服线性模型中出现的多重共线性问题，结合岭估计和stein估计的优点，Liu[7]提出“线性回归中的一类新的估计”——Liu估计，引入新参数使得估计在保证参数估值稳定性的同时还能近似无偏。基于对岭估计的解释，Liu估计添加修正因子，适用于参数估计值不理想进行二次估计解；在修正因子d=1时，Liu估计退化成原始估计，与岭估计不同的是，Liu估计为原始估计值的线性表达和拓展形式；可以采用LS估计或者岭估计作为原始估计值，因此Liu估计优于LS估计和岭估计，同时Liu估计保持stein估计的特点。若以LS估计为原始估计，参数估计的偏差引入量较小，进一步增加参数估值的可信度。雷庆祝等[8-9]利用矩阵方法，分析带约束条件下线性模型中的参数岭估计的强、弱相合性以及参数估值的均方误差相合性，并利用线性模型中误差方差岭估计的标准化，得到其样本性质；郭双和吴平等[10-11]讨论线性误差模型中设计矩阵存在复共线性情况时的参数估计问题，基于校正LS方法提出回归参数的Liu估计解，还分别在附加有等式约束条件和随机约束条件时构造了模型参数的约束Liu估计解和随机约束Liu估计解；针对等式约束的奇异线性模型的参数估计问题，为了克服设计矩阵的复共线性，廖勋[12]提出一个新的Liu型估计解法，证明新的Liu型估计在均方误差矩阵(mean square error matrix，MSEM)和均方误差(mean square error，MSE)准则下优于约束LS估计；针对带等式约束的回归模型复共线性问题，黄文焕等[13]、黄荣臻等[14]提出一种新估计，称为修正约束型Liu估计，在MSE准则基础上证明修正约束型Liu估计优于LS估计、岭估计、修正岭估计和约束型Liu估计；另外，许多学者也发现在一定条件下结合2种估计得到新的有偏估计优于其中任何单一估计，Baye和Parker[15]提出线性回归模型的主成分岭估计。

基于对主成分估计和Liu估计的优点考虑，结合2种估计，本文给出一种新的有偏估计——主成分Liu估计。在等式先验信息下，结合参数回归模型理论和联合平差方法，推导出加权下的主成分Liu估计解式和修正因子计算式。本文方法在同样约束情形下优于传统的经典最小二乘法，还可以借用最小二乘解做线性变换，进一步提高参数估计精度，减少偏差的同时得到更加稳定的可靠解。

1 等式约束G-M模型

等式约束G-M模型为[16-20]

(1)

式中：L∈Rn×1为观测向量；B∈Rn×m为设计矩阵，且R(B)=m

(2)

(3)

(4)

(5)

式中：N=BTPB；NH=HN-1HT。比较式(5)可知，等式约束G-M模型参数解的方差小于最小二乘解的方差。

2 等式约束G-M模型的主成分Liu估计

2.1 主成分Liu估计的构造

在线性回归模型L+e=BX中，增加新的参数d抵抗设计矩阵存在复共线性的情况，参数的选择优于岭参数的选取，同时具有压缩估计性质，根据准则式(3)，增加Liu估计的估计准则[7]，根据Liu估计定义得出的参数估计值为[16-17]

(6)

式中：0

对模型(1)进行如下典则参数变换

(7)

式中：G为正交方阵；Z=BG,α=GTX为典则参数。令GT(BTPB)G=Λ=diag{λ1,λ2,…,λm}，这里的λi(i=1,2,…,m)为BTPB的m个特征根。将BTPB的特征值按照λ1≥λ2≥…≥λm降序排列，在设计矩阵存在复共线性同时存在部分较小特征值，可采用主成分估计方法进行参数解算；设计矩阵病态性主要来源于小奇异值近似于0而导致(BTPB)-1变得很大，这里的小奇异值有可能不止1个，所以观测向量的微小扰动误差就会导致参数估计的极不稳定；而Liu估计中对病态矩阵的修正偏向统一性，不区分大小奇异值造成的影响。因此，结合主成分估计和Liu估计的优势，组成主成分Liu估计。

首先根据主成分估计原理，剔除降序排列的后m-k个小奇异值，因此主成分估计更加适用于系数矩阵特征根两级均匀分化且极小特征值较少的平差模型，记

设置最小奇异值门限k=λk,k=1,2,…,m-1，k的取值为[20]

将式(7)转换成式(8)的主成分典则形式

(8)

剔除掉后面m-k个自变量较小的主成分影响因素后得到L=Z1α1-e，有X=Gα，参数X的加权主成分估计为

(9)

结合主成分估计和Liu估计，定义主成分Liu估计为[21]

(10)

(11.a)

(11.b)

式(11)中：cov[*]表示协方差；Bias[*]表示偏差。

2.2 等式约束G-M模型的主成分Liu估计

测量平差问题研究中，要考虑实际背景为基础，在实际中测量通常增加约束条件进行联合平差，提高参数估计的有效性。利用拉格朗日乘子算法构造出精确约束函数表达式[22]

(12)

式中λ是n×1阶拉格朗日乘子向量，对X、λ求偏导数得

(13.a)

(13.b)

由式(13.a)可得

(14)

式(14)中I为m阶单位矩阵。将式(14)代入式(13.b)中，得

(15)

把式(15)代入式(14)中，得到在等式约束条件下的Liu估计解为

(16)

由于等式约束条件下主成分估计为

(17)

可得加权等式约束平差模型下的主成分Liu估计为

(18)

2.3 修正因子的确定

(19)

(20.a)

(20.b)

令t(λi,αi,p)=N1W1=g，可以得出精确约束条件下的均方误差为

(21)

对T(d)求导数，在满足d=1时，T′(d)>0，因此存在d值在T′(d)令其为零得出修正因子dH为

(22)

(23)

(24)

根据式(18)、(19)、(22)，可以得出不同方案下的参数估计及其均方误差矩阵，如表1所示。

表1 参数估计与均方误差矩阵

3 算例及分析

3.1 算例1

表2 添加随机误差后的系数矩阵和观测向量

表3 不同算法解算的参数估值

表4 方差-协方差矩阵

表5 文献[25]方差-协方差矩阵

病态矩阵有5个奇异值，分别为Λ=diag(0.029 2,0.116 5,27.431 5,140.832 5,608.474 6)，根据主成分原理，选取k=3，通过Liu估计中修正因子的计算式得到修正因子为0.15[7]；利用本文计算式(22)得到修正因子为0.55。

从算例可以看出，LS估计由于受到病态性影响，导致参数估值偏离真值，估计值与真值的差值范数为1.308 792；主成分估计和Liu估计各有优势，主成分估计将较小奇异值成分剔除，保留重要主成分，有利于提升参数估值的可靠性，估计值与真值的差值范数为0.813 019；狭义Liu估计作为最小二乘估计的一步线性变换，提升精度受到限制，但优于LS估计，估计值与真值的差值范数为0.896 969；主成分Liu估计结合2种估计的优良性质，优于2种估计中任何单一估计，估计值与真值的差值范数为0.812 687。通过比较主成分Liu估计和等式约束混合估计的估计值与真值的差值范数可以看出，等式约束对参数估计精度影响更大，一个合理的等式约束优于大部分模型算法，使得参数估值更具有可信度。本文方法是等式约束病态最小二乘模型的主成分Liu估计解法，而文献[25]中是基于等式约束病态总体最小二乘模型的正则化解法，采用同样的基础算例数据，本文方法得出参数估值的方差-协方差矩阵接近于文献[25]方法得出的方差-协方差矩阵，得到的方差-协方差矩阵的迹为2.414 41×10-4，文献[25]中方差-协方差矩阵的迹为1.546 50×10-4。

图1 LS算法模拟500次均方误差数值

图2 不同算法模拟500次均方误差数值

图3 本文算法模拟500次均方误差数值

3.2 算例2

表6 系数矩阵、观测值以及添加误差的观测值

表7 不同方法参数估计结果比较

表8 参数估计值的方差-协方差阵

从算例可以看出, 受病态性影响，导致LS估计参数估值偏离真值，估计值与真值的差值范数为214.276 3，因此LS估计得出的参数估值已经失真，尽量不采纳。主成分估计和Liu估计各有优势，主成分估计将较小奇异值成分剔除，保留重要主成分，有利于提升参数估值的可靠性，算例中由于奇异值分布较分散且最大奇异值与最小奇异值相差较大，因此主成分估计受到限制，估计值与真值的差值范数为86.802 4。狭义Liu估计作为最小二乘估计的一步线性变换，提升精度受到限制，但优于LS估计，估计值与真值的差值范数为86.694 1，针对Liu估计的一次计算精度提升不足，文献[21]提供一种迭代计算的Liu估计方法。主成分Liu估计结合2种估计的优良性质，优于2种估计中任何单一估计，估计值与真值的差值范数为40.460 7。

主成分Liu估计和等式约束混合估计方法的估计值与真值的差值范数分别为40.460 7和32.778 6，主成分Liu估计方法优于单一算法，但是合理的等式约束对参数估计精度影响更大，一个合理的等式约束优于大部分模型算法，使参数估值更具可信度，若是约束条件自身存在争议，那么对参数解只会添加更多的误差影响因素，更加偏离真值。主成分Liu估计方法的优点是：当参数模型病态时，主成分Liu估计的参数估值优于LS、主成分估计以及Liu估计，在一个合理的等式约束下提升效果更加明显，Liu估计思想中的原始估计可以选择LS估计、stein估计或者岭估计；主成分Liu估计方法的缺点是：由于采用主成分思想，主成分Liu估计会丢失部分参数解的信息，降低参数解的分辨率，参数估值的精度更加依赖于主成分的选取，参数估值为有偏估计值。

4 结语

多元线性平差模型之间合理的先验等式约束信息可显著提高解的可靠性及精确度。基于病态加权最小二乘平差模型，本文引入等式约束，通过主成分估计和Liu估计定义出一种新的有偏估计——主成分Liu估计；推导出等式约束病态最小二乘的主成分Liu估计的计算式、均方误差矩阵以及方差-协方差矩阵，利用均方误差数值最小化原理，导出修正因子的求解公式；最后用一个等式约束病态数值算例计算多种不同算法估计，证明本文方法估计精度更高，可进一步应用于等式约束的变量含误差模型。