关于多因变量综合线性回归的几点注记

2018-05-17刘竹林

统计与信息论坛 2018年5期

徐伟，孙涛，刘竹林

(1.南京航空航天大学经济与管理学院，江苏南京 211106；2.南京审计大学国际审计学院，江苏南京 211815；3.江苏海事职业技术学院经济管理学院，江苏南京 211170)

一、引言

多因变量y1，y2…，yq关于x1，x2，…,xp综合线性回归建模是一个比较成熟的问题，但从近几年很多介绍综合线性回归应用的文章来看[1-6]，仍然有不少学者对这类问题的原理存在模糊认识，故本文拟对多因变量综合线性回归的本质与特点作几点解析。

二、三种常用回归建模方法原理解析

(一)OLS法的本质

记

(i=1，2，…，p)

的值最小，作拉格朗日函数：

… … …

(j=1，2，…，q)

(1)

注意：如果确信自变量中没有多余的，因变量也都几乎独立，可以直接算出(F0E0)T(F0E0)的全部特征值λ1≥λ2≥…≥λp≥λp+1≥…≥λp+q≥0,并且(λp+1+…+λp+q)/(p+q)很小(一般要求<10%)，分别令特征向量：

… … …

若矩阵[cij]q×q的行列式不为0，则能解出所有因变量的表达式，即得全部回归方程。

(二)PCA法的特点

(三)PLS法简介与本性揭示

众所周知，PLS法计算过程如下：

为了更深刻地理解PLS成分t1,t2，…,tm利用了相关信息的程度，下面来看PLS成分的几个基本性质，并借此对提炼PLS成分的计算过程进行简化。

证明：易见A0是正定或半正定的，A0的全部特征值λ1≥λ2≥…≥λp≥0,记A属于λ1,λ2,…,λp的单位特征向量是α1,δ2,…,δp、C=[α1δ2…δp],从而C是正交矩阵，满足CTA0C=Diag(λ1,λ2,…,λp)[10]141-156，再看：

注意到

因此

=Diag(λ1,λ2,…,λp)-λ1[1 0 … 0]T[1 0 … 0]

=Diag(0,λ2,…,λp)

A1正交相似于Diag(λ2,…,λp)，从而A1最大特征值λ2对应的单位特征向量可以取α2；同理可证，A2正交相似于Diag(λ3,…,λp)，最大特征值λ3对应的单位特征向量可以取α3；如此继续下去，即得性质1，结论成立。

由此性质，PLS法提取PLS成分的过程可简化如下：

1.算出A0的全部特征值λ1,λ2,…,λp,并设(λ1+…+λm)/(λ1+…+λp)≥θ(通常至少取θ>0.8)。

性质3 PLS成分t1,t2,…,tm彼此正交。

证明：

1.对任意取定的1≤i

2.对任意取定的1≤i

PLS法用相互线性独立的偏成分t1,t2，…,tm取代原来的p个不完全线性独立的自变量，通常m

三、几种综合回归建模方法比较

下面用一个实例比较几种不同建模方法的回归效果。三次产业产值贡献率(增加值增量与GDP增量之比)是带动就业的一个重要因素，以1998—2011年中国三次产业产值贡献率成分数据为自变量x1,x2,x3，三次产业就业率的成分数据为因变量y1,y2,y3，构建线性回归模型[11]105-106，自变量和因变量的数据标准化见表1。

再返回到原始变量得到：

(2)

表1 标准化样本数据表

2.采用PLS法。A，A1的最大特征值对应的单位特征向量分别是：

α1=(-0.365 548,-0.633 202,0.682 224)T

α2=(0.908 34,-0.402 692,0.112 949)T

两个PLS成分

t1=E0α1=(-0.858 234,-0.441 88,-0.485 564,

0.538 722,0.533 159，-0.226 082,-0.226 255,

0.134 391,0.305 24,0.472 333,0.289 107,

0.145 044)T

t2=E1α2=(0.202 835,0.019 356,-0.346 466,

0.177 794,-0.012 281,-0.498 581，0.500 141,

0.156 057,0.015 082,-0.313 212,0.217 703,

-0.118 434)T

由于自变量的全体样本点只在一张二维平面内，而直接标准化后仍然在一张二维平面内，所以最多只能有两个PLS成分。进一步算得：

F2=F0-t1(-0.838 5,0.434 4,1.002)+

t2(0.019 2,-0.067 8,0.040 3)

再返回到原始变量，得到综合回归方程：

(3)

E0的信息利用率1-‖E2‖2/‖E0‖2=99%,F0的拟合误差率‖F2‖2/‖F0‖2=69.6%,由式(3)测算出中国2010—2012年三产业就业人数构成情况分别为(%)：53.06、18.02、27.52；48.5、19.11、32.32；47.85、19.13、33.04，而中国2010—2012年三产业就业人数构成实际为：41.25、27.04、31.69；40.02、28.41、31.57；33.6、30.29、36.1。

再利用普通最小二乘法，并返回到原始变量得到回归方程：

(4)

可以看出，应用案例的拟合效果与测算效果都是OLS法最差、PLS法其次、PCA法最好；但若用1991—2002年全国三次产业产值资料建立回归(具体过程略)，结果是PLS法最差、OLS法效果最好；尤其是预测中国2003年、2004年三产业就业人数构成情况分别为：50.61、20.36、29.03；53.6、22.35、24.05，与实际情况49.1、21.6、29.3；46.9、22.5、30.6比较接近。

总之，建立多因变量综合线性回归不存在绝对最好方法，不同资料适合不同方法。若遇到很难从数据资料直接分析出用哪种方法好时，不妨多试验几种方法，并通过比较效果后再确定。评价回归模型的优劣主要看两个标准：第一是总拟合误差小；第二是样本数据信息利用率高。

参考文献：

[1] 王惠文，黄薇.成分数据的线性回归模型[J].系统工程，2003(2).

[2] 张晓琴，陈佳佳，原静.成分数据的组合预测[J].应用概率统计，2013(3).

[3] 姜磊.空间回归模型选择的反思[J].统计信息论坛，2016(10).

[4] 詹敏，廖志高，徐玖平.线性无量纲化方法比较研究[J].统计与信息论坛，2016(12).

[5] 李玲玉,郭亚军,易平涛.无量纲化方法的选取原则 [J].系统管理学报.2016(6).

[6] 林彬.多元线性回归分析及其应用[J].中国科技信息，2010(9).

[7] 陈希孺，王松桂.近代回归分析[M].合肥：安徽教育出版社，1987.

[8] Wold H.Partial Least Squares[C]∥Kotz S，Johnson N L.cyclopedia of Statistical Sciences，New York:John Wiley & Sons，1985.

[9] Quenouille M H.Experiments with Mixtures[J].J.R.Statist.Soc.B，1959(21).

[10] 同济大学数学系.线性代数[M].北京：高等教育出版社，2014.