APP下载

关于多因变量综合线性回归的几点注记

2018-05-17刘竹林

统计与信息论坛 2018年5期
关键词:因变量特征向量回归方程

徐 伟,孙 涛,刘竹林

(1.南京航空航天大学 经济与管理学院,江苏 南京 211106;2.南京审计大学 国际审计学院,江苏 南京 211815;3.江苏海事职业技术学院 经济管理学院,江苏 南京 211170)

一、引 言

多因变量y1,y2…,yq关于x1,x2,…,xp综合线性回归建模是一个比较成熟的问题,但从近几年很多介绍综合线性回归应用的文章来看[1-6],仍然有不少学者对这类问题的原理存在模糊认识,故本文拟对多因变量综合线性回归的本质与特点作几点解析。

二、三种常用回归建模方法原理解析

(一)OLS法的本质

(i=1,2,…,p)

的值最小,作拉格朗日函数:

… … …

(j=1,2,…,q)

(1)

注意:如果确信自变量中没有多余的,因变量也都几乎独立,可以直接算出(F0E0)T(F0E0)的全部特征值λ1≥λ2≥…≥λp≥λp+1≥…≥λp+q≥0,并且(λp+1+…+λp+q)/(p+q)很小(一般要求<10%),分别令特征向量:

… … …

若矩阵[cij]q×q的行列式不为0,则能解出所有因变量的表达式,即得全部回归方程。

(二)PCA法的特点

(三)PLS法简介与本性揭示

众所周知,PLS法计算过程如下:

为了更深刻地理解PLS成分t1,t2,…,tm利用了相关信息的程度,下面来看PLS成分的几个基本性质,并借此对提炼PLS成分的计算过程进行简化。

证明:易见A0是正定或半正定的,A0的全部特征值λ1≥λ2≥…≥λp≥0,记A属于λ1,λ2,…,λp的单位特征向量是α1,δ2,…,δp、C=[α1δ2…δp],从而C是正交矩阵,满足CTA0C=Diag(λ1,λ2,…,λp)[10]141-156,再看:

注意到

因此

=Diag(λ1,λ2,…,λp)-λ1[1 0 … 0]T[1 0 … 0]

=Diag(0,λ2,…,λp)

A1正交相似于Diag(λ2,…,λp),从而A1最大特征值λ2对应的单位特征向量可以取α2;同理可证,A2正交相似于Diag(λ3,…,λp),最大特征值λ3对应的单位特征向量可以取α3;如此继续下去,即得性质1,结论成立。

由此性质,PLS法提取PLS成分的过程可简化如下:

1.算出A0的全部特征值λ1,λ2,…,λp,并设(λ1+…+λm)/(λ1+…+λp)≥θ(通常至少取θ>0.8)。

性质3 PLS成分t1,t2,…,tm彼此正交。

证明:

1.对任意取定的1≤i

2.对任意取定的1≤i

PLS法用相互线性独立的偏成分t1,t2,…,tm取代原来的p个不完全线性独立的自变量,通常m

三、几种综合回归建模方法比较

下面用一个实例比较几种不同建模方法的回归效果。三次产业产值贡献率(增加值增量与GDP增量之比)是带动就业的一个重要因素,以1998—2011年中国三次产业产值贡献率成分数据为自变量x1,x2,x3,三次产业就业率的成分数据为因变量y1,y2,y3,构建线性回归模型[11]105-106,自变量和因变量的数据标准化见表1。

再返回到原始变量得到:

(2)

表1 标准化样本数据表

2.采用PLS法。A,A1的最大特征值对应的单位特征向量分别是:

α1=(-0.365 548,-0.633 202,0.682 224)T

α2=(0.908 34,-0.402 692,0.112 949)T

两个PLS成分

t1=E0α1=(-0.858 234,-0.441 88,-0.485 564,

0.538 722,0.533 159,-0.226 082,-0.226 255,

0.134 391,0.305 24,0.472 333,0.289 107,

0.145 044)T

t2=E1α2=(0.202 835,0.019 356,-0.346 466,

0.177 794,-0.012 281,-0.498 581,0.500 141,

0.156 057,0.015 082,-0.313 212,0.217 703,

-0.118 434)T

由于自变量的全体样本点只在一张二维平面内,而直接标准化后仍然在一张二维平面内,所以最多只能有两个PLS成分。进一步算得:

F2=F0-t1(-0.838 5,0.434 4,1.002)+

t2(0.019 2,-0.067 8,0.040 3)

再返回到原始变量,得到综合回归方程:

(3)

E0的信息利用率1-‖E2‖2/‖E0‖2=99%,F0的拟合误差率‖F2‖2/‖F0‖2=69.6%,由式(3)测算出中国2010—2012年三产业就业人数构成情况分别为(%):53.06、18.02、27.52;48.5、19.11、32.32;47.85、19.13、33.04,而中国2010—2012年三产业就业人数构成实际为:41.25、27.04、31.69;40.02、28.41、31.57;33.6、30.29、36.1。

再利用普通最小二乘法,并返回到原始变量得到回归方程:

(4)

可以看出,应用案例的拟合效果与测算效果都是OLS法最差、PLS法其次、PCA法最好;但若用1991—2002年全国三次产业产值资料建立回归(具体过程略),结果是PLS法最差、OLS法效果最好;尤其是预测中国2003年、2004年三产业就业人数构成情况分别为:50.61、20.36、29.03;53.6、22.35、24.05,与实际情况49.1、21.6、29.3;46.9、22.5、30.6比较接近。

总之,建立多因变量综合线性回归不存在绝对最好方法,不同资料适合不同方法。若遇到很难从数据资料直接分析出用哪种方法好时,不妨多试验几种方法,并通过比较效果后再确定。评价回归模型的优劣主要看两个标准:第一是总拟合误差小;第二是样本数据信息利用率高。

参考文献:

[1] 王惠文,黄薇.成分数据的线性回归模型[J].系统工程,2003(2).

[2] 张晓琴,陈佳佳,原静.成分数据的组合预测[J].应用概率统计,2013(3).

[3] 姜磊.空间回归模型选择的反思[J].统计信息论坛,2016(10).

[4] 詹敏,廖志高,徐玖平.线性无量纲化方法比较研究[J].统计与信息论坛,2016(12).

[5] 李玲玉,郭亚军,易平涛.无量纲化方法的选取原则 [J].系统管理学报.2016(6).

[6] 林彬.多元线性回归分析及其应用[J].中国科技信息,2010(9).

[7] 陈希孺,王松桂.近代回归分析[M].合肥:安徽教育出版社,1987.

[8] Wold H.Partial Least Squares[C]∥Kotz S,Johnson N L.cyclopedia of Statistical Sciences,New York:John Wiley & Sons,1985.

[9] Quenouille M H.Experiments with Mixtures[J].J.R.Statist.Soc.B,1959(21).

[10] 同济大学数学系.线性代数[M].北京:高等教育出版社,2014.

[11] 中国统计年鉴(2014)[M].北京:中国统计出版社,2014.

猜你喜欢

因变量特征向量回归方程
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
克罗内克积的特征向量
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
一类三阶矩阵特征向量的特殊求法
偏最小二乘回归方法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用