浅谈多因变量的多元回归算法的研究
2018-08-24董霖
摘要:用一个因变量与多个自变量进行回归是多数求解问题中采用的方法,但进行多元线性回归得到的回归方程经过检验后发现拟合效果往往不好。因此,本文以“低保标准”这一实际问题为例,通过多因变量的多元回归算法分析不同地区“低保标准”之间的相关性,能够有效地避免丢失各地区之间相互关联的信息,说明多因变量的多元回归算法可以更好地解决实际问题。
关键词:多因变量的多元回归算法、岭回归、相关性
0 引言
对于多对多的回归问题,可以转化为多個多元回归问题来解决。但对求解各地之间低保标准的相关性的问题,每个地区的因变量之间存在着一定的联系,如果分别建立各地区的低保标准与其指标自变量的回归关系式,会丢失各地低保标准之间相互关联的信息。这就需要多因变量的多元回归算法来分析实际问题。
1 算法过程
1.1 多元线性回归及回归诊断
在这里选取了北京、上海市2010-2016年的相关数据(如表1,表2所示),在SAS软件下编程进行了分析。
对该模型进行回归诊断,结果如下:
图1
经验表明:当VIFj≥10时,就说明自变量xj与其余自变量之间存在严重的多重共线性关系,Eigenvalue(特征根)有几个接近于0,就有几个多重共线性关系,conditon index(条件数)在10~100之间时,变量存在着较强的共线性关系。根据这些统计量的检验,我们可以发现多因变量多元线性回归结果存在较强的多重共线性关系,且P值较大,不能通过检验,然而同类之间的因变量、指标变量均具有较强的相关性,因此利用多因变量多元逐步回归以及岭回归的方法对结果进行修正。
表1 北京市2010-2016年的相关数据
表2 上海市2010-2016年的相关数据
1.2 多因变量的多元逐步回归
多因变量的多元逐步回归与一个因变量的逐步回归的基本步骤基本类似,其不同之处在于,由于因变量的个数大于一,因此,在逐步回归的过程中,引入和剔除自变量时需要计算这些变量对因变量的贡献率,此时,需要利用新的统计量(Vi统计量)来进行描述。
回归方程的具体表达式:
其中,
残差平方和:
复相关系数:
(复相关系数是反映一个因变量与一组自变量之间相关程度的指标)
这里选取了北京、上海市2010-2016年的相关数据,在SAS软件下编程进行了分析,得到的结果如下:
其中,x1,x4,x5分别代表人均GDP、职工平均工资、最低工资标准, 分别代表北京、上海的预测数据。
两回归方程经检验都是高度显著的(p<0.05),复相关系数R1=0.9973,决定系数(R21=0.9947),复相关系数R2=0.9999(R22=0.9998)。
因此回归方程通过检验,且拟合效果较好。
1.3 岭回归
在对方程进行多因变量多元线性回归时,最小二乘矩阵X'X的特征根有多个接近于0,变量之间的多重线性关系较强。岭回归的基本思想是给矩阵加入一个正的常数矩阵k*I,则X'X+kI接近奇异的程度会显著减小,从而克服变量间的共线性关系。
当k≈0.01时,岭迹已经趋于平稳,从而克服了变量间的多重共线性关系,拟合效果较好。得到的回归方程如下:
2 实验结果及分析
实验的预报和控制:
图2
图3
由图2与图3可知,多因变量的多元回归算法的预测效果较好。
3 总结
通过多因变量的多元回归算法来分析因变量之间的相关性,能够防止丢失因变量间的关联信息,得到更符合实际情况的分析结果。本文以“低保标准”实际问题为例,用多因变量的多元回归算法求解了北京市与上海市之间的低保标准相关性问题,检验了算法较好的预测效果。由于多因变量的多元回归可以快速有效地解决实际问题,所以该算法可以得到广泛的应用。
作者简介:董霖,女,就读于延边大学,主要研究领域为计算机科学与技术。
候琳珊等. 基于扩频和归一化的图像识别算法研究