用线性模型模拟线性-对数问题产生的自相关情况统计分析
2015-06-23吴梦婷王义闹
吴梦婷,王义闹
(温州大学数学与信息科学学院,浙江温州 325035)
用线性模型模拟线性-对数问题产生的自相关情况统计分析
吴梦婷,王义闹†
(温州大学数学与信息科学学院,浙江温州 325035)
用线性模型模拟线性-对数问题,残差序列会表现出自相关性.从线性-对数模型的参数取值大小、随机误差项方差大小、样本范围大小等三个方面,对用线性模型模拟线性-对数问题产生的自相关情况进行了统计分析,结果表明,当半对数模型的参数取值较大、随机误差项较小、样本范围较大时,残差序列的自相关性的百分比较大,此时不易误用线性模型.该研究对加深认识线性-对数模型,避免误用线性模型有一定的参考意义.
线性-对数模型;线性化;数值模拟;D-W检验
半对数模型又称增长模型,在回归分析中可以用半对数模型来测度增长率,如人口增长率、劳动增长率、GDP增长率等等.模型形式为:
由于模型中只有某一侧的变量为对数形式,所以称为半对数模型[1].例如可通过模型ln(GDPt)= b0+b1t+ut,得到我国GDP年增长率的估计值,这里t为时间变量.
在日常生活中,当实际问题的非线性程度不明显时,常常会首先选择简单的线性模型描述该问题,这样就会产生采用错误函数形式的问题.采用错误的函数形式,不仅会使模型误差变大,而且对变量之间的关系也会出现错误的认识[2].如果根据经济理论或其它先验知识可以确定模型的函数形式,就不会出现错用函数形式的问题了.但在实际问题中,往往难以根据经济理论或其它先验知识来确定模型函数形式,这就需要我们从数据出发寻找好的模型.采用错误的函数形式会表现出残差序列自相关,而建立计量经济模型软件的基本报告中都有DW统计量的值,那么,DW统计量在多大程度上能反映出模型有问题,进而提示去寻找原因,避免采用错误的函数形式,就是本文关注的问题.本文将用DW检验方法,从模型参数、随机误差项、样本范围等三方面对线性-对数模型误用了线性模型是否表现出显著自相关问题进行数值模拟与统计分析,这对深刻认识线性-对数模型,从而在实际建模中避免误用线性模型有一定帮助.
1 线性-对数模型误用线性模型的检验方法
对线性-对数函数lny=1+10x ,利用Eviews软件画出x-y的曲线图(见图1),并利用数值模拟进行线性回归,得参数,的估计值分别为-6.5和159,因此y^=-6.5+159x,并给出该方程的直线图(见图2).
比较x-y曲线图和x-y直线图可见,把线性-对数规律误认为线性规律,存在一定的误差.利用数值模拟得到残差分布图(见图3).
由残差分布图可知,残差在两边为正,在中间为负,呈有规律的变动,说明很可能存在自相关性.因此可以通过D-W检验来检验线性-对数模型误用线性模型后的自相关性,从而得到线性-对数模型是否误用线性模型的情况以及如果误用误差的大小[3].
图1 x-y曲线图
图2 x-y曲线图
图3 残差分布图
2 数值模拟具体方法及解析
本文主要分析线性-对数模型(2),分别从随机误差项u、参数b1及x的样本范围三方面,利用Eviews软件及D-W检验,分析误用线性模型处理之后的自相关性,从而判断线性-对数模型有无误用线性模型.
2.1 随机误差项大小对误用线性模型的影响
2.1.1数值模拟具体步骤
第一步:取定参数b0=1和b1=2;
第二步:选定解释变量的一个容量为30的样本,数值依次为:0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.1,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.19,0.2,0.21,0.22,0.23,0.24,0.25,0.26,0.27,0.28,0.29,0.3;
第三步:利用软件在实数范围内产生一组随机误差项:u1, u2, u3…u30,ui服从N(0,0.012),之后将标准差0.01改成0.02、0.05和0.1再进行数值模拟;
第四步:将得到的随机误差和已知的解释变量值代入lny=1+2x+u模型中,得到30个lnyi的模拟观测值,进而由y=exp(lny),得到30个yi的模拟观测值;
第五步:利用产生的30个lnyi值,对所选的30个x值进行回归,得线性-对数模型(2)的估计;利用如此产生的yi值,对所选的30个x值进行回归,得线性模型的估计;
第六步:提取线性模型的DW统计量,并且查表得n=30,k=2,显著性水平α=0.05时,dl=1.35,du=1.49,判断并记录是否存在一阶自相关;
第七步:循环10 000次,统计检验结果存在显著一阶自相关性或DW检验失效的百分比[4].
2.1.2 数值模拟结果具体分析
根据数值模拟的结果,对数据进行处理,得到表1.
表1 数据处理结果
由表1可知,线性-对数模型中的随机误差项对于误用线性模型后,DW检验是否存在显著自相关有明显影响.当随机误差项服从的正态分布的标准差为0.01时,残差序列存在显著自相关或DW检验失效的比例较高,达到94.2%,说明线性-对数规律性明显,随机干扰较弱,容易发现线性模型有问题,如果用线性模型处理,会产生较大的误差,从而会影响问题的解决.当标准差由0.01逐渐变大时,残差序列存在显著自相关或DW检验失效的比例会逐渐降低,当标准差达到0.05时,存在显著自相关或DW检验失效的比例仅为18.8%,这反映出干扰较大时,样本观察值的线性-对数规律性不太明显,这时,难以通过DW检验发现是否误用了线性模型,这时要注意从经济规律本身分析变量之间的关系,从而确定模型函数形式,或用其它检验方法进行进一步检验.当然,如果仅以预测为目标,这时用线性模型也是可以考虑的.
2.2 样本范围大小对误用线性模型的影响
2.2.1 数值模拟具体步骤
第一步:取定参数b0=1和b1=2;
第二步:选定解释变量的一个容量为30的样本,在一个实数范围内选择30个实数作为xi的模拟观测值:x1, x2, x3,…x30(首先选实数范围为0.01 – 0.3,之后将实数范围分别改为0.01 – 0.6,0.01 – 0.9,0.01 – 1.2,再分别进行数值模拟);
第三步:利用软件在实数范围内产生一组随机误差项:u1, u2, u3…u30,ui服从N(0,0.12);
第四步:将得到的随机数和已知的变量代入lny=1+2x+u模型中,从而得到30个lnyi的模拟观测值.将得到的随机数和已知的变量代入y=exp(lny),从而得到30个yi的模拟观测值;
第五步:利用产生的30个lnyi值,对所选的30个x值进行回归,得线性-对数模型(2)的估计,并利用如此产生的yi值,对所选的30个x值进行回归,得线性模型的估计;
第六步:提取线性模型的DW统计量,并查表得n=30,k=2,显著性水平α=0.05时,dl=1.35,du=1.49;
第七步:循环10 000次,统计检验结果存在显著一阶自相关性或DW检验失效的百分比.
2.2.2 数值模拟结果具体分析
根据数值模拟结果,统计分析得到表2.样本范围大小不同时,残差序列存在显著自相关的分布图见图1.
表2 数值模拟结果的统计分析
图1 残差序列存在显著自相关的分布图
由表2和图1可以看出,在随机误差项u和b1取值确定的情况下,x的取值范围也会影响线性-对数模型误用线性模型后DW检验的结果.当样本范围逐渐扩大时,残差序列的自相关性逐渐显著.在样本范围为(0.01 – 0.3)的情况下,线性-对数模型用线性模型处理后,DW检验残差序列显著自相关或DW检验失效的比例为17.2%,随着样本范围变大为(0.01 – 0.6),可以看到显著自相关或DW检验失效的比例有所提高,为36.9%,在图1中看到模型的非线性还不明显,如果DW检验残差序列不存在自相关性,误将线性-对数模型用线性模型处理,得到的线性模型误差不太大,是可以接受的.但是,当x范围变为(0.01 – 0.9)的时候,D-W检验出的显著自相关或DW检验失效的比例很大,从图1中也可以看出线性-对数模型不宜用线性模型处理,否则误差会比较大.当样本范围再次扩大的时候,可以发现线性-对数模型的非线性更加明显了,而且D-W检验的残差序列的显著自相关或DW检验失效的比例接近100%,此时线性-对数模型完全不能用线性模型处理.
因此,对线性-对数问题,用线性模型处理的时候,如果x的解释取值范围较小,即使DW检验显示不存在显著一阶自相关,也应该注意检验是否存在误用函数形式的问题,否则就可能出现误用函数形式的错误.当然,这时即使犯了误用函数形式的错误,因为非线性规律不明显,单纯从误差的角度来看,与用非线性模型处理相差也不会很多.
2.3 参数取值的大小对误用线性模型的影响
2.3.1数值模拟具体步骤
第一步:取定参数b0=1和b1=6(之后将参数b1改为5,2,1,分别进行数值模拟);
第二步:选定解释变量的一个容量为30的样本,数值分别为:0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.1,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.19,0.2,0.21,0.22,0.23,0.24,0.25,0.26,0.27,0.28,0.29,0.3;
第三步:利用软件在实数范围内产生一组随机误差项:u1, u2, u3…u30,ui服从N(0,0.12);
第四步:将得到的随机数和已知的变量代入lny=1+ 6x+u模型中,从而得到30个lnyi的模拟观测值.将得到的随机数和已知的变量代入y=exp(lny),从而得到30个yi的模拟观测值;
第五步:利用产生的30个lnyi值,对所选的30个x值进行回归,得线性-对数模型(2)的估计,并且利用如此产生的yi值,对所选的30个x值进行回归,得线性模型的估计;
第六步:提取得线性模型的DW统计量,并查表得n=30,k=2,在显著性水平α=0.05时,dl=1.35,du=1.49;
第七步:循环10 000次,统计检验结果有自相关性或DW检验失效的百分比.
2.3.2 数值模拟结果具体分析
根据数值模拟的结果,对数据进行统计分析,得表3.
表3 数值模拟结果的统计分析
由表3可以看出,在随机误差项方差和样本范围大小确定的情况下,线性-对数模型中的b1的不同取值,对误用线性模型后DW检验显著自相关或检验失效的比例有明显影响.当b1为6的时候可以看到线性-对数模型线性化后,残差序列显著自相关或DW检验失效的比例为100%,在这种情况下,容易发现线性模型存在问题,不容易犯误用线性模型的错误.当改变b1的取值时,显著自相关或DW检验失效的比例也随之改变,当取值逐渐变小的时候,显著自相关或DW检验失效的比例会逐渐降低.当b1取值达到2的时候,显著自相关或DW检验失效的比例为17.2%,当b1取值为1的时候,显著自相关或DW检验失效的比例为16.2%,虽有所降低,但是幅度有所减慢,如果以为不存在一阶自相关就应用线性模型处理,则会出现误用线性模型的问题.不过当b1为2和比2小的时候,线性-对数模型的曲率较小,用线性模型作为线性-对数模型的近似,误差是较小的,对预测结果影响不大.
由此可以得出,在半对数模型用线性模型处理的过程中,b1是重要的影响因素,需要根据线性-对数模型的实际情况,通过数值模拟的结果分析和DW检验,查看半对数模型线性化后残差序列的自相关性程度.如果显著自相关,则线性-对数模型用线性模型处理带来的误差就较大,应进一步探索自相关的原因,当不存在显著自相关时,可能会出现误用线性模型问题,如果仅研究变量间的数量关系,也可以将线性-对数模型用线性模型近似.
3 结 语
本文分析了线性-对数模型误用线性模型的三种情况。运用Eviews进行蒙特卡洛实验,以及D-W检验,直观地说明了线性-对数模型中的随机误差项u、参数b1取值大小和x的取值范围影响误用线性模型的可能性.当总体非线性规律明显时,常常能检验出残差序列自相关或出现DW检验失效的情况,因此出现残差序列自相关或出现DW检验失效的情况,要注意检验是否因为总体规律非线性所致.当DW检验不存在一阶自相关时,容易忽略总体规律非线性检验,会造成误用线性模型的失误.但幸运的是,这时非线性规律实际是不太明显的,如果仅考虑变量之间的数量关系的话,线性模型也是可以接受的.
[1] 孙敬水. 计量经济学[M]. 第二版. 北京: 清华大学出版社, 2009: 104.
[2] 佘光辉, 刘恩斌, 叶金盛, 等. 非线性模型线性化的度量准则及其应用[J]. 南京林业大学学报, 2005, 29(5):17-20.
[3] 李子奈, 潘文卿. 计量经济学[M]. 第二版. 北京: 高等教育出版社, 2005: 162.
[4] 张晓峒. EViews使用指南与案例[M]. 第一版. 北京: 机械工业出版社, 2007: 1-36.
The Statistic Analysis of Autocorrelation Generated from Linear-logarithmic Problem Simulated by Linear Model
WU Mengting, WANG Yinao
(College of Mathematics and Information Science, Wenzhou University, Wenzhou, China 325035)
While the linear-logarithmic problem is simulated by a linear model, the residual error series may produce autocorrelation. In this paper, the statistic analysis of the autocorrelation is achieved in terms of the parameter value, the variance of the random error and the sample range of the linear-logarithmic model. The final statistical analysis indicates: when the semi-logarithmic model parameter is larger, the random error is smaller; when the sample range is broader, then the percentage of autocorrelation of residual error percent is higher. In two cases it is not easy to misuse of linear model. This result has a certain reference significance to deepen the understanding of linear- logarithm model in order to avoid the misuse of linear model.
Linear -logarithmic Model; Linearization; Numerical Simulation; D-W Test
O241
A
1674-3563(2015)02-0013-06
10.3875/j.issn.1674-3563.2015.02.003 本文的PDF文件可以从xuebao.wzu.edu.cn获得
(编辑:王一芳)
2014-04-17
吴梦婷(1991- ),女,浙江海宁人,研究方向:统计分析.† 通讯作者,wyinao@sina.com.cn