基于Lasso的外商直接投资影响因素研究*
2014-07-05喻胜华
喻胜华,张 静
(湖南大学 经济与贸易学院,湖南 长沙 410079)
一 引言及文献综述
上世纪90年代至本世纪初期,得益于低廉的劳动力成本和广大的市场商机,我国吸收的外商直接投资几乎是直线上升。外商直接投资通过“外溢效应”、“干中学效应”以及“资本累计效应”极大地促进了我国的技术进步与经济增长。近年来,随着我国工资水平的不断提高,吸引外资的原有优势与国际竞争力已逐步弱化,外商直接投资的增速已开始回落,尤其是2012年出现了自2009年以来的首次年度下降,曾一度面临十分严峻的局面。所幸的是,从2013年3月份开始,我国的外商直接投资总体呈现出恢复性增长态势,分区域来看,我国中西部地区吸引外资的优势得以延续,其外商直接投资的增速超过了东部地区。当前,我国正处在一个新的发展阶段,在以后相当长的一段时期内,外商直接投资对我国经济发展的作用仍然不能低估。因此,深入探讨我国外商直接投资的主要影响因素及其影响程度仍然具有十分重要的现实意义。
我国吸引外商直接投资的成因及其决策问题的研究,一直被学者们所重视。一般认为,影响外商直接投资的因素主要有市场规模因素、成本因素、集聚因素、基础设施因素及制度因素等。从研究的范围和角度来看,主要包括以下四个方面:一是基于外商直接投资的总额从国家层面进行研究[1-4];二是基于外商直接投资的总额从省市或地区层面进行研究[5-6];三是对几个不同的省市或地区进行比较研究[7-10];四是将外商直接投资按行业或外资来源国进行细分,研究不同产业特质、不同来源国特性所造成的差异[11-13],在行业层面,学者们重点研究了服务业吸引外商直接投资的影响因素。
在研究方法上,研究者大都是基于时间序列数据或者面板数据并通过多元统计分析或计量经济学方法来确定影响外商直接投资的因素及其影响程度,这些方法主要包括:
(一)普通最小二乘法(OLS),如徐进亮[5],李汉君[9];
(二)主成分分析法(PCA),如周国富[6];
(三)有条件logit模型(CLM),如Chen[1];
(四)偏最小二乘法(PLS),如许和连等[3];
(五)广义最小二乘法(GLS),如夏帆[14];
(六)动态面板与门槛面板模型,如姜松等[13];
任何一种方法都不可能一致地优于其他方法,它们都会有自己的优点及局限。例如:普通最小二乘法只适合G-M假定成立的线性模型,而且,当自变量之间存在多重共线性关系时,基于普通最小二乘法所建立的模型会表现得极其不稳定;广义最小二乘法能较好地消除异方差的影响,但它对模型中的多重共线性无能为力;主成分分析法能很好地提取自变量所含有的信息,并能在一定程度上消除多重共线性的影响,但它不一定对因变量有很强的解释能力;偏最小二乘法同时考虑了自变量与因变量的信息,尤其适合多个因变量对多个自变量的回归建模,特别是当各变量集合内部存在较高程度的相关性时,它比对逐个因变量做回归更加有效,其结论更加可靠,整体性更强,但用偏最小二乘法所建立的模型仍然包含原有全部自变量,它不能够进行变量选择;动态面板与门槛面板模型适合包含时间与截面两个统计维度的数据,能更好地反映各自变量对因变量的动态特征,但模型过于复杂,涉及的变量与检验方法较多,难以保证模型的信度;有条件logit模型能较好地拟合某些现实经济领域中的数据,但涉及的假设条件较多,且难以检验。本文将运用一种新型的变量选择方法—Lasso(Least absolute shrinkage and selection operator)方法研究我国外商直接投资的影响因素及影响程度,它是Tibshirani[15]在 Breiman的 non-negative garotte[16]模型的启发下提出的一种有偏估计方法,它通过对系数添加一个约束条件来消除模型中的多重共线性的影响,且不要求设计矩阵是列满秩的,其主要特点是能够同时完成对模型参数的估计和变量的选择。
二 Lasso回归的原理与方法
设有p个自变量x1,x2,…,xp和因变量y,它们之间可建立如下的线性回归模型:
其中α为常数项,β1,β2,…,βp为回归系数,ε是随机扰动项。
设(xi1,xi2,…,xip;yi),i=1,2,…,n,是变量的n组观测值,进一步假定数据已经过中心标准化,即p,记β= (β1,β2,…,βp)T,则模型(1)中未知参数α与β的Lasso估计定义为:
,(2)式中的最优解即为最小二乘解,而当s<s0时,就会使一些回归系数缩小或者趋向于0,甚至等于0,这些等于0的变量将会被删除,从而达到变量选择的目的。例如,当时,模型中非零系数的个数会从p个减少到个左右。由于数据已中心标准化,所以,对任意的s>0,(2)式中α的解为^α=0.即(2)式等介于
每一个s(≥0)值都会通过(3)式对应于一个Lasso解,经过若干步后可得到不同s值下的所有Lasso解,这时,我们可用cp准则、赤池信息准则(AIC)或贝叶斯信息准则(BIC)等选择最佳模型。
Tibshirani,R[15]用二次规划方法得到了(3)式的解,但该方法的计算量很大,尤其是当模型中的自变量较多的时候。Efron,B等[18]提出的最小角回归(Least Angle Regression)算法很好地解决了Lasso方法的计算问题。
三 建模与实证分析
(一)变量的选取
根据经济学理论及已有的研究结论,我们从市场规模、劳动力成本、基础设施状况、集聚因素、贸易壁垒程度、人力资源状况、汇率以及劳动生产率等8个方面共选取了14个变量。具体如下:用国内生产总值(GDP)(x1)、GDP的增长率(x2)、全社会固定资产投资(x3)以及社会消费品零售总额(x4)反映市场规模;用职工平均工资(x5)反映劳动力成本;用公路里程数(x6)、货物周转量(x7)和邮电业务量(x8)反映基础设施状况;用第三产业总值占GDP的比重(x9)反映集聚效应;用关税(x10)表示贸易壁垒程度;用高等学校在校学生数(x11)反映人力资源状况;用进出口总额占GDP的比重(x12)反映贸易开放程度;用直接标价法美元兑人民币的汇率(x13)反映汇率水平;用GDP与就业人数之比(x14)反映劳动生产率水平。我们预期职工平均工资和关税对外商直接投资有负向影响,其它变量都有正向影响。
(二)数据的来源和预处理
本文选取的数据区间是1995-2012年,汇率的数据来自国家外汇管理局,其他变量的数据来自1995~2012年各期的《中国统计年鉴》。
汇率采用的是直接标价法,取1995~2012年最后一天美元兑人民币汇率。为了消除各变量之间的量纲的影响,且比较容易得到平稳序列,我们把各时序数据取自然对数,在此基础上再中心标准化,这样做并不影响变量之间的关系。为方便起见,我们仍然用前面的记号。
下面对选取的14个影响因素运用Lasso方法进行变量选择,用Matlab编写Lasso算法程序,只需要24步,就找到了全部的解。Lasso解的回归路径如表1所示。
表2是对应每一步路径的模型系数的估计值βj(j=1,2,…,14),只取了前8步的结果,从表2可以看出:Lasso方法能够同时实现对模型参数的估计和变量的选择。
本文利用AIC准则选择最佳模型,AIC的值越小越好,这和用BIC准则最终选择的模型是相同的,当AIC=0.0202,也就是第8步时,选出了最优解。Lasso变量选择结果显示:国内生产总值、国内生产总值增长率、全社会固定资产投资、公路里程数、邮电业务量、贸易开放度和劳动生产率对外商直接投资有显著的正向促进作用,关税对外商直接投资有显著的负向作用,其中国内生产总值对外商直接投资的影响最为显著,邮电业务量的影响最小,这说明外商来华投资主要是看中我国巨大的国内市场,而社会消费品零售总额、职工平均工资、货物周转量、第三产业生产总值占GDP的比重、高等学校在校学生数及汇率对外商直接投资的影响却不显著,都未被选入模型中。为了进一步看到Lasso方法在变量选择方面的优势,我们把它与最小二乘法以及逐步回归法进行比较,其参数估计结果见表3。
表1 Lasso回归的变量选择路径与变量集元素个数
表2 Lasso回归的参数估计及变量选择
表3 三种方法的参数估计比较
从表3可以看出:最小二乘回归只能完成对参数的估计而不能实现变量的选择,而且,一些参数估计的符号明显与实际情况不符,得到的模型可解释性很差。逐步回归法选入了4个变量,Lasso方法选入了8个变量,有意思的是:用Lasso方法选入的8个变量中包含了逐步回归法所选入的全部变量,而且,其参数估计的符号相同,数值也比较接近,这在一定程度上说明了Lasso方法所得结果的合理性。逐步回归法只选取了对外商直接投资的影响较为显著的因素,每一步走得过长,对变量的删减度过大;Lasso方法既没有过多地选择变量,也不会出现变量删减过度的问题,模型可解释性好。
四 结论与政策建议
通过以上分析,得到了如下结论,并给出了相应的政策建议:
(一)从理论上可以证明:当数据存在比较严重的多重共线性时,平均来讲,参数的最小二乘估计偏长。Lasso方法所得到的参数估计在数值上明显小于最小二乘估计,是对最小二乘估计的压缩,这在很大程度上能消除模型中的多重共线性所产生的不利影响。与此同时,Lasso方法在高维变量选择上也具有明显的优势,既不会像最小二乘法那样选择过多的变量,也不存在逐步回归法中所出现的删减过度的问题,被删减掉的变量都是对模型没有显著影响的变量,从而可提高模型的精度。
(二)外商直接投资受国内市场规模影响很大。国内生产总值每提高一个百分点,外商直接投资会增加约0.55个百分点,同时国内生产总值增长率以及固定资产投资均对外商直接投资有一定的促进作用,但是,国内生产总值对其影响程度最大。因此,不断壮大我国的经济实力,促进我国经济健康、可持续发展是吸引外商直接投资的根本保证。
(三)公路里程数每增加一个百分点,外商直接投资会增加约0.14个百分点,可见基础设施是吸引外商直接投资的硬件。为此,我国要进一步加快基础设施建设,尤其是要加快中西部地区的基础设施建设;在城市,尤其是特大城市,要强化快速通道的建设,不断完善和优化现有的路网结构,改造或新建一批辐射面广的交通枢纽。
(四)研究表明:贸易开放度的加大和关税的降低都有助于我国吸引更多的外商直接投资,所以,我国要进一步加大改革开放的力度,加快自由贸易区的谈判步伐,有步骤地推进人民币的周边化、区域化和国际化,不断创造条件全面参与国际竞争。
[1]Chen,C.H.Regional determinants of foreign direct investment in mainland China[J].Journal of Economic Studies,1996,(2):18-30.
[2]Cheng,L.K,Kwan,Y.K.What are the determinants of the location of foreign direct investment?The Chinese experience[J].Journal of International Economics,2000,(3):379-400.
[3]许和连,赖明勇,钱晓英.外商直接投资影响因素的偏最小二乘回归建模分析[J].中国管理科学,2002,(5):20-25.
[4]何谦.中国FDI影响因素之实证研究[J].西北农林科技大学学报(社会科学版),2008,(3):26-31.
[5]徐进亮,卜伟.江西省吸引FDI经济影响因素的实证分析[J].国际贸易问题,2007,(2):57-61.
[6]周国富.关于FDI影响因素的实证研究——以环渤海地区为例[J].河北经贸大学学报,2008,(6):59-63.
[7]刘德学,陈敏敏.华东华南地区FDI影响因素的比较[J].统计与决策,2008,(15):91-93.
[8]肖婷,张典.中部六省外商直接投资影响因素的分析[J].中国商界,2008,(10):146-147.
[9]李汉君.我国FDI流入的地区差异与影响因素分析——基于1992-2007年省级面板数据[J].国际贸易问题,2011,(3):124-130.
[10]李晓嘉.地方政府公共投资与区域经济增长的差异性分析[J].财经理论与实践,2011,(2):94-97.
[11]李丹,崔日明.中国服务业吸引FDI影响因素实证研究——基于1997-2007年时序数据的计量检验分析[J].辽宁大学学报(哲学社会科学版),2010,(1):108-114.
[12]杨仁发,刘纯彬.中国生产性服务业FDI影响因素实证研究[J].国际贸易问题,2012,(11):107-116.
[13]姜松,王钊.中国房地产业如何利用FDI影响因素与作用机理[J].贵州财经大学学报,2013,(3):77-86.
[14]夏帆.我国FDI影响因素空间差异比较[J].综合管理,2007,(12):98-99.
[15]Tibshirani,R.Regression shrinkage and selection via the Lasso[J].Journal of the Royal Statistical Society,Series B,1996,(1):267-288.
[16]Breiman,L.Better subset selection using the non-negative garotte[R].Technical Report.University of California,Berkeley,1993.
[17]Efron,B.and Tibshirani,R.An Introduction to the Bootstrap[M].London:Chapman and Hall,1993.
[18]Efron,B.,Hastie,T.,Johnstone,I.and Tibshirani,R.Least angle regression[J].The Annals of Statistics,2004,(2):407-499.