基于LASSO方法的我国城乡居民食物消费结构影响因素研究
2018-01-25马云倩王秀丽孙君茂郭燕枝
马云倩,王秀丽,孙君茂,郭燕枝
(农业部食物与营养发展研究所,北京 100081)
随着社会经济快速发展,我国居民食物消费结构发生了很大变化,从20世纪60~70年代以吃饱为目的的生存性消费到80~90年代以补偿为目的量的扩张消费,再到21世纪以健康、便捷为目的质的提高阶段。在这个变化过程中,居民的膳食结构得到明显改善,营养水平不断提高。但同时也存在一些问题,如居民营养不足与营养过剩问题并存,食物消费浪费现象,不健康的生活方式普遍存在等。根据2010—2012年全国居民营养健康调查结果显示,由于营养过剩造成的超重肥胖率、高血压患病率、糖尿病患病率以及血脂异常显著升高,我国城市成年居民超重率由2002年的8.5%上升至2012的11.0%,高血压患病率由2002年的19.3%上升到24.5%,糖尿病患病由2002年的4.45%上升至2012年的7.5%[1-2]。这表明我国居民的膳食结构仍然不合理,营养失衡依然是我国居民面临的严峻挑战,因此,亟需我们对居民的食物消费结构及其影响因素开展研究,以改善居民的膳食结构和营养状况。
目前国内外学者对我国居民的食物消费结构研究较多,主要采用AIDS、ELES以及面板回归、Logistic回归等方法对我国城乡居民的食物消费结构开展研究[3-5]等。然而对于食物消费结构的影响因素研究,特别是对影响因素的定量分析明显不足。现存的影响因素研究主要有:郭娟[6]利用典型相关分析研究了食品工业发展水平、人均可支配收入、价格指数、城市化率、人口增长率等5个方面与食物消费支出之间的相关性;李朋华等[7]运用典型相关分析研究了河北农村居民食物消费影响因素,人均收入载荷最大,是影响农村居民食物消费结构的主要因数;张佩琪[8]利用线性回归方法以及路径分析研究了人均GDP、人口变化、粮食生产等因素对食物消费结构的影响,研究表明,人均GDP与人均口粮消费之间存在负向相关系;刘莉[9]利用AIDS模型研究了海峡两岸居民食物消费结构变化的影响因素,研究表明收入和价格是影响居民食物消费结构变化的主要因素。
综上所述,现有的食物消费结构影响因素研究主要是人为选取一些影响因素,采用典型相关分析、路径分析以及AIDS等方法研究影响因素与食物消费之间的相关性及各类支出弹性与需求弹性等,影响因素的选取过于主观。为此,我们利用现代变量筛选方法LASSO,从众多影响因素中客观地筛选出影响居民食物消费结构的因素,并建立LASSO回归,定量分析各因素对我国城乡居民食物消费的影响。
1 LASSO方法
影响居民食物消费结构的因素很多,如何从海量数据中有效地挖掘出真正的影响因素是值得研究的问题。通常在建立模型之初,会设定尽可能多的自变量,但在建立模型时需要有效的自变量集合,自变量的选取是一个复杂而重要的问题,而LASSO方法是一个能够实现有效变量选择消除多重共线性等问题的估计方法[10-12]。
LASSO(Least Absolute Shrinkage and Selection Operator)即最小绝对值压缩选择算子,是由统计学家Tibshirani于1996年提出的,该算法的思想是通过构造惩罚函数,使得估计后一些指标的系数为零,从而实现指标集合精简的目的。
假设有线性回归模型,Y=Xβ+ε,Y为因变量向量,X为自变量矩阵,β= (β1,β2,…βP)为系数向量,ε为误差向量。xij为标准化后的自变量数据,yi为中心化的因变量数据,其中i= 1,2,…n,j= 1,2,…p。传统最小二乘估计为:
而LASSO就是一种L1正则化,加上一个L1范数惩罚,即
L1范数惩罚等价于
其思想是系数绝对值总和不能太大,在此前提下运用最小二乘的方法,残差平方和最小。L1正则化的公式没有解析解,可通过凸二次规划求解,Efron等提出的最小角回归(Least Angel Regression)可以有效解决这个问题。L1正则化最显著的优点是在实现压缩(shrinkage)的同时实现变量选择,在优化求解过程一些系数βj会达到零[13-14]。
2 影响因素分析
影响我国城乡居民食物消费结构变化的因素很多,学者关注的影响因素也不尽相同。本研究在现有研究文献的基础上,选取尽可能全面的影响因素,采用现代变量选择的方法LASSO,客观地筛选出食物消费结构的真正影响因素,并进行定量分析。
2.1 变量的选取及数据来源
在现有研究文献以及相关农业经济学理论的基础上[6-9,15],选取 11个可能影响城乡居民食物消费结构变化的因素,包括人均GDP(X1)、城镇/农村居民消费价格指数(X2)、人口自然增长率(X3)、城镇/农村居民家庭人均可支配收入(X4)、城镇/农村居民家庭恩格尔系数(X5)、食品类工业生产者出厂价格指数(X6)、城镇/农村居民家庭人均食品消费支出(X7)、城镇/农村居民家庭平均每户家庭人口(X8)、老龄化率(X9)、人均粮食产量(X10)、食品类商品零售价格指数(X11)。其中,城镇/农村居民消费价格指数、食品类工业生产者出厂价格指数以及食品类商品零售价格指数采用的均是前一年数据为100。食品类工业生产者出厂价格指数在一定程度上反映了食品工业的发展状况,而食品类商品零售价格指数则反映的是食品的价格。平均每户家庭人口代表的是微观的人口结构,而老龄化率则代表宏观的社会人口结构状况。食物消费各变量依次以粮食(Y1)、蔬菜(Y2)、食用油(Y3)、肉类(Y4)、蛋类及其制品(Y5)、奶及其制品(Y6)、水产品(Y7)、鲜瓜果(Y8)表示,单位均为公斤。其中农村居民食物消费中鲜瓜果的数据是从2003年开始记录的,由于数据量太少,因此,农村居民鲜瓜果(Y8)未进行研究。
本研究数据来源于各期《中国统计年鉴》及国家统计局数据中心网站,选取的数据区间是1990—2012年。为消除数据的量纲影响以及部分消除异方差性,在建模之前首先对存在量纲的数据如人均GDP(X1)、城镇/农村居民家庭人均可支配收入(X4)、城镇/农村居民家庭人均食品消费支出(X7)、城镇/农村居民家庭平均每户家庭人口(X8)、人均粮食产量(X10)以及食物消费各因变量进行对数化处理,并利用R软件中的Scale()函数对数据进行中心化标准处理。
2.2 基于LASSO的城乡居民食物消费结构影响因素分析
由于城乡居民食物消费之间存在差异,因此本研究分别对城镇和农村居民食物消费结构影响因素进行分析。主要通过R软件利用LARS包进行LASSO变量筛选及定量分析。
表1 残差平方和与Cp统计量值
以农村居民人均粮食消费量(Y1)为例详细介绍LASSO变量筛选及回归建模过程。运行结果显示,只需要13步就可以得到LASSO的全部解,且RSS残差平方和随着步骤0到13数值逐步减小,调整的R2= 0.994,说明拟合方程比较好。根据最小角回归原理,选择Cp统计量值最小时对应的拟合方程。表1和图1显示,第12步Cp值最小为11.3339,模型最优,根据表2结果,选取 X1、X2、X3、X4、X5、X6、X7、X8、X9、X11等10个变量。
图1 LASSO回归结果
表2 LASSO回归的参数估计
其他食物消费各变量蔬菜(Y2)、食用油(Y3)、肉类(Y4)、蛋类及其制品(Y5)、奶及其制品(Y6)、水产品(Y7)、鲜瓜果(Y8)等LASSO变量筛选及回归建模过程相同,因此不再详细介绍。具体变量筛选及建模结果见表3和表4,其中表4显示的是城镇居民食物消费的LASSO变量筛选及回归结果。
表3显示,影响农村居民粮食消费量的因素很多,除人均粮食产量(X10)外,其他10个因素均对粮食消费量有影响,其中,农村居民家庭人均可支配收入的系数最大、为0.1066,其他影响因素前面的系数均很小。这表明虽然影响农村居民粮食消费量的因素有很多,但主要的影响因素是人均可支配收入。且人均可支配收入与粮食消费量之间存在正相关,收入增加,粮食的消费量也随之增加。但是,从表4可以看出,人均可支配收入并不是城镇居民粮食消费量的影响因素。农村居民可支配收入低于城镇居民可支配收入,由此推断,人均可支配收入只是在收入水平较低的时候对粮食消费有影响,当收入水平达到一定程度时,人们对粮食的消费会趋于稳定,人均可支配收入便不再对居民粮食消费产生影响。
表3 农村居民食物消费LASSO回归结果
表4 城镇居民食物消费LASSO回归结果
影响城镇和农村居民蔬菜消费量的主要因素是农村居民消费价格指数,两者之间存在负相关性。居民消费价格指数一定程度上代表了通货膨胀率,表明在通货膨胀时期,蔬菜价格上涨,农村居民会适当减少对蔬菜的消费量。影响农村居民食用油消费的主要因素是人均可支配收入,但该因素却不是城镇居民食用油消费量的影响,这与居民粮食消费的主要影响因素相同,可以解释为居民收入水平较低时,收入增加居民改善生活,会增加食用油的消费,当收入提高到一定程度,生活水平步入小康之后,人均可支配收入便不再对居民的食用油消费量产生影响。影响农村居民肉类消费量的主要因素是恩格尔系数,两者呈负相关,恩格尔系数越小,代表人民生活越富裕,生活水平越高,自然消费肉类等高蛋白高品质食物的数量就增加,这与预期结果相符。但是影响城镇居民肉类消费量的主要因素却是老龄化率,两者存在正相关,老年人口越多,肉类的消费量增加。对于老年人而言,容易存在“三高”问题,因此适宜清淡饮食。但结果显示,随着老年率的提高,肉类消费量却在增加,表明目前国内老年人的饮食结构尚不合理,存在热量摄入过高的问题。
对于农村居民蛋类消费量的主要影响因素是人均可支配收入,农村居民收入增加改善生活的方式是增加蛋类的消费量。但是该因素对城镇居民蛋类消费并没有影响,再次说明人均可支配收入只是在收入水平较低时对居民蛋类消费量有影响,当收入提高到一定程度时,该影响便消失了。影响农村居民奶类消费量的影响因素较多,除人均GDP外,均对奶类消费产生影响,其中人均可支配收入、恩格尔系数、家庭人口、老龄化率等均对奶类的消费产生影响。其中人均可支配收入是最主要的影响因素,其前面的系数为-0.929,两者之间存在负的相关性,居民收入提高奶的消费量反而减少,与预期不符。侧面说明农村居民奶类消费是受多个因素共同影响的,不能单一而论。农村居民水产品消费的主要影响因素是家庭人口,家庭人口越多,水产品的消费就越多。城镇居民水产品消费的主要影响因素是恩格尔系数,恩格尔系数越低,家庭越富有,水产品的消费越多。对城镇居民水果消费量产生影响的主要因素是人口增长率、家庭人口、老龄化率等,表明人口结构变化对于鲜瓜果的消费具有一定影响。
综上所述,农村居民和城镇居民的食物消费影响因素各不相同,不同食物之间的影响因素也不尽相同。人均可支配收入只对农村居民的粮食、油、蛋以及奶产生影响,对城镇居民的食物消费均未产生影响。人均GDP只对农村居民的粮食消费产生影响,且不是主要影响因素,对城镇居民的各食物消费均未产生影响。
3 结论
在现有文献研究的基础上,本研究综合选取可能对农村和城镇居民食物消费结构产生影响的11个因素,利用现代变量筛选LASSO方法分别选择出城乡居民不同食物消费的影响因素。得到如下结论:(1)城乡居民间食物消费的影响因素各不相同,不同类别食物之间的影响因素也不尽相同;(2)人均GDP这一宏观变量对城乡居民的食物消费结构影响较小,只对农村居民的粮食消费产生微弱的影响;(3)人均可支配收入对农村居民的粮食、油、蛋以及奶等的消费产生影响,但对城镇居民的所有食物消费均未产生影响,表明人均可支配收入只是在收入水平较低时对居民的食物消费产生影响,收入增加居民改善生活,会增加部分食物的消费,当收入提高到一定程度,生活水平步入小康之后,人均可支配收入便不再对居民的食物消费产生影响;(4)影响城乡居民蔬菜消费的主要因素是居民消费价格指数,两者之间存在负相关性。消费价格指数代表通货膨胀率,通胀率提高,居民蔬菜消费减少;(5)影响城镇居民肉类消费的主要因素为人口老龄化率,老年人口增加,肉类消费量增加,这表明国内老年人的饮食并不健康,存在热量摄入过高的问题。
[1] 孙君茂,郭燕枝,苗水清. 马铃薯馒头对中国居民主食营养结构改善分析[J]. 中国农业科技导报,2015,17(6):64-69.
[2] 卫生计生委等介绍《中国居民营养与慢性病状况报告(2015)》有关情况[EB /OL].http://www. Gov. cn/xinwen /2015-06-30/content_2887030. htm,2015-06-30.
[3] 喻闻,许世卫. 2012年中国农村居民食物消费分析[J]. 农业展望,2012,10:52-55.
[4] 张玉梅,王东杰,吴建寨,等. 收人和价格对农户消费需求的影响—— 基于全国农村住户调查的实证分析[J]. 系统科学与数学,2013(1):118-125.
[5] 王东杰. 我国城镇不同收入阶层居民食物消费结构升级研究[D]. 北京:中国农业科学院,2012.
[6] 郭娟. 我国居民食品消费结构的变化及影响因素研究[D]. 无锡:江南大学,2009.
[7] 李朋华,张润清. 河北省农村居民食物消费结构影响因素的实证分析[J]. 广东农业科学,2011(10):196-198.
[8] 张沛琪. 江苏省粮食消费影响因素分析与中长期粮食生产—消费平衡预测—— 以近10年为例[D]. 南京:南京农业大学,2013.
[9] 刘莉. 海峡两岸居民食物消费结构比较研究[D]. 北京:中国农业科学院,2015.
[10] 海豹,李仕明,刘洛如,等. 现代变量选择方法在青少年近视研究中的应用[J]. 中国科学院大学学报,2015,2(6):728-734.
[11] 杨丽娟,马云艳. 基于Lasso类方法在时间序列变量选择中的应用[J]. 鲁东大学学报(自然科学版),2016,32(1):14-18.
[12] 喻胜华,张静. 基于Lasso和BP神经网络的组合预测及其应用—— 以居民消费支出预测为例[J]. 财经理论与实践(双月刊),2016,37(199):123-128.
[13] Efron B,Hastie T,Johnstone I,et al. Least Angle Regression[J]. Ann. Statist. ,2004(32):407-499.
[14] Tibshirani R.Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society:Series B(Methodological),1996,58(1):267-288.
[15] 朱高林. 中国城镇居民食品消费结构的基本趋势探析[J]. 现代经济探讨,2006(11):87-91.