恩格尔定律统计测度研究:理论反思与方法比较

2023-11-13陈梦根周元任

统计与信息论坛 2023年11期

陈梦根,战楠,周元任

(北京师范大学统计学院,北京 100875)

一、引言

党的二十大报告明确提出,着力扩大内需,增强消费对经济发展的基础性作用。进入新时代以来,中国坚持以推动高质量发展为主题,实施扩大内需战略,全面推进乡村振兴和促进区域协调发展。恩格尔系数作为表征一国或地区富裕程度的重要指标,也是反映居民家庭消费结构的重要指标,对于衡量经济发展水平具有参考意义,受到政府部门和学术界的高度关注。恩格尔定律最早是由德国统计学家恩格尔于19世纪中期提出,其认为恩格尔系数即家庭食品支出在消费总支出中的份额随着收入水平的上升而下降。Houthakker指出,在研究经济资料而得出的所有实证性规律中,恩格尔定律也许是最可靠的[1]。

长期以来,学术界对恩格尔定律开展了大量的实证研究,但结论远未达成一致。经济学家奥珊斯基和钱纳里分别从家庭微观层面与国家宏观层面验证了恩格尔系数和恩格尔定律的普适性[2-3]。从国内来看,王芳等通过对中国地区恩格尔系数的考察,得出了恩格尔定律在中国基本适用的结论[4-5]。然而,孟昌等认为,由于居民消费结构不断变动、地区经济发展不平衡以及区域文化差异巨大,恩格尔系数的相对大小可能受到地区差异性和群体异质性的影响,在评价居民真实生活水平时可能会失效[6-7]。统计数据也显示,2016年宁夏人均收入水平远低于上海,但上海的恩格尔系数为25.13%,高于宁夏的24.01%。与此同时,山西人均收入远低于上海,其恩格尔系数为22.73%,也低于上海。相反,天津人均可支配收入较高,但恩格尔系数为30.62%,高于许多低收入地区。

值得关注的是,Chakrabarty等指出,学术界对恩格尔定律的内涵在理解上存在一定偏差,实质上恩格尔定律应表述为收入与食品支出份额之间的反向随机关系[8],研究时若将恩格尔定律与微观经济数据相联系,在统计上应采用更恰当的方法来描述。以往文献对恩格尔定律的研究,大多从线性相关的角度检验恩格尔系数与收入的关系。从统计上看,这种方法在表征恩格尔定律的内涵时并不完全准确。此外,现有文献对恩格尔定律的考察多数采用宏观时间序列数据,而恩格尔最初的研究始于微观家庭截面数据。

为了科学评估恩格尔定律在中国的适用性,本文选取CHIP2018家庭微观调查数据为样本,引入统计上能够更准确地描述恩格尔定律的四种方法,包括递减回归函数法、Kendall’sτ系数法、Lehmann负象限相依法和Tukey随机递减条件分布函数法,实证考察食品支出份额与家庭收入之间的关系。本文的贡献主要在于:一是超越以往文献基于线性相关的研究传统,引入针对反向随机关系的新统计方法,更科学、严谨地考察恩格尔系数与收入之间的关系;二是利用CHIP2013的微观调查数据,从家庭层面出发,在考虑居民城乡差异、地区差异、消费结构差异、家庭差异的基础上,澄清恩格尔定律在中国居民生活水平评价中的适用性,相比于以往宏观层面同质的时序样本研究,能够更好地分析地区和群体的异质性特征,避免估计偏误,也更符合恩格尔定律的本质内涵。

二、文献回顾与理论反思

19世纪中期,德国统计学家恩格尔通过分析比利时工人阶级家庭的收入与支出数据,使用归纳法总结出了恩格尔定律:一个家庭越贫穷(收入越少),该家庭的总支出中食品支出所占的比重就越大。由此,研究人员将食品支出占家庭消费总支出的比重称为恩格尔系数。长期以来,学术界对恩格尔定律中描述的收入与恩格尔系数之间的关系开展了大量的实证研究。众多研究证实,恩格尔定律具有普适性意义[2-3]。从方法上看,早期文献大多从统计上的线性相关关系出发,通过检验收入与食品支出占比之间的线性函数关系,判断恩格尔定律的适用性,如Ogburn以线性模型zi=ai+biy为基准[9],其中,zi为食品支出份额,y为收入,利用来自不同国家的数据集,研究收入与食品支出占比之间的简单线性关系是否存在;随后,Working与Leser分别提出并证明了Working-Leser模型zi=ai+biln(y)能够较好地描述收入与食品支出占比之间的关系[10-11];Leser在Working-Leser模型的基础上,又提出了另一模型zi=ai+biln(y)+ciy-1,并且指出,该模型更适合描述收入与食品支出占比之间的关系[11];Laitinen等对Working模型进行拓展,得到了Laitinen广义Working模型[12],该模型允许边际份额是相应预算份额的线性函数;Selvanathan等推导出了条件Laitinen广义Working模型[13],它是Working模型在有条件情况下的重要推广。

利用上述模型,学者们对各国样本开展了大量的实证研究。Aykac利用土耳其居民的家庭预算调查数据,基于Working-Leser模型,运用分位数回归估计恩格尔定律在土耳其的适用性,指出食品支出占比与居民的年龄、受教育程度等因素相关[14]。陈梦根在Working-Leser模型的基础上纳入食品价格因素对其进行扩展,指出收入与恩格尔系数之间的负相关关系是稳健的,而食品价格与恩格尔系数之间则呈现出显著的正相关关系[15]。此外,还有一些学者基于恩格尔定律对经济发展进行了深入探讨,例如,Clements等利用指数法,以恩格尔定律为基础开展研究,结果表明收入增加能够导致一个国家更广泛的消费模式,且增加对高质量商品的需求[16]。Almas等利用恩格尔定律确定了在时空上可比的价格水平和居民真实收入,并且指出中国在经济高速增长的前提下实现了大幅减贫[17]。最后,部分学者从恩格尔定律出发,对其他不可测指标进行估计。例如,白重恩等通过对恩格尔定律中收入与恩格尔系数之间存在的半对数二次型函数关系进行改进[18],估计出居民收入瞒报和隐性经济规模。

然而不少学者研究发现,在某些场合下恩格尔系数并不适用,并由此展开了对于恩格尔系数影响因素的研究。例如,在价格水平方面,王芳指出,物价水平是影响恩格尔系数的重要因素[4]。在食品划分方面,王芳指出,随着居民生活水平的提高,食品消费结构发生了变化,食品支出的具体划分明显影响恩格尔系数的取值[4]。在宏观经济指标方面,张磊等通过对农村居民消费数据进行研究,指出CPI相对变动系数与恩格尔系数正相关,基尼系数、人均GDP与恩格尔系数负相关[19]。在生活性指标方面,于佳明等研究指出,人们的心理健康水平以及生命质量高低与恩格尔系数的取值之间存在着关联[20]。

针对恩格尔定律的局限性,尹海洁等指出,恩格尔系数在评估贫困家庭时可能会失效,这是由于贫困家庭中教育支出和医药消费所占比重过大造成的[7]。孟昌等基于北京市农村居民的消费支出数据,利用HP滤波等方法对其进行分析预测,指出北京市农村居民的消费变动不符合恩格尔定律,原因可能在于居民消费正在发生根本性的转型升级[6]。也有学者从社会地位寻求的角度分析影响食品支出的因素,张琪等指出,居民购房意愿与家庭消费的关系和居民收入不平衡导致的住房攀比有关[21]。余峰认为农村居民对城镇居民生活方式的效仿以及在住房上的攀比会影响恩格尔系数的测度[22]。Atsushi等基于菲律宾和越南的数据探究不平等问题时发现,恩格尔曲线的形态受到实物消费的影响,当消费支出中包括实物消费时,恩格尔曲线单调向下倾斜,但排除实物消费时,恩格尔曲线则呈倒U型[23]。由此,一些学者尝试从测算方法的角度出发对恩格尔系数进行改进,代表性的研究有:尹海洁等在贫困测量中重新定义了恩格尔系数的分子和分母,认为在计算消费总支出时需要减去由于社会福利制度不完善而导致的医疗费用和教育费用,且食品支出应该是排除在外就餐等部分后的生活必需食品消费[7]。

总的来看,学术界对恩格尔定律的适用性开展了大量研究,但并未得到统一的结论。已有研究主要有如下特点:一是理论内涵方面,长期以来,恩格尔定律一直被众多经济学家视为经典的理论规律之一,被广泛应用于经济分析,但Chakrabarty等学者的研究表明,当前对恩格尔定律的内涵在理解上存在一定偏差,实质上恩格尔定律应表述为收入与食品支出份额之间的反向随机关系,已有研究对恩格尔定律内涵的描述并不准确[8];二是研究样本方面,当前绝大多数学者使用宏观数据研究恩格尔定律,其优点在于数据易得,并且具有较好的时间连续性,能够反映出不同宏观区域恩格尔系数的变动情况,但这种研究方法忽视了微观异质性因素对恩格尔系数的影响,比如家庭人口数和女性成员占比等人口特征层面的微观因素会明显影响恩格尔系数[24-25],故本文考虑采用微观数据对恩格尔定律在中国的适用性进行重新考察;三是统计模型方面,近年来一些学者主要使用多元线性回归模型[19]、双对数模型[22]、Working-Leser及其拓展模型等[15],构建非线性参数模型探究影响恩格尔系数的因素,但在参数模型中,存在对模型形式的设定以及对变量自身的假设条件,从而在一定程度上限制模型的应用范围。同时,恩格尔定律仅指出了收入与食品支出占比之间的负相关关系,并未明确二者之间存在某种函数关系,使用参数模型探究收入与食品支出占比之间的关系时可能会导致非一致和无效的估计,甚至出现模型参数设定错误的情况,导致结构性信息被掩盖。因此,本文试图摆脱线性约束和基于参数估计的限定,使用能够更加准确刻画相关关系的统计模型来考察恩格尔定律的适用性。

三、研究方法

Chakrabarty等认为现有文献中关于恩格尔定律的检验方法存在不足,并引入四种负向相依关系研究恩格尔定律在英国和印度的适用性[8]。本文参考Chakrabarty等提出的方法,从恩格尔所谓的负向相依关系出发,采用统计学上检验变量间相依关系的四种方法,对恩格尔定律在中国的适用性开展实证研究,以期得到更为可靠的结果。这四种方法分别为递减回归函数法、Kendall’sτ系数法、Lehmann负象限相依法、Tukey随机递减条件分布函数法。这些方法均摆脱了测度相关关系时的线性约束,但各有优缺点(1)各方法的特征表现为:递减回归函数的表现形式简单,能够表示Y随X分布的变动情况,但该方法仅从期望的角度进行描述,并未反映关于总体分布的更多信息;Kendall’s τ相关系数是基于秩的两变量之间的相关分析,更加适用于总体分布型未知的情况,但该方法更多描述的是随机变量之间的协同性;Tukey负相关关系的前提条件较为严格;Lehmann负象限相依随机变量定义了一类更加广泛的相依变量,相对Tukey方法,其假设更为宽松,但该方法的假设检验步骤较为复杂。,为了更加全面地考察恩格尔定律中收入与食品支出占比之间的相关关系,本文综合使用四种方法进行检验。

各种方法介绍如下,首先令X和Y分别代表收入和食品支出占比,假设从一个二维分布总体(X,Y)中取得独立同分布样本(X1,Y1),(X2,Y2),…,(Xn,Yn)。

(一)递减回归函数

对于二维分布总体(X,Y),取∀x1

Yi=m(Xi)+εi,i=1,2,…,n

(1)

其中,(X1,Y1),(X2,Y2),…,(Xn,Yn)为一组独立同分布的样本观测值,m(·)=E(Y|X),ε为随机误差项。使用核回归的方法拟合回归曲线,选定原点对称的概率密度函数K(·)为核函数,以及带宽hn>0,定义加权平均核为:

(2)

(3)

在具体的回归中,本文使用直接插入法(Direct plug-in methodology)来选择最优窗宽hopt,并且令核函数为高斯核,具体形式如下:

(4)

(二)Kendall’s τ相关系数

Kendall从两变量(X,Y)是否协同一致的角度出发,检验两变量之间是否存在相关性。首先引入协同的概念:假设有n对观测值(X1,Y1),(X2,Y2),…,(Xn,Yn),若(Xj-Xi)(Yj-Yi)>0,∀j>i,则称数对(Xi,Yi)与(Xj,Yj)满足协同性。反之,若(Xj-Xi)(Yj-Yi)<0,∀j>i,则称该数对不协同。接着,考虑单边假设检验问题:H0:X与Y不相关↔H1:X与Y负相关。

全部数据所有可能的数对共有n(n-1)/2对,用Nc表示协同数对的数目,Nd表示不协同数对的数目,则Nc+Nd=n(n-1)/2,Kendall相关系数统计量由二者的平均差定义:

(5)

若所有数对协同一致,则Nc=n(n-1)/2,Nd=0,τ=1,表示两组数据正相关;若所有数对都不协同一致,则Nc=0,Nd=n(n-1)/2,τ=-1,表示两组数据负相关;若τ=0,表示数据中协同和不协同的数对势力均衡,没有明显的趋势。综上,τ的取值范围为:-1≤τ≤1,反映了两组数据变化的一致性。

在H0下可以证明,统计量τ具有渐进正态性。对负相关的备择假设H1,否定域有形式{τ≤τα}。τα为对应显著水平α的临界值,在n较大时由正态分布确定临界值。当τ的取值落入否定域时,拒绝原假设,认为X与Y存在Kendall负相关关系,可以表示为:

P{(Xi-Xk)(Yi-Yk)>0}

(6)

也就是说,在考察恩格尔定律的适用性时,如果从总体中随机抽取两个住户i和k,更有可能观察到不协同情况(Xi-Xk)(Yi-Yk)<0的出现,即家庭人均收入较低的住户有较大可能性拥有较高的食品支出占比。

(三)Lehmann负象限相依

根据Lehmann的研究,对于二维分布总体(X,Y),若满足:

P{Y≤y|X≤x}≤P{Y≤y},对∀x,y均成立

(7)

则称(X,Y)是负象限相依的,即已知X偏小的信息减少了Y偏小的概率[26]。也就是说,若分别从总体和收入小于等于x的子总体中随机抽取一个样本,那么有更大的概率观察到前者具有较小的的食品支出占比。

同时,Lehmann提出,随机变量(X,Y)是负象限相依的,当且仅当对任意使得方差存在且单调非降的函数f和g[26],有:

Cov(f(X),g(Y))≤0

(8)

Lehmann关于负象限相依的定义可以通过累积分布函数随机占优的假设检验问题来表示,原假设和备择假设分别为:

H0:对∀x,y,有FY(y|X≤x)≤FY(y)↔H1:∃y,使得FY(y|X≤x)>FY(y)

Barrett等提出了关于此假设问题的求解[27],对此有两个前提条件:两个概率密度函数是连续的;允许来自两个分布FY(y|X≤x)和FY(y)的样本具有不同的样本容量n和m。检验统计量的定义如下:

(9)

(四)Tukey随机递减条件分布函数

对于二维分布总体(X,Y),取∀x1

P{Y≤y|X=x1}≤P{Y≤y|X=x2},对∀y均成立

(10)

则认为随机变量(X,Y)在Tukey的定义下是负相依的[28]。也就是说,若分别从收入为x1的总体和收入为x2的总体中随机抽取一个样本,则有更大的概率观察到后者具有较小的食品支出占比。因此,可以构造如下的假设检验问题:

H0:对所有y以及∀x1FY(y|x2)

实际应用中,由于样本数量有限,考虑在给定收入的两个连续小区间上食品支出占比的条件累积分布函数,不妨令这两个小区间分别为5th qtl≤x1≤10th qtl,10th qtl≤x2≤15th qtl。参考Barrett等的研究,该假设检验问题的求解步骤为[27]:第一步,检验FY(·|X=x1)关于FY(·|X=x2)是否随机占优;第二步,检验FY(·|X=x2)关于FY(·|X=x1)是否随机占优。如果没有充分的理由拒绝第一步假设,但可以拒绝第二步假设,则认为FY(y|x1)关于FY(y|x2)是随机占优的,即(X,Y)满足Tukey提出的负相依关系,否则认为两个条件累积分布函数不存在随机占优的关系。

上述四种方法摆脱了测度相关关系时的线性约束,从非参数的角度研究两变量之间的相关性。四种方法定义的相关关系之间存在如下的递推关系:当随机变量(X,Y)满足Lehmann负象限相依(式(7))时,二者一定满足Kendall负相关关系(式(6)),反之则不成立。同时,满足递减回归的随机变量(X,Y)不一定满足Kendall负相关关系,也不一定满足Lehmann负象限相依。也就是说,存在不同分布的二维随机变量μ1、μ2,二者具有相同的递减回归函数,使得μ1满足式(6)(或式(7))而μ2不满足。同时,若随机变量(X,Y)是Tukey负相关随机变量,则它一定同时满足Lehmann负象限相依关系、Kendall负相关关系和递减回归。总的来说,相较于递减回归和Kendall负相关关系,Lehmann方法和Tukey方法更加严苛,二者从条件分布函数的角度出发,定义了一类范围更小的相依变量,具体的适用范围需要通过实证来分析。

在反映恩格尔定律的不同特征方面,四种方法各有特点。递减回归函数通过非参数方法拟合回归曲线,能够反映食品支出占比随收入的变化趋势,在后续的实证研究中,可以看到这种趋势并不是一直递减的。Kendall相关系数能够通过具体数值反映恩格尔定律的强烈程度,Kendall相关系数的绝对值越大,表明该样本越满足恩格尔定律。其余两种方法需要满足的条件较为严格,主要通过假设检验判断相关关系是否存在,若假设检验通过则表明恩格尔定律成立。

四、实证分析

(一)样本与变量说明

本文使用2018年中国家庭收入调查(CHIP2018)数据作为样本进行分析,该数据集包含三种住户类型(城镇住户、农村住户以及外来务工住户)在2018年的家庭收支信息以及其他个人信息。剔除缺失值和异常值后,所用总住户样本量为46 369人,其中城镇住户11 361人,农村住户35 008人。实证分析中涉及的主要变量及说明如下:

(1)人均可支配收入。首先根据样本编码计算出每个家庭的住户成员总数,再将家庭总可支配收入除以住户成员总数得到每个家庭的人均可支配收入。

(2)恩格尔系数。参照格林沃德编写的《现代经济词典》中的定义,将恩格尔系数表示为食品支出占家庭总支出的比重。CHIP2018公布的收入和支出变量中,将食品和烟酒合并为“食品烟酒”这一指标进行记录,考虑到香烟属于非食品,且趋向于奢侈品的性质,对于有抽烟习惯的住户,随着其收入的增加,很可能主导恩格尔系数的变动趋势。为此,本文将一个家庭中“食品烟酒”减去每月花费在香烟上的支出作为食品支出,进而计算得到该家庭的食品支出占比数据。

(3)主要控制变量。为了控制群体异质性和地区异质性,更加全面地考察恩格尔系数在中国的适用性,本文参照已有文献,对样本进行分组研究,见表1。

表1 分组情况以及变量说明表

(二)实证检验结果

1.递减回归函数法分析

本节使用非参数回归中的核回归来考察收入与食品支出占比之间的相关关系。

一是按照地区划分。从图1可以看到,对于按照地区划分的子总体,当人均可支配收入的取值在0万元至13万元之间时,随着收入的增加,食品支出占比从0.35左右逐渐下降到0.2左右,表明二者之间存在递减的回归关系。但是当人均可支配收入超过13万元后,这些地区的食品支出占比随收入增加呈现不同程度的上升态势,可能的原因是在较高收入群体中,居民生活水平较高,在饮食方面更加偏向于高端食材,并且外出就餐频率增加,因此总体上食品消费支出占比有所上升。

图1 2018年按照地区划分的食品支出占比与收入之间的核回归曲线对比图

二是按照人口特征划分。图2展示了按照人口特征划分的食品支出占比与收入之间的核回归曲线对比图。可以看到,对于家庭工作人数占比不低于0.5和低于0.5、家庭人口数低于4人、女性成员占比不低于0.5和低于0.5、家庭金融资产余额不低于5万元的子总体中,当收入从0万元增加至15万元左右时,食品支出占比从0.35左右波动下降到0.2左右,当收入超过15万元时,随着收入增加,食品支出占比有回升的态势;对于家庭人口数大于等于4人和家庭金融资产余额低于5万元的子总体,当收入从0万元增加至13万元左右时,食品支出占比从0.35左右波动下降到0.2左右,当收入超过13万元时,食品支出占比有较大幅度的波动。这一定程度上表明,对于具有不同人口特征的群体,食品支出占比变动的规律基本一致,但是由缓慢下降转变为波动趋势的阈值有所不同。

三是在不同地区下按照人口特征划分。为了简化起见,图3仅显示城镇中按照人口特征划分的子总体的情况,其余地区有类似的结果。可以看到,对于城镇中按照不同特征划分的子总体,随着人均可支配收入的增加,食品支出占比先呈现波动下降的趋势,具体从0.35左右下降到0.2左右,之后当收入达到较高水平时,食品支出占比又有波动上升的趋势。总的来说,在大部分子总体中,食品支出占比先呈现出波动下降的趋势,当收入取值到达一定阈值时,食品支出占比随着收入的增加又出现上升的趋势。可能的原因是,这些地区中收入较高的家庭对于饮食较为注重,对较为昂贵的食物消费更多,从而出现不符合恩格尔定律的情况。对于农村中的各个子总体而言,随着农村居民收入的增加,农村居民食品支出占比同样从0.35左右逐渐下降到0.2左右。

图3 2018年城镇中按照人口特征划分的食品支出占比与收入之间的核回归曲线对比

此外,从不同经济发展水平的地区来看,东部地区的多数子总体中,随着收入增加,食品支出占比先呈现出波动下降的趋势,当收入取值到达一定阈值时,食品支出占比随着收入的增加又出现上升的趋势。这可能是由于东部地区包含北京市、江苏省、山东省和广东省这些经济较为发达和沿海的省份,这些地区中收入较高的家庭对于饮食较为注重,且沿海省份对海鲜等较为昂贵的食物消费更多,从而出现不符合恩格尔定律的情况。在中部和西部地区的全部子总体、东北地区的多数子总体中,居民可支配收入与食品支出占比整体呈现负相关关系,而在东北地区中工作人数占比低于0.5、家庭人口数低于4人和家庭金融资产不低于5万元的子总体中,当收入从0万元增加至10万元时,食品支出占比从0.4左右波动下降到0.2左右,当收入取值超过10万元时,食品支出占比随收入增加有回升的趋势。

2.Kendall’sτ相关系数法分析

本节使用Kendall’sτ相关系数法,定量考察收入与食品支出占比之间的相关关系。

一是按照地区划分。从表2中的数据可以看到,Kendall’sτ相关系数的估计值均为负数,且在5%的水平下显著,说明居民人均可支配收入与食物支出占比之间均存在负相关关系,但是负相关的强弱有差异。从城乡二元结构来看,城镇地区居民人均可支配收入与食品支出占比之间的负向程度更大,即当人均可支配收入增加时,城镇地区食品消费支出占总支出的比重下降更大。这一定程度上反映了城乡消费结构的差异,城镇地区居民在消费支出中更偏好于享受型消费,而农村地区更偏好于生存型消费,因此农村地区食品支出占比相对于城镇地区下降程度较小。从经济发展程度不同的地区来看,东部地区居民人均可支配收入与食品支出占比之间的负向程度最大,其次是西部地区,东北地区则最小,这一定程度上反映了不同地区消费结构的差异。东部地区经济较为发达,居民生活水平较高,在消费支出中偏向于享受型消费,西部地区在近些年经济增速较快,并且受文化习俗、生活习惯的影响,其在消费支出中的享受型消费支出占比同样偏高,而中部地区和东北地区在消费支出中更加偏向于生存型消费,因此其食品支出占比随收入增加的下降幅度偏小。

表2 2018年不同分组情况下Kendall’s τ相关系数的估计结果

二是按照人口特征划分。根据表2,从不同人口学特征来看,家庭中工作人数占比越大、家庭中人口数越少、家庭金融资产越多,家庭内部的食品支出占比随收入增加下降幅度越大。从不同特征相关系数的差值来看,家庭金融资产数量对食品支出占比变动影响最大,家庭金融资产数量越多,表明相应家庭生活水平较为可观,其消费支出中可能更加偏向于享受型支出,因此可支配收入增加时,其食品支出占比下降幅度相对较大。家庭人口数量多少对食品支出占比变动影响较大,在一般家庭中,家庭主事者数量基本为1～2个,家庭人口数量较多一般表明家庭中儿童、老人数量较多,此时,相应家庭中生存型消费支出也相对较高,在家庭可支配收入增加时,其食品支出占比下降幅度相对较小。

三是在不同地区下按照人口特征划分。大部分子总体的情况与只按照地区或人口特征划分的子总体具有类似结果。根据表2,对于城镇以及东部地区的子总体,Kendall’sτ相关系数的绝对值相对较高,大部分取值在-0.18至-0.14之间。而对于农村以及东北地区的子总体中,Kendall’sτ相关系数的绝对值较低,大部分取值在-0.14至-0.12之间,这与城镇和东部地区Kendall’sτ相关系数绝对值取值较高,而农村和东北地区中Kendall’sτ相关系数绝对值取值较低的结果基本保持一致。还值得关注的是,城镇地区和东部地区的女性占比样本结果与基准结果相反,对于城镇地区和东部地区女性占比较高的家庭,伴随可支配收入的增加,食品支出占比下降幅度更大,可能的原因是城镇地区、东部地区经济发展水平更高,家庭中女性成员的非生存型消费支出,如化妆品、奢侈品等消费相对于农村地区、中西部地区更多。此外,农村和东北地区的工作人数占比样本结果与基准结果也相反。农村和东北地区家庭中工作人数占比越低,随着可支配收入增加,食品支出占比下降幅度越大,可能的原因是农村、东北地区自身经济发展水平并不高,但其内部人口基数较大,即在平均意义下,单位家庭收入水平不高,但家庭内部人口数量大,因此该地区内部的家庭对食品支出的偏好相对较大,消费结构中对于享受型消费的支出较少。

由于收入不是影响食品支出占比的唯一因素,当按照某一指标对总体进行分组时,能够尽量避免这一指标对于收入与食品支出占比之间的相关关系的影响。当选取相同的人口学特征作为控制变量时,不同地区(包括城乡和四大地区)的Kendall’sτ相关系数取值差异较大,比如当固定家庭人口数大于等于4人时,可以看到城镇和农村,以及四大地区中Kendall’sτ相关系数的取值差异较大,取值从-0.13至-0.05不等,说明当消除家庭人口数量多少这一影响因素之后,相关关系仍受到地域因素的较大影响。总的来看,城镇、东部地区和西部地区中收入与食品支出占比的负向相关程度较高,而农村、中部地区和东北地区中负向相关程度较低。同样地,当取相同的地区作为控制变量时,不同人口学特征的家庭Kendall’sτ相关系数的取值差异也较大。总的来说,家庭中工作人数占比越大、家庭中人口数越少、女性占比越少、家庭金融资产越多,收入与食品支出占比的负相关关系更加明显。

3.Lehmann负象限相依分析

为了继续深入探究收入与食品支出占比之间的负相依关系,本文使用Lehmann负象限相依法,通过观察不同收入条件下食品支出占比的累积分布函数曲线的位置差异,判断收入与食品支出占比的负相关程度。具体地,本文通过计算不同收入条件下曲线积分的差值,来表示曲线的位置差异,计算结果见表3。

表3 2018年不同分组情况下食品支出占比与收入之间的累积分布函数曲线的积分差值

一是按照地区划分。在负相关关系是否存在方面,表3中除东北地区个别子总体的取值为负数外,其余子总体的取值均为正数,约有半数子总体的取值超过0.01,说明这些子总体中收入与食物支出占比之间存在着Lehmann负象限相依关系,符合恩格尔定律的基本结论。在负相关程度的大小方面,西部地区两条曲线的积分差值最大,表明Lehmann负象限相依的程度最大。在东北地区,Lehmann负象限相依关系最为微弱,这与上文Kendall’sτ相关系数法的结论一致,说明东北地区的居民更加偏向于生存型消费,随着居民家庭收入的提高,花费在饮食必需品上的消费支出增加得更多,导致两者的负向相关关系并不显著。

二是按照人口特征划分。可以看到除了女性占比大于等于0.5、家庭金融资产大于等于5万元和小于5万元的子总体,在其余子总体中,两条条件累计分布函数曲线的积分差值较大,表明按照不同人口学特征进行分类,大部分特征对应的家庭中收入与食品支出占比之间存在较强的Lehmann负象限相依关系。总的来说,家庭中工作人数占比越小、家庭中人口数越少、女性占比越少,对应的子总体中两条曲线的积分差值越大,表明Lehmann负象限相依的程度越大。

三是在不同地区下按照人口特征划分。各个子总体中曲线的积分差值与上文有类似的结果。值得关注的是,在东北地区的部分子总体中,出现了曲线积分差值为负数的情况,而在其余地区的子总体中,曲线积分差值均为正数,且部分子总体取值大于0.01,可见东北地区中居民收入与食品支出占比的负相依关系较为微弱,而在其余地区的子总体中,Lehmann负象限相依关系较为显著。值得注意的是,从人口学特征来看,对于家庭人口数这一影响因素,当家庭人口数大于等于4人时,除东北地区外,各个地区的曲线积分差值都小于0.13,Lehmann负象限相依关系较弱,表明当固定地区因素时,家庭人口数会较大程度上影响Lehmann负象限相依关系。家庭人口数越多,该家庭中需要抚养的孩子和赡养的老人可能较多,其生存型消费支出比重越高,在家庭可支配收入增加时,其食品支出占比下降幅度相对较小,因此此类家庭中收入与食品支出占比的相关关系不是很明显。

4.Tukey随机递减条件分布函数分析

表4展示了用于验证Tukey负相关关系的假设检验的P值。首先,从不同地区来看,在10%的显著性水平下,各个地区的检验结果均不显著,比如在中部地区,在0.1的显著性水平下没有充分的理由拒绝第一步和第二步假设检验的原假设,说明在该子总体中,收入与食品支出占比之间不存在Tukey负相关关系。其次,从不同人口学特征来看,在10%的显著性水平下,除工作人数占比小于0.5和女性占比大于0.5的子总体外,其余按照人口特征划分的子总体的检验结果均不显著。最后,从不同地区下不同人口学特征来看,在10%的显著性水平下,部分子总体的检验结果显著,但是在不同人口特征的子总体中,Turkey负相关关系是否存在并不具有明显的偏向性,不能得到与上文三种方法一致的结论。

表4 2018年不同分组情况下Tukey假设检验结果

这在一定程度上是由于Tukey定义的负相关关系较为严格[8]。具体表现在:其一,式(10)中两个条件分布函数关于收入的取值条件较为严格。在式(10)中,有P{Y≤y|X=x1}≤P{Y≤y|X=x2},其中左右两边的收入x需要满足x1

5.稳健性检验

基于稳健性的考虑,本文以2013年家庭收入调查(CHIP2013)数据作为样本对四种方法进行研究,结果与2018年结论大体一致,具体来说:一是在递减回归函数法所示的核回归曲线中,2013年居民食品支出占比随收入的变化趋势与2018年大体一致,且均存在食品支出占比随收入增加由缓慢下降转变为波动趋势的阈值。二是对于Kendall’sτ相关系数,从地区来看,城镇以及东部地区的Kendall’sτ相关系数的绝对值较高,农村以及东北地区的Kendall’sτ相关系数的绝对值较低;从人口特征来看,家庭中工作人数占比越大、家庭中人口数越少、女性占比越少、家庭金融资产越多,收入与食品支出占比的负相关关系越明显。三是对于Lehmann负象限相依关系,在地区方面,2013年结果显示东部地区的负相依关系最强,其次是中部地区,东北地区最弱,与2018年西部最强、东部次之的结果略有差异;在人口特征方面,2013年结果显示工作人数占比越高,Lehmann负象限相依的程度越大,与2018年的结论有所不同。四是在Turkey负相关关系的定义下,2013年多数子总体中收入与食品支出占比的负相关关系不存在,这也与2018年的结论保持一致。

(三)方法比较与反思

上述四种统计方法在结论上具有一定的一致性,按照不同地区和人口特征划分的子总体中收入和食品支出占比之间存在递减的回归关系,支持恩格尔定律在中国的适用性。但不同方法具有不同的特点:

其一,递减回归函数法的结果以核回归曲线展示,能够反映同一子总体中食品支出占比随收入变化而变化的趋势,并且可以直观地体现出,对于大部分子总体,当收入到达某一阈值后,食品支出占比随收入出现波动上升的情况。该方法的结果能够表明除农村和中部地区外,其余子总体中食品支出占比随收入变动存在阈值,但其局限性在于表现形式简单,仅定性地描述了食品支出占比随收入增加的变动情况,二者之间相关关系的具体大小并不明确。

其二,Kendall’sτ相关系数法计算出了两个变量负相关关系的具体取值大小,借助数值能够准确反映出不同子总体间相关程度大小的差异,便于群体间的对比与分析。该方法的分析结果能够体现家庭人口数量、工作人数占比和家庭金融资产数量的差异对食品支出占比变动有着较大的影响,但其局限性在于未能表现出相关关系随不同分位数收入变化的变动情况。

其三,Lehmann负象限相依法定义了一类范围更小的相依随机变量,该方法对收入与食品支出占比之间负相关关系的定义更加严格,测度结果显示,大部分子总体中的负相关关系依然存在,说明该测度方法下恩格尔定律在中国仍具有一定的适用性。Kendall’sτ相关系数和Lehmann负象限相依方法结论的一致性在于:地区因素上,Kendall’sτ相关系数法和Lehmann负象限相依法的结论均体现出东部地区的家庭中两变量负相关程度较大,而农村、东北地区的家庭中负相关程度较小;人口特征因素上,Kendall’sτ相关系数法和Lehmann负象限相依法均表明,家庭中人口数越少,收入与食品支出占比之间的负相关系数越大。

其四,Tukey方法验证恩格尔定律的结果显示,大部分地区并不存在显著的Tukey负相关关系,且按照人口特征划分的部分子总体也不存在显著的Tukey负相关关系,针对不同人口特征,Turkey负相关关系是否存在并不具有明显的偏向性。Tukey方法对中国恩格尔定律的适用性较弱,主要原因是Tukey负相关随机变量需要满足的条件过于严苛,并且Tukey负相关随机变量的定义将收入限定在了更小的取值范围中。

以上四种方法各有特点,在反映恩格尔定律的不同特征方面各有优势:一方面,居民生活水平较高时,其对饮食质量更为注重,可能会导致食品支出占比随收入增加出现先下降后上升的趋势。四种方法中,递减回归函数法的结果是以核回归曲线展示的,能够清晰地反映同一子总体中食品支出占比随收入变化的趋势,且能够体现出趋势从缓慢下降转变为波动上升的阈值,其结果在不同年份之间能够保持一致性。其余三种方法仅能体现相关关系的大小或相关关系是否存在,不能反映趋势的反常变化以及阈值的存在。另一方面,从人口学特征的角度来看,Kendall’sτ相关系数法更能反映不同人口学特征的子总体中恩格尔定律的差异情况以及相关关系的强弱程度,且在不同年份之间能够保持结论的稳健性。2013年和2018年的结果一致显示,家庭中工作人数占比越大、家庭中人口数越少、家庭金融资产越多,收入与食品支出占比的Kendall’sτ负相关程度越大。然而,递减回归函数法中的核回归曲线并不能明显区分不同子总体中的这一差异,Lehmann负象限相依方法虽能够体现不同子总体中的差异情况,但不同年份数据分析结果略有差异。

五、结论与建议

本文基于统计学上四种不同的相关关系概念,研究家庭收入与食品支出份额之间的相关关系,以验证恩格尔定律在中国的适用性。研究结果表明,恩格尔定律在中国总体上是适用的,然而对恩格尔定律适用性的判别,一定程度上受到不同数理统计方法的影响。在不同地区和不同群体之间,恩格尔定律表现形式存在一定的差异。但总体上,中国经济增长更多地增加了非食品支出,消费的结构偏向性也表明中国居民生活水平不断提高,逐渐将更多的收入用于住房、医疗、教育、娱乐、旅游等享受型消费,提升了社会总福利。

相比于以往文献,本文创新性地同时考虑地区因素和人口特征因素对恩格尔系数的影响,分别按照地区因素、家庭人口特征因素、地区与人口特征因素交叉分组,得到各个因素对于恩格尔系数的影响。本文的研究具有重要的政策含义:第一,与城镇地区相比,农村地区和东北地区的家庭在消费支出中偏向于生存型消费,这些地区的消费者更加偏好低价商品,在消费结构中,必需型食品、用品的占比较大,政府应该坚定不移地实施乡村振兴战略,重点提升农村地区居民的收入,提高居民生活水平,引导居民消费结构升级。同时,针对不同区域间居民消费水平差异较大的问题,需要通过差异性政策保障、政府转移支付等措施减少居民消费不平等问题[29]。第二,微观数据显示收入与食品支出占比之间负相关关系的程度,即恩格尔定律的强烈程度,受到家庭人口特征的影响。家庭中工作人数占比越大,资金来源越丰富,其消费支出可能更加偏向于享受型支出,当可支配收入增加时其食品支出占比下降幅度相对较大,因此,中国需要积极保障城乡劳动力全面就业,提高社会面就业人数,促进人力资源的开发与利用。第三,需要注意的是,恩格尔系数的大小仅代表总体中家庭的平均情况,并不能反映某一家庭的生活水平,文中收入与食品支出占比之间的相关关系均是以概率为基础进行定义的,表明随着经济发展和居民收入增加,恩格尔系数的取值大小或增减趋势是由总体中收入消费状况决定的。因此,政府在宏观调控时要考虑到个体的差异性,做到有的放矢,对不同收入层次和家庭结构的群体施以差异化的引导性政策。