新型城镇化背景下城镇常住人口收入差距分析
2016-12-20杨斯琪赵彦云
杨斯琪,赵彦云
(中国人民大学 统计学院,北京 100872)
新型城镇化背景下城镇常住人口收入差距分析
杨斯琪,赵彦云
(中国人民大学 统计学院,北京 100872)
文章利用中国城市、农村和流动人口居民收入调查2008年数据,在明瑟方程的基础上,利用半参数分位数回归模型,对教育、工作经验两大人力资本因素进行分析,并将市场分割因素城乡户籍、地区、行业作为控制变量。就方法论来说,半参数分位数回归模型拟合结果优于OLS模型及分位回归模型,并且经验在第一个十年内与收入之间呈现三次函数关系,随后呈现二次函数关系。从政策建议角度来说,教育、经验作为人力资本对高收入人群具有更高的回报率,为从长远角度解决收入差距问题,应提高农民工受教育程度及培训力度,将人力资本投入向贫困地区倾斜。
半参数分位数回归;新型城镇化;收入差距;明瑟方程
0 引言
收入分配作为影响民生的重要因素,对城镇化具有不可忽视的影响。收入差距所体现的收入分配不均等已经受到社会大众、政府和专家学者广泛关注。收入差距过大会影响新型城镇化的质量,导致劳动力过多地向高收入地区流动,不利于引导人力资本向中小城市集聚,阻碍大、中、小城市与城镇协调发展;同时对世界各国的经济增长研究表明,收入差距过大可能导致一国经济增长陷入“中等收入陷阱”,不利于长期的经济增长和到达高水平的收敛。在经济发展方面,尽管城镇化会带来大量的基础设施投资及消费需求,但收入差距过大会增大城镇低收入人群的恐慌心理,降低消费水平,对经济的内需动力带来不利影响。
收入差距的来源主要可以分为两方面,第一方面来自于市场本身,市场根据个人能力对收入进行分配,从而在不同能力水平的人之间产生收入差距;第二方面来自于非市场性因素,即机制体制方面的壁垒,如户籍制度、行业垄断等。本文将重点放在第一个方面,即个人能力所带来的收入差距,而其中最重要的即为人力资本。明瑟(1974)对人力资本的研究中将教育、经验作为主要的人力资本要素,得出了明瑟方程。本文以明瑟方程为基础研究城镇居民收入的影响因素,与前人的研究相比,本文的不同之处在于:(1)本文采用半参数分位数回归模型进行分析,将经验纳入非参数部分,对经验的具体形式进行检验。同时,融合了分位数回归的优点,可以研究自变量随着收入的变化对其影响的改变。(2)本文以教育、经验为主要自变量,同时将劳动力市场分割因素地区、城乡户籍、行业作为控制变量加入模型中,提高模型准确性。(3)本文中所用数据包括城镇人口与流动人口,并非单纯的城镇人口或是城乡混合样本,而是以城镇常住人口为分析对象。
1 半参数分位数回归方法
本文中拟对经验变量采用非参数的形式,其余变量仍采用参数形式,同时结合分位数回归,采用半参数分位数回归模型对城镇居民收入进行分析。
半参数分位数回归模型结构如下:
可以看出模型由两部分组成,线性部分XTβ称为参数分量,非线性部分 f(T)称为非参数分量,Qy(τ |X)为条件分位数,τ为分位点。
最小化式(2)即可求得参数β及非参数部分 f(T):
参数α为惩罚参数,通过改变α可以平衡拟合程度与惩罚项,调节光滑程度,式中对参数部分加入了lasso惩罚项,对系数进行收缩,非参数部分为光滑样条法的惩罚函数,通过对节点处光滑程度附加限制条件,来防止待估参数过多,估计过分地拟合数据。关于其求解采用Frisch–Newton内点法(Portnoy and Koenker,1997)及稀疏矩阵Cholesky分解(Koenker and Ng,2003)。
半参数分位数回归模型结合了半参数回归与分位数回归的方法,因此更具有优势。首先,与OLS回归相比,由于同时具有参数部分与非参数部分,使得数据拟合不需要过多分布假设,更接近真实情况,拟合优度更高。同时,与非参数回归相比,参数部分大大增强了结果的可解释性,可以得出具有经济学含义的实际结论,并且避免了“维数祸根”的问题。另一方面,根据不同分位点的回归结果,可以得到因变量不同水平下的分析结果,从而精确描述自变量对因变量的条件分布的影响,尤其是当分布为偏态分布时,可以分析因变量尾部的分布,对异常值不敏感,具有更高的稳健性。
根据明瑟方程,因变量为对数收入,自变量选取人力资本变量受教育程度edu与工作经验exp,并加入控制变量性别sex、东部地区east、西部地区west、城乡户籍变量urban、行业变量ind。根据半参数分位数回归模型可知,若自变量与因变量呈非线性关系,则将其设为非参数部分;若自变量与因变量呈线性关系,则将其设为参数部分。根据之前对经验变量的分析,我们将其设为非参数部分,以防止由于模型设定错误使得分位回归结果有偏,同时设为非参数部分可对不同分位点经验与收入的关系有更直观全面的认识。除工作经验外,其余变量均设为参数部分。最终所得基于明瑟方程的半参数分位数回归模型如下:
2 数据来源及描述性分析
本文中选取的是2008年CHIP数据,数据分为流动人口数据,城镇人口数据和农村人口数据,其中城镇人口数据采集由国家统计局完成,流动人口数据采集由调查公司执行,所以样本不重合,考虑将两样本数据合并进行研究,以分析城镇化过程中全部城镇劳动人口的收入差距。流动人口数据中删除了在外打工时间在6个月以内(包括6个月)的样本,因此,整合后的样本为符合统计学上对常住人口定义的城镇人口样本。
由于数据并非单纯采用城镇样本,也非农村与城镇的混合样本,而是采用所有城镇人口及农村到城市的流动人口,使得该数据会得出与以往收入研究不同的结论,这是本文与以往明瑟方程的研究结果不同的重要原因之一,值得一提的是,样本中既包括具有固定居所的居民,也包括大部分无固定居所的流动人口,因此该数据可以用来研究劳动力市场的城乡分割现象。
合并之后的数据共有14000个样本点,个人样本仅包括从事工资性工作及自我经营者,不包括失业人员、离退休人员等,同时删除缺失值及不确定回答,剩余有效样本个数为10959个,分布在9个省。因变量设置为收入水平,问卷中变量为平均月收入,乘以12得到平均年收入,并且根据明瑟方程对收入取对数得到收入水平。教育水平自变量选取问卷中正规教育年限变量,扣除跳级和留级年数。性别为虚拟变量,男性为1,女性为0。
城乡户口为虚拟变量,城市户口取值为1,农村户口取值为0,其中,城市户口样本个数为6520,农村户口样本个数为4261,样本个数之间不存在过大差距。对于9个省份,广东省、上海市、浙江省、江苏省属于东部地区,安徽省、河南省、湖北省属于中部地区,四川省、重庆市属于西部地区。其中东部地区5592个样本,中部地区3157个样本,西部地区1932个样本,由此设定东部地区、西部地区两个虚拟变量,以中部地区作为参照组。
对于行业变量ind,以往的研究(李实等,2009)表明,不同行业之间的收入差距主要体现在垄断行业与非垄断行业之间,因此本文中考虑设立垄断虚拟变量,关于垄断行业的判断,同样采用李实等(2009)中的分类方法,将金融保险业、房地产业、水电石油等公共基础行业作为垄断行业。垄断设为1,非垄断设为0。
关于工作经验变量的处理,以往研究者普遍采用的方法有两种:第一种是用年龄减去6再减去受教育年限,第二种是直接采用当前工作的工作时间。本文中采用的是第一种方法,因为考虑到当前工作的工作时间并不能全面代表一个人的工作经历,其中可能存在更换职位等情况;而第一种方法所计算的工作经验基本与实际情况相符,同时可以控制出生年份对收入的影响。根据劳动年龄人口的定义,选取了16~60岁的男性及16~55岁的女性,计算出相应的工作经验。表1为所有变量的描述统计。
表1 样本数据的变量描述统计
3 不同模型估计结果比较
本文中用R软件对半参数分位数回归模型进行计算,首先取分位点0.5,得到半参数中位数回归结果,同时给出OLS模型、分位数回归模型结果,通过比较拟合效果,分析半参数分位数回归的优势所在。表2(见下页)为半参数中位数回归与OLS回归、中位数回归的结果比较。从回归拟合程度来看,半参数分位数回归的赤池信息量AIC最小,因此半参数分位数回归的效果更好,这表明将工作经验变量设为非参数部分是合理的。无论是OLS回归还是中位数回归,对经验引入二次项都可以提高模型的拟合程度,并且经验二次项系数显著,说明明瑟对经验的二次项设定是有其合理性的。但半参数分位数回归将经验放入非参数部分,能够根据数据本身得到拟合结果,将参数与非参数的方法更好地结合在一起,因此模型拟合结果更加准确。从半参数分位数回归系数结果来看,教育、性别、东部地区、行业变量的系数均为正且显著,这与以往的研究结果相符,西部地区的系数为正但不显著,说明西部地区与中部地区之间在收入中位数处的差距不大,因此,东、中、西部地区中,收入差异主要存在于东部与中西部之间。
表2 OLS、分位数回归、半参数分位数回归结果比较
半参数分位数回归模型的非参数部分估计结果见表3,其中给出了非参数估计部分的光滑样条参数lambda,惩罚项penalty,并且可以看出工作经验的非参数部分估计结果是显著的。
表3 半参数分位数回归模型在0.5分位点的非参数回归结果
图1中给出了三种模型的工作经验的拟合结果,比较可知,模型2与模型3在0~10年间的拟合结果大致相同,而模型1的拟合结果相对平缓,由于非参数部分回归结果对分布的假定更少,可以根据数据本身的特点进行拟合,由此认为工作经验与收入之间在最初10年内为三次函数关系。而在随后的变化中,由于三次项函数形式最终走势向上,与实际不符,而模型1与模型3大致相同,半参数分位回归的变化更加剧烈。在40~50年间,半参数分位回归下降慢且波动大。从以上分析可知,明瑟方程中对经验的二次项设定在经验积累最初阶段是有偏差的,而在积累到一定程度后,经验对收入的影响大致符合二次项形式。
同时从半参数回归结果来看,收入的变化呈现出先增长后下降的倒U型曲线。工作经验在0~10年间,收入随工作经验增加而增加,随后工作经验的效应基本保持不变,说明0~10年间内,工作经验对收入有显著正向影响,而在实际中,经验从0上升到10的过程,也正是个人积攒工作经验的主要起步时期,且随着经验增加,个人收入、职位都会得到显著的提升。而10~50年之间工作经验对收入并非主要影响因素,在50年及以上,工作经验的效应迅速下降,这可能是由于工作经验50年及以上的个体生产效率降低,使得收入倾向于下降。这与以往对收入的年龄剖面的分析结果基本一致,即在工作期头一个十年收入急剧增长,随后增长缓慢,而在第三四十个年份则基本保持在同一水平。
图1 工作经验的非参数效应估计
4 收入影响因素分析
分析半参数分位数回归在0.1,0.25,0.5,0.75,0.9分位点的参数估计结果及非参数估计结果,见表4。从表4中可以看出,除下四分位点处的urban与中位数west系数估计值外,其余参数系数估计值均显著。同时,非参数部分的拟合效果同样显著,非参数部分的设定正确。
表4 半参数分位数回归模型在各分位点的回归结果
4.1 教育对收入的影响
从回归系数显著性来看,教育对收入的影响为正且显著,这与以往的研究是相符的,教育始终是影响收入的主要因素。从图2中可以看出,系数随收入组的变化呈现倒U型。以往的分析结论中,部分研究人员认为随着收入的水平组提高,教育的影响增大(张车伟,2006),从而带来“贫者愈贫,富者愈富”的“马太效应”,而也有研究人员认为随着收入的水平组提高,教育的影响减小(刘生龙,2008)。主要原因在于使用的数据不同,张车伟使用的样本数据来自于东部发展地区的三个省份,刘生龙使用的则是城市农村混合的样本数据,而本文中使用的数据来自于城镇居民数据与流动人口数据,为城镇常住居民数据,因此结果会有差异。
图2 半参数分位数回归模型参数部分在各分位点的系数变化图
从表4中数据来看,在控制了行业、城乡等重要影响因素之后,在10%低收入组,受教育程度每提高一年,收入平均增加5.7%,随着收入水平提高,教育回报率提高,到75%收入组时,受教育程度每提高一年,收入平均增加8%,而在90%高收入组,受教育程度每提高一年,收入平均增加7.1%,比起之前有所下降。究其原因,低收入组与中高等收入组相比,工作职位性质不同,低收入组大多数从事不需专业知识和技能的纯劳力工作,因此受教育程度对收入的影响较小,而中等收入组则会因本科学历和硕士学历的差别而有不同的工资收入待遇;从75%收入组到90%高等收入组,教育回报率下降,可能是由于90%高等收入组的高收入主要是由于家族企业等原因带来的,因此教育并非收入的主要影响因素,故从上四分位点到0.9分位点,教育回报率会下降。但尽管如此,0.9分位点的系数值仍旧比0.1分位点的系数值大,这意味着,高收入组的教育回报率仍旧比低收入组高,具体来说,高收入组受教育程度每提高一年,教育回报率比低收入组高1.4%,因此教育扩张可能会导致城镇常住居民收入差距进一步扩大。
4.2 城乡二元户籍制度对收入的影响
从表4中可以看出,城乡变量urban的回归系数随收入水平的提高,由负变为正,且回归系数在0附近时,回归系数显著性差。在10%低收入组中,回归系数为-0.053且显著,这说明在低收入组中,城镇户口居民的收入比农村户口居民平均低5.3%,这一现象是值得讨论的,这可能有三个方面的原因,其一是由于“民工荒”现象的存在,使得低收入岗位处于供过于求的状态,因此不存在城乡户籍歧视现象;其二是由于在低收入组中城乡户口的分布比例可能是失衡的,大部分个体为农村户口,因此回归系数受到自变量分布很大影响;其三是与低收入组人群所从事的行业有关,低收入组人群大部分从事餐饮服务业等需要体力耐力的行业,而在这方面,农村户口居民由于从小在农村长大,更具有优势,因此收入会更高一些。在25%分位点处,城乡变量不显著,因此其正负也无太大意义。但从50%分位点到90%分位点,城乡变量的系数为正且显著,这说明在中高收入组,城镇户口相对农村户口更具有优势,这正体现了城乡户籍分割效应。同时,随着收入组的提高,回归系数逐渐变大,这说明,收入越高,城市户口的优势越明显。相比于“民工荒”现象,高收入职位供不应求,竞争激烈,因此用人单位处于主导地位,在这种情况下,户籍歧视现象就会凸显,表现为随着收入组的提高,城乡户籍分割的现象愈加严重。
4.3 中西部地区收入差异
从回归系数来看,其值均为正且除0.5分位点外均显著,这说明西部地区平均收入要高于中部地区,且回归系数随分位数的分布呈现倒U型。地区收入差距的影响因素包括地理位置、历史背景、产业结构、人力资本等,根据以往的研究(张文武等,2011)表明,随着国家大力提倡西部大开发的战略,西部地区的资本存量稳步提升,且人力资本聚集度虽有下降但速度缓慢,个别省份有所提升,另一方面,中部地区毗邻东部地区,造成大量的人才流失,加快了人力资本聚集度下降速度,因此可以从此方面解释西部地区平均收入为何高于中部地区。当然,不可忽视的一点在于,本文中所选取的西部地区仅有四川、重庆两个省市,并未包括新疆、西藏、青海等较为落后的地区,这也在一定程度上影响了西部地区与中部地区的平均收入差距。
4.4 中东部地区收入差异
与中西部地区类似,east变量回归系数均为正且均显著,同时,随着收入组的提高,回归系数变化呈现倒U型。长期以来的统计数据表明,东部地区经济发展水平远高于中西部地区,无论是从经济开放程度,产业结构还是人力资本方面,东部地区都具有极大的优势,因此东部地区平均收入远高于中部地区。在10%低收入组,东部地区平均收入比中部地区高40%,在90%高收入组,东部地区平均收入比中部地区高45.5%,低收入组与高收入组的收入差距相差不大,这说明东部地区与中部地区的收入分布集中程度大体相同,两者相比只存在位置上的移动,东部地区的收入整体上均比中部地区高。
4.5 性别、行业对收入的影响
本文对性别的分析中,系数均为正且显著,说明女性平均收入水平低这一现象仍普遍存在,男性平均工资水平比女性高20%左右。同时,随着收入的提高,这一差距呈波动变化,无明显趋势。行业变量系数均显著,分位点系数变化呈现倒U型,说明低、高等收入组垄断行业收入显著高于非垄断行业。
图3 半参数分位数回归模型在各分位点的非参数效应
从非参数部分的分析结果来看,各分位点非参数效应均显著,非参数部分的设定合理。从图3中可以看出,各分位点的变化趋势是一样的。随收入组的提高,整体效应值增大。在0~10年间,高收入组的效应变化幅度更大且持续时间更长。即离散性随着收入组的提高而提高,这正体现了经验对收入影响的“马太效应”。同时,低收入组在较晚的年间效应值迅速下降,高收入组并未呈现出下降趋势。这其中的原因可能有以下几方面:(1)高收入组职业往往对技术水平要求更高,更加复杂,因此生产效率的提高会更加显著且持久。(2)低收入组主要从事体力型工作,经验的积累对收入影响较小,并且随着年龄的增长,由于体力下降从而导致经验的效应值迅速下降。(3)高收入组所在部门更可能为家族企业部门,因此高龄并不会对收入产生负面影响。经验对收入的这种效应将会对农民工就业有更大的阻碍,增大提高收入的难度。
5 结论及政策建议
本文在明瑟方程的基础上,利用半参数分位数回归模型对城镇居民收入进行分析。主要结论如下:(1)半参数分位数回归在模型拟合方面比OLS、分位数回归更好,且经验在0~10年内与收入之间呈三次关系,而在之后的年份中两者之间呈现二次关系。(2)高收入组教育回报率高于低收入组,变化范围在6%~8%。(3)经验回报率在高收入组的提高更加显著且持续时间更长,低收入组在高龄期经验效应迅速下降。(4)城乡户籍收入差距随收入组的提高而增大。(5)东部地区收入水平明显高于西部地区。
从本文的研究结论来看,人力资本教育、经验均呈现出“马太效应”,因此对于东部高收入地区,市场将会导向人才由中西部地区向东部地区一线城市流动,造成贫困地区愈加贫困,城镇、二线城市人才流失严重。在倡导城乡一体化发展的背景下,这种不合理的人力资本分配现象将会导致收入差距进一步扩大,阻碍新型城镇化进程。同时,由于城乡户籍分割现象随收入组增加而提高,导致流动人口(主要为农村人口)在城市就业面临更大的困难,收入难以提高,市民化问题难以解决。因此,为促进新型城镇化的发展,政府应对人力资本流动进行干预,加大对城镇、二三线城市的人力资本投入,只有当贫困地区的人力资本素质得到提高,从而提高贫困地区的收入水平,才能从长远的角度减小收入差距。具体来说,第一,应加大政府在教育方面的投资比例,确保义务教育的普及,提高教学质量与规模。第二,应鼓励人才向贫困地区流动,以优惠的政策吸引高素质人才,同时减少其人才流失。
[1]Koenker R,Bassett G.Regression Quantiles[J].Econometrica,1978,(46).
[2]Koenker R,Portnoy S.Quantile Smoothing Splines[J].Biometrika, 1994,(81).
[3]Koenker R,Portnoy S.The Gaussian Hare and the Laplacean Tor⁃toise:Computability of Squared-error vs Absolute Error Estimators, (With Discussion)[J].Statistical Science,1997,(12).
[4]Sun Y,Stengos T.The Absolute Health Income Hypothesis Revisited: A Semiparametric Quantile Regression Approach[J].Empir Econ, 2008,(35).
[5]万海远,李实.户籍歧视对城乡收入差距的影响[J].经济研究,2013,(9).
[6]余向华,陈雪娟.中国劳动力市场的户籍分割效应及其变迁——工资差异与机会差异双重视角下的实证研究[J].经济研究,2012,(12).
[7]张文武,梁琦.劳动地理集中、产业空间与地区收入差距[J].经济学,2011,(2).
[8]张占斌.新型城镇化的战略意义[J].国家行政学院学报,2013,(1).
(责任编辑/浩 天)
C812
A
1002-6487(2016)21-0091-05
杨斯琪(1994—),女,山西临汾人,硕士研究生,研究方向:人力资本、收入分配。
赵彦云(1957—),男,天津武清人,教授,博士生导师,研究方向:宏观经济统计分析、投入产出分析。