基于分位数回归的上海市互联网行业工资水平研究
2018-11-07韩春慧李文
韩春慧 李文
摘 要 本文利用回归分析中较为稳健的分位数回归方法,研究了上海市互联网行业中,就业人才的不同特点对企业提供的就业工资水平的影响,将学历、工作经验、企业自身规模这3个重要的影响因素作为自变量,工资水平作为因变量建立分位数回归模型。本文主要分析了5个主要的分位点,得到不同位置上的自变量对于工资水平影响更全面的结论。不同位置上的回归结果表明,在较高工资水平上,工作经验对企业提供的工资水平影响最大,并且呈现出上升的趋势,教育水平对于高层次人才的工资水平的影响随着所考察的分位数不同而变化,但并不是简单的上升趋势,在较高工资水平上,呈现出类似倒“U”形状的分布。
关键词 分位数回归 倒“U”形状 工资水平 教育水平
一、引言
近年来,互联网行业不断发展,人工智能等新兴的科技领域越来越需要高端人才的创新与实践,国家大力支持战略性产业的发展,实行相关政策,重点规划城市的发展。上海提出建立全球科创中心,以科技和创新引领行业发展,同时吸引了许多人才,也有越来越多的互联网企业在人工智能、大数据等新兴领域取得了成绩,同时大数据已成为国家基础性战略资源,对经济社会发展各领域日益产生深远的影响。本文利用大数据技术进行数据分析,聚焦上海提出的科创中心战略重点发展行业,从互联网行业入手,利用工资水平等数据,建立模型进行分析,对就业与上海重点行业发展的互动关系展开研究,尝试分析其所反映出的产业发展状况。
二、分位数回归介绍
分位数回归(QR)的思想最初是由Koenker和Bassett提出的,这一方法是对最小二乘法(OLS)的拓展和应用。分位数回归迅速发展主要是因為相比普通最小二乘法得到的回归,分位数回归具有自身独有的优点。传统的均值回归在使用普通最小二乘法时,对于模型有非常严格的假定,即假定随机扰动项满足零均值、同方差并且无序列相关性,较强的假定限制了这一方法在许多实际问题研究中的应用。当不满足其中任何一个假定时,会对所建立的模型造成无法估计的影响,从而使模型的建立失去意义。分位数回归理论的提出解决了这一弊端,相对于普通最小二乘法的严格假定,分位数可以应用于存在严重异方差,以及数据分布具有尖峰或厚尾的数据,应用的范围更加广泛,也更加深入地挖掘出数据所隐藏的信息,给我们研究分析问题提供了更好的思路和解决方案。
三、实证分析
(一)数据及其预处理
本文通过大数据分析中的爬虫等方法抓取了2018年上海市互联网行业招聘人员的基本信息,其中包括有关公司的信息如行业类别、公司特征、公司规模、提供的最低薪酬等,为互联网行业的各类公司提供有关从业人员的信息如工作经验、教育水平等。由于模型中需要探究的变量为工资水平、企业规模、从业人员的工作经验和教育水平,所以本文将样本中缺失相关信息的较少量样本删除,最终得到的样本量为34053个,样本量满足数据分析的要求,后期得到的模型也较为合理。同时,在进行建模分析时,根据模型的需要,本文将数据中的分类数据转换成顺序数据,以此建立模型,进一步分析变量对工资水平的影响。因变量采用的是最低薪酬数据,并对其进行对数化处理。数据分析使用的软件是Stata。
(二)建模分析过程
其中ln(wage)表示工资收入的自然对数,edu表示受教育程度,exp表示潜在工作经验(从事工作时间),squ则表示潜在工作经验的平方,X'i表示一系列控制变量所组成的矩阵,i表示样本中的观察个体。教育回报率是描述教育与收入之间关系的常用指标,指的是每增加一年的教育程度所带来的工资收入增加的百分比。由于被解释变量是对数形式,edu的系数可直接视为教育回报率。在不考虑个体异质性的情况下,教育回报率是既定的,但是每个人都有不一样的受教育年限,因此每个人有不同的收入。
建立分位数回归模型,将数据进行预处理,得到分析的数据。首先,对变量进行如下处理,本文将工资水平的对数作为被解释变量y,将公司规模、教育水平和工作经验作为解释变量x,建立如下分位数回归模型:
分位数回归模型是在不同的分位点下的条件回归,模型中估计的参数随着分位点t的不同而变化,建立的分位数回归模型含有三个自变量,均为虚拟变量。
(三)分位数回归结果及其解释
采用分位数回归模型能得到任意分位点的模型参数估计值,但是由于分析问题的具体情况时并不是越多的分位点就有越好的分析结果,本文采用比较具有代表性的5个分位点进行分析,分别是0.1、0.25、0.5、0.75、0.9。
Stata仍报告了OLS下估计方程的回归系数,尽管本文没有使用OLS方法,但是这一结果给了我们一个参照和对比,从OLS的回归结果可以看出,公司规模在模型中的贡献较小,工作经验和教育水平对工资水平的影响较大,这符合之前许多学者对于教育回报率和工作经验对收入影响的研究。从工作经验来看,平均来说,企业给有工作经验的人提供的工资水平要比没有经验的人高19.8%,但具体在工资水平上是如何影响的,尚没有具体的结论,因此下文将对分位数回归的结果进行分析。
由表1的结果可以看出,从公司规模对工资水平影响的变动趋势来看,在0.1、0.25、0.5、0.75、0.9分位点上的参数估计值很小,并且不显著。
从工作经验对工资水平影响的变动趋势来看,说明工作经验对于提高劳动者工资收入有着明显的积极作用,且工作经验的回归系数随着分位点的增加而增加,说明工作经验越丰富,工资收入越高,且对高收入群体的积极作用更强。在工资水平的10%和90%分位点处的参数估计值分别为0.198和0.405,可以看出,工作经验在10%分位点对于工资水平的影响小于90%分位点的影响,也就是说,增加一年的工作经验,在10%分位点上,工资水平将提高19.8%,而在90%分位点上,工资水平将提高40.5%,可以看出,在企业招聘人才时,工作经验具有重要的影响作用,就业岗位的质量、水平越高,工作经验越重要。从趋势上看,工作经验对于工资水平的影响总体上呈上升趋势,中位数的参数估计值为0.288,也就是说在中位数的水平上,工作经验增加一年,相应的工资水平将会提升28.8%。
从教育水平对工资水平影响的变动趋势来看,从0.1、0.25、0.5、0.75、0.9分位点可以看出各参数估计量均为正值,这说明教育水平对于劳动者工资收入有明显的积极作用。在低分位点的系数较大,但受教育水平在高分点的系数变得相对较小,说明每个人的受教育年限每增加1%,工资在低收入水平的人的月工资基础上有大幅的提高,在高收入水平的人的月工资水平上也有提高,但是受教育程度的比例增长对低收入水平人群的拉动作用远大于高收入水平人群。
从公司规模对工资水平影响的变动趋势来看,在低分位数上有影响,但在高分位数上的影响很小;从工作经验对工资水平影响的变动趋势来看,一般来说,工作经验对于提高劳动者工资收入有着明显的积极作用,且工作经验的回归系数随着分位点的增加而增加,说明工作经验越丰富,工资收入越高,其对高收入群体的积极作用更强;从教育水平对工资水平影响的变动趋势来看,教育水平对工资收入中间分位数的影响较大,但在高分位数上的影响较小。
四、结语
条件分位数回归有助于研究者了解各解释变量对于被解释变量在扰动项的不同分位点上的异质性边际影响,无条件分位数回归则是对条件分位数回归方法的完善,能确保参数的识别与一致估计。本文基于OLS回归和分位数回归模型,研究了上海市互联网行业中,就业人才的不同特点对企业提供的就业工资水平的影响,将学历、工作经验、企业自身规模這三个重要的影响因素作为自变量,工资水平作为因变量,建立分位数回归模型。本文主要分析了五个主要的分位点,得到不同位置上的自变量对于工资水平影响更全面的结论。不同位置上的回归结果表明,在较高工资水平上工作经验对企业提供的工资水平影响最大,并且呈上升趋势,教育水平对于高层次人才工资水平的影响随着所考察分位数的不同而变化,但并不是简单的上升趋势,在较高工资水平上,呈现出类似倒“U”形状的分布。
(作者单位为上海对外经贸大学统计与信息学院)
参考文献
[1] 张涛.工资收入差异的解释:基于分位数回归的经验研究[J].统计与信息论坛,2011(11).
[2] 张车伟.人力资本回报率变化与收入差距:“马太效应”及其政策含义[J].经济研究,2006(12).
[3] 刘生龙.教育和经验对中国居民收入的影响——基于分位数回归和审查分位数回归的实证研究[J].数量经济技术经济研究,2008(4).
[4] 邢春冰.分位回归、教育回报率与收入差距[J].统计研究,2008(5).
[5] Elena Martinez-Sanchisa,Juan Moraa,Ilker Kandemirb . Counterfactual distributions of wages via quantile regression with endogeneity[J]. Working Papers Serie Ad,2012,56(11):3212-3229.