基于Adaptive Lasso方法的合肥市商品房价格影响因素实证分析
2019-09-03牛勇,赵攀
牛 勇,赵 攀
(1.合肥学院 数学与物理系,安徽 合肥 230601;2.皖西学院 金融与数学学院,安徽 六安 237012)
近20年来,房地产业在我国迅速发展,已成为很多大中城市的支柱产业,在国民经济发展中发挥非常重要的作用。在房地产行业运行发展过程中,涉及多个相关产业,如水泥、钢材、劳动力等等。有资料统计显示在我国GDP的占比中,房地产业对其直接贡献率与间接贡献率共计大约占15%[1],引领了相当一部分产业的发展,逐渐成为国民经济的支柱产业。伴随着房地产行业的蓬勃发展,国内各大城市房价持续走高,特别是北上广等大城市的房价增速已大大超过普通居民的收入增长速度。居民购房压力日趋增大,因而探寻影响房价变动的因素成为社会大众关注的焦点,具有重大的现实意义。
目前,学界关于房地产价格影响因素分析已有一定的研究,如高霞利用因子分析和主成分分析方法对35个城市2004年商品住宅价格进行分析,结果显示影响商品住宅价格因子有四个,分别为城市基础设施和环境因子、规模因子、经济因子以及区位因子[2]。肖磊通过30个省会城市的房地产截面数据对房价的影响因素进行分析,得出供应和需要才是影响房价的主要因素[3]。王勇利用2000—2009年武汉城市圈房地产实际数据,建立多元线性回归模型,根据回归系数的绝对值大小得出房地产开发投资完成额以及城镇居民人均可支配收入是影响武汉商品住宅价格的主要因素[4]。罗玉波利用分位数回归的方法得出不同的房屋属性对与房价的影响随着分位数水平的不同而不同,从而得到比一般均值回归更全面的描述[5]。刘闯通过分析我国1997至2009近13年的房地产数据,利用计量经济学相关知识进行建模,得出影响我国房价的联立方程模型,并说明该模型的有效性[6]。金克镇通过建立一般的线性回归模型,得出常住人口数量、CPI、调控政策是影响商品房价格指数的主要因素[7]。范允奇对存在市场摩擦和投机时的房价运行特征进行二阶段局部动态调整建模,并利用动态面板数据模型和递归分析方法分析了房价影响因素的区域差异和时序变化[8]。周毕文首先从需求、供给和环境三方面对北京商品房价先进行定性分析,再利用灰色关联度定量分析方法定量分析影响住宅价格的影响因素,结果表明影响北京房价因素的重要程度由高到低分别为供给因素、需求因素、环境因素[9]。陈新峰在理论分析的基础上,利用VAR模型分析得出国内生产总值、货币与准货币供应量、城镇居民人均可支配收入、土地价格、房地产开发中外资利用额和房地产价格之间都存在长期的稳态关系[10]。H.G. Roh和C.F. Wu通过分析上海和首尔两地1999至2009年数据,分别建立两城市住房政策、住房价格、贷款利率和竣工住房面积的VAR模型,并相互对比得出定量分析结论[11]。
以上对与房地产价格影响因素的分析都是基于不同的角度,各有侧重点,主要采用的方法是因子分析、线性回归分析、层次分析法以及灰色关联度模型法等,这些方法各有优缺点。总体来说在构建统计模型进行分析时,并非所有自变量都对响应变量有影响,因此变量选择是不可忽视的问题。上述方法在建模前往往希望收集充分多的自变量,从而考虑的较全面。然而在实际问题中,特别是经济数据,很多自变量指标往往有很强的相关性,从而使得模型出现多重共线性、过度拟合等统计问题,这些问题往往会给拟合或者预测带来较大的误差,影响统计推断的精确性。早期的变量选择方法主要采用逐步回归,同时结合AIC、BIC等准则,取得较好的结果。但是,随着科技的发展,数据量变得越来越大,虽然传统的变量选择方法仍有一定的实用性,但也有很多不足,比如计算的速度、算法的稳定性以及模型选择的稳定性。为此,Tibshirani提出了Lasso方法,该方法通过添加惩罚项把协变量系数绝对值很小项压缩成0,达到对模型进行同时的变量选择和参数估计,而传统的方法这两步是分开进行的[12]。同时,它不仅克服传统变量选择和岭估计的各种缺点,而且有大量的关于Lasso的算法,使用较为快速方便,因此Lasso方法被广泛应用在现代回归分析的各个领域。进一步,为使Lasso有更好的性质,Zou提出了Adaptive Lasso及相应的算法[13]。本文主要基于Adaptive Lasso的变量选择方法,并选取适当的算法分析合肥市房地产价格影响因素,同时也给出了一般最小二乘方法、逐步回归方法以及Lasso变量选择方法的分析结果作为比较。本文从影响商品住宅价格的四个方面,即人口因素、收入因素、资金规模因素和物价水平因素角度入手,共选取八个指标:合肥市GDP、城镇人口、城镇居民可支配收入、商品住宅投资比重、商品住宅间缺口、商品零售价格指数、贷款利率、房地产开发投资为自变量,以每平方米商品住宅平均价格为因变量,分别利用上述四种统计方法进行建模分析,比较相关结果,定量分析影响合肥市住宅平均价格的因素,并试着预测房价走势和提出相关建议。
一、Lasso变量选择方法及其推广
(一)Lasso方法
Tibshirani于1996年在Nonnegative Garrote方法的基础上提出了Least absolute shrinkage and selection operator(Lasso)方法[12],具体方法如下:
设响应变量Y和自变量X1,X2,…,Xp之间存在线性关系,即
Y=β0+β1X1+β2X2+…+βpXp+ε
(1)
则上述模型可记为:
(2)
其中误差项ε满足Eε=0,Cov(ε)=σ2I。在通常的高维问题中,总需要稀疏性假设,即模型系数β0,β1,β2,…,βp有许多系数为0,或者说自变量X1,X2,…,Xp中只有少数变量对响应变量Y有影响。Lasso方法就是从这些数据中找出那些模型系数为0的自变量,同时给出非0系数的估计,从而建立最终的稀疏模型。
为此,Tibshirani提出如下方法,即选择使得式(3)达到最小的β:
(3)
这里‖.‖表示欧几里得范数,λ∈[0,∞)是调节参数。Lasso函数(3)式对应有两项,其中第一部分是传统的控制模型拟合的优良性,而第二部分即为高维统计中常见的惩罚项。它的基本思想是把小的系数尽量往0压缩,一旦某个系数压缩成0,相应的自变量即被删除。特别注意,这里调节参数λ的选取非常重要,λ选的越大,整个模型压缩程度越大,从而倾向于删除较多的自变量,导致最终模型中选取较少的变量。另外,在实际的算法中,式(3)的问题等价于下述问题:
min ‖y-xβ‖2
(4)
注意Lasso方法效果好坏的关键在于调节参数λ的选取,最初的想法是通过打格子点的方式,即在一组固定的λ点上计算参数估计值。但真正使得Lasso方法广泛使用的算法是Efron提出的最小角回归算法(Least angle regression,简记 LARS)以及Friedman提出的坐标下降方法[14-15]。这里,LARS方法大致步骤如下:1)设所有的自变量系数为0,并从中选取一个与相应变量Y相关程度最高的,比如X1,然后沿着X1方向取最大的步长,直到有另一个自变量(比如X2)与当前的残差有相同的相关性;2)沿着X1,X2的等角方向寻找最大的步长,直到第三个变量(比如X3)与当前的残差有相同的相关性;依次类推直到第四个、第五个等自变量进人模型。这里我们注意到等角性使得它相对于逐步回归中计算迭代的步长更容易计算,详情参看Efron(2004)。另一种坐标下降法是沿着坐标轴的方向取下降,它的优点是虽然这里有p个参数,但是每次只是更新一个参数,其他p-1个参数是固定的,从而大大加快了计算速度。
(二)Adaptive Lasso方法
虽然Lasso方法在高维数据分析中广泛的运用,但它也有一些缺点,比如它不具备Fan(2001)提出的所谓Oracle性质,即无偏性、稀疏性和连续性[16]。对Lasso而言,它实际上是一种对岭回归的改进,利用惩罚函数是绝对值函数在零点处导数的奇异性,将一些不重要的变量系数压缩成0的同时,也对重要变量的系数给予一定的压缩,从而导致它不满足无偏性的要求。因此Zou于2006年提出了Adaptive Lasso方法,从而具有所谓的Oracle性质。
该方法利用全模型下的最小二乘估计系数值计算不同变量的惩罚项,具体来说即系数绝对值大可能是真实模型中的变量,因而惩罚小,反之,系数绝对值小的可能不是重要自变量,因而惩罚大。基于这种思想,Adaptive Lasso的惩罚函数定义如下:
(5)
对式(5)的惩罚项部分进行二阶泰勒展开,省略后面的高级无穷小近似可得:
紧接着利用牛顿-拉普森迭代方法进行计算,过程如下:
该方法相对而言计算较快、且算法较稳定,但是它的缺点是迭代中若某个回归参数为0,该变量将永远被排除在模型外。另外,算法的结果依赖于精度δ的选取,不同的δ可能导致模型的稀疏程度和参数估计结果有一定差异,具体见Fan和Li(2001)[16]。
二、合肥市商品住宅平均价格影响因素的实证研究
(一)影响因素的确定
国内外学者普遍认为影响商品价格的因素主要有以下四个方面:人口因素、收入因素、资金规模因素和物价水平因素。在我国现有的市场经济体制下,均衡价格由市场的供需关系决定,而商品住宅房作为一种刚需商品,其价格主要受到房地产供求关系的影响。因此,本文将以上四个方面的因素重新归纳整理,按需求因素和供给因素进行分类。
1.需求因素
(1)城镇人口
商品住宅的主要需求者是城镇居民,因此人口数量直接影响一个地区对住房的需求量。人口越密集,相对而言就会存在更多的商品房潜在需求者,对商品房价格的上涨其推动作用。因此人口越多的地区,特别是一些省会大城市,人口流入多,从而导致商品住宅价格越容易上涨。同时,随着我国城镇化的持续推进使得大量农村人口向城市流入,加上我们国家传统的“有房才有家”的观念,极大的推动对商品住宅的需求。
(2)城镇居民可支配收入
居民可支配收入被认为是消费开支的最重要的因素之一,正常情况下拥有更多的可支配收入的居民自然对商品房有更高的需求,因此城镇居民人均可支配收入增加,就意味着居民商品房购买力增强,使房地产市场的需求量增加,在供给不变的情况下,导致房价上涨。虽然对于大多数居民而且,按揭贷款是主要的购房方式,但贷款的金额也是和它所抵押的产品及其收入密且相关的,贷款的多少和年限都取决于购买者的经济能力。
(3)合肥市的地区生产总值GDP
房地产是我国的支柱产业,是国民经济发展的晴雨表,与地区发展水平密切相关。地区生产总值,即所谓的GDP反映了一个地区某个阶段的总体经济发展水平。GDP越高,就为房地产业的发展提供良好的经济环境,反过来,房地产业涉及许多行业,也会带动建筑业、水泥业、钢铁业、劳动力需求等多个产业的发展,特别是提高了居民的收入水平,增强相应的购买力,为房地产的进一步发展提供动力。
(4)商品零售价格指数
零售价格指数是反映城乡商品零售价格变动趋势的一种经济指数。它的调整变动直接影响到城乡居民的生活支出和国家的财政收入,影响居民购买力和市场供需平衡,影响消费与积累的比例,因此可能对居民购买商品房有一定影响。
2.供给因素
(1)房地产开发投资
房地产开发投资是房地产业发展的基础和源泉,直接关系到房地产的发展情况,是房地产业发展的原始动力。房地产开发投资越大,意味着房地产业吸收资金越多,发展速度越快,供给增加,在需求稳定的前提下,房价下降。反之,导致房价的上涨。
(2)商品住宅投资比重
对房地产投资额的多少可以反映出房地产市场供给力度的强弱,而商品住宅是房地产市场最重要的组成部分,比重越大,相对说明商品住宅的供应充足,有利于抑制房价的快速增长。总体而言,二者的比值直接反映了商品住宅的供应情况,很好地解释了其对商品住宅价格的影响。
(3)商品住宅间缺口
该指标的含义是商品住宅的竣工面积与销售面积之间的差值,它可以综合反映一个地区商品住宅的供应水平以及需求水平,是探究商品住宅价格水平的关键因素。差值为正,说明供应大于需要,否则的话供不应求会导致房价的上涨。
(4)贷款利率
利率是政府宏观调控的重要手段,对国民经济有较大的影响。较高的利率会增加投资成本和房地产企业的开发成本,使消费者付出更多的利息,从而增加购房负担,因此会抑制开发商开发新楼盘,抑制消费者购买能力,从而导致商品住宅价格的下跌。反之低利率会鼓励开发商加大投资,鼓励住宅投资者,从而使商品房价格上升。因此它的波动,对消费者有着直接影响,特别首套房利率上调对于刚需买房而言有很不利的影响。通常房屋按揭是长期贷款,因此本文使用5年期以上银行贷款利率,研究其对商品住宅价格变动的影响。
(二)数据来源
本文选取合肥市2003至2018年近16年的商品房平均价格为研究对象,并根据上述定性分析选取“合肥市GDP(X1)”“城镇人口(X2)”“城镇居民可支配收入(X3)”“商品住宅投资比重(X4)”“商品住宅间缺口(X5)”“商品零售价格指数(X6)”“贷款利率(X7)为自变量”“房地产开发投资(X8)”为自变量进行,利用一般最小二乘方法、逐步回归方法、Lasso 方法以及Adaptive Lasso方法进行综合分析比较。整个过程采用R软件来实现,所有数据均来自安徽统计年鉴、合肥统计年鉴和中经统计数据库公布数据,具体如表1所示。
表1 合肥2003—2018年数据房地产业相关数据
数据来源:笔者整理。
(三)初步的描述性分析
近10多年来,房地产业在我国的经济发展中起重要的作用,因此我们先简单地看下房地产投资对于合肥生产总值GDP的拉动作用。
图1 合肥生产总值GDP和房地产开发投资的线性拟合图
从图1可以看出,合肥生产总值GDP和房地产开发投资之间存在高度的线性关系,与实际情况房地产业是我国目前的重要支柱产业相吻合,即很多城市的经济发展受到房地产业的严重制约,房地产行业的发展情况基本上代表了当地的经济发展情况。
为了进行后续的基于Adaptive Lasso方法的线性拟合等方法,我们先探测下响应变量与各自变量直接的相关程度,即两个变量的变动趋势。如果两个变量之间呈现相同的波动趋势,即同时增大或者减小,则二者之间存在强相关性,反之相关性弱。相关性分析在经济领域有广泛的应用,在统计建模进行初步的相关性分析也是很必要的,可以初步探究响应变量和哪些自变量有相关性。
表2 商品房平均价格与各自变量的相关系数表
从表2中相关系数绝对值大小分析初步了解:商品房平均价格与合肥GDP、城镇人口、城镇居民可支配收入以及房地产开发投资都存在很强的正相关性,而与贷款利率之间存在较强的负相关性,并且与其他自变量在5%的置信水平下并不显著。因此,简单的相关系数给我们房价与这些因素之间关系的初步提示,有利于我们后续进一步的定量分析。
(四)合肥市商品住宅平均价格影响因素分析
在上面的相关性分析基础上,我们初步得出哪些自变量可能与响应变量有较大的相关性。进一步,我们先对比一般最小二乘方法和逐步回归分析两种方法的分析结果。
1.一般最小二乘方法
2.逐步回归方法
基于AIC准则的逐步回归方法是在一般最小二乘的基础上添加了对自变量个数的惩罚机制,其本质是在偏差和方差直接寻找一个平衡。我们进行参数估计和变量选择的标准是最小化AIC数值,该方法的显著特点是最终选取的模型中的变量都是影响显著的变量。由表3的后面两列看出,最终选取的自变量是城镇人口和贷款利率,这两个变量在上面的方法中也选到。正如上面的分析,贷款利率对宏观经济的各个方面都有很大的影响,房地产行业也不例外。低利率意味着较为宽松的货币政策,从而刺激开发商的投资以及城镇居民购买房产的意愿,反之意味收紧的货币政策,会影响开发商投资规模以及居民的购买能力,因此和商品住宅平均价格呈现负相关。而城镇人口的持续增加,为房地产业提供源源不断的潜在购买人群,因而和商品住宅平均价格呈现正相关。
表3 一般最小二乘方法和逐步回归方法结果
3.基于Lasso和Adaptive Lasso方法的回归分析
基于Lasso方法和Adaptive Lasso方法的变量选择是近些年来在高维统计中广泛应用的方法,它们都是通过添加惩罚项达到同时的变量选择和参数估计,具体结果如下:
首先,我们看下基于最小角回归算法下Lasso选择变量的顺序(表4)。
表4 LARS算法下Lasso方法的移动路径
表4的意思是在LARS算法下,第一步选择变量2(即城镇人口),第二步选择变量1(即合肥市GDP),依次类推。注意在第5步,LARS算法是删除了变量1,而在第10步迭代结束又选入变量1,具体选择路径也可见图2。
图2 LARS算法的移动路径图
下面,我们给出具体的Lasso方法和Adaptive Lasso方法的计算结果。
表5 Lasso方法和Adaptive Lasso方法的计算结果
表5显示Lasso方法和Adaptive Lasso方法的计算结果稍有差别,Lasso方法最终选取了7个自变量,而Adaptive Lasso方法少选商品零售价格指数。城镇人口、城镇居民可支配入、商品住宅投资比重、商品住宅间缺口、商品零售价格指数、房地产开发投资都对商品住宅平均价格有显著的正向促进作用,而贷款利率对房价起负向作用。特别是贷款利率,对合肥商品住宅平均价格有很强的负向作用。
4.四种方法的比较
一般最小二乘方法、逐步回归方法、Lasso方法和Adaptive Lasso方法的共同点是:城镇人口对商品住宅平均价格有正向促进作用,主要在于人口是商品住宅的最终需要者,而城镇人口显然是城市商品房的主要需求者,它对住房价格的影响作用显而易见。城镇人口的多少决定了居民对商品房的需求大小,特别对与合肥这样的省会城市而言,具有很强的聚集资源能力,随着省内其他城市的人口不断流入,安徽省下面的城市购买能力较强的人口都是合肥商品房的潜在购买者,为合肥房价的持续上涨提供了较强动力。另一个重要影响因素是贷款利率,在上面四种方法中都与房价成很强的负相关性。正如前面的分析,贷款利率对宏观经济的各个产业都有很大的影响,房地产行业更为明显。
与其他三种方法相比,逐步回归方法的结果差别最大,这种方法只选择了城镇人口和贷款利率两个变量作为重要自变量。究其原因,主要在于逐步回归的方法对数据较为敏感,且我们选取变量的门槛也较高,导致选入的自变量较少。这里显著性水平高的变量即影响不显著或者影响较小的变量都已删除,因而可能存在过度删减变量的问题,从而导致参数估计的偏差较大。Lasso方法和Adaptive Lasso方法的选择结果较为接近,它们与一般的最小二乘比较删除了合肥市GDP变量,可能是因为合肥市GDP变量所能解释响应变量的信息已经包含在其他自变量中。Lasso方法、Adaptive Lasso方法的结果和一般最小二乘方法结果相比,回归系数做了一定的修正,且能够达到一般最小二乘方法不能完成的变量选择的效果。总体而言,Lasso方法和Adaptive Lasso方法既可以进行变量选择,又不至于删除过多的自变量,主要在于这两种方法只删除显著没有影响的变量,而把那些有一定相关程度的自变量保留下来,从而使得最后的估计结果不至于偏差太大,克服了一般最小二乘方法不能进行变量选择和逐步回归过度删减变量的缺点。
三、结论与建议
通过上述四种方法的定量分析可以看出,影响合肥商品住宅平均价格的因素中,城镇人口和贷款利率是比较重要的两个因素。城镇人口与房价呈正相关,人口越多,潜在购房人口就越多,是合肥市商品住宅价格持续上涨的重要动力;而贷款利率作为国家的宏观调控手段,对社会经济各个方面都有很大的影响,高利率必然增加房地产开发商的投资成本以及购房居民的购买成本和按揭压力,因而必然和商品住宅价格呈现某种负相关性。另一方面,从Lasso方法的结果看,城镇人口、城镇居民可支配入、商品住宅投资比重、商品住宅间缺口、商品零售价格指数、房地产开发投资都对商品住宅平均价格这六个自变量都有显著的正向促进作用,而贷款利率对房价起负向作用。从经济学原理也容易解释,很显然这些自变量都可以归结为前面讨论的房地产供应和需求两个大的方面内容。相对一般的最小二乘而言,Lasso方法删除的自变量都是非常不显著的,不像逐步回归那样过度删减变量,从而尽可能地减小模型偏差。而这里的Adaptive Lasso方法相对于Lasso方法相比,做了一点修正,仅仅多删除一个商品零售价格指数变量,其他的系数稍做修正,使得不显著的变量更容易删除,显著变量系数被压缩的更小,从而减小最终选取模型的偏差。
总的来说,房地产业是合肥经济平稳发展的支柱产业之一,如何保持房地产业健康持续发展尤为重要,而保持房价的平稳显然是其核心问题。特别是2013年17号文件(新国五条)坚决遏制投机投资性购房以来,国家的宏观调控政策手段更多、力度更大,涉及范围更广。从定量分析结果看,适当地减少合肥市人口的流入以及提高利率都有一定抑制房价过快增长的作用。但毕竟合肥是安徽的省会,地处江淮之间,距离长三角较近,同时也是皖江城市带的核心城市,具有很大的发展前景,近些年房价持续增长也是必然的。另一方面,我们也应注意到住房毕竟是人民生活的刚需,房价过快增长不利于合肥本身经济的发展、吸引高层次人才来肥工作以及社会的稳定性。正如习近平所言:“坚持房子是用来住的、不是用来炒的定位”,因此我们提出如下政策建议:1)政府应加大房地产市场的监管力度,打击投机炒房行为;2)合理控制城镇人口数量,区别化的放贷政策以抑制投机,但为了满足人民群众的刚需,首套房依然实行优惠政策以保障基本民生;3)平衡房地产市场的供求关系,合理调配土地资源和商品住宅供给,坚决遏制房价的快速上涨。相信在政府强有力的监管下,既可以保证人民群众的基本住房需求,也能控制大量的房地产投机行为,在保证经济快速发展的同时,使得合肥房地产业能持续平稳的发展。