基于多元回归分析模型的房地产价格影响因素研究
2018-11-16顾沈靖
顾沈靖
(江苏联合职业技术学院 南京分院,南京 210019)
改革开放以来,中国房地产业得到前所未有的发展.房地产与我们的生活息息相关,而指标是社会经济现象在数量方面的反映,是生产力水平发展的标志.因此,在房地产成为热门话题的同时,各界人士和学者也对于房地产行业的指标从不同的研究角度进行了分析.
1 研究现状
1996年国家在全国房地产业统计工作发展规划中首次正式提出建立房地产业指标体系的设想[1].2001年9月我国开始应用“房地产统计指标体系研究”成果.随后,各界学者更是投入其中,进一步完善房地产指标体系的完整性.例如,杨文武撰写了中国房地产业指标体系建立的多元分析与市政研究[2],王锋,卢立明等学者共同研究了关于构筑中国房地产统计指标体系的内容[3].
随着中国房地产指标的逐步完善,学者们开始尝试使用不同的方法来处理分析相关数据.统计的思想开始被引入房地产行业的分析中.李秋红,李振红等学者使用了典型相关分析的方法来对房地产数据进行处理[4],胡洁,潘林采取了基于主成分分析的方法研究房地产行业,分析得出了房地产的强烈地域性[5].本文在已有文献的基础上,利用多元回归的统计方法对房地产指标进行数据处理分析,来研究房地产的价格影响因素,并就现实背景及分析结果提出一些有用的建议.希望这些结果与建议能够让我们更加了解现如今的房地产市场,更重要的是能够保证房地产市场能够稳定健康地发展.
2 基本原理及方法
2.1 平稳性的定义[6]
定义1 如对任何正整数k(t1 定义2 如果时间序列{xt}存在有穷的二阶矩,满足下面等式: (1)μt=Ext=μ,对于任何t, (2)rs,t=Cov(xt,xs)=E(xt-μ)(xs-μ)=γt-s,记t-s=j,则γt-s=γj 其中γt-s为只与t-s有关的一元函数.则称时间序列是弱平稳的或宽平稳的.隐含条件:Var(xt)=γt,t=γs,s=Var(xs)即方差不变. 定义3 对于宽平稳的时间序列,它的自协方差函数和自相关函数(ACF)为: (1)自协方差函数γj=Cov(xt,xt-j)=E(xt-μ)(xt-j-μ),(Ext=μ) 易见,ρ0=1,γj=γ-j,ρj=ρ-j,∀j∈z. 首先,检验此时间序列是否为平稳时间序列,若不是,则需要通过一些变换将其转换为平稳的时间序列,再进行基本的模型识别.[7] 多元线性回归模型一般形式[8]:对于有k-1个解释变量的多元线性回归模型 Yi=β1+β2X2i+β3X3i+…+βkXki+ui(i=1,2,…,n) 注:模型中的βj(j=1,2,…,k)是偏回归系数,样本容量为n,偏回归系数:控制其它解释变量不变化的前提下,第j个解释变量的单位变动对被解释变量平均值的影响,即对Y平均值“直接”或“净”的影响.多元线性回归模型中的“线性”是指:对各个回归系数而言是“线性”的,对变量则可以线性也可以非线性. 多元总体回归函数的条件期望表现形式[9]: 将Y的总体条件期望表示为多个解释变量的函数,如: E(Yi|X2i,X3i,…,Xki)=β1+β2X2i+β3X3i+…+βkXki(i=1,2,…,n) 注:这时Y总体条件期望的轨迹是K维空间的一条线,对于多元样本回归函数,Y的样本条件均值可以表示为多个解释变量的函数.多个解释变量的表现形式是 对时间序列数据建模步骤[10]:第一步,模型识别.根据系统的相关性质,以及所提供的时序数据的概貌,提出一个合适的类型模型以及模型的定阶等.第二步,参数估计.就是根据实际的观测数据估计该数学模型所包含各项参数的数值.第三步,诊断检验.包括所建模型的适应性检验等.第四步,模型应用.预测. 本文选用的数据来自中华人民共和国国家统计局统计年鉴,以下各个变量代表指标如下: X1t:房屋施工面积(万平方米)X2t:房屋竣工面积(万平方米) X3t:房屋竣工价值(亿元)X4t:房屋竣工造价(万/平方米) X5t:房屋销售面积(万平方米)X6t:本年完成投资(亿元) Yt:房屋销售净额(亿元) 其中,房屋竣工价值是指在报告期内竣工房屋本身的建造价值.本年完成投资是指房地产开发企业(单位)开发建设的供出售、出租用的商品住宅、厂房、仓库、饭店、度假村、写字楼、办公楼等房屋工程及其配套的服务设施所完成的投资额(含拆迁、回迁还建用房). 3.2.1 多重共线性检验 多重共线性检验[11]指的是线性回归模型中,解释变量之间存在精确的相关关系或高度相关关系,而使模型估计失真或难以估计. 回归模型牵涉到多个自变量的时候,自变量之间可能会相互关联,即他们之间存在有多重共线性.我们目的是建立回归模型,需要对数据进行初步的判断,选择有意义的解释变量,再建立回归模型,不可以直接建立回归模型.所以先用Eviews软件检验各个自变量之间是否存在的多重共线性.如果存在多重共线性,还需要对多重共线性进行修正.[12] 造成多重共线性的原因有以下几种:解释变量都享有共同的时间趋势;一个解释变量是另一个的滞后,二者往往遵循一个趋势;由于数据收集的基础不够宽,某些解释变量可能会一起变动;某些解释变量间存在某种近似的线性关系. 处理多重共线性的原则:多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;严重的多重共线性问题,一般可根据经验或通过分析回归结果发现,如影响系数符号等,要根据不同情况采取必要措施. 解决方法:增加数据;对模型施加某些约束条件;删除一个或几个共线性变量;将模型适当变形;主成分回归. 以选取的数据为研究对象,先对数据进行多重共线性检验,剔除相关性. 利用计量型经济学软件Eviews进行操作,输出结果发现,可以直接剔除变量X4t,可以得到响应变量Yt与各个解释变量X1t,X2t,X3t,X5t,X6t之间的线性关系. Yt=5 786.268-0.385 806X1t-0.201 453X2t+1.996 905X3t+0.519 008X5t+2.688 844X6t+et 我们不仅仅需要从理论上剔除X4t,还需要对剔除X4t的现实意义进行解释.X4t是房屋竣工造价,房屋竣工造价是指不同结构、不同高度的初装修房屋结算的平均每平方建筑面积的造价.我们不能说房屋竣工造价对房屋销售净额没有影响,而是应该说房屋竣工造价和其他解释变量X1t,X2t,X3t,X5t,X6t之间存在多重共线性关系,因而房屋竣工造价与房屋销售净额之间的关系可以由其他的解释变量代替. 通过以上的分析,确定本文数据存在多重共线性.这里我们选择删除一个或几个共线性变量的方法.由于数据的来源是国家统计局的统计年鉴,选择了最多年份的数据,没有更多的来源了,因而没法用增加数据来处理多重共线性. 3.2.2 平稳性检验 ADF检验(单位根检验)指检验序列中是否存在单位根,因为存在单位根就是非平稳时间序列了. 我们的目的是对选择的解释变量进行回归分析,以上已经进行了多重共线性检验,如果数据是平稳的,就可以直接进行回归分析,因而这里要确定数据是否平稳,这里选择ADF检验来验证数据是否平稳. 首先对各个变量原始序列进行平稳性检验.若原始序列不平稳,则需要对其一阶差分或者二阶差分进行平稳性检验. 先对被解释变量的原始序列进行平稳性检验,根据Eviews操作,经ADF检验式计算得到平稳性检验结果如表1所示. 表1 平稳性检验结果 由表1可知,将Yt的原始序列及一阶差分序列进行平稳性检验,并汇总出结果.结果显示,ADF=2.817 113,大于该检验水平下的临界值2.739 965,所以序列Yt是个非平稳序列.在此情形下,应该对Yt的一阶差分序列进行ADF检验. 同样,由汇总结果得到,对于响应变量的一阶差分序列,ADF=-2.560 2,小于该检验水平下的临界值-1.859 680,P值为0.015 6,满足0.05置信水平的条件,所以房屋销售净额Yt的一阶差分序列是平稳序列. 当然,我们知道ADF检验是为了检验变量的平稳性.如果解释变量和被解释变量存在同阶平稳的话,则可以选择对数据进行协整检验.在本文中,对我们选择的各个解释变量X1t,X2t,X3t,X5t,X6t也进行ADF检验,检验各个解释变量的平稳性.发现它们与响应变量并不是同阶平稳的,不存在相应的协整关系,因此不要进行协整检验. 3.2.3 回归分析 回归分析,研究的是总体中解释变量与被解释变量之间客观存在的相互联系的规律.我们的目的是对数据进行回归模型的建立与处理,因而在做完ADF检验的前提下,我们继续做回归分析. 利用计量型经济学软件Eviews进行操作,可以得到回归分析的模型: Yt=5 727.569-0.378 036X1t-0.210 989X2t+2.023 562X3t+0.517 531X5t+2.634 576X6t+et 从输出结果可以看出,各个变量的P值都在0.05置信度水平之内,而可决系数R2为0.999 717,可以确定该回归拟合效果比较好. 上面对变量进行了ADF检验.可知ADF单位根检验是为了检验序列中是否存在单位根,因为存在单位根就是非平稳时间序列了.单位根就是指单位根过程,可以证明,序列中存在单位根过程就会不平稳.如果一组非平稳时间序列之间不存在协整关系,则这一组变量构造的回归模型就有可能出现伪回归.简而言之,利用非平稳时间序列直接建模容易产生伪回归.由于原数据是非平稳的,因而构造出来的模型存在伪回归,下一步考虑是否可以进行误差修正模型. 误差修正模型指的是,对于非平稳时间序列,可以通过差分的方法将其转化为平稳时间序列,然后才可以建立经典的回归分析模型.而建立误差修正模型的前提是进行残差序列et的平稳性检验. 3.2.4 残差平稳性检验 利用计量型经济学软件Eviews进行操作,计算得P值为0.028 1,在0.05的置信度水平下,结果是显著的.也就是说,回归模型的残差序列et不含有单位根,残差是平稳的,因而可以继续建立误差修正模型. 3.2.5 误差修正模型 上面进行了残差平稳性检验,确定了残差是平稳的.要建立误差修正模型,首先要通过之前的回归,计算出误差项et.然后以误差项et为参数,继续做回归,就可以得到相应的方程. 选择模型Yt=β0+β1X1t+β2X2t+β3X3t+β5X5t+β6X6t+et,当然由于多重共线性已经剔除了X4t,便不在考虑范围之内.对模型移项变换之后,可以得到: et=Yt-β0-β1X1t-β2X2t-β3X3t-β5X5t-β6X6t 用回归分析中得到的各个变量的系数β0,β1,β2,β3,β5,β6,在Excel表格中进行操作变换,得出残差序列et的数值,输入到Eviews中,进行误差修正模型.[13] 利用计量型经济学软件Eviews进行操作求得,可决系数R2为0.944 250,在0.8以上,拟合效果比较好.也可以得到,模型常数和残差的P值分别为0.009 0与0.045 1,在0.05的置信度水平下,结果是显著的,所以误差修正模型选择合理. 最终得到误差修正模型的估计结果:ΔYt=5 128.636+3.140 958et-1. 将ΔYt=Yt-Yt-1带入其中,整理可以得到被解释变量Yt与选择的各个解释变量X1t,X2t,X3t,X5t,X6t之间的回归模型: Yt= 128 61.41767+4.140 958Yt-1-1.187 395X1t+0.662 708X2t+6.355 923X3t+ 1.625 543X5t+8.275 093X6t 误差修正模型的经济意义的解释[14]: 在本文研究的房地产价格的众多影响因素中,房屋销售净额取决于房屋施工面积、房屋竣工面积、房屋竣工价值、销售面积、本年完成投资.其中,房屋销售净额与房屋竣工面积、房屋竣工价值、房屋销售面积、本年完成投资成正相关,而与房屋施工面积成负相关. 房屋竣工价值是指在报告期内竣工房屋本身的建造价值.竣工房屋价值按房屋设计和预算规定的内容计算.包括竣工房屋本身的基础、结构、屋面、装修以及水、电、暖、卫等附属工程的建造价值,也包括作为房屋建筑组成部分而列入房屋建筑工程预算内的设备(如电梯、通风设备等)的购置和安装费用.因而房屋竣工价值对房屋销售净额成正相关是有现实意义的. 房屋销售越多,房屋销售面积越大,房屋销售净额也会随之增大.房屋销售面积与房屋销售净额成正相关.本年完成投资是指房地产开发企业(单位)开发建设的供出售、出租用的商品住宅、厂房、仓库、饭店、度假村、写字楼、办公楼等房屋工程及其配套的服务设施所完成的投资额(含拆迁、回迁还建用房).本年完成的投资额越高,相应的房地产行业的销售净额也会比较高.所以说本年完成投资与房地产销售净额成正相关. 同时,房屋净销售额还取决于上一期房屋销售净额对均衡水平的偏离,误差项et-1估计的系数3.14 095 8体现了对偏离的修正,上一期偏离越远,本期修正的量就越大.也就是说,上年的销售情况同时也无形之中影响着下一年房屋的销售. 对房地产相关变量进行统计分析,运用多元回归分析方法,发现房屋销售净额受诸多因素的影响,而不单纯是某一个因素的作用.房屋销售净额与房屋竣工面积、房屋竣工价值、房屋销售面积、本年完成投资成正相关,而与房屋施工面积成负相关.2.2 多元回归理论建模
3 数据分析
3.1 数据来源及说明
3.2 建模分析
4 结语