基于ARMA模型的杭州市房价研究与预测
——以杭州市上城区和下城区为例
2020-10-22吴承业沈逸珺曹远寿周婉茹孟庆欣
吴承业, 沈逸珺, 汪 慰, 曹远寿, 周婉茹, 孟庆欣
(湖州师范学院 理学院, 浙江 湖州 31300)
0 引 言
我国实行城镇住房制度改革以来,房地产行业日新月异.目前,房地产行业在中国整体经济规模中有着举足轻重的地位.住房问题紧扣人民生活,房地产的政策和市场走向是每年两会备受关注的焦点之一.2019年两会提及了房地产调控政策、房地产金融政策、房地产税立法、新型城镇化、房地产市场形势等.习近平在党的十九大报告中提出的社会主要矛盾更是从深层次指出,对弱势群体(中低收入人群)的住房保障将成为未来发展的重点.
ARMA模型是一种典型的时间序列分析模型,它利用公式将收集的数据转化成数量关系,从而达到预测数据的目的.相关学者根据该模型的特点对很多数据进行了预测分析.管岽菀等利用ARIMA模型对网络舆情传播过程进行预测研究[1];刘芸男等利用ARIMA模型对临床用血需求进行分析预测[2];魏新刚等利用ARIMA模型分析预测其他感染性腹泻者的发病情况[3];石炀针对股票价格与人民币汇率的联动性特点运用ARIMA模型进行分析预测[4];吕靖烨等运用ARIMA模型对欧盟碳金融市场期货价格进行分析预测[5]……杭州市的房价在全国处于较高层次,其中上城区和下城区是杭州市房价较典型的城区.本文从2010-2018年上述城区的房价出发,利用ARIMA模型对其2019-2023年的房价进行分析预测.
1 ARMA模型的原理
ARMA模型(autoregressive moving average model,自回归滑动平均模型)是利用差分等方法将非平稳时间序列转化为平稳时间序列,再将因变量对它的滞后值,以及随机误差项的现值和滞后值进行回归建立的预测模型[6].其原理为:若时间序列Xt是一个平稳且非白噪声序列,假设其方差始终不发生改变,那么该时间序列满足以下公式:
Xt=β0+β1Xt-1+…+βpXt-p+εt-α1εt-1-…-αqεt-p,
其中,β0为常数项,β1,β2,…,βp为自回归系数,α1,α2,…,αq为滑动平均系数, 其均为模型中所需拟合的参数;εt,εt-1,…,εt-q为原序列的残差序列,其均值为0, 方差固定为σ2,p为该时间序列的自回归阶数,q为滑动平均阶数, 记为ARMA(p,q)模型.
ARMA模型只能用于处理平稳且非白噪声序列,而实际收集到的数据多为不平稳的数据,因此本文采用取对数和差分法将不平稳序列化为平稳序列,然后将ARMA模型代入新序列确定自回归阶数和滑动平均阶数,最后将原序列代入确定的模型中,模型的输出即为预测结果.
2 模型的建立
2.1 模型建立步骤
(1) 检验原序列是否平稳:根据原序列的时序图、自相关系数图和偏相关系数图判断该序列是否为平稳序列.
(2) 不平稳序列平稳化:若原序列是一个非平稳序列,则将原序列对数化和差分化使原序列成为一个平稳序列.
(3) 白噪声检验:检验生成的新序列是否为白噪声序列,白噪声序列不具有研究意义.
(4) 模型定阶:根据新序列的自相关系数图和偏相关系数图的截尾阶数确定ARIMA(p,q)中的p、q阶数.由于截尾阶数的不确定性和置信区间的不同,导致模型不唯一,需建立多个模型,最终利用AIC、SC准则挑选出最优模型.
(5) 适应性检验:检验模型的残差序列是否为白噪声序列,若是,则表明数据信息被充分提取,模型较好.
(6) 拟合预测:利用选择的模型拟合预测未来的数据.
2.2 模型建立过程
2.2.1 判断原序列是否平稳
本文对2010-2018年杭州市上城区和下城区的房价序列Yt1、Yt2作时序图(见图1和图2).由时序图分析得出,2组序列属于不平稳序列.因此需要运用取对数法和差分法将其转化为平稳序列后才能展开进一步的分析.
2.2.2 序列平稳化
由图1和图2发现,2组序列的增长趋势类似指数增长,直接作差分得到的序列可能依旧为不平稳序列.因此先分别对2组序列做取对数处理,得到新时序图,如图3和图4所示.
经观察初步判断,取对数后的2组新时序图均为不平稳序列.为更精确地判断,对2组新序列lnYt1、lnYt2进行ADF单位根检验,结果见表1和表2.
表1 序列lnYt1的单位根检验表
表2 序列lnYt2的单位根检验表
由表1和表2看出,在显著性水平取0.05的情况下,2组数据均接受存在一个单位根的原假设,证明2组数据取对数后依旧为不平稳序列.对序列进行白噪声检验,即对其进行适应性检验,结果见图5和图6.
可见,2组序列的自相关系数始终在0附近,说明2组数据均不为白噪声序列,具有研究意义.为达到平稳化的目的,对2组数据进一步做一阶差分处理,得到序列Xt1、Xt2,如图7和图8所示.
由图7和图8可以看出,新序列从直观上判断是平稳的.为更精确地判断新序列的平稳性,对其进行ADF单位根检验,结果见表3和表4.
表3 序列Xt1的单位根检验表
表4 序列Xt2的单位根检验表
由表3和表4可以看出,2组新序列均通过了显著性水平0.05的ADF检验,拒绝存在单位根的原假设,故经过取对数和一阶差分后的新序列是平稳的.
2.3 模型定阶
由图9和图10可以看出,上城区的自偏相关系数在5阶后明显截尾,自相关系数在滞后6阶和7阶时落在二倍标准差边缘[7];下城区的自偏相关系数在3阶后明显截尾,自相关系数在滞后3阶和4阶时落在二倍标准差边缘.本文采用反复比对不同模型的相应参数作为依据,利用AIC准则和SC准则确定最佳模型的阶数.
上城区ARMA(3,5)模型的显著性见表5,其余符合显著性水平的模型分别为ARMA(3,1)、ARMA(3,2)、ARMA(3,3)、ARMA(3,4),其各自的AIC值和SC值见表6.
表5 上城区ARMA(3,5)模型的显著性
表5(续)
表6 上城区各模型的AIC和SC值
依据AIC、SC准则,上城区选择ARMA(3,5)模型,即:
Xt=0.005 456+0.502 567Xt-1-0.393 692Xt-2+0.181 180Xt-3-
0.222 138εt-1+0.143 533εt-2+0.233 256εt-3-0.102 514εt-4+0.254 323εt-5.
下城区ARMA(3,3)模型的显著性见表7,其余符合显著性水平的模型分别为ARMA(3,1)、ARMA(3,2)、ARMA(3,4),其各自的AIC值和SC值见表8.
表7 下城区ARMA(3,3)模型的显著性
表7(续)
表8 下城区各模型的AIC和SC值
依据AIC、SC准则,下城区选择ARMA(3,3)模型,即:
Xt=0.006 162+1.278 097Xt-1-0.167 616Xt-2-
0.280 245Xt-3-1.118 117εt-1-0.198 813εt-2+0.634 319εt-3.
2.4 模型的适应性检验
模型的参数估计完成后需进行适应性检验,因此将模型的残差序列进行白噪声检验.图11、图12分别为2个城区的残差序列白噪声检验图,2个城区残差序列的自偏相关系数和自相关系数在1~16阶的P值远远大于0.05,均为白噪声序列[8],证明在各模型的残差序列中不含有重要的有效信息,各模型通过适应性检验,其模型均为有效模型.模型拟合图见图13和图14.
可见,各模型的拟合效果较好,拟合曲线的趋势与实际趋势几乎一致.但拟合曲线与实际相比仍存在一定的滞后性.
2.5 上城区和下城区2019-2023年房价模型预测
分别将2个通过检验的模型运用到各区中,对模型进行动态预测和静态预测,结果如图15至图22所示.静态预测是在预测数据时,将前一时期的真实数据代入后一时期进行预测;动态预测是将前一时期预测出来的数据代入后一时期进行预测[9].静态预测只能对样本内或样本外后一时期的数据进行预测,它的作用在于可以检验模型的拟合效果是否较好;动态预测是对样本外一段时期的数据进行预测,若静态预测结果与原数据吻合度较高,则表明动态预测结果可信度更高[10].
根据各组数据的动态预测组序列图可知,各模型的动态预测拟合点几乎与原序列完全重合,证明动态预测结果较好.
最终,根据动态预测结果,得知杭州市上城区和下城区2019-2023年房价的预测结果见表9.
表9 杭州市上城区和下城区2019-2023年房价预测结果
3 结 语
本文采用ARMA模型,运用取对数法和差分法处理原本不平稳的序列,将数据最后变成非白噪声序列进行建模,预测杭州市上城区和下城区的房价走向.由模型及分析预测的结果看,杭州市两区房价在2019-2023年将持续上涨.国家虽然开展宏观调控,但该区房价依旧只增不减,这与杭州市的实际情况密切相关.杭州旅游业发达,拥有众多的高新技术开发区,全国五百强企业中杭州占比近10%,龙头企业入驻杭州,吸引了一大批外来人员,因此杭州市房价会呈上涨趋势.鉴于杭州市的人口和经济状况,未来杭州市的房价仍会呈增长趋势.