基于灰色预测和回归模型的北京城区房价预测研究
2019-07-03任梓铭
任梓铭
摘要:房价的涨跌直接影响民众的生活质量。根据房价的历史数据对未来房价走势进行预测分析,对政府制定住房政策,指导房地产行业发展以及对公民选择合适的时机购买住房都具有重要的意义。首先研究了北京各个城区平均房价的纵向时变特性,建立了回归模型,利用线性函数和三角函数,刻画房价增长趋势和周期性波动趋势,得到了很好的拟合和预测性能。之后进一步对数据集进行处理、并采用灰色预测GM(1,1)模型进行了预测,得到了更加精准的预测结果。
关键词:回归分析模型;灰色预测模型;房价影响因素
中图分类号:F23文献标识碼:Adoi:10.19311/j.cnki.1672-3198.2019.10.047
1前言
房价的高低和涨跌与我们的生活息息相关,是政府关心的重大民生问题,影响着每一位公民的生活质量。近年来,北京市的房价节节攀升,愈涨愈高。房价体现着房子自身所具有的价值和市民对于房子的需求,也代表着房价市场发展的趋势。对于如何做好房价的预测,一直是百姓、政府、国内外的专家学者所关注的重要问题。
国内的一些学者已经对相关方面的问题进行了研究,研究学者提出了一些基于回归模型的方法,来自云南省人民政府政策研究室的聂元飞等人通过OLS等方式研究了GDP、CPI、利率、居民可支配收入等对于房价的影响,取得了比较良好的预测效果。钟丽燕等人利用多元线性回归模型进行房价数据拟合,其模型中采用的变量对我们的研究有所启示,但多元线形模型把各变量对于房价的影响的刻画较为僵化,忽略了一些因素对房价非线性叠加的影响。文献[5]提出了一种基于信号处理思想的方法,也就是基于马尔科夫模型的房价预测方法。这种方法并没有显性的考虑房价的多个干扰因素。本文在前人研究的基础上,利用回归模型分析了北京市房价随时间变化的规律和特性,并进一步采用灰色预测GM(1,1)模型进行预测,得到了更精准的结果。
2数据收集及预处理
本文数据来自于链家和北京市统计局等官方机构,并利用了Hengshu Zhu等人[6]研究的链家网于2011年至2013年的80000余条成交记录数据。成交记录数据包括每个房屋的教育时间、成交价格、面积、楼层等十余个维度。
本文将数据按所在行政区而进行划分,由于东城区等部分城区数据量过小,我们选择了西城、海淀、丰台、朝阳、大兴五个数据充足,数据量较大的城区进行研究。
在数据预处理方面进行如下操作:
(1)由于北京市各城区房价市场存在巨大差异,为避免城区对于房价的影响,本文将分不同城区对房价建立模型并进行预测。
(2)取各城区的房价数据,并对每月的单位房价以百元为单位向下取整后取平均值作为房价模型公式中的因变量。此举可以去除由于房子个体差异造成的房价差别。
(3)以2011年10月为起始月,将时间月份进行编号从1开始,每过一个月就增加1,将该自然数组作为模型公式中的时间变量。
3基于回归模型的房价预测
由于数据量巨大,本文分别用西城区、海淀区的数据进行回归分析,此处以海淀区和西城区为例建立时间序列的房价预测模型。
3.1训练集与测试集选取与模型评价标准
此时间序列预测模型的研究对象为北京市海淀区2011年10月到2013年11月的房价变化。根据海淀区每月的房价数据量等因素综合考虑,如下划分训练集与测试集:
(1)训练集:2011年10月到2013年06月的每月平均房价。
(2)测试集:2013年07月到2013年10月的每月平均房价。
由此划分后,80%的数据用于训练模型,20%的数据用于测试验证模型。
3.2建立房价时间变量模型
通过对数据进行作图观察,将房价随时间的变化趋势分为两个特征:
(1)线性增长特征:在研究时间范围内,北京的房价随时间变化成正相关的增长,长期的增长幅度基本保持稳定,因此利用线性特征表达式刻画房价的增长特征。
(2)周期性变化特征:房价在线性增长之外,还会随着月份的变化而呈现一定的波动性,并且体现出以1年为周期的波动性变化。这也与2011-2013年范围内夏季交易量上涨、冬季交易量下降的规律一致。因此利用三角函数特征表达式刻画房价的周期性变化特征。
本文选用三角函数的形式来刻画这一特征,建立如下包含周期函数的房价虽时间变化的预测模型:
Puni=c0+c1·sin(ωDcon+φ)+c2·Dcon
其中,a、b、c、ω、φ均为待拟合的常数。考虑到房价随月份变化的周期为1年,所以将ω设为 π6.φ在求解模型的过程中根据观察房价走势确定范围,并不断调整最终确定拟合效果最好的φ的取值。
3.3对海淀区房价时序预测模型
通过海淀区的房价数据对房价时变预测模型进行大数据量的分析、处理与拟合,得到如下结果:
c0=229.1519,c1=13.1020,c2=10.9073
经对φ取值的不断调整与尝试,我们最终确定φ=-127π。此时模型的拟合优度R2=0.93。这一拟合精度说明本文提出的基于sin函数的周期性房价时变模型能够很好的反映房价数据在时间维度上的变化规律。
通过在海淀区的测试数据集上进行测试,该模型在测试集上的结果如图1所示。
经计算,此时该模型在测试集上的均方误差为559,相比于20000~60000元的房价数值,预测均方误差已经很小,这说明提出的房价时变预测模型具有比较好的泛化能力,能够较好的捕捉到房价随着时间的近似变化趋势。
4基于灰色预测模型的房价预测
进一步地,本文建立灰色预测模型,在对数据进行归一化的基础上,尝试进行更加优化、精准的时间序列预测。灰色系统理论是既含已知信息又含未知信息的理论体系。该模型计算是一个随机性不断被弱化,确定性不断增强的过程,该特征使得它在解决样本不够大,需要通过部分已知信息推知变化趋势的实际问题上较为合适。
将原始数据列房价记做:x(0)=(x(0)(1),x(0)(2),……,x(0)(n)),n为数据个数。
第一步,记x(1)为生成数据列:x(1)=(x(1)(1),x(1)(2),……,x(1)(n)),其中x(1)(t)表示对前几项数据的累加,即x(1)(t)=∑tk=1x(1)(k)。
第二步,对x(1)(t)建立一阶线性微分方程:dx(1)dt+ax(1)=b,其中a和b分别表示发展系数和灰色作用量。a取值区间为(-2,2)。记a,b组成的参数矩阵为a'=a
b。求出a和b,就能求出x(1)(t),进而能求出x(0)的预测值。
第三步,对累加生成的数据列做均值,生成B与常数项向量Yn,即:
B=0.5(x(1)(1)+x(1)(2))
0.5(x(1)(2)+x(1)(4))
……
0.5(x(1)(n-1)+x(1)(n))
Yn=(x(0)(2),x(0)(3),……,x(0)(n))T
第四步,用最小二乘法,通过最小误差的平方和寻找数据函数的最佳匹配求解灰参数a',a'=a
b=(BTB)-1BTYn。
第五步,将灰色参数a'代入dx(1)dt+ax(1)=b求解,得:
x'(1)(t+1)=(x(0)(1)-ba)e-at+ba
第六步,对函数表达式x'(1)(t+1)及x'(1)(t)进行离散,并将两者做差值还原原序列,得到近似数据序列x'(0)(t+1)=x'(1)(t+1)-x'(1)(t)。
最后,可以利用模型预测,得到预测结果:
x'(0)=[x'(0)(1),x'(0)(2),…,x'(0)(n),x'(0)(n+1),…,x'(0)(n+m)]
综上所述,可以看出灰色模型计算原理很清晰,但计算量较大,本文通过matlab编程实现模型求解。得到在部分城区的测试集结果,与基于回归模型的预测结果对比:
(1)海淀区:回归模型 MSE = 55.9,灰色预测模型 MSE = 78.3。
(2)西城区:回归模型 MSE = 147.1,灰色预测模型MSE = 93.6。
(3)朝阳区:回归模型 MSE = 122.5,灰色预测模型 MSE = 89.3。
由此可见,只有在海淀区的预测中,灰色预测模型的性能略低于回归模型;在其他两个两个区的预测中,灰色预测都展现出了更好的性能。
5结语
本文以多元非线形回归模型为基础,并以灰色预测模型作为对比,选择对房价影响显著的因素作为解释的自变量,建立模型。逐步改进,采用归一化数据预处理的方式,不断增加变量并改进变量的处理方式,对模型进行优化,最终探索了北京市房价随时间变化的规律。通过检验和分析证实所建立的模型基本上是合理有效的,可以较准确地预测北京市各城区近期的房价。
在未来的工作中,希望可以搜集到更多与小区特征有关的数据,对小区进行聚类,并以此为基础建立模型,力争得到更加准确的房价预测模型。
参考文献
[1]彭聪,聂元飞.房价影响因素的实证研究——基于GDP、CPI、利率和居民可支配收入视角[J].建筑经济,2009,(12):326.
[2]鐘丽燕,高淑兰.多元线性回归模型在房价走势分析与预测中的应用[J].科技创业月刊,2017,(9).
[3]王赛.基于回归分析的房价模型及预测[D].西安:陕西理工学院,2012.
[4]张彦周,贾利新.基于网格寻优SVR房价预测模型——以郑州市为例[J].河南科学,2014,(8).
[5]韦光兰,邓晓莹,张琼.基于马尔可夫链预测模型的昆明市房价预测分析[J].产业经济,2015,(21):836.
[6]Hengshu Zhu,Hui Xiong,Fangshuang Tang,Qi Liu,Yong Ge,Enhong Chen,Yanjie Fu,Days on Market:Measuring the Liquidity of Real Estate Markets[C].The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2016),San Francisco,CA,USA,2016.