基于深度置信网的房屋价格预测模型研究
2018-10-29吕昊
吕 昊
(天津市南开城市建设投资有限公司 天津300110)
0 引 言
随着经济的持续发展,房地产行业已经成为支柱产业,房屋价格不仅直接影响着居民的生活水平,也间接影响着国家经济的持续、健康、平稳发展,房屋价格已经成为关系民生的热点问题[1]。
房屋价格受到很多因素的制约和影响,在当前房屋价格预测模型中,主要提取的因素集中在综合国民经济发展水平、消费水平、人均生产总值、人均居住面积、人均可支配性收入等方面[1],所选取的指标涵盖了从人均水平到整体经济水平的描述,但是所选指标依然不够,对房屋的位置、属性、格局等自身属性考虑不足。因此,在房屋价格预测模型中,选取的特征因素应当具有全面性、多样性[2]。
近年来,国内外学者已经应用多种学习模型对房屋销售价格进行预测。申瑞娜等[3]收集了影响房价的8个因素,结合主成分分析和支持向量机对房屋价格进行预测;周学君等[4]采用了影响房价的6个主要因素输入到人工神经网络中进行房价预测;刘琼芳[5]建立灰度 GM(1,1)预测模型,预测福州市的房价走势,具有较高的精确度;王瑾等[6]通过多元逐步回归方法建立房价预测模型对北京市房屋价格进行统计分析;陈世鹏等[7]根据襄阳房贷数据建立随机森林模型对测试样本进行房价预测,取得了较好的效果;韦光兰等[8]以马尔可夫链为预测模型,采用数理统计的计算方法,预测了昆明近期房价走势,分析房价的动态变化过程。从以上研究成果来看,在进行房屋价格预测时,由于所选取的特征维数有限,并不能全面反映影响房屋价格的制约因素,并且所选用的预测模型较为简单,能够分析处理的特征维数较少,并不能全面挖掘特征因素与房价之间的影响关系。
以受限玻尔兹曼机为基础构造的深度置信网是深度学习的典型算法之一,通过多层特征的学习与训练,能够有效挖掘输入特征的关键信息,在一定程度上,克服了人工神经网络容易局部最优和训练时间长的问题,已经在信号处理、图像分析等领域取得了较为成功的应用。本文以深度置信网模型为基础,以Kaggle平台的房屋价格作为数据库,建立影响房屋价格的多维因素与房屋价格之间的深度学习预测模型。
1 深度置信网及房屋价格预测模型
1.1 深度置信网简介
深度置信网(Deep Belief Network,DBN)的基本构成元件是受限玻尔兹曼机(Restricted Boltzmann Machines,RBM) 。上一层的 RBM 的特征训练输出作为下一层 RBM 的特征训练输入,依此进行多层RBM 的叠加训练 DBN结构,能够更加深入全面地进行特征分析,避免人工神经网络容易局部最优的缺点,是深度学习的典型结构之一[9-10]。
图 1显示了 DBN的网络结构模型。可以看出,其中主要包括特征输入层、隐藏层和特征输出层。将收集的影响房屋价格的特征因素经过预处理之后输入到特征输入层;隐藏层是由多个 RBM 叠加形成的深度特征处理结构,每一个隐藏层的特征计算作为下一个隐藏层的输入迭代计算;最后的特征输出层是一层人工神经网络,将特征计算结果映射到房屋价格,完成房屋价格的预测。
图1 深度置信网络结构模型Fig.1 Structure of deep belief network
1.2 基于深度置信网的房屋价格预测模型
基于深度置信网的房屋价格预测模型在训练过程中,首先无监督地训练其中的每一层 RBM,将影响房屋价格的特征因素经过预处理之后作为特征输入映射到不同的特征空间中进行训练;然后将经过多层 RBM 训练之后得到的输出特征作为输入因素,输入到最后一层的人工神经网络,并在其中进行监督预测,得到房屋价格的预测结果,计算预测结果与实际结果的差异并反向传播,不断调整 DBN网络,直至差异在允许范围之内或连续训练达到一定次数时,完成训练过程,输出最终的房屋价格预测结果[11-12]。
1.3 预测模型的评价标准
在本文中得到的房屋价格为预测的连续值,因此采用平均误差(RMSE)和决定系数(R-squared)对房屋价格预测模型的准确度和可靠性进行评价[13-14]。平均误差能够衡量预测结果与真实结果之间的偏差,平均误差越小表示预测结果与真实结果越接近,反之则差异越大;决定系数能够评价房屋价格预测模型的拟合优度值,决定系数越接近 1,代表预测结果与真实结果之间的拟合程度越好。通过 RMSE和R-squared两个评价标准能够衡量房屋价格预测模型的优劣。两个评价标准的公式定义分别为:
式中:ypred代表本文模型得到的房屋预测价格;yact为该房屋的真实价格;n为样本的个数;为yact的平均值。
2 实验结果
2.1 房屋价格数据库
Kaggle建立于 2010年,是一个进行数据挖掘与预测竞赛的在线平台。本文所使用的数据库是其中的House Prices:Advanced Regression Techniques(https:// www.kaggle.com/c/house-prices-advanced-regression-techniques)。
Kaggle House Prices中列出了爱荷华州埃姆斯(Ames)房屋市场已经成交的1461座房屋的79个特征(其中包括 41个分类变量,38个连续数值变量) ,主要涉及地段、面积、层数、地下室、与街道之间的距离、房屋的外墙材料等项数据,根据这些数据特征来预测房屋的销售价格。
对 Kaggle中的房屋价格数据进行预处理操作,删除其中某一特征缺失较多的选项,同时删除个别离散较大的特征,最终得到用于房屋价格预测模型输入的较重要特征。
2.2 实验设置
本文所使用的数据库中共包含 1461套已经成交的房价特征与其出售价格。按照训练集∶测试集=3∶1的比例分割数据库,得到随机的训练集样本数为1096个,测试集样本数为365个,采取10折交叉验证的方式进行模型的训练,得到最终的房屋价格预测结果。
本文所使用的DBN模型中包含3个隐藏层,隐藏层中的节点数分别为 300、150、100,学习率为0.01,动量为 0.4。
2.3 实验结果与分析
偏最小二乘回归(PLSR) 、支持向量机(PCA+SVM) 、神经网络(PCA+ANN)是机器学习领域中经典和常用的预测模型,本文使用这3种模型作为对比实验,以R-square和RMSE作为评价指标,验证基于深度置信网的房屋价格预测模型的准确性。
表 1中列出了本文方法与 3种对比实验方法的预测结果,从中可以看出,本文方法的 R-square达到了0.6872,高于3种对比模型,说明本文方法预测的结果与真实结果的拟合程度最好。同理,本文方法的RMSE达到了 23511,小于 3种对比方法,说明本文方法预测得到的结果与真实结果之间的偏差最小。综上所述,本文基于深度置信网模型进行房屋价格预测的结果要优于3种常用的预测模型。
3 总 结
房屋价格受到多种因素的影响,是社会关注的热点问题之一,对房屋价格进行预测,能够有效辅助房地产业研究。本文使用基于深度置信网的预测模型,在 Kaggle房屋价格数据库上进行实验验证,结果表明,该方法的预测结果要优于对比实验中3种经典预测模型的预测结果,能够更有效地进行房屋价格的预测。