APP下载

基于随机森林的深圳二手房价格分析

2022-09-15周亮锦赵明扬

中国市场 2022年26期
关键词:集上房价预测

周亮锦,赵明扬

(1.韩山师范学院 经济与管理学院 金融大数据中心,广东 潮州 521000;2.韩山师范学院 数学与统计学院,广东 潮州 521000)

1 引言

自2003年国务院18号文件正式确立房地产业是国民经济支柱产业的地位之后,我国房地产业快速发展,并带动房价在过去的二十多年经历较大幅度的持续上涨,甚至陷入“越调越长”的怪圈。由此带来的民生问题、社会问题和经济发展问题引发人们对房地产市场,尤其是房价的普遍关注。为从严落实“房住不炒”的政策定位,2017年“3·17”史上最严调控政策出台至今,我国房地产市场调控政策不断升级。除“五限”“三道红线”“房产税”、二手房参考价格和新房积分摇号等行政性调控外,以公租房、保障性租赁住房和共有产权住房为主体“租购并举”的住房保障制度和集中供地制度也在不断完善。再加上2019年年末以来全球范围内暴发的新型冠状肺炎疫情,房地产市场跌宕起伏,甚至一度进入冷冻期。尽管如此,全国房价整体上涨的趋势并没有改变,且房价的城市分化现象依然存在。根据统计局最新官方数据,2022年1月,一线城市新建商品住宅价格和二手住宅价格同比分别上涨4.4%和4.1%,而二三线城市相应的数据分别为2.5%、1.0%、0.5%和-0.7%。

房价是房地产市场健康与否的重要指标,也是预测实体经济“繁荣”或“大萧条”的领先指标。对房价的精准预测不仅有助于人们对房地产市场有一个清醒的认识,继而帮助消费者和投资者做出正确的投资决策,也有利于政府制定出合理有效的宏观调控政策,以推动房地产市场长效机制的建立。现有文献对房价预测的研究最早可追溯到Dipasquale和Wheaton(1994)。他们基于对20世纪80年代美国房价动态机制的研究,首次采用宏观经济变量——人口、收入、居民消费价格指数、建筑成本、失业率和利率等预测房价,并认为利用这些变量能提高房价预测的精度。

随后,一部分学者便开始基于这个研究视角对房价进行预测,并为提高房价预测精度进行多种方法的尝试(谷秀娟和李超,2012;张荣艳,2018;Dufitinema,2021)。

鉴于房价相关因素和模型预测效果会随时间的变化而变化,预测组合模型、贝叶斯模型平均等模型平均方法被引入到房价预测上来(石炀和赵尚威,2022;陈睿玉,2020;Çepni 和Gupta等,2020)。另外,考虑到“房屋是由一系列特征结合在一起形成的商品”,一部分学者开始基于微观视角,利用住宅特征,如建筑特征(面积、房龄、房间数量等)、区位特征(与地跌站、医院、学校等的距离)和邻里环境(是否有公园、医院、学校等)来预测房价(孙逸等,2020)。

无论是基于宏观视角还是微观视角,近年来,随着互联网和大数据研究的蓬勃发展,基于大数据方法的相关模型,如支持向量机模型、BP神经网络、随机森林和K邻近模型等在房价预测方面的应用越来越多(高玉明和张仁津,2014;张望舒和马立平,2021;崔明明和刘晓亭等,2020;Gupta等,2021)。Milunovich(2020)基于47种算法对澳大利亚房价的研究表明,线性自回归移动平均模型和向量自回归模型可提前准确预测一季度的房价,而深度学习则可以准确预测房价的长期走势。

除了预测方法上的探究之外,还有少部分学者致力于将行为经济学和传统经济学理论相结合,依靠网络信息技术对市场参与主体心理和行为进行捕捉和量化,以探究房价预测精度改善的方法(唐晓彬等,2018;董倩等,2014;Isler等,2021)。

综上所述,学者们对房价预测问题进行了深入研究,也取得了有价值的研究成果。在前人研究成果的基础上,本文以一线城市深圳为例,通过网络爬虫方法对链家网站上2022年1月之前的二手房在售房源信息进行采集,并构建随机森林模型对深圳市二手房价格以及各特征因素对房价的影响程度进行预测和分析,以从数据和方法上丰富和完善房价预测问题的研究体系。

2 数据获取与数据预处理

关于房源数据的获取,可以通过实际调查、走访以及中介获取,但这些方式获取数据的成本比较高、时间比较长,所花费的人力和物力也较多。随着大数据技术的发展,人们越来越多地使用爬虫程序来获取数据。本文利用Python爬虫程序对链家网站上深圳市在售的二手房数据进行爬取。

链家地产网站提供了关于房产的详细数据,如房屋总价、建房年份、小区名称、所在区域等。为尽可能多地考察二手房屋价格的影响因素,初步选取房屋总价、建房年份、小区名称、所在区域、房屋户型、所在楼层、建筑面积、户型结构、套内面积、建筑类型、房屋朝向、建筑结构、装修情况、梯户比例、配备电梯、挂牌时间、交易权属、上次交易、房屋用途、房屋年限、产权所属、抵押信息、房本备件共23个特征变量做进一步的分析。

在对数据集进行建模时,首先需要对原始数据进行预处理和清洗,以提高数据质量。数据预处理主要借助于Python的第三方库Pandas来实现,主要包括数据集去重、异常值处理、缺失值填充、字符串编码等工作(刘馨等,2020)。考虑到爬取数据的缺失值和异常值较少,对这部分数据直接删除。对未有明确值的数据,使用已有数据的众数来进行替换或补充。在数据预处理的过程中,发现部分变量的取值为单一值或接近单一值,这些变量的存在不但对模型的建立无用,且会增加模型的复杂度。对于这些变量,直接做删除处理。经过数据预处理和清洗后,最终得到与房屋总价相关的15个特征变量(如表1所示),共2990条有效数据。

表1 特征变量名称及相应说明

3 模型构建与结果分析

随机森林(random forest,RF)属于Bagging框架,通过对数据集自助采样来得到不同的子集,并分别利用这些子集训练基学习器,属于一种并行化的集成学习方法。随机森林在Bagging框架的基础上增加了特征选择的过程,使得随机森林在构造基学习器时具有样本和特征两个随机性,也即具有行抽样和列抽样两个特性。作为Python机器学习的核心模型与算法库,scikit-learn模块提供了随机森林的算法实现方式,可以通过类sklearn.ensemble.RandomForestRegressor来实现(鲁伟,2022)。

在机器学习中,通常把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,把模型在训练集上的误差称为“经验误差”,在新样本上的误差称为“泛化误差”。学习器的泛化误差越小,模型的预测精度越高。但新样本是未知的,且模型的泛化误差也无法直接获得。因此,通常采取的策略就是将得到的数据拆分为训练数据集和测试数据集,在训练数据集上进行模型的训练,然后以测试集上的“测试误差”对模型的泛化误差进行估计,继而选择泛化误差最小的模型。常用的数据拆分方法有留出法、交叉验证法、留一法等。这里采用的是留出法。数据拆分使用模块sklearn.model_selection中的train_test_split()函数来实现,参数test_size的值设置为0.20,即随机选取数据的1/5作为测试集,剩余的4/5作为训练集。

机器学习的各个模型都带有一些参数,通常情况下,使用模型的默认参数设置即可获得较好的结果和预测准确度。但若要获得更为精确的结果,就需要对模型的这些参数进行调整,以寻求在给定数据集下的最优参数。对于随机森林模型而言,应着重考虑的参数有基学习器数目、树的深度和特征选择比例。为使模型有比较好的预测精度,这里采用交叉验证和网络搜索进行参数寻优,评价标准为测试集上的拟合优度。网络搜索结果表明,当基学习器数目、树的深度和特征选择比例分别设置为175、13和0.5时,模型得到最优结果。此时在训练集上的为97.5%,在测试集上的为87.5%。进一步地,为更加直观地呈现各参数对模型结果的影响,绘制相应的学习率曲线如图1至图3所示。

图1 基学习器数目对R2的影响

图2 树的深度对R2的影响

图3 特征选择比例对R2的影响

由图2至图4可知,决策树数目、树的深度和特征选择比例在一开始对有很明显的提升,但随着数值的逐步增大,到达一定数值后趋于稳定。

在最优参数设置基础上,模型的拟合效果可通过绘制模型的预测值-真实值散点图(见图4)来展现。由图4可知,散点图较好地靠近理想直线,说明模型的预测效果相对较好。

模型拟合优度的大小是多个特征因素共同作用的结果,但各特征因素对因变量的影响程度是有区别的。因此,为进一步探究各特征因素对房价影响力的大小,以便提炼出最佳的预测模型,笔者将各特征因素对房价影响的大小程度绘制成柱状图,如图5所示。

由图5可知,在所有15个特征因素中,建筑面积、房屋户型和所在区域对房价的影响相对较大。其中,建筑面积对房价的影响程度大于0.5。而其他因素如有无配备电梯、装修情况怎么样等对房价的影响程度则较小。

图4 模型拟合效果

图5 各特征因素对房价影响程度

4 结论与讨论

作为一类广泛应用的机器学习模型,随机森林具有适应性强、结果稳定、易于实现的特点。通过随机森林模型不但可以进行预测分析,也可以进行因素分析。

本文通过爬虫程序对链家网站上2022年1月之前深圳二手房在售数据进行收集,并利用Python的第三方库Pandas对数据集进行预处理和清洗。之后在交叉验证和参数网格搜索进行参数寻优的基础上,对随机森林模型进行优化以获得较好的精度。最终使得该预测模型在训练集上的为97.5%,在测试集上的为87.5%。

房价的影响因素有很多,而特征因素选取过多容易导致过拟合。为在后续工作中能得到更佳的预测模型,本文对所列出特征对房价的影响程度进行探究。研究结果表明,建筑面积、房屋户型和所在区域对房价的影响较大,而其他因素则影响较小。该结论说明:一是房子的面积是影响房价的最重要因素;二是人们对卧室、厨房、卫生间等户型功能比较看重,体现人们对经济舒适、方便整洁的生活的向往;三是房屋所处的地段也是人们重点考虑的因素。不同的地段代表不同的经济发展水平、不同的资源禀赋条件,以及不同的工作和生活的便利程度。人们更趋向于选择经济发展水平较高,资源环境更好和便利程度更大的地方。为使房价得到合理控制,无论是基于政府还是投资开发商而言,合理配置资源,完善相应的配套设施都是有效之举。

猜你喜欢

集上房价预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
两大手段!深圳土地“扩权”定了,房价还会再涨?
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
防范未然 “稳房价”更要“稳房租”
复扇形指标集上的分布混沌
去库存的根本途径还在于降房价
2016房价“涨”声响起