APP下载

基于机器学习方法的二手房定价实证研究

2024-01-15丁家益周跃进

长春师范大学学报 2023年12期
关键词:决策树定价机器

丁家益,周跃进

(安徽理工大学数学与大数据学院,安徽 淮南 232001)

0 引言

房地产是国民经济的重要组成部分,合理的房屋价格对经济能够起到推动作用。而房价的不合理上涨严重抑制了经济发展,减少了资金流向实体经济,对发展循环经济是不利的。房屋的价格不仅对普通购房者很重要,而且对保险公司、房地产开发商、税务评估师、银行、抵押贷款机构和政策制定者也很重要[1]。因此,准确地对房屋进行定价是一项重要而艰巨的任务。一般来说,房屋只有不到8%的价格水平变化受到国家宏观经济的影响,而更多部分需要用房屋自身属性因素来解释[2]。房屋的自身属性如房屋总面积、是否邻近地铁、房屋建筑年份、房屋所处楼层等直接影响房屋价格。

近年来,随机森林、神经网络等机器学习方法已发展成为房地产大规模评估技术。康嘉玲[3]利用随机森林模型对二手房价格进行了有效的预测和研究。汤新程等[4]使用BP神经网络对房屋价格进行了预测和研究。运用神经网络模型进行预测可以提高预测结果的准确性,但不具备可解释性[5]。

为了提高房屋定价的准确性,探究影响房屋价格的具体房屋属性,本文分别运用随机森林模型、神经网络模型与享乐价格模型对合肥市二手房实际交易数据进行分析,比较了三种模型的性能。

1 随机森林模型

1.1 决策树

决策树学习的思想主要来源于Quinlan提出的ID3算法和C4.5算法[6]以及Breiman等人提出的CART算法。本文主要使用C4.5算法进行建模预测,其核心是以决策树为基础,在决策树的各个节点上利用信息增益比实现特征选择,递归式地构建决策树。

先计算出数据集D的经验熵:

(1)

其中,D为训练集,|D|是样本容量,Ck是特征的类别,|Ck|是对应特征的个数。经验熵反映了数据集D的内部混乱程度,根节点的经验熵最大,叶节点的经验熵为0。

计算特征A对数据集D的经验条件熵:

(2)

其中,Di是D的子集,|Di|是数据集Di的样本个数,Dik是子集Di中属于特征类别Ck的样本的集合。

再计算特征A对数据集D的信息增益比:

(3)

最后,通过比较各特征的信息增益比,选择信息增益比最大的特征作为最优特征。

1.2 随机森林模型的原理

随机森林是一种经典的集成学习算法模型[7]。集成学习算法是使用一系列的弱学习器(基础模型)进行学习,并将各弱学习器的结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习算法[8]。随机森林模型的弱学习器是决策树模型,通过在原始数据集中随机抽样,生成n个不同的样本数据集,构造n个不同的决策树模型,最后根据这些决策树模型得到的结果求平均值或投票来获取最终结果[9]。图1展示了随机森林模型的具体构造过程。

图1 随机森林模型

2 数据预处理

2.1 数据清洗

通常,机器学习和深度学习应用于大型数据集,以识别难以通过回归模型检测到的隐性情况。本研究的房屋数据来源于链家网站,通过对数据的清洗,去除了不清晰、离群、缺失的数据。共删除286个数据,其中包括165个房龄过老的离群数据、55个房屋特征属性缺失的数据和66处房产被法院强制执行的法拍房数据。在数据清洗之后,本研究共使用了1 714个观察数据。

2.2 数据分析

为了评估模型对房屋定价的准确性和可靠性,将样本数据集分成训练数据集和测试数据集。在本研究中,随机选取75%的数据作为训练数据集,其余25%的数据作为测试数据集。训练数据集用于习得一个模型,测试数据集用于测试模型的准确性和可靠性。为了处理这些数据,探索分析房价的具体分布情况,绘制房屋售价分布图(图2),使用高斯曲线进行拟合。由图2可以看出,房屋售价主要分布在100万至200万之间。

图2 房屋售价和售价频数相关图

房屋数值变量的数据汇总统计如表1所示。除常见的统计量外,表1还给出了频率分布离散程度的标准化度量--变异系数。从表1可以看出,不同房屋之间的售价差别较大,房屋建筑年份的数据离散程度最小。

表1 数值变量的统计数据

房屋描述变量的数据汇总统计如表2所示,给出了描述变量的频率和百分比。由表2可以看出,大部分房主都急于出售房屋,其中大部分房屋朝向为东,为精装修,需缴纳契税,无须缴纳营业税,不邻近地铁。

表2 描述变量的统计数据

在表1和表2中,S表示房屋的总面积(包括公摊面积);R表示房屋的房间数;L表示卫生间个数;F表示房屋所处楼层;Y表示房屋建筑年份;N表示关注房屋的人数;T表示房屋在链家网的挂牌天数;U表示房主是否急于售卖房屋;O表示房屋朝向;T2表示契税;T5表示营业税;M表示是否邻近地铁;D表示房屋装修情况;P表示房屋售卖价格。

数值变量的相关系数矩阵如图3所示。取显著性水平为0.05,由图3可见,房屋售价与一些房屋属性之间有很强的相关性,如房屋的售价与房屋的面积、房间数呈显著正相关,而与房屋在链家网上挂价天数呈小幅度负相关。

图3 相关系数矩阵图

2.3 描述变量独热编码实现

在机器学习中,描述变量数据通常不是连续型数据,而是标称型数据。本文中的描述变量如房屋的朝向O的东、南、西、北属性并不能直接使用[0,1,2,3]等数据来表示,可以采用独热编码方式进行编码。独热编码是利用0和1来表示参数,使用N位状态寄存器来对N种状态进行编码。例如“东”对应的是[1,0,0,0],“西”对应的是[0,1,0,0],由此处理非连续特征属性。

3 预测结果及分析

3.1 模型评估

为了评估这些模型的性能,本文采用平均绝对百分比误差M和决定系数指标R2来评估机器学习模型和传统定价模型在房屋定价研究中的性能表现。

(4)

(5)

平均绝对百分比误差越小,决定系数越大,则定价精准度越高,定价模型的预测效果就越好。

3.2 模型效果及分析评价

本文实验在Python语言环境下Scikit-learn的机器学习框架上进行,分别编写随机森林模型(RF)、神经网络模型(NN)、享乐价格模型(HP)的相关程序代码,并将其定价结果与实际售卖价格进行对比,如图4所示,这些模型性能评估指标的计算结果如表3所示。

(a)RF模型

(b)NN模型

(c)HP模型图4 RF、NN、HP模型定价结果和真实价格的比较情况

表3 RF、NN、HP模型的性能比较

由表3可知,机器学习模型的预测精度高于传统享乐价格模型,其中RF模型的预测精度最高、R2最大、M最小。此外,由图4看出,机器学习模型的拟合优度也好于传统享乐价格模型,其中RF模型的表现最优。

3.3 房屋属性重要度的对比

选择拟合程度最好的RF模型来探究影响房价的主要房屋属性,对比训练后的RF模型中各种房屋属性重要度,如图5所示。

图5 房屋属性重要度的对比

由图5可知,影响房屋价格P的13个房屋属性变量中重要度的前四位变量为房屋总面积、房屋建筑年份、房屋所处楼层、关注房屋的人数。房屋属性变量中重要度的前四位变量对房屋价格的边际效应如图6所示。由图6可以看出,居住面积对房屋价格有正的边际效应,随着居住面积的增加,房屋价格以不同速度上涨。高房价住宅的建筑年份往往集中于2010-2020年间。房屋价格先是随着楼层的增加而增加,而后逐渐递减。房屋的关注人数对房屋价格也有着正的边际效应,随着房屋关注人数的增加,房屋价格以非恒定速率上升。

(a)房屋总面积 (b)房屋建筑年份

(c)房屋所处楼层 (d)关注房屋的人数图6 房屋属性对房屋价格的边际效应

4 结语

本研究比较了随机森林模型、神经网络模型、享乐价格模型的房屋定价效果。数值结果表明,与传统的享乐价格模型相比,机器学习模型的预测精度高,其中随机森林模型的定价效果最好。经研究得出二手房售价与房屋属性变量之间存在非线性关系,并对当地二手房售价差异给出了解释。房屋的评估和定价预测可以为房屋交易提供有用的信息,机器学习模型在房屋定价评估方面有着广泛的应用。

猜你喜欢

决策树定价机器
机器狗
机器狗
本刊2020年36卷第12期版权页定价勘误
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
未来机器城
基于分层Copula的CDS定价研究
基于决策树的出租车乘客出行目的识别
帮爸爸定价
无敌机器蛛