随机森林模型在房地产评估中的适用性分析
2021-11-22曾双
曾 双
(兰州财经大学,兰州 730030)
1 引言
房地产价值的影响因素众多且关系复杂,运用传统的评估方法具有一定的局限性。各影响因素对房价的影响不尽相同,运用传统的特征价格模型进行简单的线性回归或非一般的线性回归得出的评估结果缺乏可靠性。
随机森林模型在特征价格模型的基础之上进行变量的选取,再进行模型的建立,输入变量得到评估结果。随机森林模型常用于生态、医药及经济等方面。由于在研究过程中发现房地产评估中房价影响因素并非简单的线性关系,传统的方法存在局限性,得出的结果并不够准确,学者开始尝试将随机森林模型应用于房地产评估中。本文对传统评估方法进行了梳理总结,阐述随机森林模型在房地产评估中的适用性,期望为随机森林模型应用于房地产评估提供理论支持。
2 文献综述
Breiman(2001)在建立分类和预测模型时,首次使用了随机森林算法。随机森林算法具有容易实现、分类速度快、可以处理大样本数据的优势,在各个领域得到了快速的发展。
2.1 随机森林模型在其他领域的应用
随机森林算法的提出,在各个领域得到了广泛的应用。在生态方面,张文强和罗格平(2021)等以北山北坡中段为例,运用多元线性回归和随机森林模型对气候变化和具体的人类活动对北山北坡中段归一化植被指数的影响进行了分析,以此对内陆干旱区植被指数变化与驱动力进行研究。在经济管理方面,何文琴和杨仕晓(2021)收集了3213 个网贷平台的样本数据,从信息透明度、品牌影响力、平台标的特点、用户点评、平台安全系数五个维度,构建P2P 网贷平台违约风险量化评价体系,运用随机森林模型对评价体系进行实证分析,从而量化P2P 网贷平台的违约风险,提高预测能力。在医学上,耿晓斌和程云章(2021)分别构建四种模型,使用重症患者的血糖变异情况和基本病例信息构成实验数据集进行训练,预测患者能否在72h 内转出ICU 病房。结果表明,血糖变异情况对患者在重症监护时常有重要的影响,随机森林模型相比其他的模型能较好地预测ICU 患者的重症监护时长。
2.2 随机森林模型在房地产评估中的应用
近年来,由于随机森林模型自身的优势较突出,其在我国房地产评估中有了一定的应用。杨沐晞(2012)用广州市某调查地区298 个二手房的特征价格数据,进行建模与预测,建立随机森林回归模型,并将传统线性回归模型与随机森林回归方法建立的模型的预测能力进行了比较,得到结论:运用随机森林建立二手房评估模型,其预测结果具有较高的准确性。黄蓉(2020)将随机森林模型引入学区房的研究,运用重庆市渝中区重点小学的260 个样本数据,进行建模与预测,并将特征价格模型的半对数函数形式与随机森林回归方法建立的预测模型进行对比,表明以随机森林建立的学区房评估模型,其预测结果有较高的准确性。
随机森林模型在很多领域都有广泛的应用,在房地产评估领域也有一定的发展,但并未得到普遍的认可。为了更好地说明随机森林模型在房地产评估中的适用性,现将随机森林模型与三大传统评估方法进行对比分析。
3 传统评估方法的应用及其局限性
市场法、收益法和成本法三大传统方法经过长期的实践与发展,拥有坚实的理论基础和较多的实践经验,在各个评估工作中被广泛的应用。但是,在三大方法的发展过程中,也发现每一种方法都存在一定的局限性,其使用都受到一些条件的限制。
3.1 市场法
市场法也叫市场比较法,在房地产评估中广泛应用。市场法应用的前提条件是:有活跃的房地产交易市场;交易对象数量满足条件;能够找到与被评估资产相同或类似的可比参照案例。
市场法的使用简单有效,直接从市场上收集所需资料,过程简单。但是市场法的应用受到一些条件的限制。市场法的应用要求有完整的数据,房地产价值的影响因素包含各个方面且关系复杂,影响因素不仅包含内部因素,也包含外部因素,收集起来十分繁琐且不易收集完整,会对结果造成一定的偏差。在对可比案例的价格进行修正的过程中,很多系数的确定需要依靠评估人员的经验,具有较强的主观性。
3.2 收益法
在房地产评估中,收益法也是常用的方法之一。收益法的使用同样需要满足一定的前提条件。收益法适用于有收益性,或者未来可能有收益的房地产的评估。
收益法的应用过分依赖假设环境,收益额的预测要根据历史数据来进行,但是外部经济环境,政策变化等都会对收益额产生影响,使预期收益不够准确,也会对评估结果产生影响。
3.3 成本法
成本法估价的理论基础是商品价格的生产费用理论。成本法的运用就是在评估时点,将估价对象的重置成本或重新构建成本计算出来,然后扣减折价贬值以后的价值结果。成本法适用于没有收益性不适用于收益法或缺乏交易案例不能采用市场法评估的房地产。
成本法计算的成本未包含房地产成本价值以外的价值,例如区位价值和权益价值。区位因素对房地产价格的影响巨大,运用成本法评估出的价值因为忽略了外部因素会低于市场价值。
4 随机森林模型的原理及其适用性
4.1 随机森林模型原理
随机森林模型就是首先建立多个决策树,然后将他们融合起来得到一个更加准确和稳定的模型。
决策树+Bagging=随机森林。
分类树是一种分类器,它的结构为树状。它的每个内部节点代表了一个基于特征的测试,树枝描述测试结果,叶子节点指明了最后的分类结果。随机森林构造了多个决策树,如果要对其中某个样本进行预测,那么就需要统计森林中的每棵树对该样本的预测结果,然后通过投票法选择众数作为最后的预测结果。
随机森林中的每棵树都是独立的。几乎所有的树做出的预测结果都可以包含所有可能的情况,这些预测结果将会相互抵消。少数优秀的树的预测会忽略“噪音”,做出一个较好的预测结果。随机森林Bagging 的思想就是将众多的分类结果进行投票选择,从而组成一个强分类器。
简单来说,随机森林算法就是由众多的单颗分类回归树(CART)进行组合而得到随机森林,然后通过投票的方法得到最后的分类结果。
4.2 随机森林模型在房地产评估中的应用
变量的选取。随机森林模型变量的选取是在特征价格理论的基础之上进行的。特征价格理论在国外房地产评估领域的研究已经比较成熟,由于地理位置、文化、市场环境等因素的不同,国外学者假设的特征价格因素并不适用于我国。根据中国房地产市场的实际情况,国内学者在运用特征价格理论研究房地产价值评估时,一般将影响房地产价格的因素分为三大类特征,建筑特征、区位特征、邻里特征。
随机森林模型的建立。房地产评估为不动产评估,因此其属于回归预测问题。随机森林回归的基本思想是:首先进行抽样,采用自助抽样方式,从原始数据中抽取B 个样本,分别建立B 棵树,得到B 个结果。最后,取这B 个结果的平均值得到最终的预测结果。
4.3 随机森林模型的优势
(1)房地产价格影响因素与房地产价格之间的影响形式并非简单的线性关系。随机森林模型的应用不需要提前设定函数形式,利用随机森林来建立模型。可以很好地拟合复杂的非线性关系。传统的多元回归就需要提前设定函数形式,然后输入变量进行验证,会产生拟合优度不高,模型不合适等情况,而随机森林模型就可以克服这一问题。
(2)随机森林可以处理具有多个种类的分类变量,比如在参数回归中,定性变量数量的增加会使估计参数的数量也大量的增加,这可能会导致回归结果的过度拟合。在随机森林中就可以避免由上面大量分类变量所造成的问题。
(3)房地产评估中,房地产价格影响因素一般都是较多的,运用随机森林模型,对样本数据的处理速度更快,自动化程度较高。随机森林模型可以在建模的过程中,用输入的变量对输出的结果的重要性进行评估。在传统的特征变量模型中,我们判断一个变量对输出结果的重要性,一般是直接看回归方程中变量的回归系数。系数大就表明该变量对结果影响较大,系数小就表明该变量对输出结果的影响较小。传统特征价格模型评估中,判断变量的影响程度比较便捷,也很直观。但是,这种判断重要性的方式比较粗糙,不够准确。随机森林模型中对变量重要性的判断,是在输入的变量中挑选一个特征,然后加入噪声和干扰因素,观察对模型的计算结果是否有影响。在判断因素的重要性的过程中,会使用节点的不纯度来判断。对每一个输入的变量都加入一个噪声,然后观察随机森林的准确率的变化来判断该变量的重要性。如果,随机森林准确率随着该噪声的降低而升高,说明该变量对输出结果的重要性比较高。反之,随机森林的准确率随着该特征噪声的降低而降低,说明该变量对输出结果的重要性较低。
5 总结
房地产评估中,相比于传统的特征价格模型,随机森林模型更具优势,可以在一定的程度上弥补传统方法的一些不足之处。本文的研究说明在房地产评估领域,随机森林模型具有较大的适用性,在与传统的评估方法进行对比的基础之上,随机森林模型的预测精度都比传统方法更高。期望对随机森林模型在房地产评估领域中的使用提供理论支持。