APP下载

基于机器学习的Airbnb房源价格预测及影响因素研究
——以北京市为例

2022-10-20毕文杰扶春娟

运筹与管理 2022年9期
关键词:房源房东误差

毕文杰, 扶春娟

(中南大学 商学院,湖南 长沙 410083)

0 引言

近年来,共享经济作为一种新的经济模式,对住宿行业产生了巨大的影响,Airbnb率先将这种经济模式应用于民宿在线短租。成立于2008年,Airbnb发展迅速,现已覆盖191个国家的65000个城市,拥有700多万套房源,房客数量已经超过5亿,成为全球最大的旅游房屋租赁平台之一。Airbnb快速增长的关键在于其房源的异质性,能够为房客提供独特的住宿体验[1~3]。

定价被普遍认为是决定住宿行业能否长远发展的关键因素之一[4]。Airbnb作为住宿行业的新星,定价对其房东来说无疑也是非常重要的。而且Airbnb的快速增长,使得房东们面临的竞争日益激烈,定价更是显得尤为重要。然而Airbnb所提供的住宿服务的独特性,使得定价变得困难。虽然目前Airbnb开发了定价系统,为其房东提供价格推荐服务,但由于定价系统的复杂性和不透明性,房东们在为其房源设置价格时依然难免困惑[5]。因此,研究Airbnb房源的定价问题,有利于加强房东对其房源市场价值的理解,帮助房东更好地做出价格决策。

然而,目前只有少数学者研究了Airbnb房源的定价问题。Chen和Xie[6]基于美国奥斯汀市的数据,依次将房源本身的特征、房东的特征、房源的声誉和市场竞争这四类因素纳入到OLS回归模型中,发现房源本身的特征是最重要的,而房源的声誉对价格的影响较小。Wang和Nicolau[7]利用位于北美洲、欧洲和大洋洲的33个城市的数据,使用OLS回归和分位数回归方法,对房源价格与房东的特征、房源本身的特征和位置、设施与服务、房源的租赁规则和在线评论这五类因素之间的关系进行了探索,他们发现评分越高,价格越高,而评论数量越多,价格反而更低。Teubner等[8]基于特征价格回归模型和德国86个城市的Airbnb数据集,探究了评论数量与评分的交互效应对价格的影响,发现评分越低,评论数量对价格的负面影响越大。Zhang等[9]利用地理加权回归,基于美国田纳西州纳什维尔市的数据,发现房源与纳什维尔会展中心的距离和评论数量均对价格产生负面影响。Gibbs等[10]将特征价格模型应用于加拿大五个城市的Airbnb房源数据,发现房源本身的特征和位置特征至关重要。Cai等[11]基于特征价格模型,探讨了房源本身的特征和房东的特征等五组解释变量对中国香港市Airbnb房源价格的影响,发现房间类型对房源价格的影响非常大。吴晓隽和裘佳璐[12]基于中国36个城市的数据,利用OLS回归和分位数回归分析了9类变量对房源价格的影响。

可以看出,一方面,现有研究大部分针对欧美市场,基于亚洲市场展开的研究较缺乏[11,13]。然而,亚洲是Airbnb在全球增长最快的市场,且有基于多个目标市场的研究发现,不同市场的研究结果存在差异[10]。因此,针对亚洲市场对Airbnb房源的定价问题进行研究是十分必要的。另一方面,现有研究侧重于探究Airbnb房源价格的影响因素,缺少对Airbnb房源定价方法的研究。而Airbnb房源价格推荐系统的不透明性和复杂性,使得这一研究变得有价值。房东通过参照已经设置价格的房源的特征和价格信息,结合自己管理的房源的特征信息,来为自己管理的房源设置价格的问题,可以转化成一个预测问题,而机器学习方法在预测中的良好表现已被普遍认可。故而,利用机器学习研究亚洲市场Airbnb房源的定价问题,不仅可以弥补现有文献的缺口,而且有助于房东更好地为房源设置价格。

本文选取Airbnb北京市的数据,先综合利用OLS和LASSO选择待研究的解释变量,并将其分成房源本身的特征、房源的位置等六个类别。然后利用OLS依次探究了六类解释变量对房源价格的影响大小。其次,利用OLS、LASSO、随机森林和XGBoost对房源价格进行了预测,并对各方法的预测准确性进行了对比分析。最后综合分析了各变量对价格的影响和变量的相对重要性。

1 机器学习模型

本文将设置房源价格的问题转化为机器学习中的监督学习问题,利用OLS、LASSO、随机森林和XGBoost这四种常用的机器学习方法来研究Airbnb房源的定价问题,其中前两种属于线性方法,后两种属于非线性方法,四种方法各有优劣。

1.1 OLS

1.2 LASSO

1.3 随机森林

随机森林(详见Friedman等[14])通过整合多棵树的预测结果以提升预测的准确率。其泛化能力较强,且能够度量解释变量的重要性,但如果数据噪音较大,则可能过拟合。

1.4 XGBoost

XGBoost(详见Chen和Guestrin[15])是对梯度提升算法的改进,旨在最大化地保证可扩展性、便捷性以及准确性。XGBoost能够降低过拟合。

2 数据和方法

2.1 数据

本文选择中国北京市2019年2月的Airbnb房源作为研究对象,因为中国是Airbnb在亚洲关注的焦点之一。而北京市作为中国的首都,是中国最重要的市场。本文所用数据来自网站Insideairbnb.com (n.d.)。由于一些房源没有产生实际交易活动,本文参照Wang和Nicolau[7]的做法,仅选择至少有一条评论的房源,以确保房源价格具有参考价值,对包含缺失值和异常值的样本进行处理后,得到12248个样本。

2.2 变量选择及分析

Airbnb房源每晚的价格分布呈偏态分布,对其进行对数转换后接近正态分布,因此本文将每晚价格的对数作为被解释变量。为保证模型的简洁实用性,以及不同机器学习方法所用解释变量的统一性以便于比较,本文先基于以往研究Airbnb房源价格影响因素的文献,选择房间类型(整个房源、独立房间和合住房间)、房源容量、浴室数量、卧室数量、无线上网服务、早餐、烘干机、实体床、对家庭和孩子友好、适合举办活动、最低住宿晚数、房源与市中心的距离、房东是超级房东、房东拥有的房源数量、房东通过身份认证、房东上传个人照片、要求房客提供个人照片、要求房客提供电话号码、即时预订、评论数量、整体评分共23个变量作为候选解释变量,然后综合利用OLS和LASSO从中选择最终的解释变量。

选择变量的具体过程为:先将数据按照7:3的比例随机分为训练集和测试集,利用训练集来训练模型,利用测试集来评估模型的预测精度,将均方误差作为模型预测精度的评价准则。训练LASSO模型时利用十折交叉验证和网格搜索方法选择调节参数λ的值。将训练得到的OLS模型以及最优的LASSO模型应用于测试集,发现OLS得到的均方误差小于LASSO。接着,将OLS以及最优的LASSO模型应用于整个数据集,发现除实体床、房东通过身份认证、房东上传个人照片、要求房客提供个人照片和要求房客提供电话号码这5个变量未通过OLS显著性检验外,其他变量均显著,而LASSO选择了全部23个变量。因此,本文选择通过OLS显著性检验的变量作为最终的解释变量。

最终解释变量共18个,将其划分为房源本身的特征、房源的位置、设施与服务、租赁规则、房东的特征和房源的声誉6个类别。变量描述及简单的统计分析见表1。

表1 变量定义和描述性分析

为初步了解各变量间的关系,进行相关性分析。图1展示了各解释变量与房源价格的关系,其中条形图的纵坐标表示相应解释变量组的房源价格平均值,散点图上的蓝线为带有95%置信区间的非参数光滑曲线。可以看出,三种房间类型中整个房源的价格最高,合住房间的价格最低。房源容量、浴室数量和卧室数量与房源价格正相关。提供无线上网服务和烘干机的房源比不提供这些设施的房源价格更高。对家庭和孩子友好、适合举办活动和允许即时预定对房源价格产生积极影响。最低住宿晚数与房源价格负相关。房源的评论数量和房源整体评分对房源价格的影响较弱。提供早餐和房东是超级房东对房源价格产生消极影响,但似乎不显著。房源与市中心的距离以及房东拥有的房源数量均与价格呈非线性关系,意味着非线性方法的表现可能会优于线性方法。

图1 各变量与房源价格的相关关系

进一步计算各变量间的皮尔逊相关系数,并检验其显著性,结果如图2所示。除对角线外,图中空格均表示两个变量之间的相关关系不显著。由图2可知,整体评分、早餐和房东是超级房东这三个变量与房源价格相关关系不显著,与前面的结果一致。其他变量均与房源价格相关关系显著,其中与房源价格正相关的变量中,房源容量、卧室数量、浴室数量和房东拥有的房源数量与房源价格相关性最强;与房源价格负相关的变量中,房间类型和距离与房源价格的相关性最强。解释变量间的相关系数均小于0.8,因此不存在多重共线性。

图2 变量相关性

2.3 数据分析

先利用OLS方法,分析6类变量对房源价格的影响程度。然后将数据按7:3的比例随机分为训练集和测试集,训练模型时利用十折交叉验证和网格搜索选择模型的超参数,即选择网格中使得交叉验证预测误差最小的超参数,得到最优模型。其次,将OLS模型与最优的LASSO、随机森林和XGBoost模型应用于测试集中,计算均方误差。再次,将最优的LASSO模型应用于整个数据集得到模型的系数估计值。将最优的随机森林和XGBoost模型应用于整个数据集,得到解释变量的重要程度图。最后,为更全面地理解各变量的贡献,并检验各方法的稳健性,利用相对权重方法,即计算对OLS模型所有可能的子模型添加一个变量引起的R2平均增加量,得到各变量对OLS模型R2的贡献图。同时,分别计算从模型中不重复地剔除一个变量时各方法的预测均方误差,并作图比较。本文利用R3.5.1进行编程运算,为了保证所得结果的可重复性,设置第一号随机种子。

3 结果

OLS和LASSO分析的结果如表2所示。表3列出了四种方法分别得到的均方误差。图3为随机森林得出的变量重要性图,变量重要性根据结点不纯度的总减少量计算得到。图4为XGBoost得到的变量重要性图。图5为各变量对OLS模型R2的贡献图,图6为各变量对预测准确性的贡献图。

图3 随机森林变量重要性

图4 XGBoost变量重要性

图5 OLS模型中各变量对R2的贡献

图6 各变量对预测准确性的贡献

3.1 六类变量对价格的解释力

通过比较表2中各OLS模型的校正后的R2,可得到各类解释变量对房源价格差异的解释程度。模型1的结果表明房源本身的特征解释了Airbnb房源价格差异的64.2%,说明房源本身的特征至关重要。模型2仅在模型1的解释变量基础上加入房源与市中心的距离这一变量,解释力却增加了3个百分点,说明位置对房源价格的影响很可观。在模型2的基础上依次加入设施与服务、租赁规则、房东的特征和房源的声誉特征,模型的解释力均增加不大,因此这些特征对房源价格的影响较小。

因此,六类解释变量中,房源本身的特征对房源价格的影响最大,房源的位置对价格的影响居第二。房源本身的特征和位置是最重要的。这一结果得到了Chen和Xie[6]以及Gibbs等[10]的支持。

3.2 机器学习方法对比

从表3可以看出,LASSO得到的均方误差略大于OLS,与OLS相比不存在优势,这说明OLS模型不存在严重过拟合的问题,且各解释变量间不存在多重共线性。在利用交叉验证和网格搜索选择模型超参数时,LASSO选择的超参数接近于零,因此得到的模型与OLS得到的模型相近,表2中LASSO得到的系数与OLS得到的系数非常接近,也说明了这一点。随机森林和XGBoost这两种非线性方法得到的均方误差明显低于OLS和LASSO这两种线性回归方法得到的误差,其中随机森林的均方误差最低,说明其预测更准确。从图6可以看出,四种方法剔除任意相同变量后,随机森林和XGBoost的均方误差接近,OLS与LASSO的均方误差接近,且均大于全变量模型的均方误差(图中的黑虚线从左至右依次为随机森林、XGBoost、OLS和LASSO全变量情形下的均方误差,由于OLS和LASSO的误差非常接近,两条线基本重合),说明各方法的预测效果具有稳健性。随机森林和XGBoost得到的误差均小于OLS和LASSO得到的误差,为非线性方法相较于线性方法的优越性提供了更有力的证明。

表2 OLS与LASSO模型估计结果

表3 机器学习预测误差

3.3 各因素对价格的影响

OLS的所有系数估计值均显著,具有变量选择作用的LASSO选择了包含所有解释变量的模型,表明所有解释变量均是影响Airbnb房源价格的因素。观察表2中各解释变量的系数可知,各变量与房源价格的相关关系与相关性分析的结果大体一致,只是相关性分析中不显著的早餐、超级房东和整体评分这三个变量在这里都对房源价格产生显著的积极影响。即时预订对房源价格产生积极影响,与Gibbs等[10]结果相反。这是因为允许即时预订意味着房东将承担一定的风险,在竞争压力不大的情况下,房东放弃利用低价格和允许即时预订来吸引房客,选择提高房源的价格以补偿允许即时预订带来的风险。超级房东和房源数量更多的房东,其房源价格更高,表明Airbnb房客将这两项看成一种质量信号,愿意为其支付更高的价格。房源的评论数量越多的房源,其价格反而越低。这是因为便宜的房源被预定的次数更多,获得的评论也更多。

3.4 变量的重要程度

由图2可知,房源容量、卧室数量、独立房间、合住房间、浴室数量、房源与市中心的距离和房东拥有的房源数量是与房源价格最相关且相关系数显著的六个变量。由图3可知,随机森林得到最重要的六个变量依次为房源容量、独立房间、合住房间、房源与市中心的距离、卧室数量和房东拥有的房源数量。由图4可知,XGBoost得到的最重要的六个变量依次为房源容量、独立房间、合住房间、卧室数量、房源与市中心的距离和房东拥有的房源数量。由图5可知,合住房间、独立房间、房源容量、卧室数量、房源与市中心的距离、房东拥有的房源数量是对R2贡献最大的六个变量。由图6可知,当在全模型中剔除一个变量时,剔除合住房间、独立房间、房源与市中心的距离或者房源容量时,均方误差显著增大,说明这几个变量对提高预测精度的贡献最大。由于各种方法是从不同的角度判断各变量的重要性,结果略有不同,但大体一致。综合可知,房源容量、独立房间、合住房间、房源与市中心的距离是最重要的几个变量。

最重要的四个变量中,有三个是代表房源本身的特征的变量,再次证明了房源本身的特征非常重要。

4 结论

本文利用北京市的数据和多种机器学习方法,对Airbnb房源价格进行了预测,并对其影响因素进行了综合分析。从理论的角度来看,为填补现有文献鲜少对Airbnb亚洲市场房源定价问题进行研究,以及缺少对Airbnb房源定价方法的探究等缺口做出了贡献。从实践的角度来看,本文的研究结果有助于加深房东们对Airbnb房源价格决定机制的理解,更好地为其房源设置价格。

本文首先利用OLS分别探究了六类变量对价格差异的解释力,发现房源本身的特征对房源价格的贡献最大。其次,将数据集随机分成训练集和测试集,对四种常用机器学习模型预测精度进行比较,发现非线性方法的表现优于线性方法。再次,将训练得到的模型应用于整个数据集,得到LASSO的回归系数,随机森林和XGBoost的变量重要性图。利用回归系数分析各个因素对房源价格的影响,结果在很大程度上证实了以往关于Airbnb房源价格影响因素的研究结果[6,8,10]。与以往研究不同的是,本文发现价格与允许即时预订成正相关关系。这说明北京市的房客有足够的动机为允许即时预订的房源支付更高的价格。最后,利用相对权重方法,得到各变量对OLS模型R2的贡献图。通过从模型中不重复地剔除一个变量,得到各变量对预测精度的贡献图。结合前面得到的变量相关性图、随机森林和XGBoost得到的变量重要性图进行综合分析,全面地衡量各变量的重要程度,发现房源容量、房间类型、房源与市中心的距离是最重要的几个变量。

本文的研究也存在一些局限性。一方面,本文仅选取北京市的房源作为研究对象,虽然具有一定的代表性,但无法全面反映整个中国甚至亚洲的Airbnb房源价格决定机制。因此,将来的研究应该全面探索整个中国甚至亚洲重要城市的价格决定机制。另一方面,本文未考虑季节效应,不过已有文献考虑到房源价格随时间的有限变化,认为一个价格点足以进行房源定价问题的探究。

猜你喜欢

房源房东误差
给黄鼠狼当房东
北斗导航种萝卜百米误差仅2厘米
从一句广告词看房地产经纪的本质
租 房
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
精确与误差
压力表非线性误差分析与调整
意想不到的回报