基于LRF方法的在线短租房源价格特征选择研究
2020-09-02张浩朱晨龙
张浩 朱晨龙
摘 要:为解决单一特征选择方法的局限性问题,提出Lasso-RF(LRF)混合特征选择方法,并应用于在线短租房源价格问题研究。基于Airbnb房源数据,实验首先通过Lasso回归进行特征选择,处理特征之间的多重共线性;然后采用随机森林算法精选剩余特征,最终得到35个重要特征,并带入4个预测模型中进行比较。结果表明,特征之间的多重共线性会影响随机森林算法对特征重要度的度量;LRF-RF预测模型与RF-RF预测模型相比,评价指标R2和MSE分别提高了0.005、0.006,同时运行时间缩短0.267秒,表明LRF混合特征选择方法优于单一的RF特征选择方法。
关键词:特征选择;Lasso;随机森林;在线短租;房源价格
DOI:10. 11907/rjdk. 192596 开放科学(资源服务)标识码(OSID):
中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)008-0001-05
Abstract: To solve the problem of the limitation of single feature selection method, a mixed feature selection method for Lasso-RF (LRF) is proposed, and is applied to the listings price of home-sharing accommodation. Based on the data of Airbnb, the experiment does the feature selection by Lasso regression firstly, dealing with the multicollinearity between features. Then the experiment selects the residual features by Random forest. Finally, 35 important features are selected out and used in four prediction models in order to evaluate and compare the results. The results show that the multicollinearity between the features will affect the measurement of the importance of the random forest to the features. Comparison between LRF-RF prediction model and RF-RF prediction model shows that evaluation indexes R2 and MSE was increased by 0.005 and 0.006 respectively, and the running time was reduced by 0.267 seconds. The evaluation result show that LRF hybrid feature selection method is better than single RF feature selection method.
Key Words: feature selection; Lasso; random forest; home-sharing accommodation; listings price
0 引言
分享經济的核心是通过协作和分享的方式与他人分享商品、服务的使用权[1]。近年来,随着通讯技术的广泛应用,人们可以通过在线平台分享并交换有形和无形资产[2]。在线短租基于分享经济模式,通过在线平台把需出租闲置资产的房东和需临时住宿的旅客联系起来[3]。这种商业模式风靡全球,中外学者针对在线短租房源价格进行了研究。如Ikkala等[4]用定性研究的方法探讨了在线短租房源声誉资本与房源价格的关系,发现房东可把积累的声誉资本转换为房源价格;Gibbs等[5]通过多元回归方法,发现房源特征、房东特征显著影响房源价格,但有趣的是评论数越多,表现出的却是房源价格越低;Wang等[6]根据33个城市在线房源数据,应用OLS和分位数回归方法,研究了房东特征、房源特征、配套设施及服务、租赁规则、在线评论评级5大类特征对房源价格的影响;吴晓隽等[7]在已有研究基础上,针对中国市场,加入信任度与社交度两大类特征,同样应用OLS和分位数回归方法对房源价格影响因素作进一步分析。结果表明,不同城市房东关注的房源价格影响因素有所不同。现有研究主要运用传统回归分析方法,探索房源价格和其影响因素的关系,然而在线短租房源价格影响因素众多,数据集中常包含大量文本信息,传统研究方法无法有效处理高维且含文本信息的数据,如果直接删除,必将损失大量有价值信息。所以,如何从高维数据中选取合适的特征,将其运用于房源价格影响因素研究和价格预测,成为在线房源价格研究的关键。
随机森林算法(Random Forest,RF)是一种优秀的非线性建模工具,泛化能力强,准确性高,而且随机森林算法还可测量特征重要度,在特征选择方面应用较多[8]。但是,随机森林算法并不能解决特征之间的多重共线性,当数据中存在大量特征,这些特征之间的多重共线性很可能影响随机森林对特征重要度的度量,影响模型预测结果。所以本文提出Lasso-RF(LRF)混合特征选择方法解决高维数据中存在特征多重共线性的问题,并应用于在线房源价格研究。首先,本文确定初始特征,带入Lasso回归中进行第一次特征选择,解决特征之间的多重共线性;然后,利用随机森林对第一次选择的特征进行特征重要度测量,并在随机森林预测模型中对特征进行精选;最后,将得到的最佳特征子集应用于房源价格预测模型,对不同预测模型结果进行比较,证明本文提出的LRF混合特征选择方法具有更好的特征选择效果。技术流程如图1所示。
2.3.3 预测结果比较
实验建立4个房源价格预测模型,其中RF模型表示直接进行随机森林预测,RF-RF表示经RF特征选择的随机森林预测,LRF-RF表示经Lasso-RF特征选择的随机森林预测,LRF-XGb表示经Lasso-RF特征选择的XGBoost预测。实验中,RF和LRF特征选择均选取前35个重要特征,评价结果如表3所示。从表3可以看出,经特征选择的预测模型运行效率明显优于不经特征选择的预测模型;LRF-RF模型中,R2为0.736,MSE为0.278,运行时间等于1.810 s,3个指标均优于RF-RF模型,说明LRF-RF不仅具有较高的预测精度,而且学习效率更高;LRF-XGboost模型预测也取得了较好預测结果,说明基于LRF特征选择方法比较稳定,适用性强。
3 结语
随机森林是一种非线性建模工具,对数据具有较高的容忍度,在数据挖掘领域应用广泛,但对于特征之间的多重共线性是否会对RF产生影响,目前很少有研究进行实验论证。本文基于Airbnb房源数据,进行在线短租房源价格特征选择,对照实验LRF特征选择和RF特征选择的前15个重要特征排序存在的明显差异,证明特征之间的多重共线性确实会影响随机森林建模工具。与此同时,本文还建立了4个房源价格预测模型,评价结果显示LRF混合特征选择方法优于RF特征选择方法,LRF混合特征选择应用于预测模型中具有更高的预测精度和学习效率。最终,基于Airbnb房源数据,应用LRF混合特征选择方法,从输入数据的127个特征中提取了35个重要的房源价格特征,并在预测模型上取得了较好的预测结果。本文方法为在线短租管理和房源定价提供了参考。本文研究思路是基于机器学习的数据挖掘方法,在大量数据中寻找规律,但并不能说明特征和目标之间的因果关系。后续研究可将机器学习方法同传统回归分析相结合,完善机器学习方法的不足。
参考文献:
[1] 雷切尔·博茨曼, 路·罗杰斯. 共享经济时代: 互联网思维下的协同消费商业模式[M]. 上海: 上海交通大学出版社, 2015.
[2] NETTER S,PEDERSEN E R G,LüDEKE-FREUND F. Sharing economy revisited: towards a new framework for understanding sharing models[J]. Journal of Cleaner Production, 2019(221): 224-233.
[3] 王晓雪. 共享经济背景下商业模式的变革与创新——基于三大典型案例的启示[J]. 商业经济研究,2018(30): 30-32.
[4] IKKALA T,LAMPINEN A. Defining the price of hospitality: networked hospitality exchange via airbnb[C]. Proceedings of the Companion Publication of the 17th ACM Conference on Computer Supported Cooperative Work & Social Computing. ACM, 2014: 173-176.
[5] GIBBS C,GUTTENTAG D,GRETZEL U, et al. Pricing in the sharing economy: a hedonic pricing model applied to airbnb listings[J]. Journal of Travel & Tourism Marketing, 2018, 35(1): 46-56.
[6] WANG DAN,NICOLAU J L. Price determinants of sharing economy based accommodation rental: a study of listings from 33 cities on airbnb.com[J]. International Journal of Hospitality Management, 2017(62): 120-131.
[7] 吴晓隽,裘佳璐. 爱彼迎房源价格影响因素研究—基于中国36个城市的数据[J]. 旅游学刊,2019,34(4): 13-28.
[8] 刘忻梅,唐俊,段翀. AUCRF算法在信用风险评价中的特征选择研究[J]. 计算机应用与软件,2018, 35(4): 299-301+315.
[9] 沈学华,周志华,吴建鑫,等. Boosting和Bagging综述[J]. 计算机工程与应用,2000,36(12): 31-33.
[10] 方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3): 32-38.
[11] 富越. 网红微博中商品链接点击量影响因素研究[D]. 武汉:武汉大学,2017.
[12] 崔晨,邓赵红,王士同. 基于Lasso稀疏学习的径向基函数神经网络模型[J]. 计算机工程,2019, 45(2): 173-177.
[13] 邱南南. 基于Lasso改进的一般因果关系检验[J].统计与信息论坛,2008,23(2): 18-22.
[14] TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society,1996,58(1): 267-288.
[15] 赵松山. 对拟合优度R2的影响因素分析与评价[J]. 东北财经大学学报,2003,(3): 56-58.
[16] 侍建国,张亦飞. 拉依达准则在处理区域水文数据异常值中的应用[J]. 海河水利,2016, (5): 49-51.
[17] 梁杰, 陈嘉豪, 张雪芹,等. 基于独热编码和卷积神经网络的异常检测[J]. 清华大学学报,2018(25): 1-7.
(责任编辑:江 艳)