基于XGBoost和LightGBM模型的房屋租赁价格研究
2023-05-10胡国华
摘 要:坚持“房住不炒”原则,建立“租购并举”的住房制度,是保持房地产市场平稳健康发展的重要举措。文章利用LightGBM模型和XGBoost模型对月租金进行预测,结果显示LightGBM模型的建模效果最好,并且预测后系统会自动计算得分,可靠性更高。同时发现影响住房月租金的关键因素主要包括房屋面积、小区所在商圈位置、房屋距离地铁的距离、房屋所在建筑的总楼层数和小区房屋出租数量等。
关键词:XGBoost模型;LightGBM模型;住房租金
中图分类号:F274 文献标识码:A 文章编号:1005-6432(2023)10-0143-04
DOI:10.13939/j.cnki.zgsc.2023.10.143
1 引言
据北京市统计年鉴数据显示,北京市常住人口为2170.5万人,其中租住人口738万,占比为34%。北京市常住外来人口约22.6万人,占常住人口的37.9%,其中大多数通过租赁住房解决居住问题。住房租赁市场将在我国社会经济的发展中扮演重要角色,住房租金问题也一直是研究人员关注的焦点。现有研究文献主要集中关注住房租赁制度和租金影响因素。在房屋租赁的相关研究中,魏凌、成立[1]提出中国房屋租赁市场将长期保持多元市场结构,市场经济之公平与效率原则彼此分离。刘芮[2]指出中国房屋租赁制度存在承租人之优先购买权无法提现以及房屋租赁合同期限限制等短板。邵挺[3]在分析中国房屋租赁市场现状之基础上,指出出租房源供求不匹配、机构化发展不完善、市场秩序混乱、立法迟滞等困境,并提出建立完善相关配套制度和政策的建议。
伴随城市化进程的推进,房价的飞涨和租赁住房卖方市场的到来也是必经之路。合理的租金价格对保护住房市场和国民经济的发展具有特殊的影响。因此,胡晓龙、邱知奕[4]深入分析目标群体住房短板问题与原因,以优化解决方法。预测出租房屋租金的常用方法有多元回归[5-6]、主成分分析和时间序列模型[7]。大数据时代下可利用平台对事件数据进行密度采样,精确获取事件全局数据。并采取批处理方式集中計算或流处理方式实时计算,通过对历史数据的分析进行预测分析。文章选择了LightGBM与XGBoost模型[8-11],在处理回归任务数据的预测模型上具有优势,通过爬取的租房市场数据与此两种算法模型,帮助租赁双方深层次挖掘出影响房屋租金的关键要素。
2 模型建立
文章使用Pearson相关系数和随机森林进行特征提取,并运用LightGBM模型、XGBoost模型对数据进行分析,最后以均方根误差作为评价标准。相关系数可以定量客观地表达变量之间的相关程度,易于操作和使用。因此,在特征选取时将考虑这种方法。
2.1 LightGBM模型
LightGBM是一个开源、快速、高效的基于决策树算法的提升框架,支持高效的并行训练。梯度提升(Gradient Boosting)思想是:一次性迭代变量,迭代过程中,逐一增加子模型,并保证损失函数不断减小。
梯度提升决策树GBDT拥有梯度提升(GB)和决策树(DT)的功能特性,具有训练效果好、不易过拟合等优点。LightGBM模型是GBDT的一种,用于处理海量数据问题。
2.2 XGBoost模型
XGBoost兼具线性规模求解器和树学习算法,是对GBDT算法的改进,效率更高。步骤如下:
给定数据集D={(x, y): i=1, 2, …, n, x∈R, y∈R},其中n为样本个数,每个样本有P个特征。假设给定k个回归树,x表示第i个数据点的特征向量,f是一个回归树,F是回归树的集合空间,模型可表示为:
y—i=∑Kk=1fk(xi)fk∈F(1)
目标函数定义如下:
Obj=∑ni=1l(yi, i)+∑Kk=1Ω(fk)(2)
式中, i为预测值, yi为真实值; Ω(fk)表示第k棵树的正则项, Ω(fk)=γT+12w2, T、 ω、 γ、 λ分别为树叶子节点数、叶子权重值、惩罚系数、权重惩罚系数。
2.3 住房租金预测建模分析
首先对租房数据进行预处理,然后使用Python语言建立XGBoost、LightGBM两模型机器学习算法进行网格搜索,最后通过准确度预测的相较确定最优预测模型。
2.4 模型评价标准
实验采用均方根误差(RMSE)来度量预测模型的精确度,RMSE计算结果越小,预测越精准。假设N为样本个数,Xobs, i为第i个样本实际值,Xmodel,i为第i个样本预测值,定义:
RMSE=1N∑ni=1(Xobs, i-Xmodel, i)2(3)
3 数据预处理与变量选择
文章研究从微观角度分析影响房屋租赁价格的因素,并分析各个影响因素与租价间的关系。选择北京链家网来取一个地方4个月基本信息和房屋租赁价格等相关房屋租赁数据。
将数据集结构化后使用移动平均法处理缺失值较少的样本。数据分为训练集和测试集。训练集为收集前3个月的数据,共193736项。测试集为收集第4个月的数据。与训练集相较,测试集增加了一个“id”字段和没有“月租”的字段,其他字段和训练集并无不同,共57284项。
在租房月租金预测问题中给出了15个特征和1个标签值(月租金),对于给定的特征进行详尽的数据分析,为下一步研究奠定基础。训练集数据的缺失情况如表2所示。
从表2可以看出,房屋装修档次缺失值最多,缺失率高达91.231%。所在区级行政单位和所在商圈的缺失值为0.023%与0.016%,相对较少。此外,表中列出的7个特征都没有缺失数据。为了保证数据质量,需要进行数据清洗,而对于测试集处理方法相同。
3.1 无效数据的去除
可以看出训练集与测试集分别测试了17个特征值。其中,居住近况和装修水平存在大量信息缺席,需要剔除。虽然分类变量住房方向并无数据丢失,但分析表明租金影响不大,机器学习处理更复杂,故文章选择排除。
3.2 补足缺失值与异常值删除
文章提供了房屋表面、房间数量、错误数量和浴室数量之间关系的间接信息。文章使用决策树来执行值,到目前为止,对于17个特征值,文章仅保留了15個用于分析。数据验证和分析表明:存在违反规则的异常值,文章根据现有了解进行排除。
对于数据,若去掉明显变量,分析的流程将无法显示。文章把数据样本含M1、M2特征与否作为判别依据,将原始数据集切分为5个数据集:数据集①剔除M1、M2特征;数据集②剔除M1、保留M2特征缺失的数据;数据集③保留M1特征缺失、M2特征不缺失的数据;数据集④保留M1不缺失、M2缺失的数据;数据集⑤保留M1、M2特征都不缺失的数据。
4 计算过程与结果分析
4.1 准备工作
本研究的实验代码基于Jupyter Notebook平台通过Python语言分析并建模。主要针对使用模型的内置函数提取特征重要性,影响租金的主要特征可借此确定。
4.2 模型的特征重要度百分比
4.3 随机森林
表6中分数代表随机森林各个特征的相对显著性水平。由于在提取特征时能够看到每个特征的相对状态,故只能判断重要性而无法判断该特征是否无效。通过分别展示特征大于0.1与因子大于0.05的特征以形成和比较结果的优劣。提取已知变量后,分别建立LightGBM模型和XGBoost模型,最终结果如表7所示。
根据特征提取、模型选择的方法不同,进行组合之后,文章共建立了12个模型,结果如表7所示,其中得分为对模型优劣之评价标准。可发现LightGBM模型得分皆高于XGBoost模型,该得分为提交预测结果之后系统自动计算而得到,高度可信。
5 结论
通过收集信息可发现特征M1、M3是影响租金的主要因素;在数据集④和包含M3特征(装修水平、朝向方位、居住状况、出租方式)的数据集中共有5个特征没有显示,由于M3没有显示该因子的主要特征,且在数据集③中,该数据集包含M1:房屋附近的地铁线路和房屋距离地铁的距离,均位于前列,说明关于地铁的M1特征也是影响租金的关键因素。XGBoost最低均方根误差可达到1.8503;LightGBM最低均方根误差可达到1.608。同时通过对三个预测模型中特征重要度排序,识别出面积因素和地段因素最重要,由此看来LightGBM模型在对房屋租赁影响因素的预测与评估中数据拟合效果比XGBoost模型更贴切。使用机器学习方法预测住房收入旨在减少非必要经济损失,进一步改善住房市场的健康状况。
参考文献:
[1]魏凌,成立.我国住房租赁制度的发展与变革[J].城乡建设,2019(15):14-17.
[2]刘芮.论中国住房租赁制度之改革[J].法学论坛,2019,34(1):136-143.
[3]邵挺.中国住房租赁市场发展困境与政策突破[J].国际城市规划,2020,35(6):16-22.
[4]胡晓龙,邱知奕.大城市中、低收入高校毕业生租房影响因素指标体系研究[J].南京农业大学学报(社会科学版),2014,14(3):98-104.
[5]熊远南.基于改进灰色-多元回归组合预测模型的燃煤电厂智慧水务研究[J].化工进展,2020,39(S2):393-400.
[6]俞艺融.基于多元线性回归的房屋租赁价格基本影响因素研究——以上海市房屋租赁市场为例[J].产业创新研究,2021(20):79-81.
[7]商立群,王守鹏.改进主成分分析法在火电机组综合评价中的应用[J].电网技术,2014,38(7):1928-1933.
[8]谢勇,项薇,季孟忠,等.基于XGBoost和LightGBM算法预测住房月租金的应用分析[J].计算机应用与软件,2019,36(9):151-155,191.
[9]张英婕,王洪强,徐愉.一线城市房屋租赁价格影响因素研究——以上海市中心城区为例[J].价格理论与实践,2020(11):72-75.
[10]陈熙,张晓博.基于LightGBM的住房租金预测分析[J].产业与科技论坛,2020,19(6):103-105.
[11]王芳杰,王福建,王雨晨,等.基于LightGBM算法的公交行程时间预测[J].交通运输系统工程与信息,2019,19(2):116-121.
[基金项目]北方工业大学毓优人才项目(项目编号:107051360022XN708)。
[作者简介]胡国华(1999—),男,汉族,北京人,研究方向:数理统计、随机过程。