APP下载

基于多元回归的出租房租金影响因素及预测

2020-11-26江玉婷

关键词:出租房户型房源

江玉婷

(温州大学数理学院,浙江温州 325035)

房价是近年来人们热议的一个话题.房价越来越高,越来越多的人买不起房子,尤其是年轻人,这就使得租房这一概念进入了人们的视线.而且,越来越多的大学毕业生选择去其它城市发展事业和生活,对于这些人而言,买房更是遥不可及,这将使租房逐渐成为主流.因此,对出租房租金的影响因素进行研究,根据房源特征给出房子合理的租金估计很有意义.

1 数据来源及说明

对房地产价格的影响因素的研究成果很多,早在1986年,Fortuna和Kushner就对加拿大30个市区房地产价格的相关数据进行了回归分析,得出居民收入对住宅价格有较强的正相关作用的结论[1];最近,陈林锋、杨伟杰等人选取居民消费水平、固定投资额、城市基础建设投资、人均总值等因素作为回归模型的解释变量,分析了影响城市商品房价格的主要因素[2];黄明宇、夏典则以商品房区域均价、装修程度、房屋朝向、户型、建筑面积、楼层高度、使用年限、是否靠近地铁站等作为多元线性回归的特征对未来房价进行了预测[3].本文的数据分为两个部分,房源特征数据和区域特征数据.房源特征数据(约13万条挂牌租房信息数据)来源于安居客租房网①安居客租房网[EB/OL]. [2019-09-03]. https://hz.zu.anjuke.com.,包括城市、租赁方式、租金、户型、面积、朝向、楼层、总楼层、装修程度、楼房类型、经度、纬度、室内配套(热水器、衣柜、暖气、宽带、沙发、床、洗衣机、空调、阳台、冰箱、卫生间、可做饭、电视)这13个特征.通过已获得的房源的经纬度信息,再利用百度地图API(Application Programming Interface)平台获得每个房源的周边信息,包括教育配套、医疗条件、生活配套和交通条件等.另外,本文通过浙江省统计信息网②浙江省统计信息网[EB/OL]. [2019-09-03]. http://tjj.zj.gov.cn/.获取了2008 – 2017年浙江省各市的生产总值(Gross Domestic Product,GDP)、人均生产总值、全社会就业人员年末数、社会消费品零售总额、固定资产投资、财政总收入、城镇居民人均可支配收入、农村居民人均可支配收入、房地产开发投资、商品房屋销售面积、商品房屋销售额等数据,由此组成区域特征数据.例如图1为2013 – 2017年浙江省各市人均可支配收入在全省各市人均可支配收入总和中的占比图.由图1可以看出,每年各市的该占比基本一致,因此,本文将用近几年各市的该占比的平均值作为该地区的人均可支配收入这一特征参数.

图1 2013 – 2017年浙江省各市人均可支配收入占比图

2 数据预处理

本文首先将含有缺失值的数据记录删除,剩余有九万多条数据记录,然后统计观察数据分布.从租金的分布情况来看,浙江省出租房的租金分布较为集中,大部分都位于200 – 7 000元之间,只有少部分的租金是位于这一范围之外的,且差距较大,所以本文选取租金在这一范围内的数据记录(S),占总数据量的97.375%.在面积分布上,本文选取了出租房面积在10 – 150 m2范围内的数据记录.结合以上租金和面积这两个特征的选取范围,我们得到了最后的数据记录集合(M),占总数据量的95.85%,且数据集合M占集合S的98.43%.

由于原始数据含有大量非数值型数据,下面利用虚拟变量法、分等级赋值法和独热编码的方法对非数值型变量进行量化.例如,租赁方式分为合租和整租,用虚拟变量1表示整租,0表示合租;装修程度分4个等级,1表示毛坯,2表示简单装修,3表示精装修,4表示豪华装修;朝向分为10个方向,用独热编码的方法分别表示为:东(1,0,0,0,0,0,0,0,0,0),南(0,1,0,0,0,0,0,0,0,0),西(0,0,1,0,0,0,0,0,0,0),北(0,0,0,1,0,0,0,0,0,0),东南(0,0,0,0,1,0,0,0,0,0),东西(0,0,0,0,0,1,0,0,0,0),东北(0,0,0,0,0,0,1,0,0,0),西南(0,0,0,0,0,0,0,1,0,0),南北(0,0,0,0,0,0,0,0,1,0),西北(0,0,0,0,0,0,0,0,0,1).

3 影响因素分析

3.1 不同测量尺度变量介绍

变量按测量尺度从高到低分别为定类变量、定序变量、定距变量、定比变量.定类变量对研究对象只区分异同(如汉族、蒙族、回族等),各分类之间无等级关系;定序变量是区分同一类别中等级次序的变量,但只能排列次序,不能反映出各个定序变量值之间的确切的间隔距离(如大学、中学、小学等);定距变量具有定序变量的特性,且还能确切测量同一类别各个变量值按高低、大小次序之间的距离,如摄氏度.

因此,本文的特征变量中租赁方式、朝向是定类变量,计算其相关系数时应用Kendall相关系数;户型、楼层、楼型用途、装修程度、教育配套、生活配套是定序变量,计算其相关系数时应用Spearman相关系数;租金、面积、交通条件、与城市商业中心(Business Central District,BCD)的距离是定距变量,计算其相关系数时应用Pearson相关系数.而两种不同测量尺度特征变量之间采用哪种相关系数一般取决于测量尺度较低的那个,由此分别计算各特征变量之间的相关系数.

3.2 相关性分析及结果

根据特征向量测量尺度的不同,为每个变量选取合适的相关系数进行计算,反应不同变量之间的相关程度,如表1,展示了浙江省各市以及全省的房源的各个特征与月租金的相关程度.

通过表1可以看出,在温州、绍兴、湖州、丽水、金华、衢州和台州,与月租金相关性强的是房的户型和面积;在宁波和嘉兴,与月租金相关性强的是租赁方式、房的户型和面积;在舟山,与月租金相关性强的是租赁方式、户型、面积、楼房类型、是否有沙发、冰箱、电视等因素;在杭州与月租金相关性强的是租赁方式、户型、面积、朝向等.而对于全省来说,与月租金相关性强的也是租赁方式、户型、面积、朝向.

4 模型建立及预测

4.1 多元线性回归模型介绍

回归问题本质是参数估计问题,就是找出因变量与自变量之间的关系.给定数据集D=,需要对模型进行训练,学习出参数和b,获得完整的多元回归模型.

4.2 多层回归分析介绍

一般的多元回归模型都是先假设所有变量属于同一等级,故将其放在同一层的各个并列的特征向量中.然而不同城市有不同的经济水平,居民人数和政策都不同,所以本文加入第二层的城市因素,也就是对每个有,其中z代表城市的人均生产总值、固定投资额、财政收入等特征.

4.3 模型建立

租金与房源本身的特征有关,也与房源所在地的宏观特征有关,所以本文在一般的线性回归模型的基础上,针对每个特征都假设其与当地的一些宏观因素有关,建立新的模型.

参考文献[5]中结合区域特征和房源特征建立了模型进行特征选择,本文结合一般的多元线性回归模型以及多层回归分析,建立新的多元线性回归模型,其基本形式为.

表1 浙江省各市及全省的房源的各特征与租金的相关系数

4.4 模型训练结果及预测效果

利用python语言,基于以上数据和数学模型进行回归预测,并将两个模型(普通线性回归模型和多层回归模型)的预测结果进行比较(见表2).用平均绝对误差(MAE)和均方根误差(RMSE)查看预测效果,并用调整的R2决定系数评价这一模型根据房源的信息对其租金的预测效果.

表2 模型-预测效果对照表

真实的每月平均租金是2 603.525 073 185 519元,对比表2中预测的每月平均租金可以看到,多层回归模型预测的平均租金要比普通线性回归模型预测的平均租金更接近于真实的平均租金.

4.5 模型优化

从表2可以看出,利用多层回归模型预测,调整的R2决定系数为0.682,预测效果比没有加入各城市基本情况的普通线性回归模型的好.为了进一步提高预测效果,本文接下来利用逐步回归模型对变量进行筛选和优化.

通过对特征变量进行筛选,本文删除了朝向中的部分变量、房间配套中的部分变量以及房屋类型、教育配套这些特征,预测效果如表3所示.

表3 优化后模型-预测效果对照表

对比表2和表3可以看到,由于经过特征选择后模型特征有所减少,所以一些预测效果较之前的有轻微的降低.但本文的模型优化是通过特征选择提取对租金的预测影响力较强的特征,从而达到简化模型的效果,并且主要是对多层回归模型进行考量,所以可将这些轻微的变化忽略不计.由此便得到了由房源特征变量租赁方式、户型、面积、朝向(南)、楼层、总楼层、装修程度、房间配套(衣柜、暖气、宽带、沙发、床、洗衣机、空调、阳台、冰箱、卫生间、可做饭、电视)、医院、生活配套、交通条件、距离市中心距离和区域变量国民生产总值、人均可支配收入、就业人口、房产投资总额等因素组成的较优的多层回归模型.

5 总结与评价

本文主要对影响浙江省各市房屋租金的因素进行了分析.基于安居客租房网上的租赁信息数据和浙江统计信息网上的各市经济数据,利用一般线性回归、多层回归分析、逐步回归模型建立了浙江省房屋租金预测模型,利用该模型,根据房源的基本信息可以拟合出该房源的参考租金.

本文所给模型还存在一些问题,因为在特征选择时删掉了一些很有意义的特征变量,如教育配套.教育配套这一特征在现实生活中对房屋租金是有一定影响的,但在本文的分析中影响并不显著(本文在获取房源周边教育配套信息时设定的半径为1千米,可能是因为半径太小,所获取的周边学校过少,差距不明显),所以在逐步回归分析时将其删除了.此外,最终的预测效果也须进一步提升.

本文只是针对出租房房源的基本设施及其周边状况对影响该房源租金的因素进行了分析,通过对简单的多元线性回归模型进行改进,进而拟合出较为合理的参考租金,使得我们可以根据一个新房源的房间配套、地理位置、基本设施以及周边状况针对该房源给出一个较为合理的租金定价方式.然而影响出租房租金的因素也不止这些,不同的地区、不同的时间甚至不同的事件(如毕业季时大量的毕业生对住宿的需求导致出租房成为首选),都会对租金造成影响.因此,我们给出的参考租金可能会不太准确.

本文意在通过安居客网站上的一些挂牌数据训练出预测模型,希望能够根据房屋的硬性条件对租房用户给出一个较为合理的租金定价以供其在租房时作为参考,而安居客的挂牌租金数据是房主自主定价,本身就带有一定的主观性,存在房屋定价过高或过低的问题,这就导致了一些房屋的预测租金与其房主的定价有较大的差别.本文针对回归模型进行改进,加入与租金有一定关系的地区宏观特征进行训练,可以看出所给模型效果比一般的回归模型的好,但一定还有别的更好的算法.以上问题希望能在接下来的研究中予以解决,进一步提高模型的预测精度.

猜你喜欢

出租房户型房源
长城脚下坐望山——C1户型&D3户型
侨城一号A&E户型
“高跷楼”
从一句广告词看房地产经纪的本质
格局已变!最新数据揭示,广州楼市七成多户型超100m2!
智慧消防织就火灾安防网 平安建设再出发
改进TOPSIS法用于出租房源综合评价研究
甲醛超标 自如承诺首次出租房源空置30天