基于岭回归的昆明二手房价格影响因素分析
2018-08-29白婧毓
【摘 要】 住房是保障民生安定的根本条件之一。相较于新房房价的飙升与波动,二手房的价格更具规律性,对于民众更加经济适用。因此,研究二手房价格的影响因素,对于社会住房经济链的形态与稳定有重要意义。本文收集昆明二手房价格及面积、朝向、楼层、装修、区域、建筑、产权、结构、物业费、厅室和卫生间数等变量,对其进行岭回归分析,结果表明,昆明二手房价格与房屋面积、朝向、楼层等有更加密切的关系
【关键词】 二手房 岭回归 价格
1 引言
随着社会和经济的发展,人们对住房的需求更大、要求更高。新楼盘的影响因素复杂,价格居高或持续波动,此时,二手房相对来说成为了不错的备用选择。
二手房有自己独特的优势。二手楼盘的小区或周边配套多数比新房成熟,往往生活便利、交通方便;物权法颁布后,表明二手房和新房在产权使用年限并无较大区别,所以在使用权上无本质差异;最重要的是,相对于新房,二手房的价格更加实惠,减轻了民众的购房压力,可以有更多自主选择的可能。因此研究二手房价格的主要影响因素有较大的现实意义,可以为民众选择,宏观调控提供一定的依据。
2 数据来源及数据处理
本文的数据来自房源网站-房天下,首先使用python软件,以网络爬虫的方式获取,经过清洗整合,得到了房天下网站的964组2017年9月昆明二手房信息,其中包括价格(price)及面积(area)、朝向(orientations)、楼层(floor)、装修(decoration)、区域(district)、建筑(district)、产权(rights)、结构(structure)、物业费(property costs)、厅室(bedroom)和卫生间数(toilet)等12个变量。其中面积、物业费是定量变量,其余朝向、楼层等10个变量是分类型的定性变量。
将964组数据按0.5的概率划分成训练集和测试集,用训练集来拟合岭回归模型,用cew来得出前者模型的预测误差。
3 基于岭回归的实验分析
3.1岭回归
当设计阵存在复共线关系时,最小二乘回归的性质就会不够理想,前人提出有偏估计岭估计,并定义为
岭回归,是一种专用于共线性数据分析的有偏估计回归方法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,对最小二乘法进行改良,获得回归系数更为符合实际、更可靠的回归方法。
首先,使用R软件在上章分好的训练集上拟合岭回归,再使用10折交叉验证找到使预测误差最小的最优的参数lambda。
3.2交叉验证
10折交叉验证即将原始数据分成10组(一般均分),将每个子集数据分别做一次测试集,其余的9组子集数据作为训练集,这样总共可拟合10个模型,用10个模型最终测试集的预测准确率的平均数作为此10折交叉验证的回归性能指标。可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性。10折交叉验证得到的均方误差,见下图:
3.3 测试误差
接下来,本节使用上文通过训练集拟合的模型以及通过交叉验证得到的最优参数在测试集上拟合变量,来得到预测误差,误差约为为37.77。
3.4 回归系数
本节使用最优lambda拟合全集以得到对昆明二手房价格有显著影响的变量,以及这些变量的回归系数,详见表1。
由上表可见,最终得到的回归系数显示,面积的系数为正但很小,说明房屋面积虽对二手房价有一定影响,但较小。朝向中东北、东南、东西、西、西北的都有较大的回归系数且为负值,则会说明这些朝向和昆明二手房价格呈负向相关;而朝向为南或南北布局的系数较大且为正数,说明朝南、南北布局对房价有正向影响。高楼层的回归系数也较大,但为负数,说明高楼层对昆明二手房价的影响显著并且是负方向的。
4 结论
本文通过通过岭估计来拟合昆明二手房的价格和面积、朝向、楼层、装修、区域、建筑、产权、结构、物业费、厅室和卫生间数等其他因素的回归模型,找到了对昆明二手房价格有明显影响的因素。综上得到的结果可以总结并作如下解释:
面积大小对二手房的单价影响不明显。可能由于人们更习惯传统南北朝向的房屋、偏爱朝南向阳的居室,所以朝向为南、南北的二手房房价更高。可能由于人们更习惯传统平楼,故楼层越高,二手房價格越低。关于其他装修、区域、建筑、产权、结构、物业费、厅室和卫生间数这些因素,在本研究中未发现对昆明二手房的价格有明显影响。
【参考文献】
[1] 王松桂. 线性模型引论[M]. 科学出版社, 2004.:78-186.
[2] Shao, J. (1993). Linear model selection by cross-validation. Journal of the American statistical Association 88, 486-494.
作者简介:姓名:白婧毓,性别:女,出生年月:199205,民族:汉,学历:在读硕士,学校:云南财经大学,学校邮编:650221,研究方向:数据挖掘。