城市二手房个户交易价格的预测
2019-11-05张学新吴凯泽
张学新 吴凯泽
摘 要 基于武汉市二手房中介发布的数据,用一种新线性模型测度了二手房个体交易价格及首付额的主要影响因素.依据二手房价的分布,按二手房所在行政区域分段建立了价格预测模型,同时给出了二手房交易价格等级的推理规则.统计学检验表明,首付额预测模型性能优良,可用于实际二手房个户交易价格的预测.
关键词 价格学;二手房价格预测;新线性模型;因素重要度;推理规则
中图分类号 F293.3 文献标识码 A
Abstract In this paper, a new linear model was used to measure the main factors that affect the individual transaction price and the down payment on a secondhand house, based on the secondhand house data obtained from some property agencies in Wuhan. in terms of the distribution of secondhand housing price, some prediction models were established piecewise corresponding to the administrative region in which secondhand houses are located, meanwhile, the inference rule model for the classification level of secondhand housing transaction price was discussed. Prediction models of down payment were excellent from the point of view of statistical test, and can be used to forecast the transaction price of real secondhand housing.
Key words Price science; Prediction of secondhand housing price; A new linear model; Factor importance; Inference rule
1 引 言
2017年商品房交易總量数据显示,沪、京、深、福、厦、穗、津7 个城市的二手房交易已经超过新房交易的一半.研究一个城市二手房交易状况,寻找二手房成交价格规律,将有助于对二套房贷和二手房交易营业税等相关政策的正确调整,为楼市管理提供科学依据.
国外已有文献研究新房价格的相关问题.Ernawati等(2016)[1]研究周边环境质量对住宅价值的影响及其机制,从区位、宏观经济因素、人口因素、土地、产业等方面研究影响房价的主要因素.Gao和Kwong(2015)[2]实证研究了消费物价指数、通货膨胀率对上海新商品房长期均衡价格的影响.
但是,关于二手房这方面的研究尚比较少见.许浩(2017)[3]使用对数回归模型分析合肥二手房特征价格,得出面积是房屋总价的最大影响因素.郭倩蓉和张敏锋(2017)[4] 实证研究房价和地价的关系,郑永坤和刘春(2018)[5]利用ARIMA模型预测广州和深圳、南宁二手房成交均价,董倩等(2014)[6]利用网络搜索数据,对16个城市的二手房价格和新房价格进行了拟合和预测.陈怀东(2017)[7]探讨北京二手房销售价格与房屋租赁价格之间相关的关系.刘越(2017)[8]利用可加AR模型实证研究天津市房地产市场二手房销售价格指数变化趋势.利用简单线性回归模型、方差分析,实证研究城市的住宅价格,获得城市二手房住宅特征价格模型.这些方法涉及到时间序列的分布是否满足假定的条件、不同城市的房价数据是否同质问题,选用模型对异地混合数据的分布有较严格的要求.提出一种新的线性回归模型,直接研究二手房的交易价格,给出影响(大)城市二手房个户交易价格的主要因素可能是有其价值的.通过建立分段模型对二手房的交易价格进行精确预测,取得了较好的结果.
2 数据及变量
数据来源于武汉二手房房产网(https://wuhan.anjuke.com/sale/),首次获取信息777条,半个月后,又采集了545条记录,经检查两批数据没有重复,共获取二手房最新信息1322条,涉及1126个不同的中介联系人.由中介所及二手房的地域分布看,样本具有很好的代表性.这些信息是文本结构,需要进行复杂的处理.首先依据“业主心态”,“小区配套”等语句描述,选择最能反映房屋周边环境的字符建立关键词词库(表1),提取关键词.
关键词主要选择是:所在区、所在区类别(中心城区、郊区、国家级开发区)、房龄、房屋类型、建筑面积平方米、房屋朝向、所在楼层层次、装修程度、房屋户型(室厅)、周边商业金融、周边休闲场所、周边地铁、周边公交车、基础教育设施、高等教育设施、生活配套设施、房价(元/平方米)、房价等级.
针对研究个体设置了不同的虚拟变量.如果一个研究个体具备某个属性,则赋予它的虚拟变量值1,否则赋值为0.对房屋周边环境,以是否具备关键词库的分条目之一为属性设置了13个虚拟变量:中心城区否、普通住宅否、低楼层否、毛坯房否、小区配套设施、生活配套设施、周边医院、周边商业金融、周边休闲场所、周边地铁、周边公交车、基础教育设施、高等教育设施.
对其他变量水平的编码.
房屋户型:1室0厅、1室1厅=1,1室2厅=1.5,2室1厅=2,2室2厅=2.5,3室1厅=3,3室2厅、3室3厅=3.5,4室1厅、4室2厅=4,4室3厅=4.5,5室2厅=5,6室2厅=6,6室3厅、6室4厅=6.5.
房屋类型:普通住宅、其它=1,公寓=2,别墅=3.装修等级:毛坯、简单装修 =1,精装修 =2,豪华装修 =3.
房屋朝向:东北、西南=1.5,东西=1,东南、西北=2.5,南北=2.
楼层类别:低层=1,中层=2,高层=3.
二手房价等级:1万以下=1,[1万, 1.5万)=2,[1.5万,2万)=3,[2万,2.5万)=4,[2.5万,3万)=5,3万及以上=6.3房屋价格分布及特征数
武汉市二手房价格(元/平方米)、首付房款(万元)的分布极其复杂,见图1.
房价频率直方图与首付额频率直方圖均呈明显的非对称性,多峰态.JarqueBera检验也证实,二手房价序列、二手房首付房款序列及它们的自然对数序列、平方根的自然对数序列等均不服从正态分布,因此通过某个数据变换建立统一的回归模型非常困难.
不同房屋类型(普通住宅、公寓、别墅),不同装修程度(毛坯、精装修、豪华装修)之间的房屋均价的差异是显然的.进一步通过单因素方差分析可得以下结论.
总体看,各区平均房价16026.68元,其中武昌区二手房的均价最高.区域间的房价均值有显著性差异.但是江岸、江汉之间,青山、洪山、硚口、汉阳之间的差异不显著.
从房屋朝向看,不同朝向间房价均值差异显著.东北、西南方向均价最高,南北方向均价最低.
从楼层看,低、中、高层的房价(元/平方米)均值依次为17095.28,15681.09和15665.42.中、低层间均价差异不大,但是与高层均价的差异显著.
不同房屋户型的平均房价(元/平方米)有显著性差异,但是1室0厅、1室2厅、1室1厅之间,2室1厅、3室2厅、3室1厅、4室2厅、2室2厅之间差异不大.从标准差看,1室0厅、1室1厅,3室1厅的波动性最大,2室1厅波动性最小.
4 新线性回归模型
当分类因素较多、有协变量、各因子水平组合之下试验次数不等时,使用方差分析模型不方便.这里提出一种新线性回归模型,它把包含某些变量的回归平方和与不包含这些变量的回归平方和之差,视为这些变量的“偏”回归平方和,把方差分析中的因子平方和变成各个效应所对应的回归变量的“偏”回归平方和.
考察各个二手房首付额预测值与实际值的偏差(残差),可知对汉南、新洲区的预测效果最好,其平均绝对误差2.41992万元,最小绝对误差0.074750万元.对青山、洪山、硚口、汉阳区的预测效果稍差,其平均绝对误差6.47490万元,最小绝对误差0.03553万元.
7 二手房价预测
预测了首付额,如能再确定首付比例,就能预测房价总额,再除以建筑面积就是二手房价.考察全部1321户二手房的首付比例(见图3).
首付比例最小值0.298834251,最大值0.300218933,首付比例波动性很小,由此可以认为武汉市二手房市场的首付比例是30%.说明武汉市二手房交易市场采用了国办发[2006]37号文件规定的下限:个人住房按揭贷款首付款比例不得低于30%.
把用模型预测得到的首付额乘以10/3就是二手房价总额的预测值,再除以该二手房的建筑面积就是该二手房的单位面积价格.例如,对武昌、江岸、江汉区,二手房的单位面积价格的预测模型是:
二手房价(万/平方米)=1.521+(6.044 房屋朝向-0.334 房龄) /建筑面积(平方米),(15)
8 结 论
享乐定价模型(Hedonic模型)被广泛应用于房地产的定价.依据享乐定价模型的原理,价格是由在售商品的内在特征与外部影响因素决定的.新线性模型对影响二手房价的因素分析印证了这个原理.对影响二手房价的因素重要性分析显示,二手房所在区位、装修程度、房屋已使用年限及房屋类型是交易双方最看重的因素,而建筑面积、交通便捷性、高等教育与基础教育环境并不受到特别关注.有些现象是大城市二手房价的共性,有些是武汉市二手房价的个性.建筑面积没有排在前面重要因素里,但是在首付额预测模型里仍旧是重要的预测因子.对于武汉市而言,现有地铁14条线路,主城区里平均步行500米即可到达一座地铁站.有550余条公交线路及1条快速公交线路(BRT),四通八达的公交设施非常方便市民出行.武汉市有高等院校82所,在校大学生100多万,居住区散布武汉各行政区.武汉社区医疗服务体系较完善, 多达302家医院与36家社区卫生服务中心合理地分布在武汉市各行政区.这些使得交通、教育、医疗保健对二手房价的影响力逐步减弱.
享乐定价模型只用于确定环境或生态系统因素对商品(通常是房屋)价格的影响程度,只能捕捉消费者在感知房屋环境差异及其带来的后果后付费的意愿.相比之下,按二手房所在行政区域建立的分段回归模型能精准地预测二手房个户交易价格.享乐定价模型能够估计房地产价值的前提是必须具有现成的、准确的数据,同样的,虽然武汉市二手房价预测模型在统计意义上是优良的,但是仍有改进余地.只要获得“当年住房购买总额”、“周边新房均价”等相关变量的观测数据,把它们加入到研究的模型中,预测的精度就会提高.二手房中介费是否被加在房价里,也是一个不可观测的变量.这些关键信息数据很难获得,是研究进一步完善二手房交易价格模型的困难所在.
对二手房价,如果不需要精确的数字,只粗略了解二手房价的价位等级,也可以使用推理规则.一个推理规则的基本形式是 (规则前件-规则后件),其置信度定义为规则后件发生的条件下规则前件发生的概率.把影响二手房价的全部因素纳入推理是很复杂的,而且也缺乏置信度.为此,依据第3节变量重要度的分析结果,只提取最重要的前四个因素,利用树图归纳建立推理规则(模型).为此,先把第一批采集的777个样品集随机分割为85%与15%两部分,分别用于训练模型与测试模型性能表现.舍弃一些置信度较小的信息样品,最后获得置信度超过65%的推理规则12条,例如:
1)如果 所在区 = 新洲或汉南,则二手房价在1万以下.
2)如果 5年<房龄 <= 9年 且 装修程度 = 毛坯,则二手房价在 1万~1.5万之间.
3)如果 所在区 = 硚口 且 房龄 > 4年,则二手房价在 1.5万~2万之间.
4)如果 所在区 = 洪山 且 房龄 <= 2年 且 装修程度 = 精装,则二手房价在2万~2.5万之间.
为了检验推理规则(模型)的表现,再把它应用于第二批采集数的545条记录,预测正确率为53.26%,表明推理规则还需改进,关键在于找到一个对二手房价等级较为合适的划分.
参考文献
[1] EMAWATI M K, HASNANYWATI H, ATACYA O. Factors Influencing the Housing Price:DevelopersPerspective[J].International Scholarly and Scientific Research & Innovation, 2016,10(5):1676-1682.
[2] GAO L Z, KWONG W, CHAU.Determinants and Sustainability of House Prices: Thee Case of Shanghai, China [J].Sustainability,2015,7(4):4524-4548.
[3] 許浩.合肥市二手房市场价格研究[D].芜湖:安徽师范大学数学与统计学院,2017.
[4] 郭倩蓉,张敏锋.我国一二三线城市房价与地价关系的实证研究[J].闽南师范大学学报:自然科学版,2017,(2):109-114.
[5] 郑永坤,刘春.基于ARIMA模型的二手房价格预测[J].计算机与现代化,2018,0(4):122-126.
[6] 董倩,孙娜娜,李伟.基于网络搜索数据的房地产价格预测[J].统计研究,2014,31(10):81-87.
[7] 陈怀东.基于COPULA及LPPL模型对北京二手房及租赁价格的研究[J].中国经贸导刊,2017,(8):46-51.
[8] 刘越. 天津市二手房销售价格指数走势分析及预测[D].天津:天津商业大学理学院,2017.