基于网络爬虫的洪山区二手房特征价格研究
2018-10-22邓沛能
邓沛能
[摘 要] 住房是城市一切活动不可缺少的基本要素,住房价格则是住房市场资源有效配置的中心环节,研究住房价格的影响因素具有十分重要的意义。目前对武汉地区的研究和直接获取的住房成交资料所含信息较少,难以满足研究的需要。基于此,通过Python网络爬虫技术解决数据获取的难题。在对住房价格影响因素实证研究时,考虑到传统OLS估计结果是有偏的,分别构建空间滞后模型和空间误差模型。最终对武汉洪山区二手房市场的实证研究表明,空间滞后模型拟合效果更好;中南路-武珞路商务中心、徐东商务中心和光谷商务中心对二手房价格有辐射效应,距离越近房价越贵。
[关键词] Python网络爬虫;特征价格模型;住宅特征;空间计量模型
[中图分类号] F293 [文献标识码] A [文章编号] 1009-6043(2018)08-0050-03
一、文獻综述
最早把特征价格理论应用到住宅市场分析的学者是Ridker(1967),分析了空气污染对于住宅价格的影响。随后,Lancaster(1966,1971)、Rosen(1974)分别从消费者理论,市场均衡理论完善了特征价格理论,奠定了特征价格分析方法的理论基础,在研究中研究者都把住宅的属性分解为三类:建筑特征,邻里特征,区位特征;变量的选择虽大致相同,但都结合了研究对象的实际情况选取了具有区域特点的变量。
在19世纪80年代之后,世界各地的学者应用特征价格模型对各地区住宅价格进行了评估。国内相关研究主要集中发达地区,如温海珍(2003)、张鑫(2008)研究杭州西湖区的二手房,王旭育(2006)研究上海的住宅市场,罗洲军(2012)研究西安二手房市场,李志辉(2008)、杨波(2009)研究武汉二手房市场,这些研究都是从构建的特征价格模型中得到各特征属性的隐含价格。随着HPM模型的应用逐渐成熟,一些学者开始研究单一因素对住房价格产生的偏效应。如,王雪、吴连喜(2016)以南昌市地铁一号线对例,研究南昌市地铁一号线对沿线二手房价格的影响。Haizhen Wen等(2017)以杭州为例,定量评估城市义务教育质量对房价的影响。Celine Grislain-Letremy等(2014)以法国三所城市为对象,研究危险的工业设施对于房价的影响。这些研究十分具有现实意义,为特征价格研究开启了新的视角,特征价格模型有了广泛的应用,迈向成熟阶段。
在实证研究过程中,有研究者指出即使考虑了区位特征变量,特征价格模型也会导致有偏的估计结果,这是因为住宅价格是一种空间数据存在空间自相关,住宅区位不同,价格往往差异很大。(温海珍等,2011)传统HPM模型的不足是它忽略了住宅的空间固定性,假定住宅价格在空间分布上具有相互独立性(Anselin,1988);然而空间计量模型却能够反映住房价格数据存在的依赖性、异质性,所以许多学者开始考虑用空间计量技术来改善HPM模型,使HPM模型能够更好的应用于房地产价格的研究中。如,施雅娟(2013)研究杭州住宅价格,发现普通住宅特征价格模型忽略了住宅价格及其特征的空间效应,并从空间计量的角度,运用空间Durbin模型(SDM)对城市住宅的特征价格进行研究,揭示了住宅特征价格的空间效应。柳熊赳(2015)对昆明市27个住宅小区2014年的商品房交易数据进行分析,运用了传统的HPM、SEM和SLM模型进行对比分析,实证结果表明昆明市住宅小区的商品房价格存在空间相关性,这些研究都表明住宅价格确实是一种空间数据,运用空间计量模型更好。
二、特征价格模型的建立
(一)传统特征价格模型
特征价格模型(Hedonic Price Model)表明,住房是一种复合商品,住房价值取决于其各种属性的价值。消费者购买住房是为了获得住房的各种属性,从而实现效用最大化。它将住房属性分成三个方面的特征:建筑特征、区位特征以及邻里特征。住宅的价值是由其特征属性的价值决定的P=f(z1,z2,z3)——其中,分别表示建筑特征、区位特征和邻里特征。
(二)特征变量选取及量化
参考国内外研究人员对住房特征价格的研究成果,并结合本地区的实际情况,共选择了13个特征变量。其中有6个定性变量,楼层(底层、中层、高层),装修程度(毛坯、简装修、中装修、精装修、豪华装修),生活配套、文体配套、地铁站、公交站。对这些定性变量的基础数据需要进行量化。
(三)基于空间计量的特征价格模型
建立多元线性模型运用OLS方法估计就可以从回归系数中得到特征属性的偏效应。现有研究表明对数模型的拟合效果更好,对连续变量均取对数。但是,由于住宅在空间上具有固定性,故其价格是一种空间数据,表现出空间自相关和空间异质性(Anselin),空间自相关指的是住宅价格的邻里效应,是不同地理空间上同一属性的观测值之间的相互关联;而空间异质性指的是住宅价格数据的结构效应,是不同空间位置的住宅价格存在系统性差异,导致误差项具有异方差。
模型一和模型二分别是空间滞后模型和空间误差模型,空间滞后模型相对于基础模型加入了空间滞后项,为空间相关系数,表示相邻区域之间的相关性;空间误差模型则主要假定误差项之间存在空间自相关。其中是空间权重矩阵,权重矩阵的构造方法有0-1空间权重矩阵、K-最近点权重矩阵、阈值权重矩阵等(王红亮,蔡之兵,梁洪运)。考虑到容易通过距离判断各样本之间是否相邻,选择基于样本地理距离的阈值权重矩阵:同一小区的住房之间的距离记为0;当样本之间的距离小于时,则认为相邻记为1,否则为0。在经过多次测算之后,取阈值为700m。
三、实证分析
(一)数据来源
现有住房价格研究中,数据难以获取的两个原因:一是住房成交价格属于中介及开发商的商业秘密;二是从政府部门得到的成交资料所包含的信息不足。这对相关研究的深入产生了障碍。已有研究表明挂盘价格和实际成交价格存在比较稳定的关系(温海珍,2004;李志辉,2008)。
与此同时,随着互联网的发展,越来越多的信息可以从网络上获得。如果能利用各大房地产家居网络平台发布的挂牌信息,从中获取数据,住房价格研究中的数据难题就能够解决。鉴于此,把Python爬虫技术用于数据获取、把百度地图WebAPI服务用于获取样本经纬度坐标、把Pandas数据分析技术用于各类数据整合和计算,从而形成将计算机技术与地理学、经济学相结合的跨学科解决方案(见下图)。基于本研究侧重于方法论,所以只以武汉洪山区的二手房数据为例进行实证分析。虽然挂牌价格与最终的成交价格存在区别,但同时具有比较稳定的关系,做近似处理用挂盘价格代替成交价格。
原始数据经过数据的清理、量化、合并均在Python中实现,最后在剔除异常值后筛选出1510个二手房样本的实证数据,各变量的描述统计见表1。
(二)基于空间计量的特征价格模型分析结果
對于空间计量的估计方法有最大似然法、准最大似然法、工具变量法等,用PaulElhorst编写的程序在Matlab软件中进行估计,估计结果及相关检验见表2。
在空间效应检验中(见表2),MoransI为0.1126,并且在1%的水平是显著的,说明住房价格之间存在显著的空间效应,检验通过可以建立空间计量模型(温海珍,2011)。住宅的空间分布并不是完全随机的,表现出一定的空间相关性。LM-Error、LM-Lag统计量分别是247.725,109.711,都在1%的水平显著,与MoransI检验结果相一致,说明确实存在空间效应,传统模型由于没有考虑空间相关,结果是有偏的。
基本模型的拟合优度为91.08%,回归方程能够解释91.08%的房价的变动。楼层、文体配套、自然环境、到中南路-武珞路商业中心的距离这4个变量在10%的显著性水平下不显著;教育配套、公交站个数的符号与预期相反;其余变量均与预期符号一致。对比空间计量模型,空间计量模型的Log_L值(对数似然函数)更大,AIC和BIC值更小,空间模型比基本模型更优,拟合效果更好。并且,SLM模型的Log_L值更大,AIC、BIC值更小,LR值更加显著,所以SLM模型更加适宜。针对SLM模型可以得出以下结果:
1.洪山区住房价格之间不仅存在着较强的邻里效应,也存在一定的空间异质性。SLM模型ρ=0.9257且在1%的水平上显著,表明住宅价格在一定空间距离之内存在很强的空间依赖性。
2.在显著的变量中,对房价影响最大的特征变量是:建筑面积、离CBD的距离。除了公交车站个数的系数是-0.0096之外,其余变量符号都与预期一致。这种现象在以前有关的研究中也有出现(Wen,2017),其原因可能是:随着公交线路的增加可能会对周边小区产生负的效应,比如噪音污染和环境污染。很多人更喜欢驾驶私家车出行,对公交的依赖度低。离CBD距离的3个变量对二手房价格的影响是不同的,共同的特点是它们的符号都是负的,表明在其他条件不变的情况下,离CBD越近,住房的价格就越贵。
3.在10%水平下都不显著的变量有:绿化率、教育配套、自然环境、到中南路—武珞路CBD距离。分析造成这一结果的原因可能是:洪山区住宅小区的绿化、教育资源丰富,小区周边大都配有幼儿园、小学和中学,从数据上看绿化率和教育配套得分变化幅度也不大,均值分别是0.3575和2.4755,标准差只有0.0428和0.8304,故也可能数据过于集中导致的不显著。到中南路-武珞路CBD距离对房价影响不显著,是与徐东CBD距离存在相关性,相关系数高达0.9483,存在共线性。
4.对价格弹性分析,对数模型中的连续变量如住房面积,距中南路-武珞路商业中心、徐东商务中心和光谷商务中心的距离,这些变量的系数通过公式转换,得到价格弹性系数。在其他条件不变的情况下,建筑面积每增加1%,二手房总价增加1.07%;楼层每高一个档次,二手房总价减少0.008%;装修每上升一个档次,二手房总价增加0.025%。其他弹性同理可得。
四、结语
在特征价格理论的基础上,通过应用计算机技术、实现了在数据收集上的创新。考虑到住宅价格之间存在着空间自相关和空间异质性,传统的特征价格模型在进行OLS估计虽简单易于实现,但忽略了住宅价格的空间效应,基于这样的矛盾构建空间滞后模型、空间误差模型,使模型更具有解释力度。实证结果表明洪山区二手房价存在空间效应,并且在空间计量模型中SLM模型更适合特征价格分析。
综上所述,得出如下结论:第一,与传统特征价格模型相比,SLM模型能更好解释各因素对住房价格影响。第二,在影响住房价格的7个邻里特征中,并不是所有因素都对房价有显著影响。第三,其他条件不变的情况下,距离CBD越近,住房的价格会越高。
[参考文献]
[1]Waugh F.V. Quality factors influencing vegetable prices[J].Journal of Farm Economics,1928, (10): 185-196.
[2]Court A.T. Hedonic Price Indexes with Automotive Examples[J].In The Dynamics of Automobile Demand,1939.
[3]Ridker R.G.-&-Henning-J.A.The determinants of residential property values with special reference to air pollution[J]. The Review of Economics and Statistics, 1967(49): 246-257.
[4]Rosen S. Hedonic prices and implicit markets: Product differentiation in pure competition[J]. Journal of Political Economy, 1974, 82(1): 35-55.
[5]Lancaster,Kelvin J. Consumer Demand:A New Approach[M]. New York City: Columbia University press, 1971.
[6]Lancaster K.J. A new approach to consumer theory[J]. Jounal of Political Economy,1966(74): 132-157.
[7]温海珍.城市住宅的特征价格:理论分析与实证研究[D].浙江:浙江大学,2004.
[8]张鑫.基于特征价格的二手房价格评估方法研究[D].浙江:浙江大学,2007.
[9]王旭育.基于Hedonic模型的上海住宅特征价格研究[D].上海:同济大学,2006.
[10]罗洲军.多方机制下的西安二手房市场特征价格研究[D].西安:西安建筑科技大学,2012.
[11]李志辉.基于Hedonic模型的武汉住宅特征价格研究[D].武汉:华中农业大学,2008.
[12]杨波.基于Hedonic模型的武汉市住宅二级市场特征价格研究[D].武汉:华中农业大学,2009.
[13]王雪,吴连喜.轨道交通对城市二手房价格的影响——以南昌市地铁一号线为例[J].江西科学,2016(5):722-727.
[14]Haizhen Wen,Yue Xiao,Ling Zhang. School district,education quality,and housing price: Evidence from a natural experiment in Hangzhou, China[J].Cities, 2017(66):72-80.
[15]C.Grislain-Letremy, A.Katossky. The impact of hazardous industrial facilities on housing prices: A comparison of parametric and semiparametric hedonic price models[J].Regional Science and Urban Economics, 2014(49):93-107.
[16]温海珍,张之礼,张凌.基于空间计量模型的住宅价格空间效应实证分析:以杭州市为例[J].系统工程理论与实践,2011(9):1661-1667.
[17]Anselin L.Spatial Econometrics: Methods and models[J].Economic Geography,1988, 65(2):160.
[18]施雅娟.基于空间Durbin模型的城市住宅特征价格研究[D].浙江:浙江大学,2013.
[19]柳雄赳.基于空间计量模型的昆明市住房特征价格研究[D].昆明:云南财经大学,2015.
[20]王红亮,胡伟平,吴驰.空间权重矩阵对空间自相关的影响分析——以湖南省城乡收入差距为例[J].华南师范大学学报(自然科学版),2010(1):110-115.
[21]蔡之兵,周俭初.财政支出结构,空间溢出与经济增长——来自四种空间权重矩阵的证据[C].中国区域经济,2012.
[22]梁洪运,周其龙,孙亚林.空间权重矩阵对空间自相关影响分析[J].科技资讯,2013(9):141-143,181.
[23]黎珍惜,黎家勋.基于经纬度快速计算两点间距离及测量误差[J].测绘与空间地理信息,2013(11):235-237.
[責任编辑:高萌]