基于网络搜索词搜索量的房价预测
2016-07-29刘娜娜李雨洁唐宇邱益聪
刘娜娜+李雨洁+唐宇+邱益聪
摘要:通过分析人们在互联网搜索过程中留下的搜索数据,我们可以获取许多有用的信息,本文基于人们利用互联网搜索词进行房价预测。从确定种子关键词开始,接下来进行种子关键词扩充,进而确定核心关键词,然后利用多元线性回归进行房价预测模型建立,并对比拟合值与实际值。
关键词:大数据;种子关键词;多元线性回归
一、背景
随着互联网的飞速发展,大数据时代已经悄然地进入人们的生活当中,大数据开启了巨大的时代转型,就宏观经济分析而言,大数据时代带来的转变是重大且具有变革意义的。[1]另一方面,房地产市场在大多数国家属于支柱性产业,房地产市场的兴衰或成败决定着国家经济形势的好坏。[2]随着互联网技术的发展,也给房地产行业带来了一定冲击和变革,房地产行业越来越多与互联网相加,据统计,在美国房地产商中,有72%的人利用互联网销售房屋,房地产经纪人中有90%的人经常利用网络与购房者进行交流,互联网已成为美国房地产营销的主要媒体。[3]通过分析消费者利用互联网的搜索痕迹,我们可以得到需求方的相关信息,从而为供给策略提供依据。在房地产行业中,我们就可以利用互联网搜索引擎中广大消费者的与房地产相关的搜索词汇进行商品房的预测。
二、关键词选取
(一)种子关键词的选取
种子关键词是在研究开始时所确定的初始关键词,这些关键词必然与所要研究的问题密切相关。其选取基于以下两个标准:一是要有一定的理论基础作支撑,且该理论基础必须贯穿于种子关键词选取的始终;二是选取的种子关键词必须与所要研究的问题有密切的关系。[4]
据此,我们采用范围取词法,即根据所研究的经济行为的影响因素,确定种子关键词的选取范围,然后在范围内选择合适的关键词作为种子关键词。
房地产的价格受宏观和微观两方面因素共同作用,宏观经济政策及外部环境的变化影响着供求关系,而供求关系决定了商品房的价格。基于宏观层面,选择“房贷利率”作为关键词;基于微观层面,其中又涉及到两个主体,供应方和需求方,针对房地产开发商,选择“成都楼盘”、“成都房地产”作为关键词,针对购房群体,选择“成都搜房网”、“成都房价”、“成都租房”、“成都二手房”作为关键词。
(二)种子关键词的拓展
通常,在进行相关搜索时,人们不仅仅会搜索一次,例如当搜索城市楼盘时,如果对搜索结果不满意,可能还有根据百度搜索推荐进行再次搜索,通过这样多次搜索的过程,来获取满意的结果。因此,对于种子关键词的拓展,主要采用百度搜索推荐的方法,汇总7个初始种子关键词的相关方面,形成关键词集合,如下表1。
(三)核心关键词确定
在确定了一组与所要研究的问题密切相关的关键词后,在后续的研究过程中一些相关关键词将被视为核心关键词,围绕这一核心会派生出更多有价值的关键词,推动后续研究的进行。[4]
我们通过2014-2015年的种子关键词搜索量月度数据与成都市商品房月度价格指数进行相关性分析,以此确定核心关键词如下表2。
通过上表我们可以发现,选择出的核心关键词的搜索量与商品房价格之间利用多元回归的拟合结果与实际值之间误差很小,其平均相对误差值为0.88%。利用该模型,我们在知道2015年12月份几个核心关键词的搜索量之后,预估商品房价格指数,如下表6:
四、结论
“互联网+”时代,我们可以利用互联网上的“大数据”进行房价的预测,本文采用的方法较为简单,预测结果与实际值之间存在一定差异,同时如何使用恰当的方法,使得估计值与实际值之间的误差更小,值得我们不断探索和研究。近几年政府在房地产行业也颁布了相关法律政策,我们也可以利用此种方法预测国家政策对于商品房价的作用。互联网大数据,将会给我们的生产生活带来意想不到的改变。(作者单位:四川大学商学院)
参考文献:
[1]BreimanL,Randomforests[J].MachineLearing,2001(45).
[2]梁云芳,高铁梅,贺书平.房地产市场与国民经济协调发展的实证分析[J].中国社会科学,2006,(3):74-84.
[3]杨树新,董纪昌,李秀婷.基于网络关键词搜索的房地产价格影响因素研究[J].新疆财经大学学报.2013(3):7.
[4]杨洋.基于灰色关联聚类的房屋销售额预测关键词优化研究[D].吉林:吉林大学,2015:14
[5]王惠文,孟洁.多元线性回归的预测建模方法[J],北京航空航天大学学报.2007,33(4):500.
[6]周复恭,黄运成.应用线性回归分析[M].北京:中国人民大学出版社,1989:88-115.
[7]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,2011:8-30.
[8]叶峰,多元线性回归在经济技术产量预测中的应用[J],中外能源,(2):45.