基于搜索关键词关注度的商品房价格指数预测
2016-01-05白丽娟闫相斌金家华哈尔滨工业大学管理学院黑龙江哈尔滨150001
白丽娟,闫相斌,金家华(哈尔滨工业大学管理学院,黑龙江哈尔滨150001)
基于搜索关键词关注度的商品房价格指数预测
白丽娟,闫相斌,金家华
(哈尔滨工业大学管理学院,黑龙江哈尔滨150001)
摘要:房地产作为国民经济的支柱产业,其价格预测受到学者的广泛关注。现有的预测研究,其数据存在严重的滞后性,影响预测的有效性。互联网搜索引擎关键词在表征用户信息需求、行为趋势等方面的能力日益显著,为分析用户消费信息需求、消费行为趋势等提供了较高质量的实时数据。本文在对搜索行为和商品房价格决定机制的理论分析基础上,论证了将关键词关注度指数加入回归预测模型的合理性,并使用Google Trend关键词数据进行了实证研究,结果显示这一改进可以提高对商品房价格指数的预测能力,降低预测误差。
关键词:搜索引擎;关键词;商品房价格指数;房价预测;搜索行为 种类繁多,为了获得与房价相关的、尽可能完整的关键词,根据以上分析将关键词分为经济环境,政府政策和房地产三类,并据此获得搜索关键词。
1 引言
近年来,中国房地产业发展迅速,已经成为国民经济的重要支柱之一[1]。最近几年中国大陆房价的持续走高,引起了社会各界的广泛关注。为保障房地产市场健康发展,国家采取了多种措施稳定房价,抑制房地产泡沫,如上调存款准备金率、推出“新国十条”、“新国八条”和“新国五条”等一系列调控措施。房地产价格是政府和广大民众普遍关注的问题,学术界关于房地产价格预测的研究,对消费者购房决策、房地产投资者投资决策、政府制定房地产相关政策以及完善房价预测理论都具有重要意义。
关于房价预测,现有的国内外研究大多着眼于预测模型的改进,且使用的数据通常是调研数据或政府部门和商业组织的统计报告。Anglin[2]使用滞后三期的平均房价增长率以及CPI、住房抵押贷款利率和失业率建立VAR模型预测多伦多房价变动情况。Wang和Tian[3]采用小波神经网络对上海房屋价格指数的月度数据进行预测。李东月[4]比较了灰色-马尔科夫模型和n次多项式模型对房价预测结果,发现五次多项式模型比灰色-马尔柯夫模型的预测精度要高。闫妍[5]以TEI@ I方法论为指导,使用粗糙集理论、回归模型、灰色模型和小波神经网络预测季度房价和校正误差,得到“国八条”对房地产投资和房价上涨均有显著的抑制作用。上述研究采用的数据均存在严重的滞后性,制约了房价预测的有效性和准确性。
互联网正成为全球最大的信息源,其应用普及使用户可以方便地获取所需信息。高效的信息检索功能使搜索引擎成为网民获取互联网信息的重要入口。搜索行为是用户为满足一定的需求而进行的信息查询活动,由用户自身信息需求和外部环境(如经济、政治、文化环境等)触发,对搜索结果的消化和吸收会影响用户的心理和决策行为。用户信息搜索行为的群体表现在一定程度上体现了用户心理形态和外部环境的变化,与实际经济行为具有较强的相关性[6],为经济预测提供了新的信息资源。用户通过互联网搜集信息完善购买决策,特别是对于需要高投入的产品,如房屋等[7]。根据美国房地产经纪人协会2012年公布的数据表明,在2012年90%的购房者通过互联网搜索房屋信息[8]。将网络搜索关键词用于预测的研究最早开始于流感监测[9],现主要用于房价及失业率预测。Wu和Eric[7]利用网络搜索数据研究美国房市情况,发现房地产搜索关键词关注度与商品房销售和商品房价格指数之间存在相关关系,Kulkarni等[10]进一步证实了网络关键词搜索与房价指数之间存在Granger因果关系。Askitas 和Zimmermann[11]使用特定搜索关键词对失业率进行预测,结果表明基于搜索关键词数据的预测具有较好的实时性和准确性。Amuri和Marcucci[12]使用关键词对美国失业率进行预测,发现使用网络搜索关键词数据的简单线性模型预测效果优于非线性模型和专家预测。
现有研究中,学者已将网络搜索关键词用在流行病监测、房价预测、失业预测等问题上,其有效性得到了证实,但仍存在一些局限,如缺少理论基础分析、关键词及数据处理模型的选择方法等。另外,这些研究多是针对国外市场进行的,该方法是否对中国情境下的研究问题有效尚无确定的结论。本文从理论上系统地分析搜索关键词关注度预测房价的原理,构建基于搜索关键词关注度的商品房价格预测模型,并使用国家统计局公布的商品房价格指数( HPI)和Google Trend提供的关键词搜索数据进行实证研究。实证结果表明,关键词关注度能够帮助预测房价,提高房价预测精度和及时性。
2 研究方法
2.1基于关键词的搜索行为
搜索引擎是使用者获取来自互联网的信息的主要工具,数以亿计的用户依赖于搜索引擎满足其信息查询需求。搜索行为是指用户为获取所需信息,在与网络互动过程中所采取的一系列身体活动和心理活动,受主体与环境因素的影响和制约。影响搜索行为的主体因素主要有需求(动机)、个性特征(性别、性格)、知识和经验、年龄等,环境因素则包括经济、政治、文化等因素。信息搜索行为是信息需求和环境因素驱动下的一种行为过程,后续动作是检查搜索结果,最终结果是对信息的理解和吸收,并接受新信息对行为的影响。
主体因素和环境因素难以量化。搜索引擎日志记录搜索行为,形成大规模实时性的关键词信息,并很容易被获取。关键词是用户搜索信息时表达某种明确概念的词,是用户对信息需求和搜索动机的归纳总结,是搜索行为的集中体现,反映了主体和环境的变化,可以作为其测量指标。
2.2环境因素对商品房价格影响:基于供求关系
市场是某种物品或劳务的买者和卖者组成的一个群体,对一种产品而言,买者决定了需求,而卖者决定了供给。供给和需求是使市场经济运行的力量,供求理论表明,需求量与价格正相关性,供给量与价格负相关。这一定律同样也适用于中国的商品房市场。研究表明,外部环境的变化会引起市场中供给和需求的变化,并会对商品房价格产生影响[13],经济环境[14]和政府政策[15]是影响房价的主要因素。
( 1)经济环境
房地产的发展取决于地区或国家的经济背景,反过来又影响该地区的经济,它与宏观经济的环境相互促进、相互制约[16]。
A.经济增长。随着房地产业在国民经济中的地位不断提高,房地产周期与经济周期之间的互动性越来越明显。从理论上分析,经济增长形势越好,房价上涨的可能越大。
B.汇率。研究表明,人民币汇率升值与房地产价格高涨呈现一种共存态势。汇率升值引起外向型企业的国际竞争力走弱,出口部门需要收缩,而其它部门扩张,在经济结构的调整过程中失业现象或者工资降低在所难免,地价相对于工资将上涨,将会推动房地产价格的上升[17]。
C.利率。低利率会引起商品房的需求增加,从而提高商品房价格。
D.通货膨胀。房产是较好的保值抗通胀产品,通货膨胀预期增加时,房产需求增加,推动商品房价格上涨[18]。
( 2)政府政策
近年来,为了抑制楼市的不正常发展,使之进入良性循环,政府对房地产的调控力度加大。政府政策成为商品房价格指数的重要影响因素。
A.货币政策。货币政策对住宅价格的影响主要通过开发投资、住宅抵押贷款和消费者预期来实现,房地产业是资金密集型产业,其供给和需求均离不开金融的支持,因此房地产价格高低与货币政策的松紧程度密切相关[19]。
B.财政政策。财政政策通过财政支出与税收政策来调节总需求,财政收入可以调整房产的需求结构或者供给结构。税收的增加提高房产的成本,抑制房地产市场的需求;税收和补贴[20]等财政政策改变房地产开发商开发房产的成本,从而影响供给。
C.土地政策。土地政策影响地价,而地价对房价有重要影响,地价成本提高推动高房价,地价升高影响需求预期拉高房价[15]。
D.房地产政策。房地产的行业政策如限购令等也起到宏观调控作用,通过影响人们对商品房价格的预期来引起价格变动。
2.3基于搜索关键词关注度的商品房价格预测
上文介绍了影响房价的环境因素,除此之外,主体因素对房价也有影响作用,本文用房地产来表示主体因素,搜索引擎用户对房地产的关注度是房地产的观测指标。买卖双方通过关注房地产表达房屋购买需求和供给量,这种潜在的供需量变化将引起供求关系的改变,从而带动房价变化。
本文假设关键词和房价之间存在相关关系,搜索关键词可以帮助进行房价预测。研究目的在于通过理论分析和实证研究确认假设的成立。在本文研究中,主体因素是指用户关注房地产相关信息的直接体现,可以分为房地产市场和房地产论坛。环境因素是指除了主体因素以外的外部因素,主要包括经济环境和政府政策。用户在主体因素和环境因素的影响下形成目标需求,进而产生网络搜索行为,并以关键词的形式记录在搜索引擎上。所以关键词可以反应主体因素和环境因素的变化。同时,主体因素和环境因素又通过影响供求关系引起房价波动。因此,包含房地产预测相关信息的关键词是预测房价的数量指标。根据图1基于搜索关键词关注度的商品房价格预测理论模型可以看出,用户出于某种目标的信息需求受到主体因素和环境因素的影响会形成搜索行为,并以关键词的形式被记录,即关键词体现了环境因素和主体因素的变化。环境因素和主体因素通过供求关系可以影响房价,因此关键词在某种程度上可以作为量化指标表示环境因素和主体因素变化,也可以作为数量指标辅助预测房价。环境因素和主体因素作为经济政策、政府政策以及房地产市场相关影响因素都是客观存在的,针对房地产不同时期,这些因素随着国家采取的相关政策会发生变化,但该因素对消费者搜索行为以及房地产市场供求关系的影响客观存在,所以在不同房地产时期搜索关键词都包含了环境因素和主体因素的衡量指标信息,这些信息可以影响房地产价格,所以搜索关键词包含了能够预测房地产价格的相关信息。
图1 基于搜索关键词关注度的商品房价格预测理论模型
3 实证分析
本文利用搜索关键词数据对房价指数进行预测。房价指数用国家统计局公布的商品房价格指数( HPI)来衡量,时间跨度为2005年7月至2012 年12月。搜索行为的观察数据是基于主体因素和环境因素进行搜索行为时形成的关键词搜索数量,数据来自Google Trend。
3.1初始搜索关键词集合
( 1)选择基准关键词,令基准关键词集合为初始关键词。从房价影响因素的分析可以看出,房价主要受经济环境、政府政策和房地产的影响,以三种因素为基础,进行基准关键词选择,形成的关键词集合如表1所示。
表1 基准关键词集合
( 2)在Google Trend搜索框中非重复输入表1中的关键词,根据Google Trend推荐工具,选择与输入关键词相关的词,作为候选关键词,形成初始关键词集合。当候选关键词不属于初始集合,加到初始集合并重复该步骤,否则结束关键词获取步骤,构建初始关键词结束。
3.2数据收集及预处理
由3.1的方法选中的关键词数量比较多,关键词指数数据庞杂,在模型拟合之前对数据进行筛选、合成等预处理,具体操作的步骤为:
( 1)通过Google Trend获取初始关键词集合中所有关键词的搜索数据,并对关键词关注度取算术平均值,周期为月。
( 2)检验相关性。计算关键词的搜索数据与HPI的Pearson相关系数,保留满足双侧0.05水平上显著的关键词,形成最终关键词集合。
( 3)合成关键词关注度指数,对最终关键词,按照所属类别,以HPI与关键词数据的Pearson相关系数为权重进行加权平均,得到各类别的合成关键词关注度指数。
经过上述过程的筛选,得到最终关键词集合,用表2表示。筛选的过程中,关键词数据和HPI的Pearson相关系数的计算证实了关键词与房价之间存在相关关系,文章的假设是成立的。
表2 最终关键词集合
3.3模型与预测结果
实证研究中选择HPI作为因变量,考虑到当前的HPI是在已有的HPI的基础上变动的,在分析过程中应当衡量HPI与历史数据的相关性。分析发现HPI与前一期数据相关性最高,之后依次递减。为了确认作为自变量的HPI,分别建立包含不同时期历史数据的回归模型,发现以HPIt-1、HPIt-2、HPIt-3为自变量时模型的调整R2最高,即拟合效果最好,但HPIt-3系数不显著,即模型不合理。因此我们选择HPIt-1、HPIt-2作为自变量建立基于HPI历史数据的回归模型( 1)。为方便模型的书写,在此约定模型中的符号含义:
H为HPI(商品房价格指数) ; E为合成的经济环境关注度指数; P为合成的政府政策关注度指数; RE为合成的房地产关注度指数; t为t时期; ε为随机误差。
模型( 1)可以表示为
考虑到在线关注的时效性,对关注度指数的选择至多到t-2时期。在模型( 1)的基础上,分别加入不同时期的关键词关注度指数及其组合,可以得到模型( 2)~( 7)。
仅用一组关键词关注度数据
用两组关键词关注度数据
用三组关键词关注度数据
使用HPI和Google Trend关键词数据合成的关键词关注度指数对模型( 1)~( 7)进行估计,并用平方和误差( SSE)和平均平方误差( MSE)来评价模型的预测效果。估计结果和模型预测误差用表3表示。
根据表3模型估计结果表明,房地产相关的关键词关注度指数与HPI之间存在显著的相关性,关键词关注度指数可以帮助提高HPI预测水平,本文的假设得到证实。在所有模型中,仅用HPI历史数据时模型的调整R2为0.819,加入关键词关注度指数之后模型的拟合效果得到了很大的提高,其中加入当期关键词关注度指数的模型拟合效果优于不包括当期关键词关注度指数的模型。使用两期关键词关注度指数的模型比仅用一期的模型拟合效果更好一些。拟合效果最好的是使用三期关键词关注度指数的模型( 7)。
表3的预测误差揭示了类似的结果,关键词关注度指数的加入使模型的预测误差减小,预测精度提高。相比只用历史数据的模型( 1),加入一期关键词关注度指数的模型的预测误差降低,其中以加入当期的关键词关注度指数的模型预测误差最低。加入两期关键词关注度指数的模型预测效果更好一些,加入三期关键词关注度指数的模型预测误差最低,预测精度最高。
表3 模型( 1)~( 7)估计结果
从表3中模型( 1)~( 7)的估计系数结果可以看出,前一期的HPI对当期的HPI有显著的正影响,前两期的HPI对当期的HPI有显著的负影响。与当期HPI的相关系数和模型估计的标准化系数都表明,前一期的HPI比前两期的HPI对当期的HPI影响更大,总体上讲,历史HPI数据对当期HPI有显著的正影响。
模型( 2)揭示了同期的关键词关注度指数对HPI的显著的预测效果,其中经济环境( Et)和政府政策( Pt)对HPI是负影响,而房地产( REt)则是正影响。结合前文中的供求关系的描述,可以发现供给者和需求者对外部环境的反应并不是同步的,对HPI的影响程度也不相同。经济环境有利于供给者加大对商品房的投入,商品房供给量增加,从而对HPI形成负的影响。政府限制房价上涨的政策作为市场之外的强制力量,也在一定程度上实现了其目的。需求者对房地产的关注是其购房需求的直接体现,代表需求量的增加,对HPI有正的影响。模型( 3)、( 4)提供了类似的结果,但某些变量开始变得不显著,在模型( 4)中,前两期的关键词关注度指数没有提供任何的显著的预测效果,由此可知,关键词关注度指数对HPI的影响是存在时效性的。模型( 5)、( 6)、( 7)使用了组合的多期关键词关注度指数进行估计,从结果可以看出,虽然更多的变量可以提高拟合效果和预测精度,但也存在大多数变量系数不显著的问题,意味着模型的结果可信度低,应当受到质疑。为了得到更可信和准确的预测模型,我们使用后向选择法( Backward)对模型( 7)中的变量进行筛选,最终得到模型( 8),估计结果如表4所示。
表4 模型( 8)估计结果
模型( 8)的预测误差SSE为3.442,MSE为0.043。对比模型( 7)和( 8),发现模型( 8)的拟合程度更高( 0.862>0.858),预测误差更低,预测精度更好。模型( 8)显示历史HPI、同期经济环境和政府政策、前一期房地产、前两期经济环境对HPI均有显著的影响,可以提供对HPI更准确的预测。如前文所述,同期经济环境和政府政策对HPI的影响仍是负向的,前一期的房地产和前两期的经济环境则提供了正向效应,考虑到需求者对外部环境的反应有时间延迟,我们认为这种效应是可以接受的。为了更直观地表达模型( 8)的预测效果,我们将HPI实际值与预测值进行比较,如图2所示。
模型( 8)的预测的HPI值与HPI实际值基本吻合,预测结果可信,表明关键词关注度指数可以帮助提高HPI预测水平。
4 结论
本文通过对关键词关注度预测房价的机理进行了系统的分析,将搜索引擎关键词关注度指数引入房价预测,构建基于搜索关键词关注度的商品房价格预测模型,并使用Google Trend提供的关键词数据进行实证研究。结果表明,加入关键词关注度数据能够提高模型拟合效果和预测准确性,关键词关注度数据具有实时性,可以提高预测的时效性;同期的经济环境关键词如:个人贷款、工资涨、国民收入、汇率美元、汇率欧元等和同期的政府政策关键词如:二手房税、房产交易税、房产税费、房产政策等对HPI有显著的负影响,这与经济环境造成的房地产投资热潮和政府抑制房价上涨的政策对应。预测前一期的房地产关键词如:按揭、按揭计算、二手房价、房产交易等和前两期的经济环境关键词对商品房价格指数的预测有显著的正影响,这与消费者持续增长的房地产需求有关。当地房地产价格指数与当期经济环境以及政府政策之间的负相关,以及与前一期房地产和前两期经济环境的正相关为政府或相关部门通过经济环境,政府政策以及房地产市场等手段调控房价提供了决策依据。
本文从理论上系统地分析了关键词关注度对房价预测的机理,对消费者搜索关键词与房价相关性进行了验证。验证结果表明,互联网上用户的关于经济环境、政府政策和房地产的关键词搜索行为是其房产交易行为意向的一种表现形式,搜索结果可能会影响到用户的购买或售卖决策,所有用户搜索关键词的累加一定程度上反映了用户对当前房地产市场的关注程度。因此,对于政府政策的制定者来说,关注政策制定前后相关关键词的搜索变化情况,可以为房地产政策的制定、调整提供决策的依据,甚至可以引导用户的需求,从而提升政策制定的科学性和有效性;对于房地产从业人员来说,及时关注相关关键词搜索量变化情况,结合国家制定的房地产调控政策,可以准确预测房地产价格走势,及时调整营销策略,降低企业运营的风险。此外,本文的研究虽然是针对房地产市场进行的,但使用搜索关键词关注度进行预测并不局限于此,房地产市场作为经济社会领域的典型代表,其研究思路在经济社会领域具有普适性。
参考文献:
[1]梁云芳,高铁梅,贺书平.房地产市场与国民经济协调发展的实证分析[J].中国社会科学,2006,(3) :74-84.
[2]Anglin P.Local dynamics and contagion in real estate markets[A].The International Conference on Real Estates and Macro Economy[C].Beijing,2006.19-24.
[3]Wang J,Tian P.Real estate price indices forecast by using wavelet neural work[J].Computer Simulation,2005,22( 7) : 96-98.
[4]李东月.房价预测模型的比较研究[J].工业技术经济,2006,25( 9) :65-67.
[5]闫妍.基于TEI@ I方法论的房价预测方法[J].系统工程理论与实践,2007,27( 7) :1-9.
[6]孙毅,吕本富.网络搜索与经济行为相关性研究综述[J].管理评论,2011,23( 7) :72-77.
[7]Wu L,Eric B.The future of prediction: how google searches foreshadow housing prices and sales[A].International Conference on Information Systems 2009[C].Washington,DC,USA: IEEE Computer Society,2009.1-14.
[8]National Associate of Realtors.Profile of home buyers and sellers[R].Research Paper,USA: National Association of Realtors,2012.3-17.
[9]Johnson H A,Wagner M M,Hogan W R,et al..Analysis of web access logs for surveillance of influenza[J].Study Health Technology Information,2004,107: 1202-1206.
[10]Kulkarni R,Haynesk K,Stough R R,et al..Forecasting housing prices with google econometrics: a demand oriented approach[R].Working Paper,Virginia,USA: George Mason University,2009.2-10.
[11]Askitas N,Zimmermann K F.Google econometrics and unemployment forecasting[J].Applied Economics Quarterly,2009,55( 2) : 107-120.
[12]Amuri F D’,Marcucci J.‘Google it!’Forecasting the US unemployment rate with a Google job search index [R].Working Paper,Colchester,Essex,UK: Institute for Social and Economic Research,2010.1-53.
[13]张煌.房价形成机制与定量分析初探[J].中国房地产:学术版,2012,( 8) :14-19.
[14]黄忠华,杜雪君,吴次芳.房价与宏观经济研究综述[J].中国土地科学,2009,23( 1) :62-67.
[15]梁云芳,高铁梅.中国房地产价格波动区域差异的实证分析[J].经济研究,2007,( 8) :133-142.
[16]王爱俭,沈庆劫.人民币汇率与房地产价格的关联性研究[J].金融研究,2007,( 6) :13-22.
[17]张永胜,左祥.2009年房价上涨因素分析及2010年房价走势预测[J].经济研究导刊,2010,(10) :136-138.
[18]丁晨,屠梅曾.论房价在货币政策传导机制中的作用——基于VECM分析[J].数量经济技术经济研究,2007,24( 11) :106-114.
[19]江涛,刘莉薇.促进房地产业健康发展的货币与财政政策探讨[J].华北金融,2010,( 9) :61-63.
[20]吕萍,张绍基.地价,房价与地方政府[J].中国房地产,2011,( 6) :26-28.
Forecast the Commercial Housing Price Index Based on Search Keywords Attention
BAI Li-juan,YAN Xiang-bin,JIN Jia-hua
( School of Management,Harbin Institute of Technology,Harbin 150001,China)
Abstract:Real estate is a pillar industry of the national economy,of which the price forecast is widely concerned by scholars.The previous studies of housing price prediction have serious lag in data sources,thus the validity of the forecast is restricted.The popularity of the Internet enables the increasingly significant capacity of search engine keywords in the characterization of users’real information needs and behavior trends.This provides real-time data for scholars to analyze consumers’information demand and behavior.In this paper we carry out a systematic theoretical analysis on search behavior and housing price determination mechanism.On this basis,we demonstrate the rationality of adding keywords attention index into the housing price prediction model and conduct an empirical research using Google Trend Keywords data.The results illustrate that the new model can improve the predictive power and accuracy of housing price prediction and reduce the prediction error.
Key words:search engine; keywords; commercial housing price index; housing price forecast; search behavior
收稿日期:2014-10-24
doi:10.11847/fj.34.4.65
文章编号:1003-5192( 2015) 04-0065-06
文献标识码:A
中图分类号:F293.3