APP下载

网络搜索数据与CPI的关系文献回顾

2019-08-01付丽丽

现代营销·信息版 2019年8期

摘  要:近年来,网络搜索数据日益受到重视,它激发了学者们利用网络搜索数据对经济行为的相关性研究。本文着重梳理了国内网络搜索数据与CPI的文献,从数据的来源、网络搜索指数的合成、模型构建方法、研究结论等方面进行了研究,总结了该领域研究的关键点并对统计部门提出了建议。

关键词:文献回顾;网络搜索数据;CPI

基金资助:获得北京教委科研项目《基于网络搜索数据的北京CPI的预测研究》(编号SM201311417008)资助。

一、引言

随着信息技术的快速发展,互联网用户呈逐年递增趋势,人们的多种活动从线下逐渐转移到线上,互联网用户的每一次点击、每一个操作都能够被记录下来,形成依托于互联网的大数据,它反映了人们的行为、态度,一定程度上是现实世界在网络的映射。搜索引擎是互联网早期就存在的且直到现在都必不可少的一种应用形式,用户在搜索引擎网站的搜索框里的每一次关键词或句子的输入行为都被网站所记录下来,形成了基于搜索引擎的网络搜索数据,这种类型的数据被越来越多的学者所重视,较早的有利用网络搜索数据研究失业率、流感的预测,之后的研究扩展到经济领域的诸多现象如汽车销量、游客人数、股票市场价格等。

居民消费价格指数(CPI)反映的是一个国家的物价水平,衡量的是一个国家的通货膨胀程度,学者已经在探索如何利用网络搜索数据构建模型,提前一段时间来预测CPI,有鉴于此,本文旨在梳理国内学者对网络搜索数据与CPI之间的关系,从二者关系的机理、研究领域、研究方法等方面深入分析,以期为数据统计部门能运用大数据的方式准确、提早预测CPI,改变传统的线下大量人工采集数据的方式提供一定的支持。

二、文献基本情况

本文以“网络搜索数据”、“搜索数据”加上“CPI”、“消费者价格指数”为关键词,在中国知网上共搜索到14篇中文论文,这些论文发表的年限主要集中在2012年到2018年,以2017年的论文数量最多,有5篇,占到了1/3,论文的形式有硕士、博士学位论文及期刊论文。这些文献的研究主题多是网络搜索数据对CPI的预测研究、二者的关系研究、关键词的筛选、方法研究等。

三、网络搜索数据对CPI的预测研究

去掉同一作者重复的研究内容或者是不相关的内容,以下对文献按照发表年代进行梳理。

张崇等(2012)应该是国内最早研究网络搜索数据与CPI关系的,他们认为网络搜索数据是研究宏观经济问题的微观数据基础,通过构建网络搜索数据与CPI的概念模型,运用Google Insight2004年1月至2009年8月的搜索数据及中国国家统计局的CPI数据,揭示了网络搜索数据与CPI之间存在的相关关系及先行滞后关系,构建的模型能够提前一个月预测CPI,并且对CPI转折点有一定的预测能力。

孙毅(2014)的研究并不是主要针对CPI的,而是寻求构建一种比较有效的网络搜索指数合成方法,它以消费者物价指数为例,比较逐步回归法和主成分分析法在构建搜索指数合成方面哪个更能预测CPI的走势,结果表明主成分分析法是一种比较好的方法。

王睿(2015)根据互联网用户关注的重点所对应的网络搜索行为,把经济形势指数、国家政策指数和居民消费指数三类百度搜索数据进行合成,建立搜索数据与总CPI、食品类CPI、服务类CPI的回归模型,实证结果表明居民的不同关注重点及行为与CPI的变化有不同时长的先行性,对不同类型的CPI的影响也是有差异的。该研究在搜索指数合成和CPI的类别上有自己的独特之处。

董倩(2016)以北京的雾霾经济为研究对象,利用网络搜索指数研究雾霾经济与CPI的相关性。文章选取与雾霾经济有关的关键词,经过多次筛选找出四个关键词,并选取25个月的四个关键词的百度搜索指数为自变量,把中国国家统计局网站上的CPI数据作为因变量构建预测模型,接着采用3折交叉验证技术,运用支持向量机和线性回归两种方法进行模型拟合,拟合结果表明,支持向量机的方法拟合结果与稳定性都较好。文章最后认为雾霾经济对CPI的影响是间接的。

董莉等(2017)找出93个关键词5年半的百度指数数据,运用Elastic Net惩罚因子的分布滞后模型,构建了CPI实时预测模型,验证了全国、城镇和农村的CPI的实时预测效果,结果表明模型的实时预测效果比较好。

刘宽斌、张涛(2018)认为商品价格变动的信息在不同的媒介平台上的传播,激发了人们对信息不确定性进行验证的心理,而搜索引擎是一个很好的验证工具,人们对信息越不确定,在搜索引擎上进行搜索的行为就越频繁,因此认为网络搜索数据与CPI是有关联的。文章基于价格决定理论,利用不同数据周期长度形成的不同频率的百度指数,运用混频抽样数据模型 (MIDAS),分析比较日网络搜索指数对月度CPI的预测模型,实证结果表明尽管两种数据的频率不同,高频的网络搜索数据能够提前半个月预测CPI并且有较高的预测精度,同时对CPI趋势中“拐点”的捕捉有较高的成功率,该方法主要预测短期CPI趋势及拐点。

殷三杰(2018)的创新之处在于没有单独利用网络搜索数据来预测CPI,而是同时利用政府统计数据和网络搜索数据构建模型来预测CPI。文章首先利用文本挖掘方法及时差相关分析法筛选关键词,接着使用逐步回归分析、Adaptive-Lasso算法、主成分分析三种降维方法进行比较,用于选择变量,之后用训练集和测试集拟合神经网络模型,构建出含有网络搜索数据的经改造的CPI预测模型,该模型能够提升CPI的预测效果。

四、文献讨论

通过对国内的相关研究,本文发现利用网络搜索数据对CPI的研究已经形成了一定的成果,學者们普遍利用百度和谷歌的搜索数据作为数据来源,对网络搜索数据与CPI的关系从理论上进行了一定程度的论述,在关键词的筛选、搜索指数的合成及模型的方法上都有了各种各样的探讨,下面是本文对此类研究关键点的总结。

(一) 合理选用关键词

要准确、提前预测CPI,关键词的筛选非常重要,关键词的筛选可以是利用CPI统计范围内的商品名称或者是宏观、微观等经济形势的词语,随后是对关键词的网络搜索指数与CPI的趋势数据进行相关性分析,以确定关键词和CPI的相关程度。

(二) 构建网络搜索合成指数

关键词筛选完毕后,要考虑用什么样的方法构建网络搜索合成指数,它是构建CPI预测模型时需要明确自变量是什么的一个关键步骤,因为不可能把所有关键词的网络搜索数据不经过加工直接变成自变量,这样的自变量无法共同体现CPI的整体趋势,只能反映一个侧面,会导致模型结构不合理,拟合效果差,因此,有必要构建网络搜索合成指数。目前,主要有三种方法,一是简单加总法,不考虑权重,直接把不同关键词的搜索量进行简单加总构建网络搜索合成指数;二是分类合成法,用不同规则对关键词进行归类,比如按照宏观指标或者微观指标,或者按照关键词搜索数据的时滞性等进行归类合成;三是降维法,利用关键词搜索数据之间的相关性,运用主成分分析、因子分析等方法进行降维,把多个变量降维成几个因子,并根据因子在方差累积贡献率中所占比重計算权重,这种方法可以通过运行软件得到因子的数量和权重的大小,较为客观。

(三)比较不同模型的适用条件,构建预测模型

利用网络搜索数据构建预测模型的方法有很多种,例如支持向量机、时间序列、线性回归等,各种方法的适用条件不一样,模型的稳定性、拟合效果也不一样,因此,平常需要注意积累,总结不同模型的使用界限、拟合效果,以便使用时能够快速选用。

五、建议

(一)树立大数据思维

在大数据时代背景下,数据的产生更多的来自于互联网用户自发自动的行为,而这些行为能够被信息技术完全记录下来,数据已经成为资产,它不仅蕴含着巨大财富,也重构了我们对世界的认识。无论是宏观还是微观领域,机构或者组织都必须树立大数据思维,学会利用网络数据,改变过去传统模式下数据采集、加工、应用的方式。

(二)建立新的CPI统计方法,成为标准的制定者

目前CPI统计方法是国际主流的方法,但这不意味着我们不可以进行大胆尝试。国内外学者们已经做了大量的研究,可以供统计部门借鉴。我国的统计部门可以借此深入下去,利用传统数据融合互联网数据或者纯粹运用互联网数据的方法来重构CPI的统计方法,待该种方法成熟时,向全世界推广,成为该领域标准的制定者。

参考文献:

[1]张崇,吕本富,彭赓,刘颖.网络搜索数据与CPI的相关性研究[J].管理科学学报,2012,15(07).

[2]孙毅,戴维,董纪昌,吕本富.基于主成分分析的网络搜索数据合成方法研究[J].数学的实践与认识,2014,44(21).

[3]王睿.基于搜索引擎的消费者行为对居民消费价格指数的相关分析[J].现代商业,2015(14).

[4]董倩.基于网络搜索数据的雾霾经济与CPI相关性研究[J].调研世界,2016(12).

[5]董莉,彭凯越,唐晓彬.大数据背景下的CPI实时预测研究[J].调研世界,2017(08).

[6]刘宽斌,张涛.利用网络搜索大数据实现对CPI的短期预报及拐点预测——基于混频抽样数据模型的实证研究[J].当代财经,2018(11).

[7]殷三杰.加入网络搜索数据的居民消费价格指数预测[D].西北师范大学,2018.

作者简介:

付丽丽(1975.02-) ,女,河南郑州人,博士,讲师,北京联合大学商务学院,研究方向:互联网经济、企业管理。