基于网络搜索数据的山西省网络通货膨胀指数构建
2020-10-14曹亚芳
●曹亚芳
一、网络搜索数据和经济预测
国内外研究表明网络搜索数据与社会经济行为存在较强的相关性。网络搜索数据可以准确地反映真实经济情况。用户在关注某一经济现象,或在进行某一经济行为前,会针对性地在搜索引擎上进行搜索,以了解关注点的各方面信息。这种自发的搜索行为,对应着即时、准确的需求,而搜索痕迹则以一些网络搜索关键词的形式表现出来。每个人在搜索相应关键词的同时,反映出关键词背后的经济学发展态势。关键词的搜索量即是我们所要使用的网络搜索数据。
使用搜索引擎记录的关键词进行预测具有预测精度较高、数据获取及时、样本统计意义明显等优势。然而作为非结构数据,搜索数据存在维度较大、信息噪音大等缺点。关键词之间也存在较强的共线性,直接利用搜索数据做分析存在数据处理和模型选取上的复杂性,效果也不理想,因此需要对数据进行合成并构建指数。通过大数据技术,利用网络搜索数据,构建宏观经济大数据指数进行分析和预测,有效提高宏观经济预测预警的效果。
同理,通货膨胀的信息会通过利率调整、消费品价格上涨等现象,以及报纸、广播电视、互联网等媒介渠道传播。关于通货膨胀信息搜索反映了主体对通货膨胀的预期。在预期较高时,市场主体对通货膨胀的信息需求也就越旺盛,搜索动机也就越强烈。因此,通货膨胀的关键词搜索频率可作为度量通货膨胀预期的直接指标。
二、基于百度搜索指数提取数据
鉴于网络搜索指数的特性以及指数的成熟性,本文将以百度指数来衡量网络搜索行为。百度指数是以用户搜索量和媒体检索量作为基础数据,以关键词为统计对象,同时通过防作弊等算法的过滤,分析计算出各个关键词在百度网页搜索频次的加权和,经过标准化处理,形成的以每日为频率的指数。百度指数与搜索人数及次数高度相关。
基于百度指数,通过搜索引擎相关词条,根据目标指数的影响因素及构成从宏观形势、微观供求等方面选取初始关键词,利用百度需求图谱推荐等关键词搜索功能,精确选择与初始关键词相关的词。对这些关键词进一步搜索整理,筛选出重复的、不相关的、无意义的关键词。确定时间范围、采集区域、采集设备,采集这些关键词的搜索指数。百度搜索指数均为日度数据,需要根据实际月份对数据进行预处理,将数据合并为月数据,利用三项移动平均法进行平滑,消除季节影响。根据目标指数的数据类型对搜索数据进行转化。
此时,获取的关键词极为庞杂,需要选用合适有效的方法对其进行挑选。计算获得的关键词的搜索数据与目标指数的皮尔逊相关系数,或进行时差相关分析、K-L 信息量计算、峰谷对应等方法进行相关性分析,选取相关系数大于0.3 的关键词作为核心关键词。
本文拟采用主成分分析法对指数进行构建。核心关键词不可避免地存在相关性,其搜索数据庞大且存在共线性。主成分分析法可以对数据进行降维合成,将相关性很高的变量转化为相互独立或不相关的变量,并用少数几个变量来解释数据中的大部分变异。
三、网络通货膨胀指数构建
(一)选取核心网络关键词
首先,根据通货膨胀的经济含义及影响因素选取反映经济的初始关键词。通货膨胀是指经济中的大多数商品和劳务的价格在一段时间内连续普遍上涨,我们选取如“货币,财政收入、利息,农产品价格,蔬菜”等关键词。在百度指数中输入相应的初始关键词,点击需求图谱,根据相关性的强弱,得到CPI,财政赤字,货币贬值、通货紧缩,存款准备金率,金融危机,物价上涨、大蒜等关键词共计100 个。
其次,对初始关键词进行搜索及整理,删除重复的、数据获得困难的、无意义的关键词。经筛选,剩余关键词30 个。以2015年1 月至2019 年12 月为时间维度,获取30 个关键词的山西地区百度搜索日数据,并按照月份整理为月数据,利用三项移动平均对数据进行平滑消除其周期性影响,再将数据进行同比转化。转化后,时间维度缩小为48 个月度。
计算各关键词与山西省居民消费价格指数的皮尔逊相关系数。该系数可反映二者之间相关关系的密切程度,其绝对值越接近1,表示线性关系越强。经计算,最终选取相关系数大于0.3 的先行关键词共9 个(见表1)。
表1 核心关键词相关系数表
图1 居民消费价格指数
图2 美国经济
从图1、图2 可以看出居民消费价格指数和美国经济的搜索数据的走势关系。
(二)基于主成分分析法合成网络通货膨胀指数
表2 解释的总方差
表3 成分矩阵a
表4 成分得分系数矩阵
主成分分析法可以实现降维的作用,将多指标转化为少数几个合成指标。该方法可以消除网络搜索数据间存在的共线性问题,剔除变量的多元共线性影响。利用SPSS 软件,得到各因子的贡献率、累计贡献、成分矩阵和得分矩阵,选取特征值大于1的成分为主成分。如表2 所示。
以各主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重,计算主成分综合模型,如下式。根据得分矩阵获得各主成分和综合主成分值,得到网络通货膨胀指数F。
F=0.56F1+0.28F2+0.16F3
(三)网络通货膨胀指数检验
将居民消费价格指数(Ct)和网络通货膨胀指数(Ft)取对数,分别为LnCt和LnFt,检验平稳性。经单位根检验,两序列均不平稳,差分后的ADF 检验结果平稳,说明两序列均为一阶单整序列,结果见表5。
表5 单位根检验结果
用协整关系检验法检验二者之间是否存在长期稳定的关系,建立一阶自回归时间序列模型:
lnCt=c+αlnFt+μt
回归系数等均通过检验。取得残差序列,经单位根检验,残差序列平稳。
从结果来看,说明二者存在协整关系。建立差分模型dlnFt前一期与dlnCt 当期回归结果良好,说明网络通货膨胀指数对通货膨胀有预警作用。