北京CPI网络搜索指数合成研究
2019-08-29付丽丽
付丽丽
【摘 要】本文是研究网络搜索数据与北京CPI的关系及预测能力的先导步骤,利用与CPI相关的关键词在百度指数网站获取的搜索数据,探究采用因子分析法进行网络搜索指数的合成,最后给出了北京CPI网络搜索指数的合成公式。
【关键词】网络搜索指数;指数合成;CPI
中图分类号: F224;F49文献标识码: A文章编号: 2095-2457(2019)19-0078-002
DOI:10.19694/j.cnki.issn2095-2457.2019.19.036
1 问题提出
居民消费价格指数(Consumer Price Index,CPI)是反映宏观经济形势特别是通货膨胀程度的一个重要指标,它体现了居民的生活成本高低。北京市统计局通过人工方式在全市固定地点通过手持数据采集器定时调查商品价格,每个月发布一次CPI数据。随着大数据日益受到重视,一些学者已经开始运用网络搜索数据来研究失业率(Ettredge et al.,2005)[1]、CPI(孟婷婷、2017)[2]等从宏观经济现象,对互联网用户利用关键词在网络进行搜索而产生的沉淀在搜索引擎等网站上的大数据对经济现象进行预测。
网络搜索数据能否成功预测经济现象,关键在于关键词的选择以及随后的搜索指数合成方法。关键词的产生有两种方式:一种是互联网用户根据自己的学识、需求、认知而主动思考出来的,一种是网站根据用户的搜索行为主动推荐的。与CPI相关的关键词的选择就是选取与实际CPI指数走势相关且趋向一致的那些关键词的搜索数据。关键词选择好后不能直接利用关键词在网站上的搜索数据来建立预测模型,这是因为,相关的关键词的数量较多,关键词之间有共线性,如果仅仅用各个关键词的搜索数据直接构建模型,模型会比较复杂,各变量间的共线性问题会使模型达不到理想的效果,因此需要进行关键词搜索数据(网络搜索指数)的合成。本文正是基于这一目的,以百度的关键词搜索指数为样本来探索用因子分析的方法进行关键词搜索指数的合成,为后续构建预测模型打下基础。
2 文献综述
从查阅的文献来看,网络搜索指数的文献多散见于各种研究网络搜索指数与经济及社会现象的文献里,作为模型构建前数据处理的一种方式,只有极个别的文献研究了网络搜索指数的方法。彭赓等(2013)采用谷歌趋势推荐关键词的功能进行了四层推荐选取关键词,之后采用逐步回归法进行搜索指数的合成[3]。崔东佳(2014)通过百度搜索引擎搜索与奇瑞、大众及宝马三个品牌汽车相关的关键词,通过采用综合赋权、错位逐步合成方法对三个品牌相关的关键词得到的搜索量计算相应的网络搜索指数[4]。孙毅等(2014)认为现有的网络搜索指数的方法主要有直接合成法、相关性合成法、时差相关合成法[5]。殷三杰(2018)运用文本挖掘方法及时差相关分析法筛选关键词,接着使用逐步回归分析、Adaptive-Lasso算法、主成分分析三种降维方法进行比较,用于选择变量[6]。
从以往的文献可以看出,网络搜索的指数有不同的合成方法。因子分析是针对变量间有相关性且变量数量比较多的情况下的一种降维方法,它能够从众多的原有变量中综合出少数具有代表性的因子,因此本文尝试用这种方法进行网络搜索指数的合成。
3 数据的采集和预处理
本文的样本数据来自于百度指数平台上的数据,选取“CPI”为初始关键词,利用百度CPI需求图谱推荐的20个关键词,筛选出重复的、不相关的、无意义的关键词,保留了四个关键词,进行第二层选取,依此类推到第四层,共得到151个关键词。之后,采集这些关键词的搜索指数,时间范围是2013年1月至2018年12月共72个月的月度数据,采集区域的选项是北京,采集设备的选项是PC端。北京CPI数据来自于国家统计局的同比月度数据。
用以上151个关键词在百度指数平台上获取的搜索数据,与实际的CPI值进行皮尔逊(Pearson)相关系数的计算,选取了相关系数大于0.4的关键词共计18个。
4 因子分析
4.1 前提条件检验
因子分析要求原有的变量之间应该具有较强的相关关系,利用KMO检验和巴特利特球体检验来判断原始变量是否适合做因子分析。
运行软件所得检验结果如表1所示。
根据检验结果,数据的KMO检验值为0.678>0.6,Bartlett球体检验相应的概率值接近0.000,小于显著性水平0.05,表明数据适合作因子分析。
4.2 因子提取
本文选取特征值大于1的因子,并且根据公共因子在变量总方差中所占的累计百分数来选取因子。根据因子提取和因子旋转结果,前四个因子的特征值分别为6.839、4.280、2.205、1.032,各因子的贡献率分别为37.995%、23.777%、12.251%、5.732%,能够解释原有18个变量总方差的79.755%。据此,本文将提取4个公共因子。
按照方差極大法对因子载荷矩阵旋转后得到结果如表2所示。
从表2可以看出,第1个因子在物价上涨、CPI是什么、物价、CPI、外汇牌价表、中国投资、存款这七个变量上有较高的载荷。加息、央行、央行加息、存款利率、通胀、通货膨胀这六个变量在第2个因子的载荷较高。准备金、物价指数、美元汇率在第三个因子上的载荷较高。中国股市、基金在第四个因子的载荷较高。
通过因子得分的协方差矩阵,可以看出,4个因子完全是正交的、没有线性相关性。这说明提取的四个因子能够解释原有18个变量所包含的信息。
4.3 网络搜索指数合成计算
按照这四个因子分别占四个因子累计方差贡献率的比值来计算四个因子的系数即权重。由此得出北京CPI的网络搜索综合指数的计算公式为:
F=0.48F1+0.3F2+0.15F3+0.07F4
5 结论
本文基于CPI相关的关键词的百度网络搜索数据,利用因子分析法探索了网络搜索指数合成的方法,并给出了样本数据的北京CPI网络搜索综合指数的计算公式。这其中的难点就在于如何筛选出能够反映所要预测某一现象的关键词,这是采用任何网络搜索指数合成方法的前提。
【参考文献】
[1]MICHAEL E, JOHN G,GILBERT K. Using web-based search data to predict macroeconomic statistics[J]. Communications of the ACM,2005,48(11):87-92.
[2]孟婷婷.我国CPI波动及外部影响因素研究[D].首都经济贸易大学,2017.
[3]彭赓,苏亚军,李娜.失业率预测研究——基于网络搜索数据及改进的逐步回归模型[J].现代管理科学,2013(12):40-43.
[4]崔东佳.大数据时代背景下的品牌汽车销量预测的实证研究[D].河南大学硕士学位论文,2014.
[5]孙毅,戴维,董纪昌,吕本富.基于主成分分析的网络搜索数据合成方法研究[J].数学的实践与认识,2014,44(21).
[6]殷三杰.加入网络搜索数据的居民消费价格指数预测[D].西北师范大学,2018.