基于网络搜索数据监测的CPI预测*
2023-09-02张志欣张洪瑶
闫 妍, 张志欣, 张洪瑶
(沈阳工业大学 管理学院, 沈阳 110870)
中国互联网中心发布的第45次互联网统计公报显示,截至2021年6月,中国互联网用户已达10.11亿人,比2020年12月新增2 092万人;手机互联网用户达10.02亿人;互联网普及率达99.6%[1-3]。在中国网民数量增加的过程中,网络平台从最初的信息发布平台逐渐演变为集信息发布、搜索、交流于一体的社交网络,成为网络信息产生、传播和发酵的平台。这一开放、自由的信息平台,会对网民的情绪、态度和行为等产生影响[4]。
随着网络搜索引擎的出现,越来越多的网民利用搜索引擎对社会热点问题进行搜索和关注,网络上大面积传播和爆发热点问题,相关话题量激增,从而引发网络舆情。这种网络舆情具有爆发快、传播快和消退快的特点,也有可能因为发生新的社会事件而再次爆发,因此网络舆情和社会环境存在密切的相关关系[5]。这种相关关系已得到国内外学者的验证,并取得了较为丰富的研究成果,其最初应用在流行病检测上。JOHNSON等发现,医学类网站被访问的次数和流感类文章被搜索的次数增加时,总是伴随着流感发病率的上升[6]。近年来,这种相关性也被应用于经济领域,主要研究可分为微观层面、行业(中观)层面和宏观层面[7-8]。
在微观层面上:梁留科等从网络舆情角度调研了雾霾对旅游者偏好的影响,发现以旅游逃离雾霾的观念在旅游者中迅速传播,境内游和境外游的流向均出现了变化[9]。齐丽云等研究发现,企业社会责任的负面事件网络舆情可分为诱发、扩散和消退三个阶段,企业和利益相关者的相互作用是推动舆情发展的原因,在缓解网络舆情时应采取政府调控在先、企业应对在后的方式[10]。
在行业(中观)层面上:FRIJNS等选取多国股票收益数据,发现投资者情绪可以解释投资收益中非基本因素的方差、协方差,表明投资者情绪驱动股票收益率[11]。欧阳资生等研究了嵌入网络舆情指数的金融机构风险传导效应,指出证券类和银行类机构对外部风险十分敏感,容易受到其他金融机构影响;金融机构风险指标和网络舆情协同变化趋势明显[12]。
在宏观层面上:张崇等发现网络搜索数据和CPI之间存在协整关系,预测模型可比官方数据提前一个月,并且具备预测转折点的能力[13]。BARREIRA等使用自回归模型来提高即时预报能力,预测了4个国家的失业率和汽车销售数据,发现在失业率方面GOOGLE趋势数据可以改变3个国家的即时预报能力,网络搜索数量有助于解释汽车销售量差异[14]。
以往研究中,对经济指标的预测属于宏观研究层面,通常是利用历史数据对宏观经济指标进行预测。但宏观经济指标公布的数据量少且存在滞后,这种原始数据的制约,对预测结果准确性存在一定影响[15-17]。基于以上考虑,笔者利用投资类大数据对CPI指数进行预测,在原有宏观、微观经济类搜索指标中增设投资相关指标,以分析网络搜索数据对CPI指数的综合影响。
一、预测方法
在以往的CPI预测文献中,多采用指数平滑法、ARMA模型、ARCH模型,或以神经网络、灰色理论为基础的预测模型[18-21]。上述方法或是利用官方发布数据(具有滞后性)进行预测,或是只能适用于单一通货膨胀或通货紧缩的经济状况。为了更好地对CPI进行预测,笔者采用了百度指数分析方法,通过收集影响CPI的各大类关键词搜索指数,拟合CPI预测模型。
利用百度搜索指数进行预测具有独特的优势:一是百度搜索引擎作为当下最庞大的中文搜索引擎,数据量巨大且有代表性。二是利用网络搜索数据进行预测,能够迅速反映网民关心的话题和热点,很好地避免了官方数据的滞后问题。三是能完整反映出网络搜索数据对宏观经济指标的影响,可供政府作为理论依据引导网络舆情。
二、关键指标选取
目前,关键指标选取主要有两种方法——主观选词法和程序选词法[22]:主观选词法利用已有研究和自身经验,选择网络中出现的与物价相关的词汇,具体包括宏观、微观、金融等方面的关键词;程序选词法利用网络爬虫技术,对海量网页中与物价相关的关键词进行收集,从中筛选出部分有代表性的词汇。目前,这两种选取方法均有学者使用,也各有优缺点[23]:采用主观选词法的学者较多,其工作量小,简单易行,在众多研究中已取得很好的效果;程序选词法应用较少,在用程序收集网页信息时,无法判断关键词在网页内容中的态度定位,丢失了网页的语义功能。权衡上述两种方法,笔者先用主观选词法对关键词进行初选,再用程序选词法进行信息爬取。
1. 关键指标初选
将与物价相关的关键词分为宏观和微观两大类。使用百度指数得到的CPI关键词如图1所示,并可在此基础上进行主观增加。
图1 百度指数中CPI关键词
为避免官方数据的滞后性问题,在关键词中增加了投资类指标。自新冠疫情出现以来,全国经济形势下滑,投资受到抑制,因而投资类指标有助于准确反映后疫情时代中国的经济形势及CPI未来趋势。具体的36个关键指标如表1所示。
表1 各类关键指标
2. 信息爬取
初选完成后,对这些指标在网络上的搜索情况进行爬取,渠道主要有百度指数、360趋势、搜狗指数、谷歌指数、艾瑞指数、腾讯浏览器指数等流量统计平台。由于百度指数的市场份额达60%以上,百度搜索也是目前最大的中文搜索引擎,因此选择百度指数统计平台。百度指数的数据分为PC数据、移动数据、PC+移动数据,其中PC数据从2006年开始统计,移动数据和PC+移动数据从2011年开始统计。在爬取数据时,宏观和微观类指标的选取时段为2018年1月至2021年9月,投资类指标为2020年10月至2021年9月,选择的数据为日度数据。
3. 数据预处理
因36个与CPI相关的指标之间存在重叠,因此要进行降维处理。采用主成分分析法(PCA)进行降维,确定互不相关的综合指标代替这36个具体指标。这些综合类指标是原始指标的线性组合,可以降低研究空间的维数,从而对CPI进行更准确的预测。对投资类初选指标的百度指数进行主成分分析,结果如表2所示。
表2 初选指标百度指数主成分分析
从表2可以看出:第一主成分的特征根为7.659,方差百分比为63.827;第二主成分的特征根为3.377,方差百分比为28.141;这两个主成分的累计贡献率达到91.968%。由于通常提取特征值大于1的成分作为主成分,而第三主成分的特征值小于1,因此提取前两个主成分,成分矩阵如表3所示。
表3 成分矩阵
用成分矩阵数据除以各自特征值的平方根,可得到各初选指标的权重;将权重与初选指标原始值相乘,可得到各主成分的综合得分;以方差贡献率对主成分综合得分进行加权,便可得到投资类综合指数为
IPOCI=0.638IPOI1+0.281IPOI2
(1)
式中,IPOI1和IPOI2分别表示投资类指标的两个主成分。
相关月份投资类综合指数值如表4所示。
表4 投资类综合指数值
同理,宏观类指标提取出5个主成分MaI1,MaI2,MaI3,MaI4,MaI5,宏观类综合指数可表示为
MaCI=0.273MaI1+0.241MaI2+0.196MaI3+
0.187MaI4+0.174MaI5
(2)
微观类指标提取出6个主成分MiI1,MiI2,MiI3,MiI4,MiI5,MiI6,微观类综合指数可表示为
MiCI=0.468MiI1+0.339MiI2+0.211MiI3+
0.104MiI4+0.052MiI5+0.317MiI6
(3)
式(1)~(3)是由36个初选指标提取出的综合指数,这3个指数包含初选指标中的绝大部分信息,大大降低了拟合模型所需的变量数,起到了降维作用。
三、CPI预测分析
1. 平稳性检验
由于本文提取的宏观类、微观类、投资类指标及CPI历史值均为时间序列,为防止出现虚假回归现象,必须对序列进行平稳性检验。通常用单位根检验方法进行平稳性检验,主要有ADF检验、PP检验、KPSS检验、ERS检验等。本文选择Eviews软件进行ADF检验,原假设H0为存在单位根,计算结果如表5所示。
表5 综合指数单位根ADF检验结果
从表5可以看出:CPI和宏观类综合指数P值为0.029 6和0.048 2,均小于0.05,拒绝原假设,说明这两类指数为平稳序列;而微观类和网络类综合指数为0.069 6和0.073 9,均大于0.05,说明这两个序列不平稳,需要通过一阶差分将其转化为平稳序列。进行一阶差分后的微观类和网络类综合指数,分别用d(MiCI)和d(IPOCI)表示。
2. 最优滞后阶数
上述四类综合指数的历史值均会对未来CPI造成影响,但该影响并非立竿见影,而是存在一定滞后期,因此在模型拟合之前需要确定各类指数的最优滞后阶数。通过AIC准则测算,得到宏观类指数最优滞后阶数是5阶,一阶差分后的微观类、投资类指数分别是6阶和2阶。可以看出,宏观类、微观类指数对CPI的影响较为滞后,而投资类指数对CPI的影响显现较快。由于CPI是月度数据,可能与上年同期数据存在相关关系,因此可以引入CPI滞后12阶数据,以更好地提高模型拟合优度。
3. 模型拟合
最小二乘法是进行曲线拟合最常用的方法。根据前文计算得出的宏观类指数、一阶差分后的微观类指数和投资类指数,加上CPI历史数据进行拟合,最终得到拟合模型
CPIt=169.536 7-0.038 67MaCIt-5-
0.021 4d(MiCI)t-6-0.008 7d(IPOCI)t-2-
0.003 6CPIt-12
(4)
使用该模型对CPI进行预测,预测时段为2020年10月至2021年9月,结果如图2所示。可以看出,预测CPI走势基本符合实际CPI走势,说明该模型能较为准确地对CPI值进行预测,并能比官方数据提前一个月得到预测值。
图2 预测CPI与实际CPI走势
四、结 语
使用大数据对宏观经济指标预测是一种常见的经济学预测方法。本文利用百度指数大数据梳理出36个宏观、微观、投资类关键词,并运用主成分分析法进行降维,提取出宏观、微观和投资三大类综合指数,计算出其权重。通过三类指数拟合模型对CPI进行预测,证明该模型能很好地预测出CPI走势,在政府公布数据一个月前得到预测值,且成功预测出CPI拐点。从图2可以看出,2021年上半年CPI经历了一次较大规模的增长,此后有所回落,其原因可能是新冠疫情导致的经济增长缓慢、投资额降低和物价上涨。后疫情时代,这种异常因为国家的疫情防控工作的有效进行而逐渐恢复到正常状态。实证结果显示,运用该方法得到的预测结果较以往更加准确,且预测偏差较小。
选取合适的关键词是准确预测的关键。研究的不足之处在于尚未建立一种科学的选词方法,只是利用主观法进行初选。未来研究可以借助网络爬虫程序对海量数据进行关键词搜索和分析,开展更为深入系统的研究。