APP下载

基于互联网搜索指数的大宗商品农产品价格指数预测

2017-09-13周湘蕾

时代金融 2017年23期
关键词:因子分析

【摘要】本文利用因子模型思想构建互联网搜索指数,从与大宗农产品价格相关的11类基准关键词中筛选出共计17个关键词构建搜索指数,并分析其与大宗农产品价格之间的关联。实证结果表明:本文提出的互联网搜索指数与实际大宗商品农产品价格指数的相关性较高,其长期趋势体现出较高的一致性,在短期也能拟合绝大部分拐点,能够反映互联网用户主要是投资者对大宗农产品市场动态变化的关注程度。

【关键词】互联网搜索指数 大宗商品农产品价格 因子分析

一、引言

随着大数据时代的降临,高效的信息检索功能是搜索引擎成为网民获取互联网信息的重要入口。用户信息搜索行为的群体表现在一定程度上体现了用户心理形态和外部环境的变化,与实际经济行为具有较强的相关性,为经济预测提供了新的信息资源。故而相对于传统的数据来源,诸如机构发布的统计数据及调察问卷数据等,从互联网中甄选更具全面和代表性的能够反应用户关注的热度、趋势且具有较好预测能力的数据,是对传统数据来源数据的有效扩充,如何有效应用互联网数据也是目前学术界和业界急需解决的问题。

搜索引擎的广泛使用,在满足用户信息需求的同时也记录了用户的搜索行为,从而使得基于互联网的搜索数据中蕴含了用户的关注及意图,能够映射用户在现实生活中的行为趋势和规律(Lynn Wu 2009)。基于网络搜索数据的社会经济行为研究大多出现于2008年之后,研究的领域始于流行病监测,发展至今日已逐渐成为一个新的学术热点,并在宏观经济指标、投资市场以及房地产价格等经济领域的研究中取得了一定成果。

在经济领域中,搜索指数可用于消费行为、失业率、通货膨胀等指标的预测。McLaren N证明了互联网搜索指数可以用作的经济指标的编制,Guzman G 将搜索指数用于通货膨胀的预测。Li X,Shang W,Wang应用MIDAS模型结合谷歌搜索数据编制了中国通货膨胀的预测指数。

在投资市场中,搜索指数可用于天然气、原油价格以及房地产价格Li X,Ma J,Zhang X利用谷歌搜索数据研究了公众注意力如何影响天然气价格。李新和张珣运用广义动态因子模型构建了可预测原油价格的搜索指数,并使用生物信息学中因果分析方法对指数进行评价,证实了所构造的搜索指数与期货价格和现货价格均存在显著的因果关系,并能准确探测原油价格的拐点。

目前基于互联网搜索的预测研究在实证领域取得了不小的成果,但仍需要不断改进与完善,本文粗略提出三点:首先,在理论基础方面,基于网络搜索指数的研究存在一个基本的理论前提,即信息构造引起行为变化,行为变化导致现象产生。这种理论前提在不同领域的内在机理的作用过程及其普遍适用性有待讨论;其次,在预测方法上,相关学者对于如何进行关键词的选取、数据模型处理上都尚未达成共识,其中关于关键词的选择方法,主要分为两类,其一以研究问题作为关键词,以该研究方向的理论体系为基础,选取关键变量进行分类和拓展,这种方法的优越性在于所构建的指数能够反映最相关信息,但由于主观性较强且依赖于理论基础的完备程度,故而存在着代表不完全且难以主动识别新变量的问题;其二,有部分学者提出将数据挖掘算法应用到关键词选择中,运用决策树、文本挖掘、向量机等多种数据挖掘算法进行特征搜索的选择,在实证中也取得了较好的效果,这类方法更具有客观性和严谨性,但所选取的指标是否具有经济含义还需要大量的人工判断,这也使这种方法变得十分繁琐。最后,关于互联网搜索指数的研究大多是针对国外市场进行的,该方法是否对中国情境下的研究问题有效尚无确定的结论。

本文正是基于上述文献的研究结果,從投资者行为视角建立了互联网搜索行为与大宗农产品价格之间的映射关系,如图1所示,构建过程分为3步:

第一,市场的重要信息的发布会影响投资者的心理预期,相反投资者也会通过主动搜索捕捉重要信息以辅助其进行投资决断。

第二,在新经济的背景下,互联网成为投资者获取大宗商品市场变动信息的最佳途径,投资者可以通过互联网的搜索、浏览及论坛等应用获取新信息,其中搜索引擎作为互联网的入口,蕴含了无数投资者对影响农产品价格的关注。投资者对农产品价格信息的采集可能主要集中于宏观形势、金融市场、行业特征以及突发事件等方面。

第三,在有效资本市场理论中,新信息是影响股票市场变动的唯一因素,期货市场作为衍生品市场,其变动在市场充分有效的情形下也可以看作是新信息所引致的,因此及时准确的捕捉最有效信息对期货市场、现货市场的投资者而言至关重要。

二、实证分析

本文利用搜索关键词数据对大宗商品农产品进行预测。农产品价格选取由中国流通产业网发布的大宗商品价格指数(CCPI)中的农产品价格指数来衡量,时间跨度为2011年1月至2016年5月。由于所预测的是国内大宗商品价格的变动,故而搜索行为的观察数据来源于国内所有使用度最高的百度搜索引擎所提供的数据,百度指数与前述众多文献中使用的谷歌指数类似,所提供的搜索量数据是一个相对数据,而非绝对搜索量,代表的是在某段时期内,某个特定关键词的被关注程度和热门程度。本文采集数据所使用的软件可以抓取百度指数上每个关键词从2011年1月1日至今的用户关注度的天数据。用户关注度是以数千万网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和,并以曲线图的形式展现可以反映与该关键词相对应的某类事物的热门程度和被关注程度该数据是绝对值的形式,故已有的数据不会随着时间的推移而变化。

(一)初始搜索关键词集合

为了获取尽可能相关、完整的关键词,根据上文中的理论框架,将关键词分为宏观形势、金融市场、行业特征以及突发事件四类,据此获取基准搜索关键词集合。其中,宏观形势因素的基准关键词为汇率、利率、通货膨胀、货币供应、原油价格;金融市场因素的基准关键词为农产品期货、农产品现货;行业特征因素的基准关键词为农业产业化、农业机械、农业技术;突发事件因素的基准关键词为自然灾害。endprint

然后利用搜索引擎的关键词推荐功能,产生这11个基准关键词的所有相关搜索词,每个类别50个,进而得到550个百度所能提供的搜索词。通过对每一类别的关键词进行初步文本分析,筛选出57个有效关键词。

(二)数据收集及预处理

对这57个搜索数据进行Pearson相关性检验,选取了通过双边0.01显著性检验的关键词序列,以保证进入模型的每个关键词与大宗商品农产品指数之间的相关性。对剩余数据进行平稳性分析,选取通过平稳性检验的序列用以形成最终关键词集合,相关检验结果如表1所示。

表1 最终关键词集合及检验结果

(三)搜索指数的合成

因为本文旨在研究基于因子分析模型构建的搜索指数与大宗商品农产品价格之间的关联,所以首先我们根据关键词数据和因子分析原理构建搜索指数,然后分析搜索指数与农产品价格之间的匹配关系。在对数据进行标准化处理后,对变量之间的相关性进行KMO检验,得KMO值为0.732,此外Bartlett球形检验值为0.000,表示数据之间具有一定的相关性,适合做主成分—因子分析。本文采用因子贡献率标准选取公共因子,一般来讲,因子对总体的解释程度达到80%左右为宜,因此,本文选取特征大于1的5个公共因子和特征值为0.874的1个公共因子,累计对总体的解释程度达到79.389%。本文采用常用的最大方差法旋转因子载荷矩阵,旋转后的因子载荷矩阵可得每个因子的因素表达式:

C1=-0.832X1-0.625X2+0.684X3+0.500X4-0.127X5

-0.891X6+0.169X7+0.872X8-0.401X9+0.026X10

+0.094X11+0.242X12-0.026X13-0.205X14+0.083X15

-0.030X16+0.908X17

同理可得C2~C6因子的表达式。

根据主成分对总体的解释程度可得总体的各因子表达式:

Y=0.28017C1+0.20585C2+0.11227C3+0.08352C4+0.06067C6

将C1~C6的表达式代入上式即可得个影响因素的权重,对各权重进行归一化处理,得到各指标对总体的综合评价权重,再将初始数据带入可得综合指标的序列,这样的方法提取出了总体输入数据的共同成分,驱使各个不同关键词序列去世的共同成分即他们的共性——大宗商品农产品的价格,由此我们使用综合评价Y序列作为搜索指数,图1为合成的搜索指数与大宗商品农产品价格指数(ccpi)的两个序列趋势信息。

如图1(横轴为自2011年1月1日起累计周数,纵轴为价格指数,系列1为大宗商品农产品价格趋势,系列2为搜索指数变动趋势)所示,两个变量间的走势表现出较强的一致性。在图1中45周~62周的上行区间、117周~187周的平稳震荡区间以及23周~262周的下行区间内,本文构建的搜索指数与实际农产品价格指数走势均呈现出较强的一致性。

为了突出短期的变化相关性,图2截取了2016年1月1日至2016年5月27日的价格指数和搜索指数对比图,在2016年前5周,两个指数都呈现出变动较为平缓的态势,在第8周和第17周,两个指数同时达到一个小峰值从图中可以看出搜索指数能够预测出大部分大宗商品价格走势的拐点,说明了搜索指数内包含了能够极大程度的反映搜索关键词之间的共性信息,同时表明了关键词关注度指数可以帮助提高大宗商品农产品的预测水平。

三、小结

大宗商品农产品价格一直都是投资者关注的重点之一,但由于影响因素庞杂,经济影响因素的滞后性等原因,使农产品的价格预测结果总是不尽人意,国内外研究者一直都在积极寻求更加准确地预测方法。近年来,随着互联网技术及大规模数据分析方法的发展,海量搜索数据及社交媒体数据等逐渐在社会、经济、金融和能源预测中得到广泛应用,这也为大宗商品农产品价格的预测提供了新的思路。本文也在此种背景下针对网络搜索数据是否能提高农产品价格预测的准确性和时效性进行了讨论。由于目前对于搜索指数的合成方法还没有一个公认的方法,本文在经过大量模型的尝试之后选择使用因子分析方法的思想构建互联网搜索指数,为了解决了大量搜索数据之间的多重共线性问题,我们从与大宗农产品价格相关的11类基准关键词中筛选出共计17个关键词,合成旨在预测农产品价格的互联网搜索指数,并分别在长期和短期验证该合成指数的预测效果。检验结果显示,本文提出的互联网搜索指数,与实际大宗商品农产品价格指数的相关性较高,其长期趋势体现出较高的一致性,在短期也能拟合绝大部分拐点,能够反映互联网用户主要是投资者对大宗农产品市场动态变化的关注程度,提高农产品价格的预测精确度。

需要指出的是,由于互联网大数据的应用在经济学领域的研究还处于一个初步的探索阶段,故还有许多问题需要进一步研究, 如关键词的关注度与投资者的投资决策之间的关系,关键词关注度对农产品价格的影响方向以及关键词的选择等将是下一步研究的重点。

参考文献

[1]Ginsberg J,Mohebbi M H,Patel R S,et al.Detecting influenza eqidemics using search engine query data[J].Nature,2009,457(7232):1012-1014.

[2]李秀婷,刘凡,董纪昌,等.基于互联网搜索数据的中国流感检测[J].系统工程理论与实践,2013,33(12):3028-3034.

[3]Guzman G.Internet and Social behavior as an economic forecasting tool:The case of inflation expectations[J].Journal of Economic and Social Measurement,2011,36(3):119-167.

[4]Goel S,Hofman J M,Lahaie S,et al.Predicting consumer behavior with Web search[C].Proceedings of the National Academy of Sciences,2010,107(41):17486-17490.

[5]Li X,Shang W,Wang S,et al.A MIDAS modeling framework for Chinese inflation index forecast incorporating Google search data[J].Electronic Commerce Research and Applications,2015,14(2):112-125.

[6]Li Z,Xu W,Zhang L,et al.An ontology-based Web mining method for unemployment rate prediction[J].Decision Support Systems 2014,66(10):114-122.

[7]Askitas N,Zimmermann K F.Google econometrics and unemployment forecasting[J].Applied Economics Quarterly,2009,55(2):107-120.

[8]孫毅,吕本富.网络搜索与经济行为相关性研究综述[J].管理评论,2011,23(7):72-77.

[9]杨欣,吕本富,彭赓,刘颖.基于网络搜索数据的突发事件对股票市场影响分析[J].数学的实践与认识,2013,43(23):17-28.

[10]苏应蓉.全球农产品价格波动中金融化因素探析[J].农业经济问题,2011,6.

作者简介:周湘蕾(1994-),女,汉族,广西大学商学院在读研究生,研究方向:数量经济学理论与方法。endprint

猜你喜欢

因子分析
中国创业板生物制药类上市公司成长性评价体系实证研究