贝叶斯视角下社交媒体数据的挖掘与应用研究
2015-10-27董现垒等
董现垒等
摘要:基于MCMC算法,本文实现了状态空间模型和贝叶斯先验下的变量选择模型的迭代过程,分别解决了对CCI的时间及季节性趋势的估计问题和对社交媒体的信息挖掘问题,进而拟合了中国消费者信心指数。结果表明,社交媒体的信息挖掘可以在一定程度上成为测算CCI的一种新方法。研究还发现: 中国CCI随时间有缓慢下降的趋势;中国消费者信心总会在新年前较低而新年过后更高; 从大众的社交媒体行为来看,人们对于中国当前的经济运行和经济前景抱有一定的消极情绪。
关键词:消费者信心;Google Trends; MCMC; 状态空间;变量选择
DOI:10.13956/j.ss.1001-8409.2015.XX.XX
中图分类号:O212.8; N032; F224.7 文献标识码: 文章编号:
关键词:消费者信心;Google Trends; MCMC; 状态空间;变量选择
DOI:10.13956/j.ss.1001-8409.2015.XX.XX
中图分类号:O212.8; N032; F224.7 文献标识码: 文章编号:
引言
随着计算机技术的发展,人们的生活正在变得越来越社交化。社交媒体的内容往往同社会的、经济的、政策的以及其他的各种事件相关联。有效地获取和分析社交媒体信息有利于科学、深入地理解人们的心理与网络行为之间的潜在关系。基于行为经济学理论,已经有大量研究成果表明人们的社交媒体行为与某些社会、经济的指标之间具有内在关联。比如,Kietzmann等发现了社交媒体的传播行为会对一个公司的声誉、销售额甚至竞争过程产生巨大的影响[1]。Bollen等发现社交媒体中的大众情绪的变化会对股票指数产生影响[2]。Gilad通过分析博客的情感预测了电影票房收入的问题[3]。Asur等利用Twitter中的消息预测了电影票房,同时分析了如何利用Twitter来改善社交媒体的预测功能[4]。Scott等利用谷歌趋势和谷歌相关性数据即时预测了月销售的变化等[5]。薛可等利用社交媒体信息分析了意见领袖与受众定位对品牌传播的影响[6]。这些成果都表明,人们的社交媒体行为与社会的、经济的一系列指标具有密切关联。
社交媒体的流行导致了海量冗杂的网络信息,如何从社交媒体中提取那些对个体有价值的信息成为一个难题。Scott等[5]在2014年首先将空间状态模型和变量选择模型通过MCMC算法结合在一起,利用Google Trends和Google Correlate的数据对解雇赔偿以及企业销售等问题做了即时预测。本文将借鉴该思路,以消费者信心指数(CCI)为例,阐明一种社交媒体数据的建模和分析方法。
CCI反映了消费者群体对于一个国家或者地区经济形势以及经济前景的信心强弱,其对于经济形势的未来走向具有重要的预测作用。当下,利用调查问卷进行抽样调查获得该数据是国际上通用的做法。但是,调查问卷的信息并不总是可靠的,比如它可能会受到社会整合偏见的影响[7],并且,这种信息获取方式具有滞后性,而且成本较高。本文通过分析社交媒体网络中的信息,挖掘社交媒体数据对CCI的影响规律和预测作用。进一步地,提出一种基于社交媒体的,更客观、经济、有效的信息(CCI)获取方式。
1 数据与方法
1.1 数据
在建模分析过程中,选取以下3类数据源:
1. 由中国国家统计局公布的中国消费者信心指数(CCI)的历史数据。
2. 与大众自信心相关的情绪状态量表(POMS)以及与消费者信心相关的中国经济学家信心调查问卷。
3. 通过Google Trends获得的人们在网络中对特定话题的搜索量随时间变化的时间序列。
我们将第一类由中国官方发布的CCI作为被解释变量和参考标准。第二类数据作为与消费者信心相关的话题来源。第三类数据来源为回归中的解释变量,体现了社交媒体信息对CCI的影响。
1.1.1 中国消费者信心指数
CCI从2009年11月之后由国家统计局委托Nielsen公司通过大规模市场调研获得并由国家统计局统一公布[8]。由于前后的统计方法的差异,CCI数据前后差异过大,见图1。因为贝叶斯方法对于可观测值的数量要求并不严格,因此,只对2009年11月之后的数据进行建模和分析,观测数据从2009年12月到2014年7月,共56个观测值。同时利用2014年8月的数据对模型进行了一步即时预测,作为对模型稳健性的检验。
1.1.2 调查问卷
1. 中国经济学家信心问卷。为了选取能够体现消费者信心的经济类社交媒体话题,我们参考了中国消费者信心问卷和中国经济学家信心问卷。比较这两种调查问卷,经济学家信心调查问卷的问题更专业,更广泛,其与与消费者信心相关的经济类话题也更多。于是,以经济学家信心调查问卷为主要参考,获得与消费者信心相关的经济类社交媒体话题,见表1前34个话题。
2. 情绪状态量表(POMS)。我们从POMS中获得16个与心理学自信心相关的话题[9],见表1后16个话题。
1.1.3 Google Trends
Google Trends可以为用户提供输入检索词的检索量随时间变化的趋势。Google Trends将搜索的问题分为25个大类,见表2。也就是对于每一个检索词来说,都可以在Google Trends的25个类别中分别进行检索。将每个话题在每个类别中进行检索,则每个话题最多可以生成25个时间序列。剔除那些因为搜索量太少而不能生成时间序列的话题或者话题的类,最后获得158个心理类的和257个经济类的共415个时间序列, 作为模型中的解释变量。