基于百度指数的预测方法研究
2021-06-29刘国栋彭武良
刘国栋 彭武良
(烟台大学经济管理学院,山东烟台 264005)
0 引言
近些年来,随着互联网在中国的快速发展,消费者的动向和决策过程越来越多地在网上得以体现。中国互联网络发展状况统计报告(2020年)数据显示,截止到2020年底,国内网民数量已经达到9.89亿,互联网的普及率超过70%。在对各类互联网应用的使用率统计中,2020年国内搜索引擎的用户规模达7.9亿,网民使用率已经超过80%,仅次于即时通信类应用。
基于互联网平台的大数据具有快捷、实时、免费等优势,它的开发与利用开辟了一个数据获取的新时代。我国互联网的规模和普及率为相关问题的研究提供了一个很好的样本,这是传统的数据收集模式所无法企及的,对于特定的问题,采用互联网上的大数据,“样本”基本上就相当于“总体”,这是大数据时代的一个鲜明特征。在利用网络搜索数据进行预测的现有研究中,基础研究数据的获取大多数是来自谷歌平台,而在我国,由于习惯及语言等方面的原因,互联网用户对百度搜索平台更为青睐,因此有学者在不同领域,研究了基于百度搜索数据的预测问题。本文对国内学者基于百度指数预测方法的研究进行评述,经过归纳总结出普适性的研究路线。
1 研究现状
随着互联网时代的发展,国内学者利用百度指数进行研究的领域也在不断拓展,综合来看,大部分研究主要集中于疾病监测领域、股票市场行业、房地产行业及旅游业。
(1)在疾病监测领域。刘鹏程等[1]将“H7N9”作为百度指数搜索关键词,选取全国和江浙沪皖地区作为研究样本,结合事件的现实演变综合分析了H7N9事件的网络舆情状况;鲁力等[2]分别研究了百度指数与微指数在流感监测中的预测效果,并对二者进行对比分析,数据显示采用了百度指数的关键词搜索指数要比微指数在流感监测中的相关性更强,峰值时间更相似;王若佳等[3]对关键词的选取进行相关性分析和时差分析,将百度搜索数据和官方流感数据二者相结合,分别采用了多元线性回归、BP神经网络以及支持向量机三种代表性算法,进行了比较分析。
(2)在股票市场行业中。学者的研究角度大多围绕投资者关注度对股票市场交易活动的影响而展开。俞庆进等[4]以深圳证券交易所创业板为样本,结合百度指数的用户关注度验证了投资者的有限关注对股票市场的影响;为了进一步探究投资者关注度对股票市场交易活动的影响;张继德等[5]建立了经前人改进的Fama三因素模型,并对模型进行了稳定性检验,结果显著;王旭光[6]则是提出运用“异常搜索量”和“关注波动”两个指标来探究关注度与我国IPO存在超额收益之间存在的联系;孟雪井等[7]也是考虑到关键词库中的噪声干扰,于是在关键词的选取过程中将“知网文库”和“微博舆情”这两个指标结合起来进行选取;陈声利等[8]首次将百度指数的日搜索数据与HAR波动建模框架相结合,并基于跳跃、好坏波动率与百度指数三个方向提出HAR的改进模型,模型较好地解释了股指期货波动的趋势变化;瞿慧等[9]在逻辑平滑构建过程中引入投资者的网络搜索数据,并将其作为转移变量,来进一步探究投资者的关注度对股票市场未来交易的影响。
(3)房地产行业中。学者大多将房地产价格作为主要研究对象。王秀丽等[10]基于百度指数平台,通过采用总体模式经验分解法(EEMD)对我国房价泡沫进行了实证分析,从居民的有限关注与认知偏差角度解释了房价加速上涨的原因;同年洪涛等[11]人基于百度指数的搜索数据,在混频数据方法(MIDAS)框架下预测了中国住房价格的波动;姜文杰等[12]分别使用自回归移动平均模型(ARMA)和带搜索项的自回归分布滞后模型对上海市的新建住宅价格指数进行了拟合和预测。
(4)在旅游业中。部分学者偏好于对景区游客量的预测:黄先开等[13]以北京故宫为研究对象,分别构建了涵盖百度指数和不涵盖百度指数的两种预测模型,结果显示加入了百度指数关键词的模型明显具有更高的准确性和时效性;李晓炫等[14]在对旅游业的预测中提出了一种领先搜索指数合成法,研究表明了噪声处理在预测中的重要性。也有部分学者倾向于研究网络关注度的时空分布:李山等[15]首次以中国53个5A级景区为样本,借助百度指数的景区实时搜索指数,从“前兆效应”的角度,对中国5A级旅游景区的网络空间关注度问题展开研究;熊丽芳等[16]采用百度指数的用户关注度,模拟了城市信息流探究长三角城市网络的时空特征,在城市网络研究的数据采用方面做出了新的探索。
2 研究路线分析
在对文献的梳理和检索来看,国内学者基于百度指数平台研究的领域不同,所采用的技术路线也不尽相同,但大致过程类似,如图1所示。
图1 研究路线图Fig.1 Research Roadmap
总体来看,基于百度指数的预测方法大致分为以下几个步骤:
(1)确定研究对象:根据当下热点和自身的专业理论,在广阔的研究领域中综合分析,细致选择出某一研究对象。(2)搜索关键词:基于本文背景下的理论框架及影响因素分析,并严格按照相关性原则与可获取性原则进行关键词的搜索。选取关键词这一步骤可以采用宏观层面与微观层面相结合的原则,尽可能在最大程度上涵盖用户所要查找的信息内容。(3)建立初始关键词库:由于是基于网络搜索数据平台的研究,关键词库构建这一步骤的重要性不言而喻。要综合考虑数据的质量及相关性,以消费者的关注度为切入点,在搜索引擎关键词推荐技术的辅助下建立初始关键词库。构建方法有机器取词法、经验取词法和范围取词法等,机器取词法虽然有很强的精确性,但使用成本过高,所以大部分学者较倾向于后两者,采用人工收集与软件辅助相结合的方法构建初始关键词库。(4)关键词库扩充:这一步的目的是,通过选取更多的关键词,来发掘用户的潜在需求。因此在以上对关键词归纳的基础上,需进一步总结前人的经验,并通过文本挖掘、词义扩展、二次搜索、查询拓展、长词挖掘和热词推荐等工作对已有关键词库进行扩充。(5)关键词库筛选与评价:需要指明的是,利用网络搜索数据平台选取的关键词,虽然覆盖面广、数据实时、样本充足,但也会出现与研究对象明显无关的关键词。因此在对关键词库进行扩充以后,较大概率会出现一些未被收录、数据缺失、噪音较强的关键词,这一步骤的目的主要是要通过相关性分析和时差分析来剔除这类与研究无关的关键词。在排除了干扰性较大的关键词以后,按照步骤(3)中确定的选择标准,保留具有强相关性以及时差领先性的关键词,完成对关键词库的筛选与评价。(6)实证研究:在这一步中,学者为了验证假设,根据研究对象的特点和前期的工作建立不同的预测模型,并在最后对模型进行检验,提出结论。也有部分学者想要进一步探讨基于网络搜索数据的预测模型与传统预测模型之间的差异,在分别对两个模型运行后,将二者的输出结果进行对比分析。
3 结语
通过对当前国内学者借助百度指数平台进行预测研究的梳理,可以发现,利用网络搜索指数进行预测的可能性得到验证,该方法在各领域的应用也取得了初步的进展。但是目前学者对基于百度指数的预测领域,大多集中于疾病监测领域、旅游业、房地产行业以及股票市场行业等宏观经济领域,虽然研究视角、研究领域不同,但研究结论相对统一。笔者认为,在今后的研究中,研究人员应该转向一些微观领域,进一步地分析经济现象之间的相关性。随着大数据时代的进一步发展,网络搜索数据价值的发现与利用,必定会为科学研究和商业决策等领域提供新的启发和思路,通过互联网获取的搜索量在预测领域具有很高的应用价值,有待进一步开发利用。