基于百度指数的汽车销量预测模型
2019-10-22魏衍增
魏衍增
基于百度指数的汽车销量预测模型
魏衍增
(同济大学 经济与管理学院,上海 201804)
随着互联网的发展,人们在购买商品前一般都会在网上搜索商品的相关信息,从而作为购买决策的重要参考依据。汽车作为一种高价值商品,几乎所有消费者在购买前都会使用搜索引擎查询心仪车型的价格、口碑等,因此搜索指数可在一定程度上反映出某款车型销量变化的趋势。以百度指数和汽车销量为输入变量构建汽车销量预测模型,以便获得更加精确的预测结果。为了验证百度指数对预测的作用,将移动平均自回归(ARMA)模型设为基准模型,输入变量为历史销量数据。实验结果表明,加入百度指数的LSTM销量预测模型的预测精度比基准模型有了较大提升。因此,汽车企业可选择基于LSTM的销量预测模型来提升销量预测精度,用于指导企业制订生产和营销计划。
百度指数;销量预测;LSTM模型;ARMA模型
1 引言
对于车企来说,汽车销量预测关系着采购、生产、营销等全产业链的计划制订,因此备受企业重视。已有的汽车销量预测研究主要聚焦于汽车市场的销量预测,只能给企业以宏观层面的指导,无法为企业微观层面的运作提供有力的依据。此外,传统的销量预测以统计学方法为主,比如线性回归、ARMA、灰色系统理论等,这些模型依赖于具有较大时间延迟性的历史销量数据,导致预测效果也不是特别理想。互联网时代,大数据和人工智能的出现为销量预测提供了更 多新方法和大量数据,如搜索引擎数据和在线评论等。
搜索引擎作为网民搜索信息的入口,可记录其在网络上的搜索行为及隐藏意愿,通过挖掘这些数据与销量数据间的关系,可提升销量预测的精度。
研究表明,搜索引擎数据有助于改善零售业、汽车、房屋、旅游等行业的销量预测精度,但已有研究大多利用搜索指数来预测全国汽车市场销量或某汽车品牌的销量,还没有应用于某款汽车的销量预测。为此,分别采用GBR、LSTM模型,将某一款汽车的百度指数作为输入变量,测量其对该款汽车销量预测精度的影响。
与基于单一销量数据的ARMA模型相比,加入百度指数的LSTM模型具有更好的预测能力。
2 文献回顾和相关理论
搜索引擎作为互联网的基础应用,是网民获取海量信息的重要工具,用户规模达6.81亿人,占整体网民的82.2%。搜索指数是以网民在搜索引擎的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在网页搜索中搜索频次的加权和。百度作为中国第一大搜索引擎,其市场份额高达72.74%,因此,本文将选择百度指数作为搜索引擎数据。
情绪指数最早被应用于测量投资者的情绪变化[1]。随着搜索引擎的普及,学者们开始从搜索中获取投资者的情感指数或信心指数,研究其对股票市场走势、房地产走势、电影票房的预测能力。例如,CHOI等[2]将Google搜索指数最新因素加入到自回归预测模型中,发现零售业、汽车、房屋、旅游四个行业的销量预测精度均得到明显改善。袁庆玉 等[3]、鲍家兴[4]、李忆等[5]的研究表明搜索引擎指数与中国市场的汽车销量存在一定相关性,可改善中国汽车销量的预测精度。王守中等[6]、FANTAZZINI等利用搜索数据对某些汽车品牌的销量进行了预测研究,并且取得了不错的效果。
汽车工业作为国民经济的支柱产业,一直都是专家学者关注的重点,其中汽车销量预测是研究热点之一。回顾当前的研究成果,可将汽车销量预测模型分为以下几种:①基于统计方法的预测模型,包括线性回归法、时间序列法、自回归移动平均法(ARMA)、灰色系统理论、马尔科夫模型以及组合预测方法等;②基于机器学习的预测模型,包括SVM、GBR、人工神经网络(ANN)、BP神经网络、循环神经网络(RNN)等。
在AI时代,深度学习算法也开始被用于产品销量的预测研究中。SHIH和LIN在电子商务背景下提出一种基于LSTM网络的短期需求商品销售预测方法,YU等将LSTM方法应用到零售商品的销量预测,并且都取得了不错的预测效果。
本文将分别使用ARMA、GBR、LSTM模型来预测汽车销量,并对比其预测效果。
3 百度指数对汽车销量预测的影响
3.1 数据收集与处理
本实验选取的研究对象为大众旗下的朗逸,以下所有数据均为朗逸的相关数据。选取时间范围为2013-01— 2017-12,以月为单位,共计60个月,将前54个月作为训练样本。
3.1.1 数据来源
销量数据从车主之家(www.16888.com)网站获取;百度搜索指数从百度指数(index.Baidu.com)网页获取,查询关键词为“朗逸”。
3.1.2 数据处理
首先对销量数据、百度指数进行取对数ln处理,使两者处于相近量级,并分别使用Sales_vol、Baidu_index作为变量名称。
3.2 销量预测模型
为了探究百度指数与销量的关系,选择ARMA作为基本模型Ⅰ:
式(1)中:t为时期的汽车销量;t-q为误差项。
通过AIC准则和SC准则,选择ARMA(2,1)模型。
由文献回顾可知,机器学习常常被用于销量预测,因此本实验选取了以下4种机器学习算法进行销量预测,预测效果如表1所示。4种机器学习算法分别为贝叶斯岭回归(BayesianRidge)、弹性网络(ElasticNet)、支持向量回归(SVR)和梯度提升回归(GBR)。评价指标包括平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Squared Error,MSE)和决定系数(2)。
表1 输入变量为Bai_index、Sales_vol时各模型预测效果对比
MAEMSER2 BayesianRidge0.192 3660.056 9730.000 047 ElasticNet0.192 3590.056 9750.000 000 SVR0.193 1190.056 5940.006 689 GBR0.058 2030.004 4590.921 742
对比四种算法的预测效果指标发现,GBR的四个指标均明显优于另外三种算法,这也体现了GBR集成学习算法的优势,因此决定使用GBR模型作为模型Ⅱ。
考虑到实验数据具有时间序列特征以及LSTM可保留历史信息的特点,所以选择LSTM网络模型作为模型Ⅲ,其中参数配置为:batch_size=32,dropout=0.5,epoch=100,滞后阶数为1阶。
3.3 模型评估
本实验采用两个评估指标来衡量模型的预测效果,分别为均方根误差(RMSE)和平均绝对百分比误差(MAPE),计算公式如下:
预测结果如表2所示。
表2 不同模型预测结果对比
基准组Baidu_index组 模型Ⅰ模型Ⅱ模型Ⅲ RMSE0.3350.4800.356 MAPE0.0300.0410.016
对比上述模型的RMSE和MAPE可知,模型Ⅲ的MAPE减小至模型Ⅰ的50%,RMSE仅增加6.3%,增幅较小,说明加入百度指数后可以改善模型预测效果。此外,LSTM模型(模型Ⅲ)的RMSE、MAPE均低于GBR模型(模型Ⅱ),即预测效果明显好于GRB模型,这也侧面反映了LSTM适合处理时间序列数据的特性。
4 结论与展望
本文通过实证研究证明了搜索引擎指数与汽车销量存在一定相关性,并可用于某款汽车的销量预测,这对车企制定生产销售计划具有很大帮助。在大数据时代,如何更加有效地利用大数据来帮助企业决策将会是未来研究的热点。因此,今后可进一步挖掘互联网上的数据,如汽车网站的评论、微博话题等,从而使销量预测更加准确。
[1]王宜峰,王燕鸣.投资者情绪在资产定价中的作用研究[J].管理评论,2014,26(6):42-55.
[2]CHOI H,VARIAN H.Predicting the present with google trends[J].Economic Record,2012,88(Suppl 1):2-9.
[3]袁庆玉,彭赓,刘颖,等.基于网络关键词搜索数据的汽车销量预测研究[J].管理学家(学术版),2011(1):12-24.
[4]鲍家兴.基于百度搜索数据的汽车销售量预测研究[D].北京:中国科学院大学,2014.
[5]李忆,文瑞,杨立成.网络搜索指数与汽车销量关系研究——基于文本挖掘的关键词获取[J].现代情报,2016,36(8):131-136,177.
[6]王守中,崔东佳,彭赓.基于Web搜索数据的宝马汽车销量预测研究[J].经济师,2013(12):22-24,26.
F713.54
A
10.15913/j.cnki.kjycx.2019.19.025
2095-6835(2019)19-0064-02
魏衍增(1992—),男,山东菏泽人,硕士研究生,研究方向为数据挖掘与商业智能应用。
〔编辑:张思楠〕