基于BP神经网络模型的笔记本电脑销售预测研究
2023-05-14李向东刘清华陈静
李向东 刘清华 陈静
摘 要: 针对笔记本电脑销售的不确定性,利用BP神经网络算法构建模型,采用MATLAB对某店铺的2021年笔记本电脑的销售数据进行了网络训练,通过Pearson相关系数来分析输入层各节点和输出层销售额之间的相关性,确定了访客数UV、收藏数、加购物车次数、客单价和支付转化率等5个输入层节点,销售额为输出层节点。实验证明了构建的BP神经网络模型预测值和实际值误差小,预测准确度高,可为笔记本电脑销售计划安排及库存管理提供依据。
关键词: BP神经网络; Pearson相关系数; 笔记本销售; 预测
中图分类号:TP183 文献标识码:A 文章编号:1006-8228(2023)05-145-04
Research on laptop sales prediction based on BP neural network model
Li Xiangdong, Liu Qinghua, Chen Jing
(College of Information Technology, Zhejiang Yuying College of Vocational Technology, Hangzhou, Zhejiang 310018, China)
Abstract: For the uncertainty of laptop sales, the BP neural network algorithm is used to construct a model, and the network is trained by MATLAB on the laptop sales data of a store in 2021. The correlation between the nodes in the input layer and the sales volume in the output layer is analyzed by Pearson correlation coefficient. The number of visitors UV, number of favorites, number of shopping cart additions, customer unit price and payment conversion rate are identified as five input layer nodes, as well as the sales volume as the output layer node. The experiment proves that the error between the predicted value of the constructed BP neural network model and the actual value is small, and the accuracy of the prediction is high, which can provide a basis for laptop sales planning and inventory management.
Key words: BP neural network; Pearson correlation coefficient; laptop sales; prediction
0 引言
近年来,受到一些不可控因素的影響,笔记本电脑行业的出货表现和销售额走势表现并不一致。2022年Q2季度全国笔记本电脑整体销量约160万件,同比增长约7%,整体销售额约86亿元,却同比下滑1%左右。随着人们购物习惯的改变,淘宝、京东等电商平台销量大增,“618”、“双11”等电商购物节的优惠力度更是刺激了笔记本电脑的市场需求。2022年6月份,京东平台笔记本电脑月销量超90万件,环比增长150%;销售额超48亿元,环比增长170%[1]。笔记本电脑产品的迭代更新很快,因此,为了控制库存风险和制定销售计划,进行笔记本电脑销售预测就极具意义,可为库存管理和销售计划的安排提供科学决策。
目前,针对销售预测的方法有很多研究。王辉等提出了一种基于Stacking集成策略销售预测方法,在多个机器学习的模型融合下减少了预测误差[2]。滕宁宇等利用回归法对销售收入可以进行很好的预测[3]。张志新等利用人工神经网络在网络直播中预测销量[4]。杨庆斗等分别构建了普通线性回归、Lasso回归,以及BP神经网络预测模型对长城汽车销售量进行预测,结果发现BP神经网络预测误差最小[5]。周博军等运用BP神经网络模型对我国体育彩票销售金额进行预测,预测的精准度较高[6]。综合来看,鉴于BP神经网络具有很强的非线性映射能力和柔性的网络结构,相比其他方法,在销售预测中的应用相对较多,准确度较高。本文采用BP神经网络的分析方法,利用联想笔记本电脑在某电商店铺的历史销售情况进行预测,为其提供销售决策依据。
1 BP神经网络
BP(back propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,在各种预测应用中使用比较广泛的算法, 是从对人脑神经系统进行模拟而建立起来的数学模型。人脑神经网络是由神经元互联而成的,能接收并处理信息,而信息处理主要是由神经元之间的相互作用,即通过神经元之间的连接权值来处理并实现的。如图1所示,BP神经网络一般分为输入层、隐含层和输出层,其中输入层为输入的训练数据,隐藏层一般具有一层或多层, 单层神经网络只能用于表示线性分离函数,一般用于简单问题,多个隐藏层可以用于拟合非线性函数,由输出层向外界输出信息处理结果。这三层中的每一层只影响下一层的神经元状态,若预期预测结果得不到期望输出,网络则进行反向传播。主要思路是输入数据,利用反向传播算法不断调整参数,根据最终调整的参数建立模型。选择合适的层数以及隐藏层节点数,在很大程度上都会影响神经网络的性能。
2 BP神经网络训练步骤
2.1 网络初始化
如图1所示,网络输入层的输入为[x1…xn],隐含层节点为[H1…Hl],输入层到隐含层的权重[wij],输出层输出为[O1…Om],隐含层到输出层的权重为[wjk],输入层到隐含层的偏置为[aj],隐含层到输出层的偏置为[bk],其中激励函数为[gx],取Sigmoid函数如公式⑴所示。
[gx=11+e-x] ⑴
2.2 隐含层输出
隐含层[H]的输出如公式⑵所示。其中[x]表示输入变量,[wij]、[aj]表示输入层和隐含层间的连接权值及隐含层阈值,[H]是隐含层节点数,[g]为隐含层激活函数。
[Hj=gi=1nwijxi+aj ,j=1,2,3,…,l] ⑵
2.3 输出层的输出
输出层O的输出如公式⑶所示,其中[Hjwjk]和[bk]分别是连接权值和阈值。
[Ok=j=1lHjwjk+bk, k=1,2,3,…,m] ⑶
2.4 误差的计算
误差如公式⑷所示,其中[Yk]是期望输出值,[Ok]是实际输出值。
[ek=Yk-Ok] ⑷
2.5 权值更新
通过预测误差值[e]对网络连接权值更新,[η]为学习率,如公式⑸~公式⑻所示。
[wij=wij+ηHj(1-Hj)xik=1mwijek,i=1,2,3,…n;j=1,2,3,…,l] ⑸
[wjk=wjk+ηHjek,j=1,2,3,…l;k=1,2,3…,m] ⑹
[aj=aj+ηHj1-Hjk=1mwjkek,j=1,2,3,…,l] ⑺
[bk=bk+ηek,k=1,2,3,…,m] ⑻
最后判断迭代是否可以结束,如果没有结束,则返回第⑵步执行,直到算法结束。
3 建立某网店的联想笔记本销售预测模型
3.1 输入层和输出层数据采集
收集了某网店2021年全年的销售数据进行整理,选择了UV、收藏数、加购物车次数、客单价、支付轉化率、销售额共六个特征变量,各特征变量的意义如下。
UV:访问网店的人数(独立访客),同一IP计算一次,UV数越大,说明访问的人数增多,可能购买的人数将增多,一般和销售额成正向关系。
收藏数:商品收藏的用户数,商品的收藏数越大,潜在购买人数越多,一般和销售额成正向关系。
客单价:店铺每一个顾客平均购买商品的金额,即平均交易金额。客单价的计算公式是:客单价=销售额÷成交顾客数,一般和销售额成正向关系。
支付转化率:所选时间内访客转化为支付买家的比例,支付转化率=支付买家数÷访客数,一般和销售额成正向关系。
销售额:单位时间内销售的金额。
3.2 特征变量相关性分析
项目采用Pearson相关系数来分析输入层各节点和输出层销售额之间的相关性。Pearson相关系数是一种反映两个变量线性相关程度的统计量,两个变量的线性相关程度用相关系数r表示,计算如公式⑼所示,其中公式⑽表示X的离均差平方和,公式⑾表示Y的离均差平方和。公式⑿表示表示X与Y的离均差平方和。
[r=(X-X)(Y-Y)(X-X)2(Y-Y)2=lXYlXXlXY] ⑼
[lXX=(X-X)2=X2-(X)2n] ⑽
[lYY=(Y-Y)2=Y2-(Y)2n] ⑾
[lXY=(X-X)(Y-Y)=XY-(X)(Y)n] ⑿
通过MATLAB编程计算,得到访客数UV等五个变量和销售额的相关系数r值,如表1所示。相关系数r简单的分类如表2所示。
从表1和表2中对比可知,UV、收藏数、加购物车次数三个变量和销售额相关性极强,支付转化率和销售额相关性强,客单价和销售额中等程度相关,因此,选择UV、收藏数、加购物车次数、客单价、支付转化率等五个变量作为BP神经网络的输入层节点数据,将销售额作为输出层数据。
3.3 数据归一化处理
销售预测模型将每周的UV、收藏数、加购物车次数、客单价、支付转化率五个变量作为输入变量,销售额作为输出变量,为避免各个输入变量的数量级差异过大,影响求解算法的效果,需要对数据进行归一化处理,采用公式⒀处理。
[x1=x0-xminxmax-xmin] ⑶
其中,[x0]表示原始值,[xmin]表示所有变量中的最大值,[xmax]表示所有变量中的最小值,[x1]表示归一化后的变量值,计算后所有变量的取值范围是[0,1]。某网店2021年52个周销售数据归一化后部分数据如表3所示。
3.4 BP神经网络隐藏层神经元确立
本项目为单隐藏层,隐藏层神经元节点数在很大程度上将影响神经网络的性能,但节点数选择没有统一的标准,当节点数过少时,训练只能通过经验得出的公式来确定,通常采用公式⒁确定。其中[n]和[l]分别为输入层、输出层节点数,[a]为0到10之间的调节常数,通过计算,得到隐藏层神经元节点个数[m]的值为3-13之间。
[m=n+l+a] ⒁
为选择最优的节点数,依次按照不同的节点数进行模型训练,得到如表4所示结果,确定最佳隐含层的神经元个数为4,此时MSE(均方误差)最小为0.0008。
3.5 MATLAB模拟仿真
使用MATLAB进行网络模型训练,模型的输入节点数为5,输出节点数1,隐含层神经元节点数为4。划分训练集占比70%,共36个樣本数;验证集占比15%,共八个样本数;测试集占比15%,共八个样本数。采用levenberg-Marquardt算法作为训练算法,使用MSE衡量网路性能,网络允许迭代的次数最大1000,实际迭代10次,最大误差为0.386,实际误差0.000211,网络性能良好,具有参考性。如图2所示,在数据仿真过程中,得到在迭代次数为4时输出性能最佳,输出误差为0.00081633,超出期望输出,训练的效果良好。
从图3中可以看出训练过程中下降梯度和步长的变化,呈递减趋势,迭代到10次时梯度下降为0.00015751。表明随着训练次数的增加,总体误差随之下降并趋于稳定,动量因子为10-5。
图4体现模型拟合优度,确定系数R的最大值为1,计算得出的值越接近1,拟合效果越好。训练集拟合值R=0.99835,验证集拟合值R=0.97962,测试集拟合值R=0.96214,全部数据的拟合值R=0.99685,说明拟合的效果很好,可以用于预测。
4 预测和结果分析
依据项目建立的BP神经网络模型进行预测,输入店铺2022年前八周的销售数据,得到如表5所示的预测值。通过和实际销售额进行对比,相对误差都在±10%以内,预测效果优良,进一步验证了预测模型的输入变量和输出变量之间的关系信度高。UV、收藏次数、加购数、客单价、转化率对店铺销售额的影响较大。
5 小结
本文构建了一个BP神经网络模型,进行某店铺的联想笔记本电脑销售预测,采集了2021年52个周的输入层和输出层数据,然后利用Pearson相关系数来分析输入层各节点和输出层销售额之间的相关性,确定了访客数UV、收藏数、加购物车次数、客单价和支付转化率五个输入变量,销售额作为输出变量,并对数据进行归一化处理,通过经验公式确定了隐含层节点数范围,并通过实验进一步确定个数为4,利用MATLAB进行仿真训练,实验结果表明,模型的训练效果好。最后应用建立的模型对2022年前十周销售数据进行预测,发现相对误差小,对于商家安排销售计划、营销方案等有重要的参考价值。
参考文献(References):
[1] 鲸参谋电商大数据.Q2季度笔记本电脑品牌销售排行榜[EB/OL].https://baijiahao.baidu.com/s?id=1740767060910980942.2022-08-10.
[2] 王辉,李昌刚.Stacking集成学习方法在销售预测中的应用[J].计算机应用与软件,2020,37(8):85-90
[3] 滕宁宇,冯润莜,赵智钰,等.回归分析法在销售预测中的应用[J].中国乡镇企业会计,2019(12):107-109
[4] 张志新,石文奇,程凡,等.基于BP神经网络的网络直播皮革服装销量预测[J].皮革与化工,2021,38(3):26-30
[5] 杨庆斗.基于BP神经网络的长城汽车销售量预测研究[D].硕士,天津财经大学,2020
[6] 周博军,王旺,黄俊达,等.基于BP神经网络对中国体育彩票销售金额的预测[J].体育教育学刊,2022,38(2):46-50