基于稀疏神经网络的火锅销量影响因素分析
2022-07-06郭萍
摘 要:神经网络被广泛应用于目标检测、优化组合等领域,但其往往容易过拟合。为解决过拟合问题,通常对神经网络稀疏化,这类技术目前较为成熟,如dropout。文章主要考虑在Lasso罚函数情形下,通过对神经网络连接的权重进行压缩,实现高维非线性情形下的变量选择,并使用蒙特卡洛模拟验证该稀疏神经网络的变量选择结果具有一致性。最后将该模型应用到重庆市火锅团购销量分析中,得到10个对火锅销量最具影响的因素。
关键词:神经网络;稀疏神经网络;变量选择
中图分类号:TP399 文献标识码:A文章编号:2096-4706(2022)06-0086-04
Analysis of Influencing Factors of Hot Pot Sales Based on Sparse Neural Network
GUO Ping
(School of Mathematics and Statistics, Guangxi Normal University, Guilin 541006, China)
Abstract: Neural network is widely used in the field such as target detection, optimization and combination and so on. but it is easy to overfit. In order to solve the overfitting problem, neural networks are usually thinned and such techniques are mature, such as dropout. This paper mainly considers the variable selection in the high-dimensional nonlinear case by squeezing the weight of the neural network connection under the Lasso penalty function case. Monte Carlo simulations are also used to verify the consistency of the variable selection results for this sparse neural network. Finally, the model is applied to the sales analysis of Chongqing hot pot group purchase, and 10 factors that have the most influence on the sales of hot pot are obtained.
Keywords: neural network; sparse neural network; variable selection
0 引 言
神經网络(Neural Network)作为受控的、非线性的深度学习基础模型,因其大规模并行处理、分布式存储等特点,被应用于模式识别、优化组合等领域。但由于它往往容易过参数化,对数据产生过拟合,神经元和权值稀疏技术得到重视。例如考虑将神经网络稀疏化,即对神经网络的连接的权重增加惩罚函数,如Lasso,将权重系数压缩至0,从而实现变量选择。
周书豪使用添加了“dropout”正则技术的深度神经网络(Deep Neural Network)预测股票第二天涨跌情况[1]。Krizhevsky等考虑神经元稀疏技术“dropout”,训练深度卷积神经网络(Convolutional Neural Networks),将LSVRC-2010竞赛图像进行分类[2]。Faming Liang等提出贝叶斯神经网络(Bayesian Neural Networks),基于肿瘤数据,成功应用于抗癌药物敏感性相关基因的鉴定[3]。Girshick等提出R-CNN算法,该算法结合CNN应用于目标定位和对象分离,并且在标准PASCAL VOC数据集对象检测上表现良好[4]。Jean Feng等提出稀疏输入神经网络(Sparse-Input Neural Networks),对输入神经元的权值添加Group Lasso罚函数,并验证其优于非参数高维估计方法[5]。Yan Sun等提出贝叶斯稀疏神经网络(Bayesian Sparse Deep Neural Network)解决大规模压缩和高维非线性变量选择问题,并验证该模型的一致性[6]。周徐达提出软硬件结合,使用剪枝技术处理不规则稀疏神经网络,以有效实现神经网络压缩[7]。
综上所述,稀疏神经网络技术的应用成为主流趋势。随新冠肺炎疫情好转,中国餐饮市场规模跃迁,火锅因其广泛受众基础搜索热度持续霸榜[8,9]。2020年,火锅品类收入4 380亿元,占整体餐饮收入的11.08%,搜索量涨幅达到11.6%;同年火锅连锁化率达到18.3%,较2019年,同比增长3.2%[10]。重庆市是国内目前拥有火锅店最多的城市。据窄门餐眼收录的数据,截止至2021年10月06日,重庆市火锅品类占比10.96%,仅次于快餐简餐排名第二。在品类比拼大赛道,火锅作为“吸金王”,该如何保持“吸金”特质?本文将稀疏神经网络模型应用到重庆市火锅团购销量相关分析中,探索对火锅销量最具影响的因素。
本文其余部分安排如下,在第二部分介绍稀疏神经网络模型,在第三部分验证稀疏神经网络变量选择的一致性,在第四部分爬取某团购平台重庆市火锅团购相关数据,通过对火锅半年销量、店铺信息、团购基本信息及使用规则数据建立稀疏神经网络模型,分析获取对火锅团购的销量最具有影响力的因素,为商户对于如何设计团购套餐以吸引更多顾客消费提供依据。57BA3E12-9874-42DC-8917-AA60F86E9236
1 模型与指标解释
神经网络(Neural Network)往往容易过拟合,可以使用Lasso(Least absolute shrinkage and selection operater)罚函数,在反向传播神经网络算法不断调整迭代权值时,对神经网络连接的权值添加惩罚项。通过将部分不显著参数压缩到0,实现高维非线性情形的变量选择,使得神经网络模型稀疏化,从而可以很好地解决过拟合的问题。
1.1 神经网络模型
用表示神经网络第m层第i个神经元的激活值,用表示第m层第i个神经元和第m-1层第j个神经元的连接的权值,用表示第m层第i个神经元的偏置。另外,记神经网络总层数为L,并用tm表示第m层神经元个数。其他符号,如n表示样本数,p表示协变量个数,表示第m层使用的激活函数。则第二层神经网络的计算公式为:
(1)
其中,,,
,
同理,輸出层神经网络的计算公式为:
(2)
1.2 神经网络稀疏化
记为真实值y(X;W,b)对应的拟合值,则可定义如下损失函数:
(3)
在神经网络反向传播不断迭代调整权重参数时,对权值添加Lasso罚函数。Lasso在1996年被Tibshirani提出[11],该方法的参数估计是带约束条件的最小二乘估计,本质上将部分参数值压缩至0,实现模型选择。因此,求解权值的Lasso估计等价于最小化下述惩罚似然函数:
(4)
其中,λ表示调整参数,或称Lasso学习率。沿用上述符号,并用作为选取有效变量的依据指标,它表示输入层第j个输入神经元与隐藏层每个神经元的连接权值的绝对值之和,即。本文提供两个思路选取有效变量。一是对的值进行排序,根据真实模型的设置,选取值较大的t个变量作为入选变量,例如真实模型中有5个有效变量则令t=5。二是根据有效变量的权值的估计值应比其余非有效变量权值的估计值大的原则划定阈值,若值小于此阈值将该值置为0,否则不采取任何操作,最终被保留的非零连接权值所对应的输入神经元为入选有效变量。并使用FSR(False Selection Rate)和NSR(Negative Selection Rate)[12]作为变量选择好坏的评价指标。
(5)
2 数值模拟
本节利用蒙特卡洛数值模拟仿真,说明稀疏神经网络变量选择的一致性,并说明本文两种选取有效变量思路的优良性。从以下神经网络模型中生成数据:
y=tanh(0.5tanh(x1-2x2+5x3)-3tanh(-4x1+x2+2x3))+0x4+…+0x1 000+0.1ε
其中,协变量x1,x2,…,x1 000与随机误差ε都服从标准正态分布。数据的生成参考Yan Sun[6],但本文仅生成5个数据集,每个数据集包含10 000个样本。将生成的每个数据集打乱,并将每个数据集按8:1:1的比例分为训练集、测试集、验证集。使用1 000-3-1的初始设置对训练集进行500次迭代训练神经网络。此时,选取SGD(Stochastic Gradient Descent)优化器更新权重,Lasso学习率λ=0.01,0.05,0.1,设置批量训练的子集大小为500,并选择tanh函数作为激活函数。由于SGD算法使用随机初始值,为避免模拟结果的随机性,本文对同一组数据重复运行10次,以确定最终选入的统计变量。
依据真实模型的设置,需从1 000个特征变量当中选出3个有效变量,此3个有效变量的权值的估计值应比其余非有效变量权值的估计值大。模拟结果显示,对排序与划定阈值两种方法入选的有效变量一致。统计变量错选率(FSR),真实变量未入选率(NSR),测试集均方拟合误差(MSFE)及均方预测误差(MSPE),如表1所示。
如表1,在同一个模型情形下,选取不同的Lasso学习率,划定阈值与划定t值,入选的变量个数都为3。统计变量错选率及真实未入选率皆为0,即FSR=0,NSR=0。稀疏神经网络可以较好拟合数据,逼近真实模型。在Lasso学习率λ=0.05时模型性能最好,对应的测试集均方拟合误差为MSFE=0.021 9,均方预测误差为MSPE=0.021 8。
3 实际应用
3.1 实例数据来源
各种团购网站自2010年后深入人民生活,成为众多网民电子商务网络购物的选择。收集采用相关的团购平台信息进行学习研究,具有可靠性、受众普遍性。本文采用截至2021年11月8日,某团购上重庆市的火锅团购数据,共计数据3 391条。分析火锅团购的半年累计销量的原始数据,数值整体波动较大,故对半年销量取对数。以店铺火锅团购的半年销量的对数为自变量,店铺信息、团购基本信息及使用规则数据三大类数据作为因变量(共18个),详细统计变量如表2所示。
记xs=(xs,1,xs,2,…,xs,18),由于各特征变量量纲不一致,考虑对其进行归一化处理:
(6)
将归一化后的数据作为稀疏神经网络的输入数据。同时也对对数半年销量作上述归一化处理。为评估模型,将3 391条火锅团购数据打乱,再按8:1:1比例将数据分为训练集、测试集、验证集,这三部分分别有2 713、339、339个样本。
3.3 实证分析
使用18-3-1的初始设置训练集数据训练神经网络模型,即三层神经网络,隐藏层单元个数为3。参考数值模拟,同样选取SGD优化器更新权重,并令MSE(Mean Squared Error)作为训练模型的损失函数,激活函数仍为tanh函数,设置批量训练的子集大小为500;不同的是,设置的Lasso学习率为λ=0.07,迭代周期为100。为避免模拟结果的随机性,在实例分析中对各层权值随机初始化,并对同一组训练数据重复运行10次,最后确定入选的统计变量。基于火锅团购数据,模拟显示训练集、验证集损失函数随着迭代次数的增加,而逐渐趋于0。稀疏神经网络结构如图1所示,变量选择结果如表3所示。57BA3E12-9874-42DC-8917-AA60F86E9236
图1中,圆形表示每层的神经元,黑线表示连接。基于火锅团购数据,这里对输入神经元使用Lasso正则技术,得到10个有效变量,分别是x1,x4,x5,x7,x10,x11,x13,x14,x15,x16,即火锅套餐的团购价、团购菜品数量、团购图片数量、是否含餐位费、人均消费、店铺内团购项目数、是否提供免费Wi-Fi、是否有停车场、是否需要预约、周末节假日是否通用。
在表3的变量选择结果中,基于火锅团购数据,当Lasso学习率λ=0.07,选定阈值为10-3,重复模拟试验结果趋于稳定。最终入选的统计变量集大小为10,此时对应的训练集的均方拟合误差为0.033 5,均方预测误差为0.021 8。
基于3 391条样本数据,对火锅团购的对数半年销量值从大到小排序,并选取前60%样本分析。结果显示,该60%样本数据所对应的上述10个有效变量的值有显著规律。在团购基本信息方面,72.83%的火锅套餐的团购价在200元以下,75.36%的团购菜品数量不少于5个,80.69%的团购套餐页面至少有2张菜品图片,61.9%的套餐不包含餐位费;在所在店铺信息方面,74.45%的店铺的人均消费不超过60元,84.73%的店铺团购项目数量不少于3个,95.5%的店铺提供免费Wi-Fi;在使用规则方面,87%的套餐不需要预约,90.4%的套餐周末节假日通用。
4 结 论
在稀疏神经网络算法被广泛用的背景下,本文使用对神经网络的连接权重值添加惩罚函数的神经网络稀疏化技术,并用蒙特卡洛数值模拟验证,在特征变量数量大但非零连接权值数量小的数据中,该技术的变量选择结果具有一致性。最后将稀疏神经网络模型成功的应用到火锅团购销量的分析中,火锅套餐的团购价、团购菜品数量、团购图片数量等10个因素对火锅团购销量最具影响,并且探寻到高销量团购套餐这10个因素的共同规律。
参考文献:
[1] 周书豪.神经网络在基因型不确定数据和经济数据上的研究 [D].桂林:广西师范大学,2020.
[2] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet Classification with Deep Convolutional Neural NetworksBy Alex Krizhevsky [C]//Advances in neural information processing systems.2012:1097-1105.
[3] LIANG F,LI Q,ZHOU L. Bayesian Neural Networks for Selection of Drug Sensitive Genes [J].Journal of the American Statistical Association,2018,113(523):955-972.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [J].IEEE Computer Society,2013.
[5] FENG J,SIMON N. Sparse-Input Neural Networks for High-dimensional Nonpara-metric Regression and Classification [J].Statistics,2017.
[6] SUN Y,SONG Q F,LIANG F M. Consistent Sparse Deep Learning:Theory and Computation [J].Journal of the American Statistical Association,2021,1-42.https://doi.org/10.48550/arXiv.2102.13229.
[7] 周徐達.稀疏神经网络和稀疏神经网络加速器的研究 [D].合肥:中国科学技术大学,2019.
[8] 美团,中国连锁经营协会.2021中国餐饮加盟行业白皮书 [EB/OL].[2021-11-08].http://www.ccfa.org.cn/portal/cn/xiangxi.jsp?id=442768&type=33.
[9] CY373.2020年中国火锅餐饮行业分析:规模不断增长、两级分化严重 [EB/OL].[2021-11-08].https://www.chyxx.com/industry/202108/966439.html.
[10] CY331.2021年中国火锅产业规模及龙头企业对比分析:海底捞VS呷哺呷哺 [EB/OL].[2021-11-08].https://www.chyxx.com/industry/202109/975214.html.
[11] ROBERT,TIBSHIRANI. Regression Shrinkage and Selection via the Lasso [J].Journal of the Royal Statistical Society. Series B:Methodological,1996,58(1):267-288.
[12] MAO Y,YAN S. Variable selection via penalized neural network:a drop-out-one loss approach [C]//in International Conference on Machine Learning,PMLR,2018:5620-5629.
作者简介:郭萍(1998—),女,汉族,广西钦州人,硕士研究生在读,研究方向:数理统计。
收稿日期:2022-02-1057BA3E12-9874-42DC-8917-AA60F86E9236