基于BiLG-A-CNN的冷链配送公司评价模型
2022-10-13孙新杰潘水凡孙国营
孙新杰 潘水凡 孙国营
(六盘水师范学院计算机科学学院,贵州六盘水 553004)
随着互联网技术的发展和全国路网以及物流系统的完善,网上购物成为我国现今越来越流行的购物方式。几乎所有的产品都可以从网上购买,包括生鲜农产品。由于生鲜农产品在运输过程中存在容易腐烂、不易保存等特征,因此,如何选用合适的冷链配送公司成为促进互联网生鲜销售发展的重要研究课题。
贵州省位于中国西南地区,独特的地理位置和优越的气候造就了当地丰富的特色生鲜农产品资源,近年来,为了推动当地农业的发展,增加农民收入,贵州省大力鼓励“互联网+特色生鲜农产品”销售模式,为了解决生鲜农产品在运输过程中的腐败问题,贵州省大力发展了本地的冷链配送产业。然而,不同的冷链配送公司的配送费用、坏果率等指标的不同,使得生鲜电商很难分辨冷链配送公司的优劣,因此,需要构建一套适合贵州省冷链配送公司评级的评价模型。
已经有一些文献对冷链配送公司的优劣进行了评价。翁法兵等[1]在基于直觉模糊偏好决策的冷链物流供应商三维评价中,分别从环境友好性、客户满意度以及企业战略合作伙伴3个维度出发构建冷链配送评价模型,为选择冷链配送合作公司提供依据。秦小辉等[2]在基于灰色聚类分析的我国农产品冷链物流水平综合评价中,用熵值法和灰色聚类法对我国多省市的冷链物流进行评价,并将评价结果进行了展示。田玉洁等[3]在基于层次分析法(Analytic Hierarchy Process,AHP)的AHP-熵权法的生鲜农产品冷链物流安全评价中,通过熵值法和模糊物元法,构建包含配送、包装等在内的评价体系,对常州市4 家冷链公司进行评价。周云等[4]在以绿色供应链为依托的农产品冷链物流企业绩效评价中,通过研究绿色供应链的作用,对依托其发展的冷链配送公司进行评价。李耀华[5]在基于生态经济视角的农产品冷链物流效率评价研究中,从传统指标和物流行业作用6 个方面对冷链物流效率进行评价。李远远等[6]在农产品冷链物流企业绩效综合评价研究中,构建了4个一级指标以及18个二级指标,对农产品冷链物流优劣进行评价。
虽然已经有一些对于冷链配送公司评价的研究,但是评价模型相对简单,大部分模型都是基于单一的机器学习或深度学习模型构建的,评价结果也不尽理想。即使有一些模型用到长短期记忆[7](Long Short-Term Memory,LSTM)和门控循环单元[8](Gated Recurrent Neural Network,GRU),模型仍然存在两个主要缺点:一是常见的高维输入空间增加了模型的复杂性;二是模型为所有的评价指标分配相同的关注度。为了解决上述问题,本文提出了一种新的冷链配送公司评价模型——BiLG-A-CNN。首先,获取贵州省冷链配送公司的评价指标原始数据;其次,将评价指标数据转化为向量;再次,在双向 LSTM[9](BiLSTM)和双向GRU[10,11](BiGRU)分支的输出端使用注意力机制[12](Attention),使模型能够对不同的评价指标给予更多或更少的关注;然后,卷积神经网络[13](Convolutional neural network,CNN)被用来提取信息特征并降低输入数据的维度,同时,全局和平均池层被堆叠在CNN层的输出端,以降低其特征图的采样,这使得产生的特征图对特征的位置变化更加稳健。最后,通过带有指数归一化(softmax)的全连接层获取冷链配送公司的评价结果。
1 基础知识
1.1 长短期记忆(LSTM)
LSTM 是循环神经网络[14](Recurrent Neural Network,RNN)的一种特殊类型,它被设计用来处理RNN所面临的梯度消失/爆炸问题。LSTM和其他类型的RNN一样,根据当前时间步的输入和上一个时间步的输出产生它们的输出,并将当前的输出发送到下一个时间步。每个LSTM 单元由一个在任意的时间间隔内保持其状态的记忆单元ct和三个非线性门组成,包括一个输入门it、一个遗忘门 ft和一个输出门ot。这些门被设计用来调节进入和离开记忆单元的信息流。包含一个隐藏层的LSTM的定义如下:
其中,σ 表示逻辑S 型生长曲线(sigmod)函数,⊗表示元素级乘法操作,i(t),f(t),o(t),c(t)分别表示在时刻t 的输入门、遗忘门、输出门以及记忆单元激活向量,并且和隐藏向量h(t)∈RH具有相 同 的 向 量 大 小 。 可 训 练 参 数Wi,Wf,Wo,Wc∈RH×d,Ui,Uf,Uo,Uc∈RH×H,bi,bf,bo,bc分别表示偏置项。 H 和 d 分别表示隐藏层和输入的维度。
为了捕获前面上下文之外的未来上下文,BiLSTM结合了前向 h→(t)和后向 h←(t),使得时间信息在两个方向上流动,从而能够获得更好的学习结果。
GRU 是LSTM 的一个更简单的变体,它有两个门,一个是更新门r(t),结合了遗忘门 f(t)和输入门i(t),另一个是重置门z(t)。与LSTM 类似,包含一个隐藏层的GRU的定义如下:
其 中 ,可 训 练 参 数 Wr,Wz,Wh∈RH×d,Ur,Uz,Uh∈RH×H,br,bz 表示偏置项。
1.2 注意(Attention)
注意机制来源于人脑在观察事物时的注意,注意力模型被用来给对评价指标分配不同的权重。在本文中,使用注意机制为BiLSTM和BiGRU层的每个输出分配权重。权重越大,评价指标就越重要,并会影响整个问题的频率分类。假设v是可训练参数,则注意公式为:
1.3 卷积神经网络(CNN)
CNN 由多个卷积层和池化层组成,可用于局部特征提取和降维。在CNN网络中,通过一维的线性滤波器对输入特征进行卷积操作。为了在一个有s 个评价指标的评价对象S 上应用CNN,首先,创建一个大小为e 的嵌入向量。然后,一个大小为e×h 的滤波器F 被反复应用于输入特征矩阵的子矩阵。 这就产生了一个特征图M=[m0,m1,m2,…,ms-h],其中,第 i 个特征序列的计算公式如下:
其中,f()表示非线性激活函数Relu,W 表示可训练参数,b 表示偏置项,Si:i+h-1表示句子S中从第i 个词到第i+h-1 个词组成的向量,且i=0,1,2,…,s-h。卷积操作后,通常使用最大池化操作进一步提取重要的特征和降维,使用最大池化提取特征b 的公式如下:
池化层的输出被连接起来,形成一个集合特征向量,作为全连接网络的输入。
2 模型构建
为了解决现有的评价模型深度架构的局限性,本文提出了一种新的基于注意力机制的深度学习模型——BiLG-A-CNN。模型的结构图如图1所示。
图1 BiLG-A-CNN模型结构
模型主要由输入层、预处理层、BiLSTM和Bi-GRU 层、Attention 层、CNN 层、全连接层以及输出层构成。其实现原理如下:
预处理层用于将输入层获取的冷链配送公司的原始评价指标数据转化为嵌入矩阵Wg∈Rn×m,其中,n 表示评价对象的条数,m 表示单个评价指标对应的向量长度。将输入的评价指标原始数据转化为向量后,在预处理层的输出上应用两个平行的BiLSTM 和BiGRU 来处理任意长度的序列,并在前向和后向中提取长的依赖关系。本文同时采用了GRU 和LSTM,使所提出的模型能够同时记住短的和长的序列。
对于每一个评价对象,将前向和后向结果组合可以进一步获得双向的结果:
注意力机制应用于htLSTM和htGRU,使模型能够对评价对象中的不同指标给予更多或更少的关注,具体如下:
其中 utLSTM和 utGRU分别是 htLSTM和 htGRU的隐藏表示,uwLSTM和uwGRU是在训练阶段随机初始化并共同学习的上下文向量,WwLSTM和WwGRU是权重向量,bwLSTM和bwGRU是偏置项。utLSTM、utGRU的重要性是用它们与uwLSTM、uwGRU的相似度来计算并得到归一化的结果atLSTM和atGRU。这些重要性权重最后通过加权求和的方式汇总到stLSTM和 stGRU中。
在获得最终的评价表示stLSTM和stGRU后,卷积操作被用来提取信息丰富的局部特征,并降低输入数据的维度。此外,卷积使模型能够获得位置不变性。在BiLG-A-CNN中,BiLSTM和BiGRU的结果被输入到两个平行的卷积网络中。每个卷积网络包含1个一维卷积层和1个最大池化层。
此时,会得到4个CNN层的输出,因为两个独立的CNN 被应用于BiLSTM 和BiGRU 层的输出。现在,最大和平均池层被独立地堆叠在CNN的输出上,以向下采样其特征图。这使得产生的特征图对特征的位置变化更加稳健。如果考虑到CNN层的过滤器的数量,每个池化操作的最终特征向量 Lc 为 Lci=[lc1,lc2,…,lcf], i ∈[1,8] 。由于对于每个CNN 来说,最大池和平均池是独立应用的,因此,得到了8个局部特征图。
将这些特征向量连接起来以形成最终向量Lc=[Lc1,Lc2,…,Lc8]。为了评价对象对应的标签,使用全连接层将向量Lc 转换为高层表示,该层的输出计算如下:
其中hp是对集合层的串联应用批量归一化得到的隐藏表示,Wd和bd是在训练过程中学习的参数。最后,全连接层的输出被送入具有softmax函数的输出层,输出评价对象的结果。
3 实验
3.1 实验环境
本文所有实验均在同一配置的电脑上进行,具体的实验环境如下:Windows10 的64 位操作系统,内存为8G,硬盘1T,处理器为Intel(R) Core(TM)i5-4790 CPU@3.60GHz 3.60GHz。
3.2 数据获取
首先,通过网上获取、文献查询、实地调研等方式,获得了贵州省500 家冷链配送公司2021 年10 月份的占地面积、月行驶里程、机构设置等18个指标原始数据,根据《物流企业冷链服务要求与能力评估指标》对贵州省500 家冷链配送公司进行评级,并分为优、良、中、差四个等级。将获取的评价对象原始数据转化为数字,然后分别通过1、2、3、4表示优、良、中、差四个等级。
3.3 实验过程
3.3.1 评价指标
为了更好地体现模型评价的结果,本文分别使用准确性(Accuracy)、精确度(Precision)、召回率(Recall)以及F1-分(F1-score)对模型进行评价,并将Accuracy、Precision、Recall 以及F1-score的计算公式定义如下:
其中,P表示阳性样本数,N表示阴性样本数,TP表示真实评价的阳性样本数,TN表示真实评价的阴性样本数,FP 表示错误评价的阳性样本数,FN表示错误评价的阴性样本数。
3.3.2 模型评价
将500 条评价对象平均拆分成P1、P2、P3、P4、P5,共5组,每一组包含100条记录。将记录拆分成训练集和测试集,如表1所示。
表1 5次实验的训练集和测试集
共进行5次实验,选取5次实验的平均值作为最终的实验结果,同时,在同等的实验环境下,分别选取支持向量机(Support Vector Machine,SVM)[15]、随机森林(Random Forest,RF)[16]、GRU、LSTM 以及CNN 作为对比模型。实验结果如图2所示。
图2 BiLG-A-CNN与对比模型实验结果
由图2 可以看出,BiLG-A-CNN 取得了最优的 Accuracy、Precision、Recall 以及 F1-score,结果分别为97.75%、98.01%、97.54%以及98.12%,并且这4 个评价指标相比对比模型分别至少提高了3.48%、3.65%、3.58%以及3.89%。另外,本文还选取了5 篇最新的关于指标评价的文章中的模型,并使用本文的数据集比较这些模型和BiLG-A-CNN的评价结果,如表2所示。
表2 BiLG-A-CNN与最新文献模型评价结果
由表2 可以看出,BiLG-A-CNN 的评价结果要优于最新的中外文献中提出的比较优秀的评价模型的结果,其中,Accuracy、Precision、Recall以及F1-score 的结果分别比文献中的结果提高了1.89%~5.49%、2.63%~5.64%、2.31%~4.49%以及2.68%~5.25%。我们分析其中的原因,相比于对比模型只能获得单一的长的或短的时序特征,BiLG-A-CNN 通过平行的 BiLSTM 和 BiGRU 网络可以同时获得长的和短的时序特征,并且通过联合使用Attention机制可以为不同的时序特征分配不同的权重,最后通过CNN网络降维和提取更主要的特征,从而可以在很大程度上提升模型精准评价的结果。
最后,为了证明本文所提BiLG-A-CNN 不同层的结构设置的合理性,本文还进行了多个对比试验,试验结果如表3所示。
表3 对比试验评价结果
由表3 可以看出,当改变BiLG-A-CNN 中的某些层的结构后,Accuracy、Precision、Recall 以及F1-score 均有所降低,降低的范围分别在1.31%~2.99%、1.28%~4.03%、1.02%~2.79%以及1.2%~3.66%之间。由此可见,BiLG-A-CNN 中构建的BiLSTM、BiGRU、Attention 和 CNN 网络对于模型的评价结果均有提升作用,并且作用最明显的是BiLSTM 和 BiGRU 网络,其次是 Attention 和 CNN网络。分析其中的原因,BiLSTM和BiGRU网络可以使模型同时获取长的和短的时序特征,而Attention和CNN网络只是对已有的时序特征进行深层次的处理,因此,BiLSTM 和BiGRU 网络对于模型评价结果的帮助更大。
4 结论
本文提出了BiLG-A-CNN,用于贵州省冷链配送公司的指标评价。通过使用BiLSTM 和BiGRU网络获取时序特征,通过使用Attention分配不同的注意力,并使用CNN 提取局部特征和降维,从而可以有效地解决传统深度学习模型在模型评价过程中存在的高维和为所有评价指标分配相同的关注度的问题。通过和最优秀的评价模型以及最新文献中的模型的对比实验可以看出,BiLG-A-CNN 取得了最优的 Accuracy、Precision、Recall 以及 F1-score 值,说明了 BiLG-A-CNN 在冷链配送公式指标评价上的优越性。