基于CART决策树的CCL大数据有效信息提取
2021-11-17张梦泽张一舟李凯勇
张梦泽,张一舟,李凯勇
(1.韩国世宗大学,韩国 首尔 05006;2.青海民族大学物理与电子信息工程学院,青海 西宁 810007)
1 引言
冷链物流的大数据是建立在物流系统的反馈信息技术上的,这样能够更加清楚地看到物流系统所反馈的信息,这样能很好地监控货物的情况[1]。具体来说,就是在数据感知技术和信息反馈技术的基础上来对大量的数据进行整合、挖掘和处理,过滤掉多余的信息,提取有效的信息,并让这些有效的信息能够共享,通过网络来传输数据,并把这些数据输送到监控端[2]。在这个过程中产生了重影识别和边界孤立点等很多没用的信息,过滤掉这些信息,并对这些信息进行识别,从而让效率得到提高。这样就能在大数据下形成独立的领域,来集中数据,提高挖掘技术,进而提高对数据的提取和辨别[3]。
贺琳等人[4]提出了一种新的区域物流系统空间演化特征信息提取法,对粒子群进行优化、重组、更新,来重新构建这些特征,通过对类别进行调整,提取矢量平衡点,来计算物流信息在有限数据集方面所形成的扰动矢量,从而形成目标函数,有利于调整和重构物流信息,并对这些物流信息及时提取,这样所采用的方法能大大地缩短物流信息的提取时间,提高物流的通信效率;王妍等人[5]则提出了基于互信息的实时物流特征提取算法,在对移动网络的电子商务物流信息进行主成分分析的基础上来确定好物流信息所蕴含的强度,从而规定好原则,挖掘出其中的信息,通过主成分分析法来提取网络物流信息,形成协方差矩阵,产生信息向量投影,采用对商务物流信息的及时抓取来降低噪声,减少提取的时间,占用较小的空间,提高物流信息的质量。
基于以上背景,本文将CART决策树应用到了冷链物流大数据有效信息提取中,从而提高冷链物流大数据有效信息提取性能。
2 冷链物流大数据有效信息提取方法设计
2.1 预处理冷链物流大数据有效信息
在冷链物流大数据上建立了有效信息是采用的非结构化的冷链物流数据源,这些数据也许不完整或有误,但是对这些数据的处理能够很好地提高数据的质量[6]。并且因为冷链物流大数据是离散的空间信息,而且这些信息是孤立的或是噪声,所以要进行特征降维的方法来设计这些离散点,而对于孤立点的敏感问题,则要用单边加权模糊支持向量机的方法,而对数据的预处理则是由数据的清洗、规范、集成和变化等过程组成的[7]。假设t0表示冷链物流大数据的有效信息变量分区起点,将冷链物流大数据有效信息通畅分布在第i层中,那么有效信息的返回状态表示为
Y=AY+B[f(Y)+u]
(1)
式(1)中,A表示有效信息变量集,B表示无效信息变量,u表示物流需求系数,f(Y)表示物流信息修正函数。利用CART决策树对冷链物流大数据有效信息进行分布式计算,由于CART决策树具有容错性,计算过程中经常出错[8],因此,根据偏度概念对冷链物流大数据的有效信息进行修正,表示为
(2)
(3)
2.2 分析冷链物流大数据有效信息
为了实现冷链物流大数据有效信息的实时提取,现在冷链物流大数据库中挖掘出有效信息,利用冷链物流大数据有效信息中蕴含的关联规则,挖掘出冷链物流大数据库中的有效信息[10]。具体过程如下:
引入蕴含强度挖掘冷链物流大数据有效信息之间的关联度,蕴含强度的表达式为
(4)
其中,η(t,s)表示有效信息在冷链物流大数据中产生的几率。当采用蕴含强度度量冷链物流大数据有效信息的关联规则时,关联规则的度量方式如下
t⟹s(sup,conf,cov)
(5)
其中,sup表示支持度,conf表示置信度,cov表示覆盖率。
在关联规则的指引下,蕴含关联规则可以表示为
t⟹s(η,α)
(6)
其中,η表示蕴含关联规则的蕴含强度,取值范围在-1到1之间,α表示蕴含强度的阈值。
基于冷链物流大数据中有效信息节点的数目计算,遍历每一个有效信息,通过挖掘的冷链物流大数据有效信息,分析了冷链物流大数据有效信息。
2.3 重构冷链物流大数据有效信息的特征矢量
冷链物流大数据有效信息的提取重点是检验有效信息在冷链物流大数据中出现的概率[11],冷链物流大数据库中包含n个有效信息数据样本,X表示有效信息集合,那么冷链物流大数据有效信息的时间序列为
X={x1,x2,…,xn}⊂Rs
(7)
其中,xi(i=1,2,…,n)表示冷链物流大数据有效信息的向量,计算公式为
xi=(xi1,xi2,…,xis)T
(8)
其中,T表示转置向量。令c表示冷链物流大数据有效信息的时间序列中的分类系数,vij表示冷链物流大数据i中第j个有效信息矢量,那么冷链物流大数据有效信息的更新公式为
V={vij∣i=1,2,…,c,j=1,2,…,s}
(9)
采用CART决策树对冷链物流大数据有效信息的更新结果进行调整[12],实现冷链物流大数据的有效信息特征矢量重构,表示为
(10)
利用冷链物流大数据有效信息的时间序列,计算了冷链物流大数据有效信息的向量,通过更新和调整冷链物流大数据有效信息,重构了冷链物流大数据有效信息的特征矢量。
2.4 提取冷链物流大数据有效信息
在重构冷链物流大数据有效信息特征矢量的基础上,利用CART决策树计算有效信息的权值,将有效信息决策树矢量与均值聚类算法结合,计算冷链物流大数据有效信息的扰动矢量,通过构建有效信息适应度目标函数,调整并重构有效信息的类别,实现冷链物流大数据有效信息的提取。
假设X′表示具有均匀便利性的冷链物流大数据有效信息的特征矢量数据集,一个冷链物流大数据有效信息决策树由M各单独的有效信息枝叶组成,那么在最优目标策略下,满足冷链物流大数据有效信息搜索的有限数据集为
(11)
(12)
(13)
根据上述公式,可以计算冷链物流大数据有效信息的最优解,以及CART决策树的聚类中心扰动矢量,从而得到冷链物流大数据有效信息的聚类矩阵,将其表示为
(14)
其中,c表示冷链物流大数据有效信息的差分步数,uik表示冷链物流大数据有效信息决策矩阵,为了反映出冷链物流大数据有效信息在决策分类过程中的变化特性,计算了CART决策树差分扰动下,冷链物流大数据有效信息的适应度目标函数,表示为
(15)
其中,m表示冷链物流大数据有效信息向量的最大值,(dik)2表示冷链物流大数据有效信息样本xk与vi之间的欧式距离,计算公式为
(16)
根据以上过程,可以通过下式计算冷链物流大数据有效信息在决策过程中的数据值大小,计算公式为
(17)
运用CART决策树的差分扰动,产生一个冷链物流大数据有效信息的初始隶属度矩阵,并置于决策树中,得到冷链物流大数据有效信息的扰动变量,即
xn,G=xn,G+Δxi
(18)
其中,Δxi表示冷链物流大数据有效信息的数量增长,但是冷链物流大数据有效信息范围的信息序列会受到有效信息梯度的影响,表示为
xn+1=4xn(1-xn),n=1,2,…,NP
(19)
根据以上公式的计算过程,可以得出冷链物流大数据有效信息的决策处于稳定状态,在CART决策树中加入冷链物流大数据有效信息的NP各扰动变量的混沌分量,表示为
Δxi=a+(b-a)xn,n=1,2,…,NP
(20)
为了避免冷链物流大数据有效信息在提取过程中陷入局部最优的状态,Nth表示门限值,计算出冷链物流大数据有效信息在决策中的多样性因子,即
(21)
采用CART决策树采集与处理冷链物流大数据有效信息,提取出冷链物流大数据有效信息的第j个样本值,调整冷链物流大数据有效信息的类别
(22)
其中,N表示冷链物流大数据有效信息数量,根据CART决策树对冷链物流大数据有效信息进行扰动分解,计算出决策树中第i′个有效信息的决策中心概率值
(23)
其中,xk表示第k个冷链物流大数据有效信息的动态惯性权重,a表示冷链物流大数据有效信息决策中心的调节参数。将冷链物流大数据有效信息的扰动序列添加到CART决策树中,对冷链物流大数据有效信息进行第二次重构,提取出重构处理后的冷链物流大数据有效信息
(24)
综上所述,采用混沌算法计算了冷链物流大数据有效信息的决策权值,引入CART决策树对冷链物流大数据有效信息进行调整和重构,实现冷链物流大数据有效信息的提取。
3 实验分析
3.1 冷链物流信息噪声含量对比
为了验证基于CART决策树的冷链物流大数据有效信息提取方法的性能,采用仿真软件进行实验分析,引入文献[4]的冷链物流大数据有效信息提取方法和文献[5]的冷链物流大数据有效信息提取方法作为对比对象,测试了冷链物流大数据有效信息的噪声含量,结果如图1所示。
图1 冷链物流大数据有效信息的噪声含量
从图1的结果可以看出,采用基于CART决策树的冷链物流大数据有效信息提取方法,提取到的冷链物流大数据有效信息是噪声含量最少的,说明该方法可以有效保证冷链物流大数据有效信息的质量,避免信息出现乱码和失真的问题,提高了冷链物流大数据有效信息的提取性能。
3.2 冷链物流信息提取时间对比
为了实现冷链物流大数据有效信息提取的实时性,实验测试了冷链物流大数据有效信息的提取时间,三种方法的冷链物流大数据有效信息提取时间对比结果如图2所示。
图2 冷链物流大数据有效信息提取时间对比结果
从图2的结果可以看出,随着冷链物流大数据有效信息越来越大,有效信息的提取时间越来越长。基于CART决策树的冷链物流大数据有效信息提取方法所用的时间是最短的,原因是该方法通过引入CART决策树,降低了冷链物流大数据有效信息的复杂度;文献[4]冷链物流大数据有效信息提取方法的提取时间是最长的,说明基于CART决策树的冷链物流大数据有效信息提取方法可以加快冷链物流大数据有效信息提取速度,保证了冷链物流大数据有效信息提取的实时性。
4 结束语
本文提出了基于CART决策树的冷链物流大数据有效信息提取,针对传统信息提取方法存在的不足,对冷链物流大数据有效信息进行了预处理、分析以及重构实现了冷链物流大数据有效信息的提取,结果显示,该提取方法可以保证冷链物流大数据有效信息提取的实时性,并提高信息质量。