APP下载

基于数据挖掘技术的物流配送成本估计研究

2020-08-07秦智聃陈章跃弓宪文

现代电子技术 2020年13期
关键词:数据挖掘技术物流配送

秦智聃 陈章跃 弓宪文

摘  要: 传统物流配送成本估计方法对于配送费用数据的支持度阈值计算不够精确,导致物流配送成本估计困难,为此研究基于数据挖掘技术的物流配送成本估计方法。该方法通过聚类分析,将庞大的费用数据划分成具有相同特征的数据类簇,找出其中出现频繁的数据类簇计算每一特征属性下的支持度阈值,挖掘出数据之间的关联规则,利用回归差分移动平均法搭建数学模型,以此实现物流配送成本估计。实验结果表明,与传统成本估计方法相比,所研究的方法对于数据支持度阈值计算更加准确,挖掘到的关联规则更详尽,估计出的物流配送成本更加精确。由此可见,所研究的方法更适用于企业物流配送成本估计要求。

关键词: 物流配送; 成本估计; 数据挖掘技术; 数学模型搭建; 阈值计算; 关联规则挖掘

中图分类号: TN911.1?34; TP361                    文献标识码: A                   文章编号: 1004?373X(2020)13?0183?04

Research on logistics distribution cost estimation based on data

mining technology

QIN Zhidan, CHEN Zhangyue, GONG Xianwen

(Chongqing University of Education, Chongqing 400067, China)

Abstract: The traditional logistics distribution cost estimation method is not accurate enough to calculate the support threshold of the distribution cost data, which leads to the difficulty of logistics distribution cost estimation. Therefore, the logistics distribution cost estimation method based on data mining technology is studied. With this method, the huge cost data is divided into the data type of clusters with the same characteristics by means of cluster analysis, the data class clusters which appear frequently are found out to compute the support threshold of each feature attribute, the association rules between the data are mined, and the mathematical model is built with the regression difference moving average method. The logistics cost estimation method is realized in this way. The experimental results show that, in comparison with the traditional cost estimation method, the proposed method is more accurate in calculating the data support threshold, its mined association rules are more exhaustive and its estimated logistics distribution cost is more precise. It can be seen that the method is more suitable for cost estimation of logistics distribution enterprises.

Keywords: logistics distribution; cost estimation; data mining technology; mathematic model building; threshold value calculation; association rule mining

0  引  言

數据挖掘技术旨在处理数量庞大、信息类型复杂、结构形式多样化的数据信息。而当前的物流运输配送行业发展迅速,并且一些企业也将物流配送作为发展外延,因此使得企业财务部门对于物流配送成本估算有了更高的要求[1]。传统的成本估计方法考虑的影响因素较少,对于相关数据的划分也不够细致,这就使管理人员在查询关联数据时,数据基数变小,估计出的成本数值会影响企业的发展。为此本文研究一种基于数据挖掘技术的成本估计方法,该方法对相关费用数据进行聚类分析、分类分析、异常分析、组群分析以及关联性分析,通过找到数据之间隐含的潜在规则,提升成本估计的准确度,确保企业的成本预算[2]的准确性。

1  数据挖掘技术的物流配送成本估计方法

1.1  聚类物流配送数据

数据挖掘技术与计算机科学相关,通过数据收集、回归分析、数据聚类、关联规则以及神经网络方法,可以从海量数据中抓取隐藏的具有特殊关联属性的数据信息,预测或估计有关数据。

物流配送成本主要在配送流程和配送环节产生,主要包括分拣费用、流通加工费用、装配费用以及运输费用。其中,分拣费用包含分拣人工费用、分拣设备费用;流通加工费用包含流通加工设备、加工材料以及在流通加工过程中从事加工活动的管理人员、工人及有关人员工资、奖金等费用的总和;装配费用包含装配材料、人工以及相关辅助费用;运输费用则包含车辆费用和其他运营间接费用[3]。由此可知,配送成本细化后,其中的费用类别多,二阶科目更加繁琐,因此,利用数据挖掘技术中的数据聚类手段,根据配送成本相关数据的近似情况,将数据信息组成多个不同类别或簇,保证同一个类别或簇中的数据彼此之间存在一定关联属性,而不同类别或簇之间存在一定的数据差异。因此聚类物流配送成本相关数据的计算公式为:

式中:[m]表示聚类后的类簇数量,[i],[j]分别表示具有一个特征属性的簇;[nj]表示[j]数据簇中的项目数;[k]表示数据项;[d]表示空间维度;[ajkd]代表数据簇[j]中的第[k]项数据;[bid]代表數据簇[i]中的初始中心节点在[d]维度空间中的数据[4]。将配送成本进行聚类的部分示意图如图1所示。

通过图1a)可以看出:[W]代表总的物流配送成本,其中,包含了[n]个相关费用数据,聚类后得到图1b),可知按照不同的费用类型,将这些数据打散,根据相同属性特征进行划分可得到新的同种类的数据类簇[5]。

1.2  挖掘数据之间的关联规则

根据聚类后的成本数据类簇,找出同一特征数据中不同信息之间的内在关联。各结构通常被用来列举那些存在可能性的数据类簇,一般包含[c]个不同项的数据类簇,可能会存在[2c]个频繁数据类簇,并且会有[s]个规则[6]。因此,在这些复杂繁琐的数据集合中找出满足最小支持阈值的所有频繁数据类簇,再从这些类簇中挖掘出具有高置信度的关联规则,频繁数据类簇之间可能存在的规则可以利用式(2)进行表述:

根据表1中的频繁数据类簇项目,计算得到每一数据之间的支持度,以此得到数据之间每一种关系的关联程度,找出不同费用之间存在的关联规则[10][φ]。

1.3  搭建数学模型估计成本

在挖掘出配送成本中各项数据关联规则的基础上,搭建一个数学预测模型,估计物流配送的总成本。物流配送成本中,总的来说主要涉及到人工成本和机械设备成本两大类,因此配送成本在估计的过程中,根据分配和运送两个流程中的管理人员、装卸人员以及运送人员的调度,计算每一工作阶段中产生的直接人工费用以及运输费用[11]。将细化后的费用上传到财务部门的记账管理系统中,按配送时间,记录货物种类、配送人员、使用车辆等摘要,分别记录每一操作流程下的费用,登录财务记账页面,输入相关数据,如图2所示[12]。

从图2a)操作页面可知,点击该系统中的记账模块,将配送费用类数据输入到上述财务系统中,统计每种费用的总数据,得到的结果如图2b)所示。月初时,打开该系统的业务往来模块,点击月末处理按键,结转上月的物流配送成本,将导出的表格上传到成本估算系统中[13]。基于回归差分移动平均方法,根据线性时间序列对配送成本进行预测估计。通过多次差分计算处理,将动态变化的时间序列转换成平稳的序列。设置一个参数为[ω],将其当成差分次数,利用[ω],[p],[q]构建估计模型,并对转换后的平稳序列进行建模,然后将其替换为原有序列[14]。以[ω],[p],[q]为计算参数的估计模型,其预测表达式如下所示:

式中:[y]表示物流配送成本估计值;[φm]表示费用数据之间存在的[m]个规则;[εp]表示特征参数[p]下的模型;[γq]表示特征参数[q]下的模型;[εq]表示在特征参数[q]下的随机误差。

上述计算过程中,要保证时间序列的稳定性。当数据序列存在波动性特征时,要对其进行差分处理,根据自回归系数以及偏回归系数定阶所要处理的目标数据序列。至此,根据以往月份或年度的成本数据,利用数据挖掘技术估计出此阶段的物流配送成本[15]。

2  仿真实验

搭建一个仿真实验平台,利用该平台检测数据挖掘技术所估计出的物流配送成本,为了令实验结果更加直观,将该估计方法与传统估计方法相比较,分析两种成本估计方法下,所研究的数据挖掘技术较传统方法而言,其具有大量物流配送数据的处理能力。

2.1  实验准备

此次实验通过搭建Hadoop实验云平台,利用某一大型物流企业财务管理部门所记录的从2005—2015年的395 GB配送费用相关数据,按照年份分别预测当年的运输成本。仿真实验环境如图3所示。

图3中设备1为仿真实验计算机,设备2为专用服务器,设备3为数据实时变动液晶显示屏幕,设备4为网络稳定路由。此次实验选择两台型号、配置相同的计算机展开实验,该计算机CPU为3.4 GHz,8 GB内存,500 GB硬盘空间,选用高速计算网络和千兆储存网络,打开无线路由连接计算机。该计算机的操作系统为Ubuntu 18.04,Java执行环境为jdk?7u21?linux?i586,登录仿真实验软件Matlab R2016a,试运行该软件程序。软件运行流畅无误,运行Hadoop平台,运行的指令编码如图4所示。

保证该平台在单机模式、伪分布式模式以及完全分布式模式下正常运作。设置数据集群共有26个节点,其中,2个管理节点,1个I/O节点,23个计算节点,指定node01~node23,当其中发现可变化的成本数据时,及时进行修改,修改路径设置为192.168.0.201。准备完毕后,针对选取的实验对象开始实验。

猜你喜欢

数据挖掘技术物流配送
山西将打造高效农村快递物流配送体系
物流配送无人化创新发展的影响因素分析
基于Flexsim的饮品物流配送中心仿真优化研究
无人机物流配送路径及布局优化设计
农村电子商务物流配送优化策略分析
直企物流配送四步走
数据挖掘在计算机网络病毒防御中的应用
数据挖掘技术及其在医学信息领域的应用
基于Web的数据挖掘技术与相关研究