基于Apriori算法的冷链仓储关联度分析
2021-07-30李婉星
李婉星
(洛阳师范学院 电子商务学院,河南 洛阳 471934)
0 前言
对物流仓储企业而言,不合理的仓储布局,不恰当的储位分配,是仓库运作效率低下、拣货作业时间冗长的重要原因. 冷链物流具有一定的特殊性,货物的时效性迫使冷链物流中心必须提高拣货及出入库的作业效率. 因此,研究货位规划对冷链物流中心而言,更具有重要性. 此外,随着人们生活水平的不断提升,多元化的消费需求也刺激着传统仓库的转型,必须改变原本可能存在的随机的货位分配、不明显的区域划分、无序的货物放置等问题.
近年来,数据挖掘技术在物流管理中的应用十分广泛. 梅洪常等[1]采用关联分析中的Apriori算法求解电商营销指标组合的频繁项集,再利用结果来进行营销组合的优选. 陈勇等[2]通过相应算例改进Apriori算法,根据二次设备部分信息分析二次设备家族性缺陷,帮助检修人员推测缺陷部位、缺陷原因,提供缺陷检修策略,为运维人员确定二次设备薄弱环节和制定巡检方式提供支持. 孟科技[3]通过对电厂辅助服务考核数据的关联性进行分析和挖掘,为电厂辅助服务考核优化调整和减少考核等决策提供了参考依据. 刘国巍等[4]基于PP-GCOTN-CDOCS模型对物流仓储装备进行研究分析,创新了网络演化与物流业发展协调度. 杨玮等[5]在研究过程中设计了专用的冷链物流仓储模型,指出可以通过提高信息化水平等方式来达到更高的效率. 杨文强等[6]提出了一种多物种协同进化算法,该算法对传统仓储进行布局改造具有较好的借鉴意义. 郭笛等[7]通过分析系统平均队长、订单平均逗留时间等指标,将直观化的系统瓶颈与运行实际数据相结合,求得系统成本最小的配置策略,得到基于FlexSim平台的离散事件仿真寻优方法能够求解仓储机器人配置的问题,并保证模型方法的计算效率. 侯智等[8]基于SLP与遗传算法对仓储布局进行优化,减少了24%的物流量,有效降低了仓储成本. 王飞等[9]基于禁忌搜索和遗传算法的云仓储分配优化,解决了商家企业选择的云仓储分布过于密集而导致其服务覆盖范围有较多重叠的问题.
本研究重点对冷链仓储配置优化问题进行探索,并结合Apriori算法来设计对应的优化策略.
1 方法介绍
1.1 关联原则
该方法的原理: 已知有非空集合X、Y,并且二者不相交,则存在X→Y时,即可认为属于一个关联规则,二者分别属于先导(LHS)、后继(RHS).
(1)基本概念项集(T): 一个或多个项目的集合; 已知集合X、Y.
支持度(support):
support(X→Y)={|X∩Y|/|N|=X、Y内的项同时在某个记录中存在的次数/总记录数量};置信度(confidence): confidence(X→Y)=|X∩Y|/|X|={X、Y内的项处于某个记录中同时存在的数量/X中存在的数量};
频繁项集: 主要指的是关联度较高的要素,其中关联性与支持度、置信度直接相关,如果二者较低,则对应着较低的相关性,即存在一定的正相关性.
(2)关联规则挖掘过程
首先是生成频繁项集的过程,在此过程中必须获取到符合置信度、支持度(最小)要求的项集; 然后是构建规则的过程,即需要满足符合最小自信度要求的规则. 此过程中需要利用到先前得到的频繁项集,由此可以得到强规则,并对事物之间的相关性进行评价.
1.2 Apriori算法简介
Apriori算法已经广泛应用到了数据挖掘领域中,在算法执行过程中需要对特定的频繁项集进行挖掘,以此可以对事物之间的相关性进行界定. 总体来看,在算法执行过程中主要划分为两个阶段,首先是构建候选集的过程,其次是向下封闭检测的过程. 具体的执行过程如下: 首先基于递归方法获取到需要的频繁项集,在构建过程中必须保证支持度满足设定的要求. 在此基础上可以得到满足要求的强规则,在生成规则之后还需要对规则是否满足条件进行分析,将不满足最小置信度的规则剔除,然后根据得到的规则来评价事物之间的关联性大小.
该算法在执行过程中需要进行迭代,由此能够生成满足需求的频繁项集,而后续项集生成的过程中依赖于先前的项集,基于迭代的方式可以得到满足最小支持度的结果. 从具体步骤上来看,首先是通过自连接获取频繁项目集的候选集,第一轮的候选集就是原始数据集A中的项,而剩下每一次的候选集则由前一次获得的频繁项目集自连接得到,而频繁项目集由候选集进行剪枝得到; 其次是执行对候选集的裁剪过程,即判定各个记录的支持度是否达到了设定的要求,如果不满足要求再将其剔除. 此外,当各个记录中的子集中含有不属于频繁项集的记录时也需要将其剔除. 因此,在算法执行时主要的过程是对事务记录进行处理,即需要先得到频繁项目集1,记该项目集为K1,然后依据K1找频繁项目集2的集合K2,依据K2找频繁项目集3的集合K3,以此类推,继续按照这种方式执行后续的过程,在无法找到频繁项集时结束该过程. 在此基础上可以确定合适的关联规则,并对事物之间的相关性进行分析,用以指导实际的操作目的. 算法的具体执行过程如下:
(1)Begin
(2)Scanning database and counting;
(3)If1阶候选项目集>Minimum support
(4)则产生1阶频繁项目集;
(5)Elsedelete
(6)依此规则,迭代计算;
(7)If不再产生频繁项目集
(8)则End;
(9)Else继续迭代计算
2 S冷链物流配送中心货物的关联度分析
S冷链物流配送中心(以下简称S物流中心)是一家技术领先的仓配物流服务新零售企业,日均有效订单量为6 000单左右,其中80%的订单品种包含种类2~6种. 由于商品种类繁多,并且冷链物流中心运营数据较多,本文选择牛羊肉类订单量作为分析的数据支撑. 表1为S物流中心一周(2020-09-07至2020-09-13)有效历史订单中的牛羊肉数据.
表1 订单数据
通过分析每个订单所包括的品项数,可以得出表2商品的支持度分析,其中单个商品表示其单独购买的概率较大.
表2 商品支持度分析表
在本次研究中,基于Python语言实现了算法的具体过程,并针对订单中的牛羊肉产品进行研究,计算得到了置信度以及其他的结果,具体的信息如表3所示.
表3 牛羊肉类产品相关性分析表
根据物流中心规定,具有关联性的商品之间的最小置信度为0.4,最小支持度为0.03. 其中满足最小支持度和置信度的产品如表4所示.
从表4中的数据可知,对于无用或者无关的规则可以通过支持度进行剔除. 而根据置信度可以对商品之间的关联性进行分析,如果置信度较大,则意味着某种商品出现在另一种商品中的概率较大,即二者存在一定的正相关性. 因此,通过以上分析可知,应将表4中的几种商品储存在同一货架、相邻货位上,尤其是原切肥牛卷、特级雪花肥牛和羔羊里脊三种商品之间的置信度达到1,提升度大于3,即挖掘出的关联规则很有价值,应将它们放置于同一小件拆零货架,以达到快速拣选的目的,减少行走路径,加快订单完成速度.
表4 同时满足置信度和支持度的产品相关表
3 结语
本文基于S物流中心部分有效历史订单,利用Apriori算法分析研究不同商品之间的关联性. 通过对置信度和支持度的计算,分析得出满足最小支持度和最小置信度的商品,进而挖掘出强关联原则的商品,推断出客户在订购一种货物时,极有可能订购的其他货物,以此在货位分配时进行合理的选择. 作为改进,今后可以使用FP-growth 算法来提升寻找频繁项集的效率,处理更大的数据量,同时优化模型加入数量权重,使得简单的关联规则更有现实意义.