APP下载

基于数据挖掘的国际货代企业客户订单行为分析

2022-12-05陈碧雪戴小廷褚玲妹

科技和产业 2022年11期
关键词:项集置信度数据挖掘

陈碧雪,戴小廷,褚玲妹

(1.福建工程学院 交通运输学院,福州 350108;2.福建工程学院 管理学院,福州 350108)

随着近年来全球贸易流通竞争的加剧,尤其是“一带一路”建设的不断深入,中国对外贸易进出口货物运输数量逐步增长。国际货运代理企业作为提供订舱、排载、运输、仓储等服务的物流代理商,正在扮演越来越重要的角色。伴随着国际贸易的不断发展,市场上涌现出越来越多大大小小的国际货运代理企业。因此,对于贸易公司或者工厂而言,在选择物流服务代理商时有了更多的考虑因素,如运价水平高低、服务质量好坏、企业规模大小等,诸多的综合因素决定了他们未来的订单倾向。如何科学分析和预测客户的订单行为,从而高效地制定营销策略,抢占行业制高点,成为国际货运代理企业的核心问题。本文对国际货代企业客户订单行为分析展开相关研究。

1 数据挖掘技术介绍

在大数据时代,人们常常淹没在海量数据之中,这些海量数据的应用需求助推数据挖掘技术的出现。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知但实则有用的信息和知识的过程[6]。数据挖掘是一门新兴技术,但是由于它能从数据中挖掘有用信息,为企业带来显著经济效益,所以从概念的提出到如今被应用在各行各业,其发展速度十分迅猛。

针对不同功能需求,数据挖掘技术有对应的不同模型和方法,如神经网络法、多元线性回归法、聚类分析、关联规则等。关联规则数据挖掘方法中Apriori算法是其经典算法,是易于对客户订单行为进行挖掘研究的一个方法。Apriori算法最初的提出是针对购物篮分析问题,旨在挖掘订单交易中不同商品之间的关联规则。它是基于数据仓库中的事务数据库,将原数据进行多次迭代从而不断寻找频繁项集,然后通过频繁项集找到产品之间的关联规则。关联规则算法大体上可分为5个步骤:①设定最小支持度阈值;②经过多次迭代找到频繁项集;③设置最小置信度阈值;④根据最小置信度阈值寻找最终频繁项集;⑤由最终频繁项集产生关联规则。

本文选取案例企业的相关产品服务项目和对应的历史订单数据来开展关联规则数据挖掘工作,以期通过数据挖掘过程寻找到不同订单背后客户行为之间的潜在关系,从而更好地提升客户黏性,促进业务成长。

2 国际货代企业客户订单行为分析数据挖掘流程设计

对案例企业——D企业而言,一方面经营决策中急需对客户订单行为的了解,另一方面数据仓库中积累了大量货运订单数据却未深入挖掘利用,迫切需要采取有效的数据挖掘流程设计,开展具体的数据挖掘工作。数据挖掘是一个复杂的迭代过程,也是一个发现新知识的数据处理过程。根据D企业挖掘目标的选择,结合数据源的特点,提出该企业客户订单行为分析数据挖掘流程,如图1所示。

图1 数据挖掘流程

2.1 业务目标假设

选取客户订单行为分析作为数据挖掘业务目标的假设,结合数据挖掘算法寻找D企业客户服务事务项集的关联关系。数据挖掘方法有人工神经网络、聚类分析、关联规则、遗传算法、决策树等,根据D企业数据仓库的数据源特点和数据挖掘技术的应用经验,确定预设目标问题归属于关联算法的应用。

2.2 数据准备

数据挖掘工作的顺利进行基于数据准备,所选取的数据应准确、完整、具有时效性、能够被理解,较好的数据质量为后期挖掘工作的展开奠定坚实的基础。根据所设定的业务目标确定所需要的数据类型,然后从数据仓库中批量选取数据,并提炼出D企业挖掘任务所需数据,删除其他与其无关的冗余数据。

2.3 数据预处理

数据挖掘的实际应用中,由于数据量较大,抽样得到的样本数据可能存在缺失或者含有噪声等问题。此外,对于D企业的样本数据还需要做置信度和支持度检验,通过设定最小置信度阈值和置信度阈值对事务项集进行业务处理,为下一步数据挖掘工作的开展做好准备。

2.4 数据挖掘

在恰当地收集和预处理数据后,根据预设的业务目标,开展数据挖掘技术。D企业期望通过数据仓库里的业务数据来分析客户订单行为,从而应用于客户关系管理决策实践中,利用关联规则经过多次迭代后得到频繁项集,最后从频繁项集中得到D企业事务项集的强关联关系。

2.5 结论分析

根据数据挖掘算法提炼出有价值的信息,并将信息转化为知识供管理者参考。D企业期望利用关联规则算法通过对订单数据库的挖掘,寻找某两个或者多个产品之间的客户订单行为习惯,将得到的产品关联关系应用于实际业务管理中,从而带来可预期的收益。

3 数据挖掘展现

3.1 货运服务事务项集选取

从D企业日常服务类别中选出较典型的几项服务类型,组成事务项集进行Apriori算法挖掘关联关系。选出的事务项集共有7项,并分别给它们编号从A到G,见表1。

表1 事务项集

报关报检:所有进出口货物运输都需要办理报关报检,商检部门在货物检验完毕后,出具货物通关单。

合同物流:国际货运代理企业与客户签订一定期限的物流服务合同,双方以合同方式形成固定合作关系,从而改善物流服务质量,创造更多经济效益。

跨境铁路运输:通过铁路运输开展进出口,在时间上它比传统海运节省1/3左右,而在运价上相当于空运的1/5左右。如“中欧国际班列”,在国家大力倡导“一带一路”下,中欧班列异军突起,发运货物标准箱量屡创新高。

跨境卡车服务:它是一项门对门的综合运输网络系统服务,通过卡车运送货物于不同国家之间,原则上自启运地到目的地沿途各过境国海关均不开箱查验货物。

国内运输:主要承担短途货物运输业务,车行从码头提空柜至工厂等待装货,在装完柜并且集装箱锁上封签后将货物运至码头等待装船。

货物运输保险服务:是以进出口运输中的货物为保险标的,承保货物在发生自然灾害或意外所遭受的损失。货物运输保险服务可由国际货运代理企业受收发货人的委托,提供代为购买保险的服务。

全球供应链管理顾问:为企业提供供应链管理方案的咨询,使企业在供应链管理中达到有效管理,从而提高生产和业务效率。

3.2 基于Apriori算法的货运服务关联算例

从D企业数据仓库中抽取部分货运服务统计表的源数据为样本,运用商业智能分析工具进行过滤清洗为关联规则挖掘的开展做数据预处理和数据准备。事务数据库实施Apriori算法的执行过程如下。

1)生成候选集L1。在算法的第一次迭代中,每个项集都是集合C1的候选项集,因此,C1={A,B,C,D,E,F,G}。通过扫描数据库得到他们的支持数。设置minsup_count≥10,根据最小支持度阈值,找到项目集组成1-频繁项目集L1={{A},{B},{C},{D},{E},{F}}。

2)生成候选集L2。根据候选项集产生的方式,由L1生成2-候选集,C2={{AB},{AC},{AD},{AE},{AF},{BC},{BD},{BE},{BF},{CD},{CE},{CF},{DE},{DF},{EF}}。通过扫描数据库得到它们的支持数,设定minsup_count≥10,通过比较最小支持度阈值,得到项目集组成2-频繁项目集L2={{AB},{AC},{AD},{AE},{AF},{BE},{EF}}。

3)生成候选集L3。根据候选项集产生的方式,进行算法的第三次迭代。由L2生成3-候选集,C3={{ABC},{ABD},{ABE},{ABF},{ACD},{ACE},{ACF},{ADE},{ADF},{AEF},{BEF}}。由于候选K项集的(k-1)项集如果不在Lk中,则该候选项也不可能是频繁项集,所以,在对C3进行剪枝后,得到频繁项目集合{{ABE},{AEF}}。设定minsup_count≥10,通过扫描数据库得到它们的支持数分别为{{ABE 11},{AEF 14}},比较最小支持度阈值,得到项目集组成3-频繁项目集L3={{ABE},{AEF}}。

4)生成候选集L4。根据候选项集产生的方式,进行算法的第4次迭代。由L3生成4-候选集,C4={ABEF},设定minsup_count≥10,通过扫描数据库得到它支持数为{ABEF 6},不满足最小支持度阈值,C4=∅,L4=∅,算法停止。

于是最大的频繁项目集为{{ABE},{AEF}}。算法过程如图2所示。

图2 Apriori算法过程

找出频繁项集{{ABE},{AEF}}后,根据关联规则算法,所有子集需要满足最小置信度阈值,才能产生关联关系,设最小置信度为70%。频繁项集{{ABE},{AEF}}的所有非空子集为{AB},{AE},{BE},{AF},{EF},{A},{B},{E},{F}。根据置信度计算公式,分别计算所有非空子集的置信度。

根据所设置的最小置信度阈值,过滤低频、相关性较弱的关联,可以得到{BE}{A}、{EF}{A}、{F}{AE}这3项符合最小置信度阈值的设定,因此它们之间存在强关联关系。也就是说,当客户同时选择合同物流和国内运输服务时,也会选择报关报检服务;当客户选择国内运输和货物运输保险服务时,同时也会选择报关报检服务;当客户选择货物保险运输服务时,也会同时选择报关报检服务和国内运输服务。

基于此,D企业可以将存在强关联规则的这3组关系进行捆绑销售。将合同物流、国内运输服务、报关报检服务进行捆绑销售;在客户询问国内运输、货物运输保险报价的同时,也积极主动推介报关报检服务;在客户询问货物保险运输服务时,可以同时选择报关报检服务和国内运输服务进行推广。

4 结论

将Apriori算法应用于国际货代企业货运服务项集关联规则的挖掘,在其设定最小支持度阈值和置信度阈值后,通过寻找到的频繁项集,最终确定货运服务项集的强关联关系。所获得的关联规则作为国际货代企业客户关系管理决策制定的知识,帮助企业提高经营效率和竞争优势,为管理者提供科学的参考依据,具有实际的指导意义。

猜你喜欢

项集置信度数据挖掘
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
系统可靠性评估与更新方法
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议