APP下载

基于数据挖掘的物流信息监控系统设计

2022-04-13王红艳李选芒

电子设计工程 2022年6期
关键词:功能测试贝叶斯数据挖掘

王红艳,李选芒

(陕西工业职业技术学院,陕西咸阳 712000)

随着数据处理技术的迅速发展,数据处理在物流行业中的应用也日益广泛[1]。近年来,网购的人数迅速增加,规模不断扩大,物流信息的总量也呈现出几何增长的趋势。这些庞大的数据对传统物流管理系统的正常运行造成了较大的压力,同时,目前系统太局限,与相关用户的信息交流不足、信息化程度不高,对获取到的数据无法进行深入的分析,且数据利用率不足[2-4]。针对上述问题,该文在分析数据挖掘技术的基础上,建立了一种基于数据挖掘的物流信息监控系统。

该系统充分发挥数据挖掘技术的优势,利用朴素贝叶斯算法作为系统的引擎,对数据(仓)库中的历史数据进行深度挖掘分析,以此得到数据之间的可能隐含关系并进行事件发展预测。系统包含基本功能测试、物流信息监控功能测试以及行为监控功能测试。测试结果说明,该系统除了能够较好地实现基本需求外,还可以通过建立的模型较为准确地预测企业相关数据未来发展的趋势。通过与真实数据比较,其误差在2%以内。该系统为充分利用历史物流数据、辅助用户进行判断提供了一种可行的方案。

1 数据挖掘技术

1.1 基本概念

数据挖掘(Data Mining,DM)是一种新兴的融合多门学科的数据处理方法,也可称为数据库中的知识发现(KDD)[5]。具体是指将大量隐藏、有价值、不被了解的知识(模型或规则)从数据库中发掘出来的过程。与传统数据分析的不同在于数据挖掘具有先前未知的特点,主要表现在挖掘出的知识是在没有任何假设的条件下得到的,这在较大程度上避免了人为主观因素对结果的影响[6]。

对于一个典型的数据挖掘系统,其主要包括用户界面、模式评估、服务器、数据挖掘引擎、数据库及知识库等部分。系统结构如图1 所示[7]。

图1 典型数据挖掘系统结构

从整体上看,数据挖掘系统的工作流程可分为两大部分:1)数据预处理。该部分通过服务器对存储在数据库、数据仓库等信息存储库中的原始数据进行清洗、集成与过滤,以此得到可进行后续处理的数据[8];2)数据挖掘[9]。该部分利用数据挖掘引擎以及知识库中的专业领域知识对前面所得到的数据进行深度挖掘,从而得到相应的知识或模型等。

1.2 主要功能

数据挖掘可以实现多种功能,在实际使用中通常根据不同需求进行选择,这些功能主要分为以下4个方面:

1)关联规则分析[10-12]。实际上是指获取到的大量数据通常存在某些相互依赖关系,但这些关系在原始数据中无法直观地表现出来。关联规则分析即利用相关数据挖掘算法,通过设置恰当的置信度与支持度,将数据之间的潜在相关关系表现出来。关联规则的结果反映了各数据对应的事件在一定置信度与支持度条件下的依赖关系。在实际使用中,通常得到的依赖关系相对较多,不利于进一步分析。解决办法是在数据发掘的过程中引入“兴趣度”(具体代表的是使用者对所发现知识或规则的感兴趣程度)的概念,从而提升结果的可用性。关联规则分析是数据挖掘中研究最多,也是最深入的一个方向。

2)数据分类分析。其是指将获取到的原始数据按照预先训练数据建立起来的类模板,划分成具有不同维度和特性的类别[13]。分类分析则是将数据库分好的各个类别进行挖掘,得到用于描述该类的知识或模型。该模型可以用于表示现实中的一些预测或分类问题,例如判断一篇报道属于文艺类还是军事类;判断银行卡客户的风险等级等。

3)数据聚类分析。在人工智能领域称为非监督学习,是指在预先不清楚规则的条件下,利用相关算法将物理或抽象的信息数据自动划分为若干类。同时,在聚类过程中需要保证每一个类别数据之间的差异性尽可能小,而不同类别数据之间的差异性尽可能大[14],如图2 所示。与分类分析不同的是,聚类分析的结果是基于获取到的数据,且在处理时不依赖训练数据集事先所建立的类模板,所得到的分类结果也无法预测。相比于分类分析,数据聚类算法的时间复杂度和空间复杂度均较大,目前聚类分析在生物学、市场营销及图书管理等领域已有较为广泛的应用。

图2 数据聚类分析原理

4)预测。其是指根据已得到的分析结果对未来某些数据或事件发展趋势的判断,即通过分类建立相应的知识或模型。利用该知识对数据库所存储的历史信息进行分析,从而找到影响事件发展变化的预测值[15]。数据挖掘的预测功能能够运用在推断后续股票的走向、某一景区的假期旅游人数等。需要注意的是,预测只是一种对未来事物发展可能性的判断,具有较大的不确定性。最终的真实结果只有当实际事件发生后,才会有确切的评价。

2 物流信息监控系统设计

现代物流业与传统运输业的显著区别在于一些新兴技术的引入,如Barcode(条形码)、EDI(电子数据交换)、VAN(增值网络)等[16]。为了提高物流数据信息的共享率与使用率,该文将近年来研究火热的数据挖掘技术引入到物流信息监控系统设计中,并建立基于数据挖掘的物流信息监控系统。

2.1 需求分析

相对于传统运输业,现代物流业需要解决的问题主要包括以下几点:

1)尽可能缩短从订货到发货的时间;

2)提高运输信息的共享程度,降低运输成本;

3)提高订单处理的准确度;

4)使仓储资源适量化;

5)根据历史数据合理调整需求与供给,提高历史数据的利用率;

6)与客户之间的交互。

2.2 系统框架

针对上述需求,该文所设计的基于数据挖掘的物流信息监控系统框架如图3 所示。

图3 物流信息监控系统框架

所设计的物流信息监控系统可以分为6个部分:

1)物流数据的采集。主要负责采集和传输货物运输过程中产生的各种有效信息,并储存在数据库中;

2)物流信息监控平台。该部分的功能是一方面对数据库中的数据进行筛选和处理,使其能够按照规定的格式存入数据仓库。另一方面是根据数据挖掘处理后的数据,为系统管理人员提供最有效的信息或知识,使其作出更准确的决策;

3)数据挖掘。该部分首先利用数据挖掘算法对数据仓库中的相关信息进行预处理,再利用算法从预处理结果中挖掘出更深层的知识或模型等,所用到的具体数据挖掘算法将在下一小节进行详细介绍;

4)数据仓库。负责存储数据库中经过处理后的统一格式数据;

5)知识库。主要包括数据仓库的组成结构、隶属函数等知识;

6)系统接口。主要为开发人员和专家提供访问知识库的接口,以便对其进行定义与维护。

2.3 算法选择

常用于物流信息数据挖掘的算法有神经网络算法、遗传算法、模糊集算法、贝叶斯算法、决策树算法及近邻算法等。下面将对该文所采用的贝叶斯算法进行简单介绍与分析。

贝叶斯算法是对以贝叶斯定理为基础的一类分类算法的总称,通常分为朴素型、树增强型及传统型贝叶斯算法。其中,朴素贝叶斯算法是三者中最常见,也是最容易实现的一种,文中采用该算法作为设计物流信息监控系统的数据挖掘算法。该挖掘算法的定义如下:

1)假设A={a1,a2,…,am}是一个具有m个不同特征属性的原始数据集;C={c1,c2,…,cn}是具有n个不同类别的集合。

2)将已知分类的集合D作为训练样本集。令类别为c,特征属性为a,然后分别计算c类别下a特征属性的条件概率值,即:

3)假设A中的各个特征属性是条件独立的,则根据贝叶斯定理可知:

其中,分子可以等价为:

4)根据式(1),计算P(c1|A),P(c2|A),…,P(cn|A)。

5)找出P(ck|A)=max{P(c1|A),P(c2|A),…,P(cn|A)},则A∈ck。

具体的算法流程如图4 所示。

图4 朴素贝叶斯算法流程

上述流程主要可分为4 个阶段:挖掘准备、分类器训练、分类器评价及实际应用。挖掘准备阶段的主要作用是确定待挖掘对象的特征属性,并通过人工方法对其进行划分,这一步对后续数据的处理效果有着较大影响;分类器训练阶段是利用已知的训练样本数据对各类别下的各个特征属性的条件概率进行计算;分类器评估阶段计算每个类别属性下认为其值最大的集合A对应的类别,并得到相应的分类器模型;实际应用是根据得到的模型对新传入的数据进行分析。

3 系统测试

为了验证基于数据挖掘的物流信息监控系统的可行性与实用性,在完成对该系统的搭建后,与国内线上线下公司、物流企业进行合作,对该监控系统所实现的各项功能进行测试。

首先是物流信息监控系统的基本功能测试,主要目的在于测试各用户(包括私人、电商公司、实体公司以及物流企业等)能否在系统中较好地完成用户注册、登录、查看与修改账户信息及注销账户等基本项。系统的该项测试结果如表1 所示。

表1 系统基本功能测试结果

由表1 可以看出,所设计的物流监控系统的基本功能测试全部正常,为后续进一步测试其他系统功能奠定了较优的基础。

然后是系统物流信息的发布与查询测试,该项测试的目的在于测试个人与企业能否顺利完成,对原始物流数据的迅速发布及对系统内有权限信息的准确查询。这两者所发布与查询的信息相同,为仓储资源a、货源b 及运输资源c。测试结果如表2 所示。

表2 物流数据发布与查询测试结果

由表2 可知,所设计的系统能够将各类用户发布的资源信息全部导入系统数据库中,完成对资源的存储与整合,方便后续对相关信息的查询;物流数据查询结果说明,用户对于系统内有权限资源数据的查询准确率能够达到100%,充分说明该系统的物流信息查询结果具有较高的可信任度。

最终是系统的行为监控功能测试,包括系统对用户操作的监控、异常行为的反馈及数据挖掘模型的预测准确性3 项。其中,系统对用户操作的监控与异常行为反馈主要是测试系统能否对用户的日常操作正确生成日志,以及在检测到异常行为时能否向管理员及时地发送相关信息。测试结果如表3所示。

表3 系统监控功能测试结果

为了进一步测试该文方法建立的数据挖掘模型的预测准确性,利用该系统对3 家企业数据库中的6 月之前的历史数据,例如物资采购量、市场资源量及市场价格等进行处理分析,得到相应的预测模型,来预测该企业在七月份的物资采购量,并与实际的数据相对比。对比试验结果如表4 所示。

表4 挖掘模型试验结果

由表3、表4的结果可以看出,该系统可以较优地生成不同用户操作日志,同时在试验过程中未发现异常操作。由数据挖掘模型试验结果可以看出,利用该系统得到的模型预测值与实际值吻合程度较高,误差在2%以内。

4 结束语

该文通过介绍与分析数据挖掘技术的基本原理和主要功能,建立了一种基于数据挖掘技术的物流信息监控系统。该系统选用数据挖掘算法中最常见、适用性强且最容易实现的朴素贝叶斯算法作为设计物流信息监控系统的数据分析处理算法。通过系统的基本功能测试、物流信息监控功能测试以及行为监控功能测试,验证了所设计系统的可行性与可靠性。

猜你喜欢

功能测试贝叶斯数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
某内花键等速传动轴八功能测试夹具设计
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
软件工程领域中的异常数据挖掘算法
基于互信息的贝叶斯网络结构学习