基于数据挖掘的油田企业供应商选择
2020-04-08李春生
李春生,张 岩
(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)
0 引 言
然而在对供应商进行选择时,部分油田企业的采购者会在“人情做透”和“利益驱动”下进行主观选择,而非实事求是地选择最优供应商,企业的管理人员不可能对采购单逐一核实,以致原材料的整个采购进程出现极大的漏洞。文章基于数据挖掘知识,运用K-means聚类分析算法对供应商评价指标分值进行分析,为企业选择最优供应商,从而有效控制企业的采购成本。
1 数据挖掘相关知识
1.1 数据挖掘概念
数据挖掘概念源于1989年,数据挖掘也可称为数据库中的知识发现。从技术层面可以解释为:自动从海量的、模糊的随机数据中发掘出蕴含着的有价值的知识和预估性信息的过程。从商业层面可以解释为:从数据库中抽取数据,进一步转换、分析数据,挖掘到能帮助商业决策的有用的信息[1]。
1.2 数据挖掘的常用方法
数据挖掘的精髓是选择科学的且适合的分析方法,以此来提取数据中蕴含的可被利用的信息。数据挖掘技术在融入人们的工作和生活的同时,更多的数据挖掘方法也应运而生。其主要方法[2-3]有:
①分类。分类即首先预定义数据属性,然后在已知和未知数据属性之间构建一个分类模型,最后根据已知数据的属性预测未知的模糊数据。常用的经典分类算法有C4.5决策树算法、神经网络算法和遗传算法等。
②关联分析。关联分析根据数据之间存在的关系进而预测数据中蕴含的某种规律。例如:可以通过超市购物车里的商品种类及规律来剖析顾客的心理和消费习惯,辅助超市管理人员制定市场营销策略。
③统计分析。统计分析就是运用现成的统计原理和统计方法分析表中的数据的属性,获取数据之间存在的某种关系。
(1)粗集料。本文粗集料均采用石灰岩,生产级配分为10~30mm、5~10mm、3~6mm三档集料,其具体级配范围如表5所示。
④聚类分析。聚类分析就是将一个大的数据集合拆分成几个子集,使每个子集中数据间的相似性比较大,各个子集间数据的差异性比较大。它是一种无监督学习方式,最终目的是让同一子集中的数据尽量相似,而不同的子集中的数据尽量不同[4]。聚类算法作为数据挖掘技术的一个重要部分,普遍运用于客户分类、数据统计、经营销售等研究领域。聚类算法具体分为:基于网格、基于密度、基于模型、基于层次和基于划分的算法等[5]。目前普遍应用的是基于划分的聚类算法,其中K-means算法最为经典。
油田企业供应商的评价体系涉及多种评价指标,数据分布具有随机性、复杂性,单纯考虑某一种指标并不能科学地选出最适合企业的供应商。应用聚类分析中的K-means算法对供应商评价指标分值进行分析,能够深度挖掘供应商评价指标分值的具体分布情况和蕴含的潜在规律,为油田企业决策者选择最适合的供应商提供了科学高效、切实可行的依据。
1.3 数据挖掘的基本过程
数据挖掘的基本过程[6]主要包括:
①数据准备。即把要进行数据挖掘的数据从大量复杂的原始数据中提取出来,主要是进行数据选择、数据预处理、数据转换等工作。
②数据挖掘。即应用适合的算法,分析数据,从而寻找数据中蕴含的知识或规律。数据挖掘是全过程的关键一步。
③结果的分析与评价。即对数据进行分析之后,分析挖掘结果传递的能被采用的信息或规律。
④知识应用。即将所获取的有用信息或规律运用到实际工作、生活领域,预测或解决实际问题,实现数据挖掘的终极目标。
1.4 数据挖掘的应用
目前,数据挖掘侧重点从理论研究过渡到实际应用。数据挖掘[7]主要融合了数据库、人工智能、模式识别、统计学等多个领域的理论、算法及技术。可进行商业决策和商业上的智能应用,如:市场营销预测和分析、客户分类和流失分析、诈骗甄别和通信网络管理等。自产生以来,作为一项新兴技术被广泛应用于科研、教育、企业、医疗、金融、制造业等领域。
大数据的数据挖掘技术在企业领域的应用,主要体现在能对企业内部复杂的、庞大的数据进行智能、高效的分析,自动挖掘出总结性的预测信息,以此辅助企业的决策人对企业管理、运营上指定的策略进行及时调整并做出正确的决策。
2 K-means聚类算法
2.1 K-means聚类算法简介
K-means聚类算法的提出可以追溯到20世纪60年代,由波兰著名数学家Steinhaus提出,之后在1967年由J.B.MacQueen在其科研领域提出。K-means聚类算法[8-10]的产生已有60多年,但至今仍被应用于很多行业。如:生物学、数据处理、图像处理、市场客户细分等。
2.2 K-means聚类算法的目标函数
给定一个包含N个d维数据的数据集A={a1,…,ai,…,an}(ai∈Rd),即将形成的数据子集数量为K,已经确定的数据集合由K-means算法分为K组,每个分组均为一个类O={Ok,k=1,2,…,K},每一个类Ok都有一个中心Pi[11]。数据间相似性和距离的判断标准由欧氏距离确定,类中每个数据点到类中心Pi的距离的平方和的计算公式为:
(1)
K-means算法的聚类目的是使类中总的距离的平方和J(O)值最小。
(2)
(3)
2.3 K-means聚类算法的算法流程
K-means聚类算法是不断重复迭代的过程,其最终目的为:使聚类中所有数据点到其聚类中心Pi距离的平方和J(O)的值最小[12-13]。算法大体包括5个步骤,详细流程如图1所示。
图1 K-means聚类算法流程
3 K-means聚类算法在油田企业供应商选择中的应用
本次实验应用统计分析软件SPSS19.0对数据进行分析。
3.1 数据来源
实验数据来自于某油田企业2016年、2017年和2018年抽油机的供应商评价指标分值。油田企业选取的评价指标结合自身的发展特点,除考虑产品质量、产品价格等通用指标外,还充分考虑了供应商的技术能力、综合服务以及企业资质等指标。其详细评价指标如图2所示。
3.2 数据处理
通过数据筛选功能,将2016-2018年油田企业抽油机供应商的评价指标分值明细表抽取出来,删除已经申请注销和已经注销的企业,得到最终供应商共10家,预处理结果(仅2016年)如表1所示。
图2 供应商评价指标体系
表1 抽油机供应商评价指标分值
将预处理后的数据导入SPSS软件,使用“K均值聚类分析”。首先,将2016年油田企业抽油机供应商的评价指标分值进行K均值聚类分析,初始聚类中心由系统自动产生,聚类数目设置为4。使用运行均值进行迭代,当最大迭代次数为10时,任何中心的最大绝对坐标更改为0,初始中心间的最小距离为30.125,迭代停止。其次,对2017年油田企业抽油机供应商的评价指标分值进行分析,K=4得到的初始中心间的最小距离为28.688。最后,对2018年油田企业抽油机供应商的评价指标分值进行分析,K=4得到的初始中心间的最小距离为28.293。
3.3 聚类结果分析
聚类结束后,最终聚类中心以及每个聚类中的聚类成员如表2~表4所示。其中,2016年油田抽油机供应商评价指标分值最终聚类中心及各聚类中的聚类成员见表2;2017年油田抽油机供应商评价指标分值最终聚类中心及各聚类中的聚类成员见表3;2018年油田抽油机供应商评价指标分值最终聚类中心及各聚类中的聚类成员见表4。
表2 2016年最终聚类中心及聚类成员
表3 2017年最终聚类中心及聚类成员
表4 2018年最终聚类中心及聚类成员
分析表2可知,供应商A、E的产品价格和企业资质竞争力较强,其余指标均处于良好水平,属于综合能力较强的供应商,列为一级供应商;供应商F、H属于产品质量和技术能力较强的供应商,列为二级供应商;供应商B、C、I属于综合服务能力较强的供应商,列为三级供应商;其余的供应商在各方面均无突出表现,且在产品质量、技术能力和企业资质方面表现较差,列为四级供应商。
分析表3可知,供应商A、E的产品价格、综合服务和企业资质竞争力较强,其余指标均处于良好水平,列为一级供应商,属于综合能力较强的供应商;供应商F、H属于产品质量和技术能力竞争力较强的供应商,列为二级供应商;供应商B、C、I的企业资质处于良好水平,列为三级供应商;其余的供应商在各方面均无突出表现,且在产品质量、技术能力和企业资质方面表现较弱,列为四级供应商。
分析表4可知,供应商A、E的产品价格、综合服务和企业资质竞争力较强,其余指标均处于良好水平,列为一级供应商,属于综合能力较强的供应商;供应商F、H属于产品质量和技术能力竞争力较强的供应商,列为二级供应商;供应商B、C、I的企业资质处于良好水平,列为三级供应商;其余的供应商在各方面均无突出表现,且在产品质量、技术能力和企业资质方面表现较弱,列为四级供应商。
若油田企业新增某个新的抽油机供应商,则可通过计算其评价指标分值与对应年度的各个聚类评价指标分值的拟合度来对此供应商进行分类。油田企业其他领域的供应商均可采用K-means聚类算法分析各个供应商的类型,
将2016年、2017年和2018年抽油机供应商评价指标分值聚类情况表进行纵向分析,可得图3。
图3 2016-2018年最终聚类中心对比
分析图3可得,除产品价格最低聚类中心和最高聚类中心的值随年份增加上下波动外,其余各项指标的最低聚类中心和最高聚类中心的值都随年份增加而递增或维持不变。
综合表2~表4以及图3可得,供应商A、E连续3年的产品价格和企业资质的最终聚类中心的值均排在第一,且产品价格的最终聚类中心值明显高于其余聚类,其余指标的最终聚类中心值均处于良好水平,且连续三年的聚类值比较稳定,可考虑将供应商A、E作为长期战略合作伙伴。供应商F、H连续3年的产品质量和技术能力的最终聚类中心的值均排在第一,且技术能力的最终聚类中心值明显高于其余聚类,综合服务的值连续三年呈递增趋势,其余指标的值均处于良好水平,可考虑将供应商F、H作为辅助供应商。
4 结束语
油田企业供应商的选择对于控制油田企业成本,提升企业的盈利水平、增强企业的竞争优势意义重大。文中基于数据挖掘的理念,充分考虑油田企业的现实情况,应用聚类分析中的K-means聚类算法,对某油田企业的抽油机供应商评价指标分值进行聚类分析。分析结果能有效地对油田企业供应商进行科学评价,从而确定了供应商的类型,为油田企业决策者选择最优供应商提供了科学有效的依据。