APP下载

决策树算法在针织产品质量管理中的应用

2018-06-25刘鹏飞蒋高明吴志明

纺织学报 2018年6期
关键词:坯布针织决策树

刘鹏飞, 蒋高明, 吴志明

(江南大学 教育部针织技术工程研究中心, 江苏 无锡 214122)

传统针织企业通过信息化建设,其生产管理信息系统显著增强了企业生产数据的采集和收集能力,大量的产品质量数据、库存数据、销售数据等存于企业数据库中[1],然而现在针织企业不能让数据成为提高生产管理水平的有用信息,没能体现数据的信息化价值,导致企业出现数据丰富、信息匮乏的问题[2]。

针对针织企业里出现的庞杂质量数据,目前绝大多数企业缺乏科学的研究分析方法。只有少数企业采用简单的统计过程控制(statistical process control,SPC)理论方法,应用统计技术对产品生产的各个阶段进行监控,使得生产过程的技术水平达到要求[3-4],但是SPC有很大的局限性,只能监控产品生产过程是否出现异常,却不能提供异常的详细信息,且只供车间里的操作人员使用,不能为企业管理人员提供事先决策支持。

基于此,本文将研究数据挖掘技术在针织产品质量管理中的应用。利用决策树C5.0算法,对影响针织产品质量的生产要素,如原料、产品类型、机器设备、挡车工、环境温湿度、原料质量等级等进行研究,挖掘出影响产品质量的关键因素间的关系规则,为企业的质量管理提供预防控制决策机制,提高产品质量[5]。

1 实验数据预处理

本文研究的数据来自某纺织公司的制造执行系统(MES)的数据库。该公司使用了MES系统2年的数据,数据库中积累了几万条坯布质量历史数据。由于这些数据中含有不完整的、错误的、重复的及其他噪声数据,所以需要对这些数据进行筛选、填补预处理,删除错误及重复数据,填补非关键因素缺失值,得到完整的纯净数据来进行数据挖掘研究[6]。

通过对此公司的坯布质量数据进行预处理后,选取8 157条数据,选择坯布质量影响因素中的原料、原料质量等级、产品、纵密、组织结构、设备型号、挡车工、班次、环境温度与湿度和质量等级为研究对象。经过预处理后的部分数据如表1所示。

表1 部分样本数据Tab.1 Part of sample data

注:表中质量等级A、B、C表示质量等级依次递减。

2 决策树C5.0算法的应用

2.1 质量管理模型建立

采用决策树C5.0算法,通过对实验数据集的学习和处理,分别计算原料、原料质量等级、产品、纵密、组织结构、设备型号、挡车工、班次、环境温度与湿度这些因素的信息增益率,选取信息增益率最大的因素作为根节点,各因素的取值作为分支来构建决策树[7]。并利用Boosting算法不断迭代生成多个决策树,通过优化每个决策树样本的权重,减少决策树错误分类样本的比例,最后得到高准确度的质量管理决策树模型[8]。

该公司的坯布质量管理分为A、B、C 3个等级,但实际考核要求坯布的质量等级为A级,要提高A等品坯布的数量;因此将提高A等品数量定为决策期望,来构造决策树。根据决策树C5.0算法的原理,结合预处理过的实验数据,进行相关计算。

2.1.1计算各个因素的信息增益率

经统计,8 157条质量数据中,质量等级为A的有7 744条,质量等级为B和C的共有413条,则质量等级A在实验数据集中的信息熵Q的计算公式[9]为:

(1)

式中P(Ci)表示属于因素Ci的数据个数占实验数据集总数的比例。

可得质量等级A的信息熵为:

分别计算所要研究的原料、产品、设备型号、挡车工等因素所在分类别中的信息熵以及在整个样本数据集中的信息熵。以下示例选择计算原料这一属性的信息熵。统计发现,8 157条样本数据中,采用原料KD2536的数据有3 012条,其中质量为A等级的有2 907条;采用原料XS2111的数据有2 658条,其中质量为A等级的有2 541条;采用原料HL2111的数据有2 487条,其中质量为A等级的有2 296条。由式(1)计算这3种原料在原料这一分类别中的信息熵如下:

×

同理可得:

QXS2111=0.2604;QHL2311=0.3907

得到3种原料在分类别中的信息熵之后,根据式(1)进而计算得到原料这一因素在实验数据集中的信息熵为:

.284 5

运用信息增益的计算公式[9],计算原料因素在实验数据集中的信息增益:

G原料=Q质量等级A-Q原料

(2)

计算可得:G原料=0.289 1-0.284 5=0.004 6。

得到原料这一因素的信息增益之后,结合原料因素的信息熵SI原料,运用信息增益率的计算公式[9],计算原料因素的信息增益率GR原料,即:

(3)

(4)

式中P(Aj)表示采用某种原料的数据个数占实验样本集总数的比例。

计算得到:

得到原料因素的信息增益率GR原料之后,同理根据式(1)~(4)计算可得其他因素的信息增益率。由于一种产品对应一个纵密和一个组织结构,因此三者的信息增益率是一样的。计算可得:GR原料质量等级=0.002 8,GR产品=GR纵密=GR组织结构=0.000 8,GR设备型号=0.002 5,GR挡车工=0.002 0,GR班次=0.002 2,GR环境温湿度=0.002 3。

2.1.2利用AdaBoost算法优化决策树

Adaboost算法是Boosting算法中的一种经典高效率算法。它为每个样本赋予权重,初始时每个样本具有一样的权重值,在迭代过程中,样本的权重值不断调整,赋予错误分类的决策树更大的权重值,使其下次迭代时表现更突出,方便纠正其错误。通过多次迭代,不断优化决策树分类模型。Adaboost算法计算过程如下:

2) 定义一个函数γ,若样本数据全部被正确分类,记γ=0,否则记γ=1。

γ

(5)

计算可得,e1=0.256,即0

4) 根据权重值调整系数βt的计算公式[10],即:

(6)

βt

(7)

6) 第1次迭代过程结束,重新进入步骤2)进行第2次迭代,如此循环10次。

通过10次迭代后得到10个决策树(M1,M2, …,M10),结合相对应的权重值logβt,进行加权求和后得到最终的复合决策树M*,其计算公式为:

(8)

计算得出每种分类的得数情况,选取得数最高的作为最终分类结果。利用公式(8)计算出复合决策树M*作为最终的决策树模型。

2.1.3决策树的剪枝

由于实验数据集数据量太大且含有噪声数据,还需考虑每个问题的影响因素,导致算法直接生成的决策树特别复杂,许多分支过度反映样本数据集中的异常信息,决策树出现过拟合的情况,对新数据的预测误差较高[9]。决策树越复杂,过度拟合的程度越高,因此需要对决策树进行剪枝处理。本文选择后剪枝技术对决策树进行处理。后剪枝方法是在决策树构造完成后进行剪枝,允许决策树过度生长,删除一些子树,用子树中大多数样本所属的类别形成的叶子节点代替[10]。通过剪枝,降低了决策树的复杂度,降低过拟合情况,提高预测准确度。

2.2 质量管理决策树生成

根据以上计算结果得知,GR原料>GR原料质量等级>GR设备>GR环境温湿度>GR班次>GR挡车工>GR产品=GR纵密=GR组织结构。其中产品因素对目标期望的贡献值可忽略不计,因此在构造决策树时删除产品、纵密、组织结构这3个分类;将车间环境温度20 ℃与湿度值(35±5)%定为1级温度与湿度,27 ℃、(35±10)%定为2级温湿度,27 ℃、(35±15)%定为3级温湿度;原料因素的信息增益率最大,故选择原料因素作为根节点,将原料的3个取值分别作为子树来构造决策树。再根据AdaBoost算法的计算结果,对决策树进行优化,提高其分类准确度。最后利用后剪枝技术对决策树进行剪枝处理,提高决策结果的准确性。最终得到的针织产品质量管理决策树模型如图1所示。

2.3 结果分析

构造针织产品质量管理决策树就是为了提高A等品坯布的比例,根据分类计算结果及图1所示的决策树模型,A等品针织坯布质量的影响因素有6个。

2.3.1原料因素

本文研究的3种原料为KD2536、XS2111、HL2311,分别对应的A等级坯布的比例为96.7%、95.6%、97.9%。采用同一种原料在不同设备上生产时,得到的A等品比例不同;不同的挡车工采用同一原料在同一设备上生产时的A等品比例也不同。决策结果为:为提高针织坯布的A等品比例,在使用原料KD2536时,安排A111号挡车工在KS3型设备上进行生产;使用原料XS2111时,安排A156号挡车工在HKS3M型设备上进行生产;使用原料HL2311时,安排A121号挡车工在HKS4型设备上进行生产。

2.3.2原料质量等级因素

3种原料分别都有A、B 2种质量等级,在其他条件都相同的情况下,使用原料KD2536、XS2111、HL2311的A、B 2种质量等级所得A等品比例分别是97.8%和95.3%、96.6%和94.8%、98.5%和97.2%。可以看出,使用A等级的原料得到的A等品的比例更高。决策结果为:在条件允许的情况下,应尽可能使用A等级原料,提高产品质量。

2.3.3设备因素

3种不同针织设备KS3、HKS4、HKS3M的A等品比例分别为96.9%、97.5%、97.0%。不同挡车工操作同一设备的A等品比例不同,同一挡车工操作不同设备得到的A等品比例也不同。决策结果为:设备KS3早班时安排A156号挡车工操作,中班时由A111号挡车工操作;设备HKS4早班时安排A121号挡车工操作,中班时由A156号挡车工操作;设备HKS3M早班时安排A156号挡车工进行操作,中班时安排A111号挡车工进行操作。

2.3.4环境温度与湿度因素

该公司生产车间的环境温湿度条件要求在(27±2)℃和(15±3)%范围内,由于安装了恒温空调可以将温度保持在27 ℃,但不能做到实时恒定的相对湿度,因此根据相对湿度数值定义了环境温度与湿度的等级,分为一级、二级、三级。环境温湿度的3个等级对应的A等品比例为98.3%、96.4%、93.2%。对比可见,环境温湿度情况对产品质量的影响还是很大的。决策结果为:公司应购置自动化加湿设备代替现在依靠人工撒水加湿的方式,增强车间内的恒湿能力,改善车间的环境,提高坯布质量。

图1 质量管理决策树分类模型Fig.1 Quality management decision tree classification model

2.3.5班次因素

实验数据结果显示在其他条件都相同的情况下,A121号挡车工在早班和中班工作时的A等品比例为96.8%和96.7%,二者没有明显的差异,但晚班时却下降至95.3%。其他3位挡车工也呈现出同样的情况,晚班工作时A等品比例明显要比早班时低。决策结果为:车间应该改善晚班的工作环境,提高工人的舒适度;工人也应该合理地调整作息时间,保证夜间工作时具有良好的精神状态;晚班时,应由A121号挡车工操作设备HKS3M,A156号挡车工操作设备HKS4,A111号挡车工操作设备KS3。

2.3.6挡车工因素

A156号挡车工在使用原料HL2311进行织造时,早班和晚班的A等品比例是96.8%和95.1%,而A122号挡车工的结果较低,分别是95.3%和94.5%。跟另外2位挡车工相比,A122号挡车工总体的A等品比率也较低。决策结果为:A122号应多学习,多实践,提升自己的专业技能,提高业务水平。挡车工及班次因素的影响结果如图2所示。

图2 挡车工及班次因素影响结果Fig.2 Result of blockers and shift factors

3 结 论

本文研究的针织产品质量管理决策支持系统的目的是为了挖掘出影响针织产品质量的各关键因素(原料、设备、环境温度与湿度、挡车工、班次等)间的隐藏关系规则,并根据这种关系规则做出最优化的资源配置,为提高企业的产品质量提供预先决策机制。为达到此目的,采用了决策树C5.0算法,建立了针织产品质量管理分析模型。模型实验结果在此公司应用半年多的时间,帮助车间制定最佳的生产要素匹配方式,优化生产安排,使A等品比例由原来的88.3%提升到现在的98.6%。本模型经实践验证真实有效,为车间生产提供事先决策支持,高标准地达到预期目标。

参考文献:

[1] 洪亮,仲梁维,夏仁康. 数据挖掘技术在BOM中的研究应用[J]. 信息技术,2015(2):172-174,177.

HONG Liang, ZHONG Liangwei, XIA Renkang. Research and application of data mining technology in BOM[J]. Information Technology,2015(2):172-174,177.

[2] 石慧芳,陈阳. 基于大数据的制造业企业信息化数据分析及应用技术研究[J]. 现代计算机(专业版),2016(16):50-54.

SHI Huifang, CHEN Yang. Research on information analysis and application technology of manufacturing enterprise based on large data[J]. Modern Com-puter(Professional Edition), 2016(16):50-54.

[3] 陈健,王军. 统计过程控制在产品质量管理中的应用研究[J]. 淮阴工学院学报,2008(6):56-58.

CHEN Jian, WANG Jun. Application of statistical process control in product quality management[J]. Journal of Huaiyin Institute of Technology, 2008(6):56-58.

[4] 沈晓杰,李郡. 基于制造执行系统的统计过程控制在质量管理上的应用[J]. 工业控制计算机,2012(9):108-109,134.

SHEN Xiaojie, LI Jun. Application of statistical process control based on manufacturing execution system in quality management[J]. Industrial Control Computer,2012(9):108-109,134.

[5] 余腊生,李强. 数据挖掘在质量管理系统中的应用研究[J]. 计算机工程与设计,2010(10):2327-2329,2334.

YU Lasheng, LI Qiang. Application of data mining in quality management system[J]. Computer Engineering and Design, 2010(10):2327-2329,2334.

[6] 侯立铎,叶洁. C4.5算法在工程质量决策支持系统中的应用研究[J]. 计算机技术与发展,2016(2):132-135.

HOU Liduo, YE Jie. C4.5 algorithm in engineering quality decision support system application research[J]. Computer Technology and Development, 2016(2):132-135.

[7] 郑丽琴. 基于数据挖掘的决策树算法和C5.0原理简介[J]. 知识经济,2014(7):87-88.

ZHENG Liqin. Based on data mining decision tree algorithm and C5.0 principle[J]. Knowledge Economy, 2014(7):87-88.

[8] 罗丽娟,段隆振,段文影,等. C5.0算法的改进及应用[J]. 南昌大学学报(工科版),2017(1):92-97.

LUO Lijuan, DUAN Longzhen, DUAN Wenying, et al. C5.0 algorithm to improve and apply[J]. Journal of Nanchang University(Engineering Science Edition), 2017(1):92-97.

[9] 宋建聪,戴青云,付品欣,等. 数据挖掘在生产过程质量管理中的应用[J]. 现代制造工程,2013(9):12-16.

SONG Jiancong, DAI Qingyun, FU Pinxin, et al. Application of data mining in quality management of production process[J]. Modern Manufacturing Engineering, 2013(9):12-16.

[10] 庞素琳,巩吉璋. C5.0分类算法及在银行个人信用评级中的应用[J]. 系统工程理论与实践,2009(12):94-104.

PANG Sulin,GONG Jizhang. C5.0 classification algorithm and its application in bank personal credit rating[J]. System Engineering Theory and Practice, 2009(12):94-104.

猜你喜欢

坯布针织决策树
一种减少坯布褶皱的辅助措施
优雅针织柔情秋意
夏市销售环比回升 价格小幅上涨
大气压低温等离子体在棉织物退浆中的应用
会隐身的针织迷彩
针织与纱线
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
提升坯布质量的措施探讨