基于Apriori算法的烟片生产设备参数分析
2013-09-12张迎录伍铁军杨开永
张迎录,伍铁军,杨开永
(1.南京航空航天大学机电学院,江苏南京 210016)
(2.红云红河(烟草)集团有限责任公司昆明卷烟厂生产一部,云南昆明 650000)
基于Apriori算法的烟片生产设备参数分析
张迎录1,伍铁军1,杨开永2
(1.南京航空航天大学机电学院,江苏南京 210016)
(2.红云红河(烟草)集团有限责任公司昆明卷烟厂生产一部,云南昆明 650000)
工业生产过程中产生的大量数据,它们蕴含着许多与生产设备、生产过程相关的规律性。为了挖掘出隐含在数据中的潜在规律,以SQL Server 2005软件为工具,以烟草企业实际数据为原型,选择Apriori算法对数据进行分析处理。结果显示,烟片大片率受打辊1实时频率和风机1实时频率影响最大,烟片中片率受打辊2实时频率影响最大。经现场调试验证,该结果具有较高的准确性和可靠性。
烟草设备;数据挖掘;参数分析;关联规则
近年来,数据挖掘引起了工业生产领域的极大关注,其主要原因是工业生产过程中产生了大量的数据,迫切需要将这些数据转换为有用的知识。但人工很难理解这些数据并分析他们之间的关系,更不能及时地总结和预测。数据挖掘一般是指利用各种分析方法与技术,将过去所积累的大量的、不完全的、有噪声的、模糊的、随机的数据进行分析、归纳与整合,找出隐藏在数据中的信息,如趋势、特征及相关性的过程,也就是从数据中挖掘信息或知识[1]。
1 关联规则的基本概念
关联规则是形如A→B的蕴含表达式,其中A⊂B,B⊂I,并且A∩B=Φ。规则A→B的度量包括支持度(support)和置信度(confidence)。支持度是D中事务包含A∪B的百分比,表示这条规则在所有事务中有多大的代表性和适用性。置信度是D中包含A事务的同时也包含B事务的百分比,是确定B在包含A的事务中出现的频率,表示规则在数据集上的可靠性。支持度和置信度可用如下公式表示:
式中:support_count表示支持度计数;N表示数据集的事务数。
大于最小支持度阈值和最小置信度阈值的关联规则称为强关联规则。关联分析的任务就是找出数据集中隐藏的强规则。此外很多学者提出了重要性或兴趣度的概念,重要性的计算公式如下:
“在A条件下发生B的概率”高于“在没有A的条件下发生B的概率”时,重要性数值大于0,且指标越大,则代表规则越显著。反之重要性小于0,则代表A对B的发生有抑制作用。
2 Apriori算法
Apriori算法[3]是关联规则领域的经典算法,该算法由美国学者R.Agrawal等在1993年提出,是一种从大规模数据中挖掘关联规则的有效方法[4],目前已获得广泛的应用。生成频繁项集的Apriori算法描述如下[5]:
输入:数据集D;最小支持度阈值min_sup输出:D中的频繁项集L
3 Apriori算法在烟草企业设备参数分析中的应用
本文以烟草企业现场实际生产数据为研究对象,采用烟草企业生产线上一年的生产数据,共1 381条原始数据记录,如图1所示,包括温度、水分、设备参数等13项影响烟片率变化的参数。对历史数据进行深入分析研究,找出数据之间的规律,挖掘出那些与烟片率大小变化有较强关联的参数。
图1 原始数据图
3.1 数据预处理
a.工业生产过程中产生的很多数据是有缺陷的,因此首先需要进行数据清理,只保留符合实际情况的正确数据。主要解决的问题有:空缺值、错误数据、噪声等。
b.对数据进行离散化处理。关联规则算法不接受连续属性,因为它是一个计数引擎,用于计数离散属性状态的相关性,使用时必须对挖掘模型中的连续属性离散化。通过对数据库编程,将最近一次数据记录和上一次数据记录依次进行对比,数值升高的设为H,降低的设为L,不变的设为S。如图2所示。
3.2 使用Apriori算法挖掘数据
a.将数据从access数据库导入到SQL Server 2005数据库,如图3所示。
b.搭建数据挖掘环境,设置算法参数,生成项集和关联规则,如图4和图5所示。
c.实验结果分析。
企业生产过程中烟片质量主要是以烟片的大中片率进行衡量。本研究主要分析出影响烟片大中片率变化的主要设备参数,挖掘出来的规则根据关联的重要性和概率强度来排序。
图2 离散化后的数据表
图3 将数据导入SQL Server数据库
图4 挖掘出的大片率规则
图5 挖掘出的中片率规则
由图4可见,关联最强规则是:打辊1实时频率=L,风机1实时频率=L→大片率=H。打辊1实时频率=L,风机2实时频率=L→大片率=H。也就是说打辊1实时频率降低并且风机1实时频率降低,或者打辊1实时频率降低并且风机2实时频率降低时,大片率升高是必然的。由图4可知,打辊1实时频率=H时→大片率=L这条规则也具有很强的关联重要度和概率强度,该规则表明打辊1实时频率升高时,大片率多数情况是降低的。综合分析可知大片率受打辊1实时频率影响最大。
同理,由图5可得,中片率受打辊2实时频率影响最大。
4 结论
根据烟草企业生产线上的现场数据,分析出相关生产设备参数对烟片率的影响,挖掘出影响烟片大中片率的主要设备参数。结果显示,烟片大片率主要受打辊1实时频率和风机1、2实时频率影响,烟片中片率主要受打辊2实时频率影响。研究结果表明,数据挖掘技术在生产领域可以发现很多隐藏的、不为人知的规律性知识,为生产线进一步调整、修正工艺参数提供了重要的参考,也为其他企业在相关参数分析方面提供借鉴。
[1]谢邦昌.商务智能与数据挖掘Microsoft SQL Server应用[M].北京:机械工业出版社,2008.
[2]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].北京:电子工业出版社,2011.
[3]熊平.数据挖掘算法与Clementime实践[M].北京:清华大学出版社,2011.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules in Large Databases[C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB'94),Santiago,Chile,1994:487 -499.
[5]郭秀娟.基于关联规则数据挖掘算法的研究[D].长春:吉林大学,2004.
Research on Operating Parameters of Tobacco Flake Production Equipment Based on Apriori Algorithm
ZHANG Yinglu1,WU Tiejun1,YANG Kaiyong2
(1.Nanjing University of Aeronautics and Astronautics,Jiangsu Nanjing,210016,China)
(2.Hongyun Honghe(Tobacco)Group Co.,Ltd.,Yunnan Kunming,650000,China)
In the industrial production process,the production line produces a large amount of real- time field data,which contains a lot of knowledge associated with the production equipment and production process.In order to excavate the potential rules hidden in the data,it uses the enterprise actual data as the prototype based on SQL Server 2005 software,and chooses Apriori algorithm to analyze the data.The result of the study shows that the real-time frequency of NO.1 roll and NO.1 fan has the greatest influence on the rate of large size tobacco flake and that the real-time frequency of NO.2 roll has the greatest influence on the rate of middle size tobacco flake.The field test and adjustment prove that the result has very good accuracy and reliability.
Tobacco Equipment;Data Mining;Parameter Analysis;Association Rule
TP391.4
A
2095-509X(2013)11-0018-04
10.3969/j.issn.2095-509X.2013.11.005
2013-09-16
张迎录(1987—),男,山东日照人,南京航空航天大学硕士研究生,主要研究方向为数字化产品开发。