大数据背景下基于分布式LDA算法的生产模式识别
2017-05-02石宇强夏世洪
石 焱,石宇强,夏世洪
(西南科技大学 制造科学与工程学院,绵阳 621010)
大数据背景下基于分布式LDA算法的生产模式识别
石 焱,石宇强,夏世洪
(西南科技大学 制造科学与工程学院,绵阳 621010)
结合大数据时代背景,在车间已经实现信息化的基础上,自行设计构建出了一种基于Hadoop框架的车间系统架构,用于车间海量数据的存储和分析。运用HDFS存储车间产生的海量数据;借鉴控制图识别不同生产模式的方法,将Mapreduce编程模型与LDA算法相结合对存储在HDFS上的数据进行分析,实现了对异常生产模式的快速识别和对生产过程的实时监控,从而解决了产品在生产过程中产生的海量数据存储难、分析难的问题,并为上层决策提供了支持。
混杂RFID无线传感网络;HDFS;Mapreduce;分布式线性判别(LDA)
0 引言
随着互联网,物联网和移动互联网的快速发展,数据规模呈指数增长,大数据时代已经到来。车间现场数据也表现出了海量,复杂,多样等特点。区别于传统基于抽样技术的生产过程控制[1],如何快速、及时地对车间内产生的全样本数据进行存储和分析,识别出异常的生产模式,对生产过程进行实时监控,保证产品正常生产,避免不合格品的产生,实现基于全样本的生产过程决策成为研究的关键问题。分布式计算的快速发展为解决这一问题指明了方向。
1 基于分布式的车间系统架构
分布式计算作为一种新兴的技术,为解决大数据存储难、分析难的问题提供了方向。Hadoop是一个分布式的数据存储计算平台,主要包括并行化编程模型Mapreduce和分布式文件存储系统HDFS两部分.Mapreduce负责对大规模数据进行并行化计算,HDFS则是负责大规模数据的分布式存储[2]。本文基于Hadoop分布式框架自行设计构建出了车间的系统架构,完成对车间现场全样本数据及时,快速地存储和分析,如图1所示。
该车间系统架构的层级结构主要分为以下五个部分:
1)完成车间混杂RFID无线传感网络的覆盖,通过混杂RFID无线传感网络完成对车间现场数据的全样本采集,并在传输过程中完成数据清洗和数据融合。
2)将经过初步处理过的现场数据,通过现场总线进行传输。
图1 车间系统架构图
3)将传输过来的现场数据存储到关系型数据库和非关系型数据库中,最后统一存储在HDFS分布式文件系统中。
4)通过Mapreduce, mathout, hive等分布式计算框架和工具,利用相关机器学习算法,对存储在HDFS上的车间数据进行计算分析,得到需要的结论,反馈给上层进行决策。
5)上层根据分析计算的结果,从实际需求出发,进行决策:既包括对现行方案计划进行调整改善也包括出台新的方案计划等。
2 生产过程模式识别
在实现上述车间系统架构的基础上,将控制图识别异常模式的原理和机器学习算法相结合,对收集到的海量车间现场数据进行分析,及时有效地识别出异常生产模式,对生产过程进行实时监控,保证产品的正常生产,避免不合格品的出现。
2.1 控制图识别原理
控制图作为SPC的基本工具,以统计学的显著性检验原理为理论基础,一直被广泛应用于生产过程中异常波动的捕捉。在加工过程中,由于受多种因素的交互影响,导致控制图模式的基本类型分为正常模式、向上阶跃异常模式、向下阶跃异常模式、向上趋势异常模式、向下趋势异常模式以及周期模式等六种类型[3],如图2所示。
图2 控制图六种基本模式
在控制图模式识别过程中,根据规定的判别规则,判别出当前生产状况属于基本模式中的哪一种,及时完成对除正常类型以外五种异常模式的识别,并做出反馈和处理。
2.2 分布式LDA智能化控制图模式识别
近年来以人工智能与机器学习为主的智能化控制图模式识别日趋流行[4], Psarakis、Guh和Das等人使用了BP神经网络和支持向量机(SVM)进行控制图基本模式的识别[5~8],都得到了不错的识别效果,但是随着大数据时代的到来,如何在海量数据的基础上完成智能化控制图模式识别,判别出异常生产模式成为新的问题。基于此本文完成了LDA算法的分布式实现,为解决这一问题提供了一种有效的方法。
LDA算法又称线性判别分析,是分类领域里面的经典算法,基本思想是将高维的样本数据投影到最佳鉴别矢量W上,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证样本数据在新的子空间有最大的类间距离和最小的类内距离,即在该空间中有最佳的可分离性。针对LDA目前主要应用的场景还是在集中式处理,对于大规模数据的处理能力还有待提升的问题,通过构建Hadoop集群,完成了LDA算法的分布式实现,提高了算法运行效率,解决了大规模数据环境下智能化控制图模式识别问题。运用分布式LDA进行生产模式识别的流程如图3所示。
2.2.1 算法步骤
图3 基于分布式LDA的生产模式识别的流程图
LDA算法中求解W的关键是计算各类别样本的均值和各类别样本的方差。所以转换到Hadoop集群中样本均值和方差的计算也是关键问题。如图4所示,实现LDA算法的步骤为:1)使用第一个Mapreduce计算各类别的样本均值。2)在实现第一个Mapreduce的基础上使用第二个Mapreduce计算各类别样本的方差,进一步计算出类内的离散度矩阵和W。3)在实现前面两个Mapreduce的基础上,使用第三个Mapreduce计算出判别平面,并根据判别平面进行新样本的类别判定。
图4 分布式LDA实现流程
2.2.2 Map和Reduce函数设计
Map阶段主要是从HDFS文件系统中按行读取数据,并对传入的键值对进行初步的处理。第一个Job中的Map阶段主要是对传入的键值对进行一些预处理,便于后续Reduce阶段的计算,包括值的拆分和类型的转换。第二个Job中的Map阶段也是对传入的样本数据进行预处理,与第一个Job中Map阶段的不同之处在于多了Setup函数用于处理缓存数据,还包括了各类别样本方差的计算。Reduce阶段是对Map阶段的输出结果进行汇总和进一步的计算。第一个Job中的Reduce阶段主要是计算各类别样本均值。第二个Job中的Reduce阶段多了Setup函数用于处理缓存数据,还包括了最佳鉴别矢量W的计算。分布式LDA中Map和Reduce阶段对应的伪代码如下。
第一个Job如图5所示。
图5 伪代码1
第二个Job如图6所示。
图6 伪代码2
3 实验和结果分析
3.1 实验环境
实验集群由四台计算机搭建完成,配置如下:处理器为Intel(R)Core(TM)i5,CPU为M430@2.27GHz,内存为3.8GB,硬盘容量为600GB,Hadoop版本为1.2.1。集群的配置参考Hadoop官方提供的方法进行配置。其中,随机选取一台主机作为Master主节点,启动NameNode和JobTracker进程,剩余三台主机作为DataNode和TaskTracker,为Slave从节点。
3.2 实验数据
利用蒙特卡洛仿真法生成每种模式样本数据4000个,即4000×6个样本,组成样本集S。从每种模式4000个样本中,分别随机抽取3000样本,组成训练样本集Train进行训练,将剩余的样本作为测试样本集Test进行测试。
3.3 实验结果分析
通过对训练样本集进行训练,得到训练好的LDA分类器,根据第一判别式和第二判别式得到的分类情况如图5所示,由于分布式的LDA和集中式的LDA的原理是相同的,只是实现的方式不一样,所以选取测试集进行检验时,在预测的准确率上并没有差异都是0.9898如表1所示,与控制图显示的情况基本相符。
图7 分类情况
分布式和集中式的LDA算法的主要差异表现在其识别的速度上。为了更好地将其差异性表现出来,将样本集均匀的分成4份,分别标为a、b、c、d,其中异常模式和正常模式的比例均为5:1。使用训练好的集中式LDA分类器和分布式LDA分类器依次对样本集a、a+b、a+b+c、a+b+c+d进行模式识别,随着样本集中样本数量的增加花费的时间如图6所示。
图8 时间对比
对比分布式LDA算法和集中式LDA算法对生产过程模式的识别结果,不难发现在准确率相同的情况下,分布式LDA算法识别的速度更快,效率更高,总体性能要优于集中式LDA算法,随着生产过程模式数据的继续增长整体优势会继续增加。
4 结束语
控制图的智能模式识别,对判断生产过程是否存在异常有着至关重要的作用,随着物联网以及车间信息化的高速发展,车间现场数据呈指数增长,大数据时代已经到来。本文结合当今大数据时代背景,提出了基于分布式存储计算的智能控制图识别方法:利用HDFS存储车间现场数据;利用Mapreduce模型实现分布式LDA算法,进行模式识别。对比集中式的LDA算法,识别速度和效率得到了提升,取得了良好的效果。同时也为如何在大数据时代进行生产过程控制提供了一个有效的方法。
[1] 米子川.大数据时代的三个质量观[J].中国质量,2014,(3):41-43.
[2] 孟永伟,黄建强,曹腾飞,等.Hadoop集群部署实验的设计与实现[J].实验技术与管理,2015,32(1):145-149.
[3] 李太福,胡胜,魏正元,韩亚军.基于遗传优化的PCA-SVM控制图模式识别[J].计算机应用研究,2012,29(12):4538-4541.
[4] 宋李俊,赵虎.基于融合特征与支持向量机的控制图模式识别[J].计算机应用研究,2014,31(3):937-941.
[5] Stelios Psarakis. The use of neural networks in statistical process control charts[J]. Quality & Reliability Engineering Inter national, 2011,27(5): 641-650.
[6] Guh, Ruey- Shy.A neural network based model for abnormal pattern recognition of control charts[J].Computers & Industrial Engineering,1999,36(1):97-108.
[7] Prasun Das. An hybrid detection system of control chart patterns using cascaded SVM and neural network–based detector[J]. Neural Computing and Applications,2011,20(2):287-296.
[8] 杨世元,吴德会,苏海涛. 基于支持向量机技术的智能工序诊断研究[J].微电子学与计算机,2006,23(5):42-45.
Production pattern recognition based on the distributed LDA algorithm under the background of big data
SHI Yan, SHI Yu-qiang, XIA Shi-hong
TP301
:A
1009-0134(2017)03-0024-04
2016-12-12
石炎(1991 -),男,安徽人,硕士研究生在读,研究方向为大数据背景下航天产品的质量管理和可靠性研究。