机器学习算法在数据挖掘中的应用
2015-10-26陈小燕
陈小燕
摘 要: 针对数据挖掘算法中常用的机器学习型算法进行研究。机器学习型算法特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式。以机器学习型算法中的人工神经网络为例研究数据挖掘技术,针对学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点和传统的遗传算法存在算法早熟以及局部寻优能力弱等问题,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型。最后通过煤矿空压机故障诊断系统这一实例来研究改进型算法的数据挖掘技术的性能。研究结果表明,改进后的算法建立的诊断模型相比常规神经网络的诊断模型诊断准确率更好,诊断效率更快。
关键词: 数据挖掘; BP神经网络; 遗传优化算法; 空压机故障诊断
中图分类号: TN957.52+9?34; TP274 文献标识码: A 文章编号: 1004?373X(2015)20?0011?04
Application of machine learning algorithm in data mining
CHEN Xiaoyan
(Jiangsu Polytechnic College of Agricultural and Forestry, Jurong 212400, China)
Abstract: The machine learning algorithm commonly used in data mining algorithm is studied in this paper. AIT (artificial intelligence technology) is adopted in machine learning algorithm, which can automatically find out the parameters and modes required by operation after a large number of sample set training and learning. The artificial neural network in machine learning algorithm is taken as an example to research the data mining technology. Since the traditional genetic algorithm has the shortcomings of prematurity and weak local optimizing capacity, the improved genetic optimization BP neural network model is proposed by improving the chromosome structure and genetic operator, and by introducing adaptive crossover and mutation probability to optimize neural network structure parameters and solve the problems of slow learning speed, weak anti?jamming capability, and easily falling into local minimum value. Finally, the performance of the improved algorithm is studied by using the fault diagnosis system of air compressor. The research results show that the improved diagnostic model, compared with the conventional neural network diagnosis model, has better diagnostic accuracy and higher diagnostic efficiency.
Keywords: data mining; BP neural network; genetic optimization algorithm; fault diagnosis of air compressor
0 引 言
数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生。随着信息化技术的不断普及,人类社会逐步进入到信息化社会中,信息化管理技术随之不断提升,成本却同时逐步下降,数据管理技术(Data Management Technology)在各企事业单位中进一步普及,从而推动企事业单位内部职能部门间的沟通联络。但是,随之而来的弊病是海量数据的累积导致数据分析的困难[1?2]。
1 数据挖掘
数据挖掘算法中常用的有机器学习型算法和统计型算法两类。前者的特色是运用了人工智能技术,能在大量样本集训练和学习后自动找出运算需要的参数和模式;后者则常用相关性分析、聚类分析、概率和判别分析等进行运算。不同算法当然有着各自不同的对应领域和目标,它们既能单独使用,也能相互结合。
机器学习型算法中人工神经网络方法被普遍运用,它具有极好的数据处理能力和自组织学习能力,并且能准确进行识别,从而有助于分类问题中的数据处理。人工神经网络通过建构模型而工作,其模型多样,能满足不同需求。总体来看,人工神经网络模型精确度高、鲁棒性好,具有较强描述能力,在应用时可以无需专家支持。当然,它也存在一些缺陷,具体表现在:训练数据所需要的时间较长;对所获取知识的理解上不够智能;开放性和可伸缩性也有一定局限性。
传统的BP神精网络存在学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点,而传统的遗传算法存在算法早熟以及局部寻优能力弱等问题;所以本文提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型[3?4]。
2 改进型GA?BP神经网络
本文为了提高BP神经网络的性能,针对常规遗传算法的染色体结构和遗传算子进行改进。引入自适应交叉、变异概率以平衡优化BP神经网络的结构和初始权重。
(1) 染色体结构设计。本文将染色体基因结构分为上下两层结构,分别为控制基因和参数基因两层,从而对常规的遗传算法优化BP神经网络模型进行改进。处于上层的控制基因通过对BP神经网络的隐含层节点数优化从而实现对BP神经网络结构的优化。处于下层的参数基因主要对BP神经网络的连接权值和阈值进行优化。
(2) 设计适应度函数。本文将适应度函数表示为:
[S*=0.9(S-Smin)Smax-Smin+0.05] (4)
式中:[S]为归一化处理之前的值;[Smax]为是归一化处理的最大值;[Smin]为是归一化处理的最小值。
建立基于本文提出的基于改进型GA?BP神经网络的故障诊断系统主要分为两大块:
第一块是利用改进GA算法对BP神经网络结构参数进行优化,如阈值[θj],[γ]、隐层节点数[m]以及连接权值[wj1],[wij]等;第二块就是根据优化后的BP神经网络结构参数进行建模。
故障诊断系统的输入单元数由煤矿空压机故障现象确定,通过上述分析,确定数量为10,即X1~X10;输出单元个数由煤矿空压机的工作状态确定,通过上述分析,确定数量为5,即Y1~Y5;隐含层为单层,单元数量一般先通过经验试凑法确定为16。初始阈值[θj],[γ]以及初始连接权值[wj1],[wij]在-3~3范围内取值;神经网络的最大训练次数设定为3 000,精度为10-3。
设定遗传算法中种群的规模为[N=150],进化最大代数为[G=300],及其他参数[b=0.1],[k1=k2=1.0],[k3=k4=0.5]。
通过遗传算法优化的平均适应度曲线如图1所示,隐含层节点数优化曲线如图2所示,最终隐含层节点数通过189次的迭代后确定为22。
3.2 基于数据挖掘的空压机故障诊断分析
针对上述建立的煤矿空压机故障诊断系统进行仿真研究,为了比较本文提出的改进型GA?BP神经网络算法的优越性能,使用基于常规GA优化的BP神经网络建立同样的煤矿空压机故障针对系统,使用同样的训练数据样本进行网络训练,使用同样的测试数据样本进行性能测试。使用采集并处理后的100组训练样本对模型进行训练,得到两种模型的误差逼近曲线如图3,图4所示。
图1 平均适应度变化
图2 隐含层节点数更新过程
图3 常规GA优化的BP神经网络训练误差
通过对比可以看出,使用本文提出的改进型GA?BP神经网络算法经过569次迭代就使得误差达到了设定范围内,而使用常规GA优化的BP神经网络算法经过2 779次迭代才使得误差满足要求。因此在网络的训练速度、收敛速度和收敛精度方面,本文提出的改进型GA?BP神经网络算法更胜一筹。
下面使用采集并处理后的100组测试数据样本对故障诊断模型的诊断性能进行测试。测试结果表明,常规GA优化的BP神经网络的诊断正确率为87.5%,诊断时间为564 s,输出值不稳定,而本文提出的改进型GA?BP神经网络的诊断正确率为98.2%,诊断时间为246 s,输出值稳定。
图4 改进GA优化的BP神经网络训练误差
可以看出,相比于常规GA优化的BP神经网络,本文提出的改进型GA?BP神经网络算法所建立的故障诊断模型的性能更优,检测准确率以及速度更快,误判率极低。
4 结 论
数据挖掘技术是在整个社会发展中随着科学和技术的不断进步而顺应需要所生,在近年来发展十分迅速。本文针对机器学习算法中的人工神经网络算法在数据挖掘技术中的应用进行了研究,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对BP神经网络结构参数进行优化的改进型遗传优化BP神经网络模型。最后通过将提出的基于改进GA?BP神经网络算法的数据挖掘技术应用于无法用数学模型建立、具有复杂非线性、数据庞大的煤矿空压机故障诊断系统中。
参考文献
[1] 胡秀.基于Web的数据挖掘技术研究[J].软件导刊,2015(1):149?150.
[2] 李仕琼.数据挖掘中关联规则挖掘算法的分析研[J].电子技术与软件工程,2015(4):200?202.
[3] 陈勇.一种目标行为序列模式的数据挖掘方法[J].无线电通信技术,2015(2):79?81.
[4] 于书媛,陈靓,王伟.基于空间数据挖掘的合肥市应急避难场所选址[J].地理空间信息,2015(1):93?95.
[5] 庄健,杨清宇,杜海峰,等.一种高效的复杂系统遗传算法[J].软件学报,2010(11):2790?2801.
[6] 刘磊.基于遗传神经网络的指数跟踪优化方法[J].系统工程理论与实践,2010(1):22?29.
[7] 宋国峰,梁昌勇,梁焱,等.改进遗传算法优化BP神经网络的旅游景区日客流量预测[J].小型微型计算机系统,2014(9):2136?2141.
[8] 李松,刘力军,解永乐.遗传算法优化BP神经网络的短时交通流混沌预测[J].控制与决策,2011(10):1581?1585.