数据挖掘中的机械学习算法的应用探讨
2017-09-07冯琬婷
冯琬婷
摘要:随着我国经济技术的不断发展,信息技术水平也在不断的提升,计算机技术的广泛应用,对社会的各个领域都有着影响。信息系统在现在社会中也有着广泛的应用,在传统的数据分析以及统计技术的基础上有了一定的创新,现在社会在不断的进步,对大规模数据的研究力度应该加强,不断的挖掘出一些有用的知识,然后使挖掘技术不断的完善。机械学习算法有利于解决数据挖掘问题。机械学习可以进行自我完善,在这个过程中,计算机会逐渐的积累经验,从而提高自身的性能,机械学习的能力虽然没有人类大脑学习能力强,但是随着不断的创新,使计算机具备了从大量数据中提取特征、发现隐含规律的能力。也正是因为这样,数据挖掘中的机械学习算法也被广泛的运用。
关键词:数据挖掘;机械学习;学习算法;应用探讨
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)05-0154-01
信息管理技术在各大企业中数据管理技术也被广泛利用,数据管理技术的广泛运用有利于企业内部职能部门之间的沟通联络。但是在使用的过程中还是有些不足之处,数据信息越来越多,这就会使数据分析具有一定的复杂性。
1 完善GA-BP神經网络模型
本文就在传统的遗传算法的基础上提出了一种新的改进型遗传优化BP神经网络模型。这种神经网络模型对传统的这种神经网络模型在遗传算法的染色体结构和遗传算子两个方面进行了相关的优化,然后在进行BP神经网络结构参数改进的时候,采用了自适应交叉和变异概率,下面就对改进的过程进行了简要的分析说明。
(1)设计染色体结构。控制基因和参数基因是上文所描述的新型染色体基因结构的两个表现形式,这种神经网络模型对传统的遗传算法的染色体结构和遗传算子进行了优化,从而对对BP神经网络结构参数进行改进。控制基因对BP神经网络结构参数的改进主要是对BP神经网络的隐含层节点数优化。另一种结构参数基因对BP神经网络的连接权值和阈值进行优化[2]。
(2)对适应度函数进行设计,具体过程如下:在上述函数中,训练样本个数用n表示;训练数据的均方根误差用∫rmse表示,误差一般在0~1之间。
(3)选择算子。从提出的被改进的遗传算法上来看,在进行型遗传优化BP神经网络算法在实现算子选取改进以常规适应值比例算法的时候经常采用最优个体保留方法,这样做会引发局部最小值等问题。
(4)交叉、变异算子。采用单点交叉和基本变异算子是上文中提出的控制基因是改进型遗传优化BP神经网络算法的上层所采用的。下层参数基因所采用的是整体算数交叉和非一致变异算子。
(5)自适应交叉、变异概率。上文中提出的改进型遗传优化BP神经网络算法的方式,在进行优化的时候可以对设计自适应交叉、变异概率,以此对遗传优化BP神经网络神经算法的机构和初始权重进行平衡优化。对设计分析的简要过如下,自适应交叉概率可以表示为∫avr表示种群的平均适应值,∫min表示种群的最小适应值,k1,k2通常在1.0上。
上文中提出的改进型遗传优化BP神经网络算法的过程的主要几个步骤可以分为以下几点:
(1)对相关的数据进行及时的统一优化处理。训练样本数据和测试样本数据是数据优化处理之后可分为的种类。
(2)在对改进型遗传算法模型的基本参数进行设计的时候,可以用G来表示最大化代数,在设定的时候要考虑隐含层节点数对种群的规模N的有关规定。
(3)在对种群上层个体进行优化的时候采用采用二进制编码,种群下层种群个体进行优化采用实数编码。
(4)在确定BP神经网络结构参数的时候,可以采用对种群各个个体解码的形式进行。
(5)对种群中适很好的个体,采用遗传操作的形式。
(6)获得新的子群,可以对种群中的遗传个体使用自适应概率进行交叉、变异操作。
(7)对BP神经网络结构隐含层节点、权值以及阈值等结构参数进行优化改进,进行不断的创新的过程就是对上下层的子群个体解码的优化。
(8)进行(5)循环的要求有两个,就是在迭代步数达到了设定的最大值执行(5)循环,在最大个体适应度值满足要求的时候,也要进行(5)循环过程。
(9)在确定最佳的BP神经网络隐含层节点数、阈值和连接权值等参数的时候,采用对适应值最佳的个体进行解码的形式。
2 机械学习算法实例
下面就举出有关的例子对上文所提出的优化过程进行简要分析,下文所采用的实例是煤矿空压机的故障诊断系统,然后对改进型遗传优化BP神经网络算法进行有效的探索研究。
(1)首先应该做好相应的准备工作,阅读相关的空压机的说明书,例如使用说明书和故障说明书等。在使用空压机的时候,还应该对使用过程中的经验进行积累,在使用结束后再对相关经验进行分析总结,空压机的故障类型以及故障是怎么来的,在进行数据整理的时候都要进行分析研究,及时的发现问题所在。
煤矿空压机的故障诊断系统就是本文所采用的实例。通过相应的实验数据分析,煤矿空压机呈现出5种工作状态,用符号Y1-Y5表示,以此作为神经网络故障诊断模型的输出。Y1-Y5所表示的内容如下:Y1表示煤矿空压机正常的工作状态;Y2表示煤矿空压机冷却水系统出现故障的工作状态;Y3表示煤矿空压机润滑体统出现故障的工作状态;Y4表示煤矿空压机轴承出现故障的工作状态;Y5表示煤矿空压机电路系统出现故障的工作状态。如果出现以上故障,根据相关的经验以及故障的了解,故障的表现形式可以分为10种,用符号X1-X10表示,即为神经网络故障诊断模型的输入。X1-X10分别表示:X1表示煤矿空压机排气量过低;X2表示空压机排气压力不足;X3表示空压机排气温度超限;X4表示空压机冷却水温度超限;X5表示空压机冷却水压力不足;X6表示空压机主机转速低限;X7表示空压机振动超限;X8表示空压机润滑系统油温超限;X9表示空压机润滑油压力不足;X10表示轴承温度超限。
(2)空压机经过数据挖掘之后的故障诊断分析。通过对空压机可能出现的故障进行分析,为了看出新的神经网络的良好的性能,采用传统的遗传神经网络算法建立了煤矿空压机故障针对系统,在进行网络训练的时候应该采用相同的训练数据样本,在测试的时候也应该采用相同的测试数据样本。
通过相应的实验可以看出,在经过569次迭代后改进型GA-BP神经网络算法就使得误差达到了设定范围内,但是如果采用传统的神经网络算法就没有那么好的效果,只有在进行2 779次迭代才使得误差满足要求。由此可以看出,优化改进后的BP神经网络算法在各个方面上都有很好的效果,特别是网络的训练速度、收敛速度和收敛精度方面。改进型GA-BP神经网络算法在个方面都有比传统的算法要好。
为了能够更加明显的看出效果,下面采用100组数据进行研究分析。从测试的结果可以看出,87.5%是传统的P神经网络的诊断正确率,诊断时间为564 s,输出值存在一定的不稳定性,而上文中所提到的优化改进后的GA-BP神经网络的诊断正确率为98.2%,诊断时间为246 s,输出值相对稳定,从这数据可以看出,改进后的效果明显比传统的BP神经网络算法要好的多。改进后的BP神经网络算法的错误率比较低,检测的准确率和速度都有提高,工作性能也有所提高。
3 结语
在社会的不断发展进步的过程中,数据挖掘技术也在不断的创新,在社会中的运用也越来越广泛,发展速度也越来越快。本文就在传统的遗传算法的基础上提出了一种新的改进型遗传优化BP神经网络模型。这种神经网络模型对传统的神经网络模型在遗传算法的染色体结构和遗传算子两个方面进行了相关的优化,然后在进行BP神经网络结构参数改进的时候,采用了自适应交叉和变异概率,这样有利于各种数据的处理。
参考文献
[1]李运.机器学习算法在数据挖掘中的应用[D].北京邮电大学,2015.
[2]胡秀.基于Web的数据挖掘技术研究[J].软件导刊,2015(1):149-150.endprint