APP下载

基于 GSA-AGRU 的挤压机能耗预测

2021-08-20陈铭俊印四华

机电工程技术 2021年11期
关键词:注意力机制

陈铭俊 印四华

摘要:在铝型材的生产过程中,挤压机是核心的生产机器,其能耗占铝型材生产能耗的60%以上。针对当前挤压机能耗预测精度低和预测速度慢的问题,提出基于引力搜索优化的注意力机制门控循环单位网络模型(GSA-AGRU)用于预测挤压机的能耗,首先构建注意力机制的门控循环单位网络模型(AGRU),然后加入引力搜索算法(GSA)优化该网络的权重,最后得到最优的 GSA-AGRU 预测模型。利用某铝型材企业的挤压机生产能耗数据进行实验,结果表明 GSA-AGRU 模型相比于传统的 GRU、 LSTM、BP 和 AGRU模型具有更高的预测精度和更快的预测速度。

关键词:门控循环单位;能耗预测;挤压机;注意力机制;引力搜索算法

中图分类号:TG375文献标志码:A

文章编号:1009-9492(2021)11-0021-05

开放科学(资源服务)标识码(OSID):

Energy Consumption Prediction of Extruder Based on GSA-AGRU Chen Mingjun1,Yin Sihua2

(1. School of Computers, Guangdong University of Technology, Guangzhou 510006, China;

2. School of Electromechanical Engineering, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: In the process of aluminum profile production, the extruder is the core production machine, its energy consumption accounts for more than 60% of the aluminum profile production energy consumption. In view of the current low extrusion machine energy consumption prediction precision and slow speed of prediction problem. The concentration mechanism gating cycle unit network model (GSA-AGRU) based on gravity search optimization was proposed to predict the energy consumption of extruder. Firstly, the attention mechanism gated cycle unit network model (AGRU) was constructed, and then the gravity search algorithm (GSA) was added to optimize the weight of the network. Finally, the optimal gsa-agru prediction model was obtained. The experiment was carried out by using the production energy consumption data of an aluminum profile enterprise, the results show that the GSA-AGRU model has higher prediction accuracy and faster prediction speed than the traditional GRU, LSTM, BP and AGRU models.

Key words: GRU; energy consumption; extruding machine; attention mechanism; GSA

0 引言

我國是铝型材生产、出口和消费大国。2017年中国挤压铝材产量攀升,达到了19500 kt/a ,占全球总产量的55%,拥有各种挤压力的现代化油压机约1850台,约占全球总台数的70%[1]。铝材生产与消费规模在不断扩大,对铝型材生产过程的进一步分析,已经成为促进铝材生产进一步发展的迫切需求。挤压机的能耗一直是铝型材生产企业高度关注的问题,而传统的物理能耗模型和仿真分析是常用的方法。张聪聪[2]通过挤压机生产理论计算得到连续挤压工艺参数与挤压模具结构参数的联系,设计出合理的模具以减少生产能耗成本。蒋攀[3]对挤压机的泵控液压系统进行改进与原系统相比能耗有所降低。

随着深度学习的发展,各种网络模型用于工业能耗预测中,Zhou B[4]使用长期短期记忆(LSTM)网络构建核心预测模型,LSTM区别于传统神经网络使用3个门和1个“记忆细胞”实现长距离信息传递。但是 LSTM深度学习模型过于冗余,该模型需要较长的训练时间,这使得预测效率相对较低。Cho[5]对这 LSTM进行了改进,提出了 GRU网络。He Y[6]使用深度学习对铣床和磨床的能耗进行预测,结果表明比传统机器学习的预测性能和准确率有明显提高。为了提高风电的预测精度,李汉[7]提出了一种改进的长期短期记忆(ILSTM)网络结构。郭久俊[8]为了解决目前还原炉能耗预测精度低和建模困难的问题,在 LSTM 网络模型的基础上加入Adaboost来优化模型参数,提高了预测模型精度。

基于以上分析,目前对挤压机能耗的研究已经有了不少的研究成果,但国内外的研究人员大都从热力学,挤压机系统等方面对挤压机的能耗进行研究,而没有从预测的角度进行研究,预测工艺参数对挤压机能耗的影响。深度神经网络在工业能源预测的丰硕成果表明深度学习在挤压机能耗预测的可行性,并且挤压机生产过程中采集的数据具有时间序列性,所以本文采用 GRU网络模型对挤压机能耗进行预测,同时结合注意力机制和 GSA对 GRU进行优化以提高模型预测精度和速度。

1 挤压机能耗分析

1.1 挤压机系统结构分析

本文研究的挤压机是华南地区某大型铝型材生产企业型号为 SY-3600Ton 的卧式挤压机,其能源消耗来源于电能,基本结构如图1所示。

铝型材挤压机主要由3部分组成[9],分别为电气控制系统、机械系统和液压系统,具体的部件如图2所示。

1.2 挤压机工作过程能耗分析

挤压机每个工作周期完成一个铝型材工件的挤压生产,不断重复单个周期的机械运动达到成批生产的目的。铝型材挤压机具体工作流程如下。

(1) 挤压前,主柱塞及盛锭筒后退直至在盛锭筒与模具之间预留出送棒位置,送棒机构将铝棒送至挤压中心线,盛锭锭筒前进并套住铝棒,同时对模具、铝棒和盛锭筒进行加热,直到加热至预设的温度为止。

(2) 挤压中,液压泵将液压油压入主缸驱动挤压杆,进入挤压过程棒料在挤压杆的压力下和模具进行强烈挤压产生塑性变形,从而得到需要的铝型材产品。

(3) 挤压后,主缸液压卸压,挤压杆回到预设位置。剪刀机对挤压成型的工件进行剪裁,把挤压的最后阶段留有的压余部分切掉。

以上是一次工序,当完成一个挤压工序后,就进入下一个工序循环中。循环生产中挤压机的工作能量來源于电能,其能耗主要由直接影响因素和间接影响因素决定,直接影响因素有挤压机工艺、金属坯料、模具加热和盛锭筒;间接影响因素有操作人员、环境、设备状况和型材成品。如图3所示。

2 模型设计

2.1 GRU概述

为了解决 BP 神经网络在处理序列信息的缺陷,1990年,Jeffrey Elman提出了全连接的RNN ,即 Elman网络。 RNN 算法是一种专门用于重复和顺序数据学习的人工神经网络,具有内部循环结构[10]。

RNN 与传统神经网络结构一样有输入层、隐藏层和输出层。RNN 网络隐藏层节点以链式结构关联起来,当前节点可以得到上一节点的历史信息,还能获得更早的节点传递的重要信息,这使得 RNN 具有一定的记忆性,也是与 BP 神经网络区分开的一个重要特性。RNN 网络的单元结构和展开的链式结构如图4所示,其中 h 为隐藏层单元,X 为 h 的输入, Y 为输出,u 、v 、w 为神经网络中的权值。

RNN存在梯度消失和梯度爆炸的问题,为了解决该问题,Hochreiter和Schmidhuber[11]于1997年提出了 LSTM。LSTM是RNN 的特殊变体,在传统 RNN 的基础上增加了3个门和1个记忆单元,它具有存储时间序列的功能,并且可以通过结构中的单元单元存储,传输和处理数据流。与 RNN 相比,LSTM可以存储时间序列,因为 LSTM 中的每个单元都包含基于 S型神经网络层的3个逻辑门,即输入门、输出门和遗忘门,可以通过这些逻辑门选择性地传递或处理数据。

GRU 神经网络是通过改进 LSTM 神经网络得到的,由于 LSTM门控网络结构过于复杂与冗余,所以把 LSTM 中的3个门缩减到了2个。GRU通过更新门和重置门对时间序列数据进行有针对性地处理,更新门决定了之前的状态信息在当前状态中的保留程度,其值越大代表之前的状态信息保留越多。重置门用来判定是否要结合当前状态与之前的信息,其值越小说明忽略的信息越多,模型训练效率得到提高。该模型在数据学习方面不同于传统的 LSTM网络,具有较高预测效率的 GRU网络可以更深入地挖掘输入的挤压机能耗数据,使得多维时间序列可以与能耗时间序列建立非线性关系。不仅减少了数据噪声的影响,而且提高了整个模型的预测效率和准确性。GRU神经网络结构如图5所示。

rt =sigmiod(Wr [ht -1,xt])

zt =sigmoid(Wz [ht -1,xt])

=tanh(Wt [rt *ht -1,xt])

ht =ht -1*(1-zt)+ t *zt

式中:*为矩阵的逐元素点乘;[]为向量相连;ht为当前时间序列输出信息;Wr为重置门权重;Wz为更新门权重;Wt为候选集权重;sigmiod和 tanh为激活函数:

sigmoid(x)=

tanh(x)=

2.2 注意力机制的GRU

注意力机制理论的提出是借鉴人类大脑对于多种信息处理时选择较为关键的信息给予更多的关注。在神经网络中使用这种思想可以更合理地分配计算资源,从大量的信息中对重要的信息进行聚焦,减少对不重要信息的计算,在信息的有效选择、信息相关性等方面得到提升。

注意力的本质是加权求和[12],不同的输入特征通过计算出不同的概率来分配注意力,关键的特征会得到较大的概率值,也就会被赋予更多的注意,在处理时间序列数据的时候注意力机制的效果较好。因为 GRU无法灵活区分前一时期哪些时间数据对挤压机多目标的影响较大,而注意机制提供了一种关注重要信息的手段,加强了 GRU在长时间序列学习中特征选择的能力。因此,使用带有注意机制的 GRU算法来预测挤压机的生产能耗,把这个模型称为 AGRU模型。其计算流程如下。

首先通过多层感知器( MLP )计算注意力权值 et′t 。

et′t = V Ttanh(Ws St′-1+ Whht) (7)

式中: et′t 为隐含层状态ht在时间 t 时对时间 t′输出影响的注意力权重; V T 、WS 和Wh为模型权重;ht为编码器隐藏层状态; St′-1为解码器隐藏层状态。

接着根据softmax函数对 et′t 进行归一化,获得注意力分配概率分布数值。

αti =soft max(et′t)=Texp(et′t)

exp(t′ k)(8)

所有的权重和为1也就是αti =1,加权求和求出context vector:

ct =α tihi

ct和解码器的最终输出之间有一个连接。解码器隐藏层的状态可以通过ct进行更新,这个更新过程简单地表示为:

St′=GRU(Yt′-1, ct′ , St′-1)(10)

AGRU模型具體分为:输入层、隐藏层、注意力层和输出层,采用编码器-解码器结构,如图6所示。输入序列为(X1,X2, … ,Xt),隐藏层为(h1, h2, … , ht),每个输入 X 到隐藏状态 h 通过 GRU网络,在注意力层使用注意力机制理论计算得到模型的输出Yt′。

2.3 GSA-AGRU模型

引力搜索算法(GSA)是一种鲁棒性高且易于实现的全局优化算法,从前面对 GRU网络的描述中可以看出Wr、Wz、Wt是该模型的权重,通过模型训练确定。传统的模型训练方法采用的是随机梯度下降算法,但是该算法的其中一个缺点就是在梯度下降过程中造成预测精度的降低。为了提高 AGRU 模型的预测精度,本文采用引力搜索算法(GSA)实现全局最优。AGRU神经网络的权重作为空间中粒子的属性,输出误差被用作目标函数。

引力搜索算法的基本原理可以概括为:引力存在与各个粒子之间,引力的大小与粒子的质量成正比与粒子距离成反比。粒子靠它们之间的万有引力在搜索空间内不断运动,当粒子移动到最优位置时,最优解便可以求出。现在假设空间维为 D ,对象总数为 N ,第i个粒子在空间里的位置为:

xi (t)=(x(t),x(t), … ,x(t))i =1, 2, … , N(11)

式中: x为第i个粒子在第 d 维空间的位置;N 为整个群体粒子数量。

粒子的质量 mi ( t )公式如下:

fiti ( t )=f(xi ( t ))i =1, 2, … , N

best( t )= i∈{i,, N}fiti ( t )

worst( t )= i∈, N}fiti ( t )

mi ( t )

Mi ( t )=(12)

(13)

(14)

(15)

(16)

每个粒子所受引力和加速度按以下公式计算:

F(t)=G(t)[x(t)-x(t)]

Fid (t)=∑rj× F(t)

a(t)= b((esttt))

式中: Fid (t)与 a(t)分别为粒子i在 d 维上所受到的力与相应加速度;Rij为粒子i与粒子j 之间的欧式距离;rj为[0, 1]之间的随机数;ε为一个与计算精度相关的极小数;kbest为包含适应值最优的K个粒子的集合,K初始值通常为种群中总粒子数,并且随着算法的迭代线性减少,最终变为1;G(t)为万有引力常数,可由下式计算得到:

G(t)=G0e -α

式中: G 和α为两个常数;t 为当前群体迭代的次数; T 为算法总的迭代次数。

粒子的初始速度为0,在每次迭代中,按照下式更新粒子的速度vi(t)与位置xi(t):

v ( t +1)=ri × v (t)+a(t)

x( t +1)=x(t)+v ( t +1)

式中:t 为当前群体迭代的次数;ri为[0, 1]之间的随机数。

构建的 GSA-AGRU如图7所示。

基于 GSA 算法优化 AGRU 模型参数具体步骤:

(1) 使用原始参数对 AGRU模型进行训练;(2)初始化 GSA的粒子速度和位置,选择AGRU的权重;(3)计算适度值,更新粒子;(4)判断是否达到终止条件,达到即可输出最优参数并保存最优参数的 AGRU ,否则继续迭代;(5)把最优 AGRU模型保存并进行测试。对 AGRU模型的改进主要是基于 GSA算法优化 AGRU模型的权重。

3 实验与结果分析

3.1 实验环境与模型构建

实验使用Python 3.7编程语言,系统环境为 Linux ,计算机为 Intel ( R) Core (TM) i5-7300 HQ @2.5 GHz,16 GB RAM ,Windows 1064位系统。GSA-AGRU构建步骤如下。

(1) 查阅挤压机生产的相关资料,获得挤压机工艺中影响能耗的6个主要参数:挤压速度、挤压压力、挤压温度、盛锭筒温度、坯料温度、模具温度。这些参数被用作神经网络的输入,输出为该参数下能耗的预测值,该值为使用的电量。

(2) GRU神经网络。GRU神经网络包含5层 GRU神经网络,第一层还用作模型的输入层,并输入通过预处理获得的数据。经过参数调整测试后,每层中隐藏神经元的数量分别设置为48、64、64、32和16。该模型的激活函数使用 sigmoid和 tanh函数,学习率为0.0005。

(3) 模型训练。建立网络后,将选择 GSA优化算法作为网络优化算法。

(4) 使用 RMSE和 MAE 对模型的泛化能力和输出误差进行评估。 RMSE 的值越小模型的泛化能力越强,MAE 的值越小模型的预测准确性越高。

RMSE = yi - y

MAE =(yi - y*i)|

3.2 实验数据

本文利用某铝型材企业的历史生产数据作为训练数据集和测试数据集。数据为2019年7月1日至2020年7月1日,其中每个月随机抽取5天的数据作为测试集,其余部分用作训练的训练集。后台系统把每组不同挤压速度、挤压压力、挤压温度、盛锭筒温度、坯料温度、模具温度的参数分别生成工艺编号。从后台导出的加工能耗数据如表1所示。

3.3 结果分析

图8所示为分别采用 GSA-AGRU 与 AGRU 、GRU、LSTM和BP 模型预测挤压机生产能耗的数据曲线图。由图可知,GSA-AGRU与真实能耗曲线的拟合度要比其他模型的好,与相近的 AGRU模型相比依旧能表现更高的准确性。经典 BP 、LSTM和 GRU网絡的拟合效果就没有那么理想。综上可知,使用 GSA-AGRU网络模型可以降低能耗预测误差得到更精准的挤压机能耗预测值。

为了进一步验证 GSA-AGRU模型的准确性和泛化能耗,计算了5种模型的 RMSE 和 MAE 值,如表2所示。由表可知, GSA-AGRU 模型预测的均方根误差为7.8142,平均绝对误差为 5.669 1,低于其他模型,说明该模型的泛化能力较强且准确性较高。其中数据表明 GSA-AGRU模型优于AGRU模型,可见GSA对AGRU进行权重优化是有效的。

深入评估 GSA-AGRU 的训练和预测效率,将 GSA-AGRU模型与准确较高的模型LSTM、GRU、AGRU 的训练时间和预测时间进行比较分析。如图9所示,训练模型的耗时由短到长分别为: GRU、 AGRU、 GSA-AGRU、LSTM,模型复杂度越大训练时间越长。预测时间中耗时最短的是GSA-AGRU模型。所以在模型训练时GSA-AGRU耗时较多,但是在预测时较为快速。

综合实际生产考虑,GSA-AGRU模型十分符合挤压机实际生产需求,该模型的高精度确保了挤压机能耗预测值的准确性,为选择合适的工艺参数提供了有效参考,其次,该模型预测效率较高,可以提高公司云平台的响应速度,从而保证在高强度生产时系统的平稳性。

4 结束语

针对挤压机生产的能耗预测精度低、预测速度慢的问题,提出了一种基于GSA优化的注意力机制GRU神经网络的能耗预测模型。为了验证GSA-AGRU递归神经网络模型的性能,使用了与能耗相关的挤压机历史数据训练和测试了GSA-GRU神经网络、GRU神经网络、LSTM神经网络和 BP 4 种模型。实验表明,所提出的GSA-GRU神经网络,在模型准确性、泛化能力、预测速度方面优于其他模型,且具有工程应用价值。

参考文献:

[1] 张世忠,王祝堂.渤海湾铝挤压工业[J].轻合金加工技术,2019,47(8):1-10.

[2] 张聪聪.铝材连续挤压扩展变形分析及模具设计[D].南宁:广西大学,2012.

[3] 蒋攀.挤压机液压系统建模仿真与能耗分析研究[D]. 广州:广东工业大学, 2015.

[4] Zhou B, Ma X, Luo Y, et al. Wind power prediction based onLSTM networks and nonparametric kernel density estimation[J].IEEE Access, 2019.

[5] Cho K, Van Merrienboer B, Gulcehre C, et al. Learning PhraseRepresentations using RNN Encoder-Decoder for Statistical Machine Translation[J]. Computer Science, 2014.

[6] He Y, Wu P, Li Y, et al. A generic energy prediction model ofmachine tools using deep learning algorithms[J]. Applied Energy, 2020(275):115402.

[7] Han L, Jing H, Zhang R, et al. Wind power forecast based on improved Long Short Term Memory Network[J]. Energy, 2019(189):116300.

[8] 郭久俊.基于LSTM-Adaboost的多晶硅生产的能耗预测[J].计算机应用与软件,2018,35(12):71-75.

[9] 雷步芳.铝及铝合金挤压工艺及设备[M].北京:国防工业出版社,2014.

[10] Choi D J, Han J H, Park S U , et al. Comparative Study of CNNand RNN for Motor fault Diagnosis Using Deep Learning[C]//2020 IEEE 7th International Conference on Industrial Engineering and Applications (ICIEA), 2020.

[11] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J].Neural Computation, 1997, 9(8):1735-1780.

[12] Li W, Qi F, Tang M, et al. Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification[J]. Neurocomputing, 2020(387):63-77.

作者简介:

陈铭俊(1993-),男,广西北海人,硕士研究生,研究领域为智能制造、绿色制造。

印四华(1983-),博士,研究领域为智能制造、绿色制造。

(编辑:王智圣)

猜你喜欢

注意力机制
基于注意力机制的行人轨迹预测生成模型
基于注意力机制和BGRU网络的文本情感分析方法研究
多特征融合的中文实体关系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度学习的手分割算法研究
从餐馆评论中提取方面术语
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法