APP下载

基于大数据DQN的烘丝料头预热温度在线调节与仿真模拟

2020-07-06虞文进蒋一翔刘瑞东王文娟

自动化仪表 2020年6期
关键词:烟丝水分调节

虞文进,蒋一翔,刘瑞东,钱 杰,王文娟

(浙江中烟工业有限责任公司,浙江 杭州 315504)

0 引言

在制丝烘丝每个阶段,对于烟丝温度以及水分都有信号检测,每隔10 s收集一次数据。挡车工主要通过调节筒壁温度设定值(set point,SP),使得烟丝的烘后含水量达到质量工艺要求。人工调节的过程包括三个阶段:料头预热阶段、送料开始阶段以及送料稳定过程的反馈控制调节。

烘丝过程中,影响烘前烟丝含水率的因素有很多,如来料时的水分、前期加水量、烟丝流量等。现有的仪器测量采集数据离散、时延较高,而比例积分微分(proportional integral differential,PID)控制温度控制环节存在筒壁温度升温不及时。这使得烘丝筒筒壁预热温度的调节控制具有非线性和不确定性,且人工调节时在料头预热阶段容易出现干头或者过潮现象。为了使得料头处理阶段达到稳定水平,本文基于生产中积累的人工调节筒壁温度的大量优秀先验数据,对烘丝过程进行建模及仿真模拟。引入仿真模拟得到的预测数据作为决策参考,通过强化学习对设定的预热温度进行评价和优化调节,在烘丝工艺流水线进行现场试验并得出了稳定优异的效果。通过仿真分析,验证了算法的可行性。

1 研究背景

1.1 制丝烘丝一般研究方法

制丝烘丝过程中,水分控制精准度的研究一直是烟草工业中的重要课题。比较常用的方法有PID控制、模糊控制、大数据分析等策略。在早期的烟草水分控制研究中,提出了一种基于模糊模型的自校正预测控制算法[1]。将烘丝流程分为送料前准备、送料开始和送料稳定这三个阶段进行控制。通过对这三个阶段的不同控制,实现了烟丝出口水分的稳定输出。在工业控制中应用广泛的是PID控制[2]。基于PID控制的改进调节[3]对烘丝筒温度调节也有显著的应用效果。

近期,随着大数据技术的发展,基于已有大量制丝生产数据与控制参数数据进行分析,由大数据系统自动产生烘丝出口水分预测模型。同时,对烘丝出口水分预测模型进行动态持续优化,形成了烘丝机出口水分控制的预测模型[4]。

本文基于机器学习分析,发现奖励反馈机制的强化学习能准确、有效地预测烘丝送料前预热阶段的温度。

1.2 强化学习现状与发展

强化学习在人工智能、机器学习和自动控制领域得到广泛的研究和应用,取得了飞速的发展。特别是在强化学习的数学基础研究取得较大突破之后,强化学习的研究已成为当前人工智能的热点之一。它比较适应智能体在未知的环境,通过“试错”这一动作,获得反馈,不断自我调整、自我学习、自我提高,像人一样具备了学习能力,可以积极、主动地完成目标。因此,思考和讨论强化学习在人工智能中非常具有价值。强化学习又称为“再励学习”或者“评价学习”。

强化学习方法,出自Minsky在1954 年提出的智能体相关理论。而在20世纪八九十年代,一些研究者和工程师提出了经典的瞬时差分算法和著名的Q-leaning 学习方法。马尔科夫决策模型为强化学习方法提供了基本的框架。强化学习算法已经成为了人们在人工智能领域体现其方法和思想的代表方法,并在很多领域得到应用,取得可喜的效果,是研究机器学习和人工智能的一个重要课题。在控制系统[5]、智能比赛和游戏[6]、单体 agent 控制领域、多agent合作探究和调度管理系统等领域,强化学习都有很不错的表现和应用前景,为众多的研究者所看好。

本文基于不同批次烟丝调节各个参数与人工调节设定数据SP的对应关系,找出一定规律,使温度精准快速调节到烘丝适应状态。而基于烘丝工艺控制过程中不确定性与复杂性的特点,为了能灵活处理不同烟草不同情况的及时处理,本文采用了可以不断试错并自我改进的强化学习算法。预热前期,强化学习利用大量数据不断搜索,直至寻到当前状态下的最佳解决方案。此外,还引用了长短时记忆(longe short-term memory,LSTM)卷积神经网络逼近算法来改善调度搜索的策略和搜索的收敛性。通过深度强化学习(deep q-learing,DQN)方法和仿真模拟方法的有效结合,形成了调度的有机整体。

2 烘丝过程建模及算法

烘丝机运行过程中各种状态分类,具体分为待机、预热(压力积累)、准备、启动、生产、料尾、重启动、冷却八大状态[7]。在对每一批烟草制丝烘丝的操作中,烘丝机从预热阶段开始,预测机器预热温度。当阀后蒸汽压力超过预设上限、凝结水温度超过上限并在达到预设压力形成最小持续时间时进行预热,在筒壁温度到达预热温度时进入料头准备阶段,检查到有烟信号并延时45 s后进入启动状态,延时590 s后开始生产阶段。此阶段为料头控制阶段。

算法控制阶段在预热准备启动生产过程分为:烘丝筒温度预测控制调节阶段、送料开始料头预测控制调节阶段、送料过程稳定控制调节阶段。

原本的人工控制策略如下。

①根据牌号和烟丝流量,确定冷却水分和脱水量目标值,按人工经验预估目标预热温度。

②设定预热目标温度。

③等待设备水温和压力满足升温条件。

④执行升温。

⑤检测是否到达预热温度:如是,执行进料;否则,循环检测。

⑥检测筒内是否有烟丝:如有,延时45 s;如无,循环检测。

⑦设定筒壁温度目标值,执行升温。

⑧等待料头阶段结束。

⑨检测出口处水分含量,与目标值比对后,根据经验调整筒壁温度目标设定值。

⑩等待料中阶段结束。

通过人工智能(artificial intelligent,AI)模型学习人工调节策略并对调节过程进行优化。基于历史数据建立烟丝质量预测模型,并根据预测结果与历史数据智能调节温度设定值,以达到提高产品质量一致性的目标。

烘丝机进入启动阶段时,整个控制系统只有入口烟丝水分和入口烟丝流量有信号传递,烘丝机出口处尚未有烟丝产出。此时没有冷却水分反馈信号,因此烘丝机在启动阶段的筒壁温度完全由强化学习前馈预测算法控制。

烟丝温度调控是一个实时控制问题:根据DQN[8]算法中环境、动作、奖励反馈与动作决策;根据大量参数数据,建立一个模拟烟丝烘丝过程的数学模型;根据环境检测获取参数数据。定义了一个Q学习函数,表示在状态s中采取动作a,能够得到的最大奖励R,从而建立与一个经验池(experience replay)存储奖励方案。使用一个神经网络产生当前Q值,使用另外一个神经网络产生TargetQ值,并利用更新函数Q′不停地更新Q值。

其中:Q函数为:

Q(s,a)]

(1)

损失函数为:

L(θt)-E{[TargetQ-Q(s,a;θt)]2}

(2)

式中:θ为网络参数。

TargetQ目标函数设定为:

(3)

目标函数可以通过随机梯度下降方法进行优化:

Q(s′,a′;θt)]θt(s′,a′;θt)

(4)

States:在每一个时间节点,agent所处的环境的表示即为State。在烟草烘丝环节中,在模拟烘丝筒当前时间节点的筒壁温度状态。

Actiona:在每一个 state 中,agent 可以采取的动作即为Action,通过升温或降温对筒壁进行调节。

Rewardr:每到一个state,agent 就有可能会收到一个 reward 反馈。

PolicyP:如何选择动作的策略。希望能够学习到一个策略可以让 agent 得到最大的累积反馈。

针对烟草烘丝过程中料头环节没有反馈环节的情况,利用同牌号同批次历史数据对当前批次进行模拟。一批次的生产周期为2 h,从来料生产到料头冷却水分检测花费了6 min,每10 s检测一次数据,在料头烘丝过程共产生36条数据。设定预热温度后,烘丝筒筒壁温度缓慢连续上升。这使得料头呈现一种曲线波动的非稳态的过程。

适用于烘丝预热的DQN算法,其模型算法结构及智能控制过程描述如下。

(1)初始化MemoryD,它的容量为N。

①初始化Q网络,随机生成权重ω。

②初始化targetQ网络,权重为ω-=ω。

③循环遍历episode =1,2,…,M。

④初始化initial stateS1。

⑤循环遍历step =1,2,…,T。

(2)用ε-greedy策略生成actiona:以ε概率选择一个随机的action,或选择at=MaxQ(St,a;ω)。

①执行actiona,接收rewardrt及新的stateSt+1。

②将transition样本(St,at,rt,St+1)存入D中。

(3)从D中随机抽取一个minibatch的transitions (Sj,aj,rj,Sj+1)。

①令yj=rj, 如(j+1)步为terminal。

否则,令yj=rj+γmax ′Q(St+1,a′ ;ω-)。

②对[yj-Q(St,aj;ω)]2关于ω使用梯度下降法进行更新。

③每隔Csteps更新targetQ网络,ω-=ω。

动作函数a从环境奖励中所得到的反馈,通过“动作-环境-奖励-策略-动作”进行反复学习,根据不同的烟草批次建立不同的学习模型,生成不同的决策方案。

环境E{s1,s2}包含两个数据流s:s_1为{"strea"m:流数据};s_2为{batch:批数据}。s_1的对应net采用了局部连接的方法,分别用不同的卷积核对连续36条数据作局部卷积和全局卷积。s2的对应net采用全连接的方法。

首先,将之与环境连接之后输出动作函数a,通过得到的反馈,进行策略性的分析和整理,得到一个预测温度值。其次,通过这个温度值影响模型的进一步动作,并通过冷却水分的反馈,让学习体选择合适和可行的预热温度。最后,作出影响环境的动作,学习人工操作初始化温度状态s值,在t时刻给出相对应的烘后冷却水分是否满足工艺标准。根据t时刻的状态反馈值,决定(t+1)时刻的动作输出动作,并进行仿真预测。

3 仿真模型及试验结果

上文基于DQN,建立了筒壁温度与冷却水分、冷却水分均值和标偏的控制模型。本节将通过仿真试验对比智能控制与人工控制效果,验证算法性能。基于上述模型所得参数将替代人工,在烘丝工艺流程启动情况下对烘丝筒筒壁预热温度进行在线调节。

仿真试验环境基于加热过程的数学模型。在模拟料头部分在烘丝筒内加热,任何一小段的烟丝除水量是以一种积分状态累计的。建设烟丝烘干水分的数学模型为:

(5)

图1是在不同牌号、不同批次、不同产线上的产线料头智能控制与人工控制对比。

图1 产线料头智能控制与人工控制对比图

基于式(6)建立加热过程的控制仿真模型。模拟料头烘丝过程,是对送料前6 min的模拟。由试验结果得到的仿真模拟数据能有效降低干头率,能更好地控制在标准含水量12的优质范围内,并且波动被有效控制在2.4左右。模拟验证智能算法可行性后,将算法集成到工厂中的MAS系统中进行了实践操作。

如图1所示,通过产线D与产线F的智能预测与人工预测对比可知,智能控制与人工控制中在料头部分控制趋势相似,但有所差异; 而在料头温度稳定阶段,智能控制与人工控制相近率为99%。根据十次线上实时运行试验,并通过冷却水分含水率对比,统计出智能调节与人工调节优秀率对比为:智能调节比人工调节优秀率高40%,两者相近比率为40%。这表明了智能控制在很大程度上可代替人工作业。

通过在4个牌号上进行10批烟丝生产测试的结果分析可知,智能控制模型能够在D、F线烘丝段料头预热过程中通过对筒壁温度的调整实现的实时控制,且系统运行稳定。智能控制模型对冷却水分均值和标偏的控制可以基本达到挡车工平均水平。智能调节的优秀率高于人工调节,使烘丝机出口烟丝干头率由0.30降低到0.15左右。经试验验证,智能控制模型可以初步替代人工控制,实现智能化控制。

4 结论

本文针对制丝烘丝工艺过程的料头部分进行智能预测。由于料头的非稳态过程,采用深度强化学习,通过大量历史数据的学习,智能算法推出预测烘丝温度。通过仿真试验,验证结果的可行性,并在烘丝流程线上验证了智能算法可模拟并优于人工调节,证明了在工艺机理缺失的情况下大数据模型能够有效提供决策建议,验证了人工智能在优化调节控制逻辑这一方向上的可行性。后续工作将继续对料中过程进行探究,实现料中过程的智能化控制。

猜你喜欢

烟丝水分调节
不同因素对烟丝填充值的影响研究
苯中水分的检验
基于代谢调节的抗血管衰老新策略
2016年奔驰E260L主驾驶座椅不能调节
基于灰色关联法的短支烟加工工序间烟丝尺寸分布研究
基于相似性原理的烟丝结构分布稳定性评价
结存烟丝返掺方式的选择
晾掉自身的水分
完形填空Ⅳ
汽油机质调节