APP下载

基于强化学习的液动节流阀阀位控制策略

2023-08-06徐宝昌尤鹏翔陈贻祺孟卓然刘伟

化工自动化及仪表 2023年4期
关键词:强化学习

徐宝昌 尤鹏翔 陈贻祺 孟卓然 刘伟

摘 要 控压钻井是一种复杂的钻井工艺,自动节流管汇上节流阀的控制是实现井底压力精确控制的关键技术。首先,建立控压钻井装置中液动节流阀的动态模型,该节流阀采用比例伺服阀作为液压调节元件,采用控制器控制比例伺服阀的阀芯移动改变液动节流阀液压缸中液压油的流入量,进而实现对液动节流阀阀位的控制。其次,提出一种基于深度强化学习的液动节流阀阀位控制策略,该策略利用DQN(Deep Q-Network)算法,通过液动节流阀和智能体相互交换过程中学习比例伺服阀对液动节流阀阀位的控制。最后,通过仿真和现场试验验证了阀位控制策略的有效性,为成功实施控压钻井提供了保障。

关键词 液动节流阀 阀位控制 控压钻井 强化学习 DQN算法 比例伺服阀

中图分类号 TP273   文献标识码 A   文章编号 1000-3932(2023)04-0419-10

石油资源的开发和利用正逐步走向深部复杂地层[1],为了解决井下压力窗口过窄的安全问题,国内外学者对控压钻井技术(Managed Pressure Drilling,MPD)中的井筒压力控制方法进行了广泛的研究。随着控压钻井技术的发展,不仅可以准确地控制井筒环空压力分布,还可以清晰地分析井下压力环境的时空变化,实时科学地管理环空压力分布,保障控压钻井的作业安全[2~4]。控压钻井是一种过平衡钻井技术,通过改变自动节流管汇上的节流阀阀门开度控制钻井液回流到井口的压力,以保持井口套管压力的可控性[5,6],进而将井底压力的变化控制在小范围内,大幅提高钻井速度,缩短钻井周期,使钻井作业更加安全,同时有效解决井涌、漏气、有害气体泄漏等问题。由于节流阀长时间工作在高压环境中,其工作特性和可靠性将直接影响MPD实施的成功率[7]。目前,控压钻井技术对井口压力的控制要求正逐渐由高压差控制转向高精度控制,因此对节流压力和节流阀阀位的控制成为核心问题。

现有的用于控压钻井的节流阀产品比较成熟,Weatherford、At Balance和Halliburton所生产的钻井节流阀已成功服务于数百口井,并且取得了良好的应用效果[8]。T3公司所设计的各种新型阀芯结构的执行机构(既包括了传统节流阀的液动执行机构和手动执行机构,又包括了节流阀的电磁阀执行机构、活塞执行机构、涡轮执行机构、提升执行机构、电动执行机构和径向手动执行机构[9])也得到了钻井行业的认可。控压节流阀采用电液比例控制技术,是指实现液压控制元件被控量和控制量之间线性转换关系的技术[10~12]。在钻井作业过程中,精准的节流阀阀位控制是保证精确的井口回压的前提,可以有效消除井口安全隐患,避免引发井涌、漏液等复杂事故。

随着伺服技术的兴起,常见的液动节流阀阀位控制技术是利用比例伺服阀来控制液动节流阀阀位的[10~12]。由于比例伺服阀阀门开度对节流阀的阀位控制具有典型的非线性特征,因此在现场应用中,常规PID算法难以满足阀位无超调且跟踪速度快的要求。为此,笔者采用提出智能控制算法来解决该问题。强化学习作为人工智能的热点之一,已经在自控领域得到了广泛的研究和应用。强化学习可以像人一样进行自我调整、自我学习,在未知环境中通过不断试错,积极主动地完成目标。随着智能控制理论的深入发展,越来越多的领域向着智能化方向发展。文献[13]介绍了深度强化学习控制方法,将设计的DQN算法应用于热过程控制,提出奖励函数设计原则,经验回放更新Q网络的方法以及控制器的实现方法。文献[14]设计了一种利用DQN开发的用于自动驾驶系统的智能动力控制器,仿真结果表明该控制器具有从驾驶经验中学习制定合理控制策略的能力,能够适应不同的驾驶条件和环境变化。

笔者基于深度学习和强化学习相结合的深度Q网络,给定控压节流阀阀位控制策略。DQN算法的特点是以值为基础,可单步更新,只需输入状态信息,输出为所有对应动作的Q值,适用于动作空间不大的情况。笔者设计的动作空间为比例伺服阀的控制指令,动作空间小,可直观反映液动节流阀阀位的变化情况,奖励函数是根据精准控制节流阀阀位的变化过程所设计的。最后通过对节流阀阀位控制的仿真和现场试验,验证了阀位控制策略的有效性。

1 液动节流阀工作原理

为了保证稳定、连续的控压钻井工作,笔者研发了一套液动节流阀自控系统,系统采用比例伺服阀作为电动调节机构(T3公司的API 6A液动节流阀作为执行机构),從而实现对液动节流阀的阀位控制,提高液动节流阀阀位控制的安全性和高效性。

液动节流阀的工作原理如图1所示。当电磁铁A、B接收到来自控制器的电流信号时,比例伺服阀的阀芯将以不同的速度移动,利用阀口开度变化改变液动节流阀液压缸中液压油的流入量,从而控制液动节流阀的阀位。其中,液压油增压动力来源于电动液压泵或手动液压泵[15]。

2 控压节流阀的动态模型

3 DQN控制算法

3.1 DQN算法

3.2 阀位控制算法的深度强化学习

在本课题中,液动节流阀的模型仅用于模拟钻井现场液动节流阀的动态变化,即作为强化学习的环境使用。对于节流阀的控制问题,强化学习的基本内容主要体现在液动节流阀从一个状态转移到另一个状态,以及状态转移时环境给出的奖励。因此,基于强化学习的节流阀阀位控制策略主要包括状态空间、动作空间、奖励函数和训练过程。

3.2.1 状态空间

3.2.3 奖励函数

3.2.4 训练过程

4 试验与分析

仿真训练过程中设置的液动节流阀动态模型参数见表1。

4.1 训练结果

在DQN训练过程中,算法对超参数的变化十分敏感,因此通常情况下需要对超参数进行优化,选择一组最优超参数,以提高深度强化学习的性能。本研究仿真实验设定的超参数见表2。

4.2 仿真試验控制结果

为了验算DQN算法的泛化能力,选取初始时刻节流阀阀门开度为60%,前70 s设置液动节流阀阀门开度设定值为55%,后70 s设置液动节流阀阀门开度设定值为70%。智能体经过强化学习得到最优控制策略,得到的比例伺服阀控制策略如图4a所示,液动节流阀控制效果如图4b所示。

由图4b可知,前70 s节流阀阀门开度设定值小于节流阀阀门开度测量值,此时由图4a可知智能体采取的控制策略是比例伺服阀阀门开度小于50%,且随着节流阀阀门开度差值的变小,比例伺服阀阀门开度逐渐趋向于50%,待节流阀阀门开度测量值在节流阀阀门开度设定值的允许误差范围内时,比例伺服阀阀门保持50%的开度。后70 s节流阀阀门开度设定值大于节流阀阀门开度测量值,此时智能体采取的控制策略是比例伺服阀阀门开度大于50%,且随着节流阀阀门开度差值的变小,比例伺服阀阀门开度逐渐趋向于50%,待节流阀阀门开度测量值在节流阀阀门开度设定值的允许误差范围内时,比例伺服阀阀门保持50%的开度。

4.3 现场工况测试

在某控压钻井现场,为保证井口回压的稳定性,通过节流管汇系统上的自控系统对节流阀阀位进行精准控制从而保证井口压力的稳定。

控压钻井现场控制架构如图5所示。

在上位机监控界面上设置井口压力设定值,采用强化学习控制策略实现对液动节流阀的阀位控制,并在上位机监控界面上观察井口压力的控制效果,从而判断策略的有效性和可靠性。现场出口流量稳定在13 L/s,泥浆密度1.2 g/cm3。为了验证控制算法的有效性,对井底压力分别进行追压和降压试验,进而全面测试节流阀阀位的控制效果。

首先进行井口回压的追压试验。井口压力变化幅度1 MPa,初始时刻井口压力值1 MPa,分别设置井口压力设定值为2、3、4、5 MPa。追压效果如图6所示。

之后进行井口回压的降压试验。此时初始井口压力值5 MPa,分别设置井口压力设定值为3、2、1 MPa,降压效果如图7所示。

最后,为了充分试验节流阀阀位的控制效果,调整井口压力变化幅度为2 MPa,当初始时刻井口压力值为2 MPa时,设置井口压力设定值为

4 MPa,控制效果如图8a所示;当初始时刻井口压力值为4 MPa时,设置井口压力设定值为2 MPa,控制效果如图8b所示。

综合以上现场测试结果可知,在规定时间内,通过智能体调节节流阀阀位,将井口压力控制在目标压力值的±0.15 MPa范围内,满足不同工况下给定井口压力范围时节流阀阀位的控制,验证了智能体控制器能够学习到最优的节流阀阀位控制策略,完成不同工况下的井口压力控制任务。

5 结束语

针对节流阀阀位精准控制的问题,提出基于深度强化学习的智能控制策略。首先建立液动节流阀的动态模型,通过改变比例伺服阀的阀芯位移进而对自动节流管汇中液动节流阀的开大或关小的速度及位置进行控制。其次将液动节流阀阀位控制代入到强化学习框架中,采用DQN算法求解该问题。构建智能体进行大量的强化学习训练,通过Q值网络的更新调整控制策略,提高算法的稳定性。最后在多种工况下对智能体控制器进行现场试验,结果表明阀位控制策略所具有的控制精度和响应速度能够满足控压钻井过程的需求。

参 考 文 献

[1]   李根生,吴文,陈勉,等.深井复杂地层安全高效钻井基础研究[J].中国科技成果,2014(13):21-22.

[2]   XIAO C,NI H,SHI X.Unsteady model for wellbore pressure transmission of carbon dioxide fracturing considering limited-flow outlet[J].Energy,2022,239:122289.

[3]   SULE I,KHAN F,BUTT S,et al.Kick control reliabi-lity analysis of managed pressure drilling operation[J].Journal of Loss Prevention in the Process Industries,2018,52:7-20.

[4]   ZHANG Z,XIONG Y,GAO Y,et al.Wellbore tempe-rature distribution during circulation stage when well-kick occurs in a continuous formation from the bottom-hole[J].Energy,2018,164:964-977.

[5]   BREYHOLTZ O,NYGAARD G,GODHAVN J M,et al.Evaluating control designs for co-ordinating pumpr ates and choke valve during managed pressure drilling ope-rations[C]//2009 IEEE Control Applications,(CCA) & Intelligent Control,(ISIC).IEEE,2009:731-738.

[6]   FU Y K,LIU Q Y,WANG G R,et al.Mathematical modeling and validation on a new valve core of the throttle valve in MPD[J].Advances in Mechanical Engineering,2013(5):125936.

[7]   HANNEGAN, DON M.Managed pressure drilling in marine environments-case studies[C]//Proceedings of SPE/IADC Drilling Conference.Amsterdam,Netherla-nds,2005:1-5.

[8]   叔貴欣,范振忠,刘庆旺.污油泥调剖剂的研制与应用[J].科学技术与工程,2009(9):2437-2439.

[9]   谷经纬.钻井节流阀的生产和使用概况研究[J].内江科技,2015,36(3):112;75.

[10]   薛桂娥.基于电液比例阀的阻力加载系统研究[D].西安:长安大学,2007.

[11]   路甬祥,胡大.电液比例控制技术[M].北京:机械工业出版社,1988.

[12]   韩波,王庆丰.电液比例位置同步控制系统的控制结构研究[J].机床与液压,1997(1):7-10.

[13]   AO T,SHEN J,LIU X.The Application of DQN in Thermal Process Control[C]//2019 Chinese Control Conference(CCC).IEEE,2019:2840-2845.

[14]   CHEN I M,ZHAO C,CHAN C Y.A Deep Reinforce-ment Learning-Based Approach to Intelligent Powert-rain Control for Automated Vehicles[C]//2019 IEEE Intelligent Transportation Systems Conference(ITSC).IEEE,2019:2620-2625.

[15]   杨旭,杨晓华.基于FluidSim可调节流阀性能的研究[J].宁波职业技术学院学报,2018,22(2):85-87.

[16]   梁利华.液压传动与电液伺服系统[M].哈尔滨:哈尔滨工程大学出版社,2005.

[17]   吴振顺.液压控制系统[M].北京:高等教育出版社,2008.

[18]   SUTTON R S,BARTO A G.Reinforcement Learning:An Introduction[M].Cambridge,MA:MIT Press,1998.

[19]   SU J J,MA C H,LI S,et al.An AGC dynamic control method based on DQN algorithm [J].IOP Conference Series:Materials Science and Engineering,2020,729(1):012009.

(收稿日期:2023-01-20,修回日期:2023-03-10)

Hydraulic Choke Valve Position Control Strategy Based on Reinforcement Learning

XU Bao-chang YOU Peng xiangCHEN Yi-qi MENG Zhuo-ran LIU Wei

(1.College of Information Science and Engineering, China University of Petroleum(Beijing);

2.PetroChina Engineering Technology Institute Co.,Ltd. )

Abstract   Managed pressure drilling(MPD) is a complicated drilling technology. The control of choke valve on automatic choke manifold is key to realizing accurate control of bottom hole pressure. Firstly, having the hydraulic choke valves dynamic model in the MPD device established and the proportional servo valve selected as valve position control systems actuator. Through controlling the spool movement of proportional servo valve, the hydraulic oils inflow in hydraulic choke valves hydraulic cylinder was changed and the position of hydraulic choke valve was controlled; secondly, having a hydraulic choke valves position control strategy based on deep reinforcement learning proposed, through the exchange between the hydraulic choke valve and the intelligent agent, this strategy has the deep Q-network(DQN)  algorithm adopted to make proportional servo valve control hydraulic choke valve position; finally, both simulation and field test verified the effectiveness of the valve position control strategy to provide a guarantee for the successful implementation of MPD.

Key words    hydraulic choke valve, valve position control, MPD, reinforcement learning, DQN algorithm, proportional servo valve

猜你喜欢

强化学习
基于强化学习的无线网络智能接入控制技术
机器学习发展现状及应用的研究
未来人工智能自主学习网络的构建
转观念 强服务 树立用电检查新价值
智能车自主避障路径规划研究综述
一种记忆可修剪型仿生机器人的速度跟踪算法研究
基于强化学习的在线订单配送时隙运能分配
论“以读促写”在初中英语写作教学中的应用
智能交通车流自动导引系统
分布式系统中基于非合作博弈的调度算法