基于强化学习算法的能源工业云网智能接入方法研究

2022-01-25孙喜民王明达常江陈昕李海茹

时代汽车 2022年1期

孙喜民王明达常江陈昕李海茹

摘要：针对多种通信协议结合强化学习算法设计一个通用的可智能解析的协议接口，加快协议间的模式匹配，降低数据传输的延时性，提高工业物联网的时效性。實现无缝切换不同的数据接口以适应不同的网络通信模式。同时，如何通过强化学习使获取的动作策略确定一种统一的数据接口规范，可使得平台接入体系对于多源异构电工装备的数据达到良好的兼容性，为电工装备智慧物联体系与应用提供数据基础。

关键词：能源工业云网强化学习智能接入边缘数据处理

Abstract：A universal intelligently resolvable protocol interface is designed for multiple communication protocols combined with reinforcement learning algorithm to speed up pattern matching between protocols， reduce the delay of data transmission， and improve the timeliness of the Industrial Internet of Things so as to realize seamless switching between different data interfaces to adapt to different network communication modes. At the same time， how to determine a unified data interface specification for the acquired action strategy through reinforcement learning can make the platform access system achieve good compatibility with the data of multi-source heterogeneous electrical equipment， and provide data basis for the intelligent system and application of electrical equipment.

Key words：energy industry cloud network， reinforcement learning， intelligent access， edge data processing

1 引言

2020年国家电网“建设互联共享能源工业云网，赋能能源行业数字化转型升级”成功入选国资委优秀案例，作为国家电网公司打造的国内能源行业首个全域工业互联网赋能平台，能源工业云网以电为中心创新价值链，以数为要素贯通业务链，以智为要义升级产业链，打造设计制造协同、生产管理优化、设备健康管理、产品增值服务、制造能力交易等解决方案，支撑能源互联网各环节设备工业互联，提升全产业链资源要素配置效率和产品创新力。国网电商公司（国网金融科技集团）作为建设运营的主要支撑单位，已完成能源工业云网8大应用中心建设落地，同时与众多单位开展了深入合作，打造多个试点应用，有效推动智能制造、智慧交易、智能运维等场景产业链协同，为“立足能源根本、坚持开放合作、深耕垂直领域”的总体思路，重点聚焦能源生产、装备制造和能源消费三大领域，整合平台能力、推动业务集成、聚合客户资源，支撑能源互联网 “源、网、储、荷”各环节设备工业互联，构建“互联共享全域赋能”的能源工业互联网生态体系奠定了坚实基础。其实作为工业互联网的能源工业云网中的设备接入的科研工作和技术发展已经开展多年，但通过对较有影响的国际会议和期刊进行跟踪与分析，面向能源工业互联网的设备数据标准与接入体系研究尚处于起步阶段。

2 强化学习算法原理

强化学习是从控制理论、统计学、心理学等相关科学发展而来的一种机器学习方法，最早可以追溯到巴普洛夫的条件发射实验，直到上世纪八、九十年代强化学习技术开始在人工智能、机器学习和自动控制等领域中得到广泛研究与应用，很快被认为是设计智能系统的核心技术，尤其。人类或者智能体（统称为智能体）很多时候需要与外界环境进行交互与学习，所谓强化学习是指人类或者智能体从环境状态到行为映射的学习，目的是使系统行为从环境中获得的累积奖励值达到最大（其工作原理图如图1）。在强化学习过程中，通过所设计的算法把外界环境转化为最大化奖励量。

其中强化学习Agent为自治智能体，也是学习的主体，其特点有三：

（1）Agent主动对环境做出试探。

（2）环境对试探动作必须做出评价性反馈（好或者坏）。

（3）在动作-评价影响或者刺激过程中，环境要给出行动改进方案，直到达到既定目标（满足一定的目标函数）为止。

一般来讲，强化学习算法包含的基本要素有：策略、值函数、回报函数及环境模型等四个要素，四者之间的关系如图2所示。

其中策略给出Agent在给定时间内的行为方式定义，因此，一个策略就是从环境感知的状态到这些状态中可采取动作的一个映射，一般有确定性策略和随机策略之分;值函数用于对第一个状态起Agent所能积累的回报的汇总，在决策和评价过程中也是需要考虑最多的环节;回报函数是强化学习算法执行过程中的目标，它把环境中感知到的状态映射为单独的一个奖赏（），而且它可以作为策略进行变化或者改变的标准;环境模型主要用于模拟环境行为，即：给定一个状态和动作，环境模型经过计算可以预测必定导致的下一个状态和下一个奖励。环境模型一般用于通过具体函数做出的规划。

3 能源工业云网智能接入的体系架构与特点

能源工业云网设备智能接入体系的研究包含设备通信协议智能解析和设备编码统一规范。数据接入难度和成本是制约工业互联网平台应用的核心痛点之一，能源工业云网正尝试提供面向不同设备的综合性接入技术方案，推动平台快速应用落地。存量设备接入仍以边缘协议解析为主要方式，逐步从个性方案发展成为平台通用服务。具有较强工业协议积累的企业正在将接入方案转化为平台服务，将解析能力下发至边缘设备实现数据接入。未来，数据接入方案将内嵌在新增设备中，直接连平台有望成为重要趋势，SDK等数据接入方案在商业物联领域已普遍应用，正在加速向工业互联领域延伸。

4 强化学习的设备多源异构数据融合技术

该技术突破传统了工业互联网差异化数据融合的束缚，建立统一的数据接入标准，为数据共享与交互提供底层保障。基于强化学习的数据压缩融合、冗余去除及降噪处理技术，主要体现在自主感知和异构分析技术。能源工业云网智能接入体系框架如图4所示。

结合强化学习框架设计统一数据接口标识规范。针对能源行业设备数据而言，编码标识种类繁多、不统一;与产业化结合形成多源异构数据。按照“充分应用物联网、人工智能等现代信息技术和先进通信技术，实现能源行业各个环节万物互联、人机交互，打造状态全面感知、信息高效处理的要求，实现跨专业、跨系统的数据共享理念，见图5。

在数据接口规范生成模型构建中，融合强化学习框架来进行设计，分别将数据规范样本集、数据规范样本、多源异构数据编码方案和规范编码的信息有效性，与强化学习中的智能代理、动作空间、环境奖赏与环境状态进行功能映射，其具体的编码标识规范体系结构如图所示。将样本生成策略映射为强化学习理论中的智能代理，在整个学习过程中，它会根据环境状态St与奖赏值Rt来生成作用于环境的动作t，也就是规范样本t。同时，将现存的多源异构设备数据编码方案映射为体系架构中的学习环境，常见的编码方式有KKS电厂标识系统、国网电力设备编码、和ERP设备编码。环境中的这些编码方式，根据从动作t中得到的数据编码规范进行规范化编码。并在环境中分别对规范化编码信息的广泛兼容性、灵活扩展性、和方便使用性进行衡量，根据衡量结果生成当前新的环境状态St+1，并返回一个奖赏值Rt+1。

通过这样的模型设计，可以充分利用强化学习理论来选择累积回报最大的数据接口规范设计。在数据接口规范生成策略的学习过程中，我们可以明确任务所对应的马尔科夫决策过程四元组，也就是状态空间、动作空间、状态转移概率和奖赏，这是一种模型已知的学习过程。因此在对策略进行评估时，将策略的累积奖赏定义为公式（1）、（2）所示：

其中公式（1）表示“T步累积奖赏”在有模型学习中的计算方式，公式（2）表示“γ折扣累积奖赏”在有模型学习中的计算方式。表示从状态x出发，使用策略π所带来的累积奖赏。

以上技术可以突破传统工业互联网差异化数据融合的束缚，建立统一的数据接入标准，为数据共享与交互提供底层保障。

参考文献：

[1]安实，崔娜，李静.基于多智能体博弈的路径选择策略仿真研究[J].交通信息与安全，2009，27（3）：1-5.

[2] 杜威，丁世飛.多智能体强化学习综述[J] . 计算机科学，2019，46（8）：1-7.

[3] 丁晓燕，席裕庚.基于博弈模型的多智能体覆盖控制问题[J].计算机仿真，2009，26（10）：148-152.

[4]杭飞.基于博弈论的多智能体协同控制算法[J].电脑与信息技术，2014，22（2）：14-17.

时代汽车

2022年1期

基于强化学习算法的能源工业云网智能接入方法研究

杂志排行

时代汽车的其它文章