面向无人机电力巡检的语义实体构建及航迹控制方法
2020-10-18张融雪庞新富
任 娜,张 楠,崔 妍,张融雪,2,庞新富
(1.沈阳工程学院信息学院,沈阳 110136;2.南京航空航天大学计算机科学与技术学院,南京 610100)
(*通信作者电子邮箱kwp1ys@163.com)
0 引言
电力巡检是保证电网安全稳定运行的有效方式,随着无人机(Unmanned Aerial Vehicle,UAV)自主导航系统及智能技术的迅速发展[1],它在输电线路灾害分析、定位排查设施故障以及电力资源调配等方面发挥了显著优势,大幅提高了输电维护和检修的效率。航迹的合理控制是影响无人机智能巡检的重要因素[2],现阶段针对电力巡检的主要研究方法是通过航迹的规划对定点位置和故障进行监视,较少从信息处理角度考虑高空复杂环境下的巡检问题,对无人机巡检的航迹定量分析和优化设计还存在不足,而各类传感器提供的态势信息源由于外界不确定信息因素,直接影响无人机对电力巡检的线路查排和设备缺陷诊断的精准性,容易遗漏小样本的异常事件检测,导致财力损失和系统安全隐患,因此如何针对不确定态势信息进行融合并寻求合理的轨迹控制机制,以解决巡检过程中迅速发现电力故障问题是目前亟待解决的问题。
对于高空复杂的电力巡检任务,智能无人机航迹行为的控制很大程度上取决于系统对指令用意和周边环境的语义理解[3],语义建模[4-5]通过基于自然语言方法构建领域概念结构及关系并进行定义推理,采用标准化规范化的语言格式实现对环境实体和不确定信息的模型构建,进而达到与环境的互通共识。文献[6]中根据经验模态分析方法从无人机历史经验态势中提取与当前态势相似的特征进行自组织聚类,从而解决航迹控制在时空属性上的动态连续态势检测问题;但该方法对于态势信息的度量缺乏背景知识,回避了对不确定抽象信息实体的语义建模。文献[7]中采用多层认知框架的知识表示方法,描述无人机个体行为规划和轨迹控制形成的过程,但无人机传感器认知的行为不仅取决于系统自身,还依赖于对环境的语义信息感知[8]。文献[9]中借助层级式空间表达方式将地图信息和环境实体抽取为概念图,并用逻辑本体语言存储相关领域知识推理环境实体,实现机器对环境的语义交互理解;但是考虑到无人机的局部观测线和输电线路上的空间布局,巡检目标区域覆盖的范围较难保证。
综合考虑以上问题,以电力巡检领域为知识背景,从信息处理角度提出了一种语义实体构建及航迹控制的方法:构建基于语义知识背景的空间实体拓扑网络,生成关于位置节点的语义航迹序列网络及其语义接口;根据空间拓扑结构相似性度量的结果集,提出安全许可机制和强化学习的航迹控制策略,实现电力巡检无人机在统一的概念内涵和位置结构上的轨迹控制。
1 模型设计
1.1 框架设计
针对无人机在高空复杂巡检环境下行为控制的背景约束和信息感知过程中数据的流向特征,将电力巡检框架分为数据处理层、模型生成层和策略控制层。如图1 所示,它是整个系统的底层架构。
图1 无人机电力巡检框架Fig.1 Framework of UAV electric power inspection
1)数据处理层:主要用于将开源地理信息系统(Geographic Information System,GIS)数据库PostGIS[10]的数据信息及无人机传感器获取的态势信息、电力实体分布信息等进行概念抽取和语义表征,形成具有图结构的空间实体拓扑网络,并赋予了相关语义概念、实例和关系,功能包括实体的时空分布、行为任务更新、实时维护等。
2)模型生成层:主要用于对当前轨迹信息进行语义建模,构建与空间实体拓扑网络映射的语义接口,用语义表征航迹序列的位置特征,作为学习模型网络提供当前初始化的语义环境。
无人机通过传感器获得的外部信息对当前环境态势进行数据处理,并抽取为相应的概念层次进行语义表征,而历史航迹数据和当前航迹数据被划分为航迹序列网络,同时通过语义表征和概念抽取得出一个空间实体拓扑网络。在巡检过程中,当前巡检任务环境的语义航迹网络与空间实体拓扑网络共同作为知识模型,为无人机提供统一的规范化数据支持。空间拓扑相似性度量触发无人机匹配历史航迹和当前航迹结构,并用强化学习的方法指导当前轨迹在正确的控制策略中航行。
1.2 巡检流程设计
高空复杂环境下的任务场景受到无人机监视器的局部观测范围和外界环境不确定因素等影响,将巡检流程定义为在未知空间区域内,从预设巡检作业点起飞,对位置空间上的实体进行巡检覆盖所产生的航迹规划,以寻求一个最优的航迹作为对电力系统的一次巡检任务。如图2 所示,共分为杆塔上的巡检和线路的巡检[11]:杆塔上巡检主要为针对设备缺陷和故障进行的安全检查,包括绝缘子、变压器、闸阀、高压螺栓、电流互感器等;线路上的巡检主要为针对输配电高压线缆的故障巡检。以上两者的巡检均需要触发On_Entity 网络中的概念进行判断和推理,将发现的故障和缺陷通过图形图像远程报告至地面控制服务器内,进而达到巡检的效果。
图2 电力巡检流程Fig.2 Flowchart of electric power inspection
2 语义网络构建
2.1 空间实体拓扑网络构建
空间实体的拓扑网络建模是轨迹规划的基础,能够为轨迹控制提供策略指导,描述为无人机系统可理解的标准化统一数据。根据实体杆塔和线缆在空间上的布局,将每个实体进行语义建模,初始化为一个具有语义特征的空拓扑网络:
其中:V为概念层次节点;E为关系线段;I为实例;At为生成策略的动作状态输出模型。如图3 所示,On_Entity 的概念层次结构分为行为状态网络、环境态势网络和历史航迹网络,各层次概念与实例通过关系线段E连接为图结构。其中,行为状态拓扑网描述了当前无人机系统状态,包括引擎状态、位置状态、姿态调整、速度调整等,通过实例关系获取动力学模型中的平尾偏角、矢量舵偏角及俯仰角、中心角等参数;环境态势拓扑网为由PostGIS 抽取的地理信息概念、实例和关系,用于为无人机巡检作位置导航,包括实体数据(如Telepole(杆塔)、TSwitch(刀闸)、transmission(电流互感器)等具体信息)以及从点(实体位置)、线(路网)、面(区域)到复杂环境气象数据;历史航迹网络存储了由行为状态网络和环境态势网络形成的策略轨迹,通过语义实例标记的方法进行记录。所有数据在Protégé[11-12]平台上构建,由Apache Jena[11]封装成支持SPARQL(Protocol and RDF Query Language)语言的OWL(Web Ontologoy Language)[12]模型,共600 个实体概念及5 500余个实例,由SWRL(Semantic Web Rule Language)[12]调试形成具有图结构的语义实体模型。
图3 空间实体拓扑网络建模Fig.3 Modeling of spatial entity topology network
On_Entity 是作为轨迹控制的初始策略,各实体在空间中初始化为静态布局,但在无人机巡检过程中基于任务的持续性和外界环境的不确定性,需要利用当前的态势数据进行调整,从而达到航迹控制的效果。
2.2 航迹序列网络构建
由于On_Entity 中的态势数据包含了大量的历史航迹网络,按照无人机航迹划分为多个时间和空间序列,形成一个历史航迹序列的知识库,而当前新的航迹序列历史数据在时空结构和序列往往不一致,需要对数据进行归一化处理。本文利用语义轨迹的方法,将新的轨迹位置和片段加载语义标签,封装成一个语义接口,即一条语义航迹[13-14]定义为:
其中:OID表示实体目标的标记,属性包括位置信息记录Listof(Pi(ti,xi,yi,zi))和敏感信息记录Listof(SAttri);Segk为语义标注后的第k个轨迹片段;为第k个轨迹片段开始时间,为终止时间,且满足;Annok为语义标签信息。航迹序列使用前一时间点动作-状态作为输入,下一时间点的状态作为输出,从路径优化的选择上形成一个关于位置节点的航迹序列网络GT。
借助ODIS-E工程师软件可以无需在线连接大众售后网络,即可实现方向机离线参数写入等操作。也就是说,通过ODIS-E软件,维修人员不必在线连接即可完成方向机更换和参数设置等操作。
2.3 语义接口设计
如图4 所示,航迹序列网络节点上均加载一个语义接口,当无人机巡检过程中,航迹根据语义片段进行自适应的飞行,将一个垂直方向上的杆塔进行了空间拓扑划分并描述了轨迹的位置节点,每个节点标注了一个语义接口,该接口将On_Entity 中的感知特征和初始概率进行编码化,使无人机通过网络节点进行航行。如:当检测区域Polygon 概念类中的区域Area1 与Area2 相连,根据空间实体拓扑关系网,Area1 通过at 关系集连接实体对象Object1 和Object2,Area2 通过at 关系连接实体对象Object3、Object4、Object5 和Object6,这些对象的实例通过Nav_Object 函数扩充概念的属性,包括特征集Features(f1,f2,…,fn)和关系集Relations(r1,r2,…,rn),这些集合标注了两个实体之间连接的初始概率,提供了感应设备对环境的语义解释。
图4 航迹的语义接口设计Fig.4 Design of semantic interfaces of trajectory
3 航迹控制方法
3.1 结构相似性度量
由于语义航迹难以满足大量输电线路实体数据处理需求,且存在大量的轨迹转向、停留、飞行等隐性特征知识,轨迹结构的相似性度量可以解决当前航迹位置节点与On_Entity中历史数据的空间相关性,挖掘历史轨迹的隐性知识,以更好地为无人机航迹规划提供精准决策。无人机的航迹控制实质上根据On_Entity 中的有向无环图对拓扑结构的顶点进行路径选择[15],并在每个位置节点上加载语义标签,以图匹配为切入点,度量当前航迹位置节点和On_Entity 概念、实例、关系的相似性。拓扑结构匹配是为了最大化寻求两个航迹之间的所有最大公共结构,设有当前航迹序列网络为GT,空间实体拓扑网络On_Entity 为GO,节点数目为|GT|和|GO|。1)判断两个图是否为图同构、子图同构、部分同构,计算GT和GO之间结构匹配的最大节点数目n1以及对应的匹配点对集合S1;2)由于GT和GO存在不对称性,交换两者的角色重复步骤1)计算得出匹配的最大节点数目n2以及匹配点对集合S2;3)当结果为图同构时,GT和GO两者完全相同;当结果为子图同构时,GT为GO的部分结构,最大匹配节点数m为|GT|;4)当部分同构时,则最大匹配节点数为m=Max(n1,n2),匹配点对集合为M=Max(GT,GO)。GT和GO的相似度计算如式(4)所示:
其中:stri为第i个匹配的结构;m为匹配节点数;vi为第i个结构匹配的内节点数量;sum(stri)为第i个结构匹配的欧氏距离,计算如式(5)所示:
3.2 安全许可机制设置
经空间拓扑结构相似度量后,获取了与当前轨迹序列网络相似的结果集R,而在巡检安全性方面为生成最优控制策略须考虑安全约束条件,筛选R中导致智能体违背安全条件的巡检轨迹序列,避免产生障碍碰撞和电磁干扰等问题,为此提出一种安全巡检的许可机制。利用语义可达性描述安全巡检机制,设RT的许可策略为安全许可,则应满足语义安全可达性描述为,即对于所有RT中位置节点P∈π的一个策略π从初始位置P0出发到达不安全状态集合FU∈GO的概率小于阈值PU,则认为该策略π为安全策略;而当大于阈值PU时,则表征在许可策略下从任意位置P到达不安全状态集合FU的最大概率。
从初始位置P0节点出发,任何一个策略未被安全性约束的最大概率不会超过阈值PU,对于每个位置节点,许可策略至少会选择一个行为策略输出矩阵At,并设置不可达安全状态的概率值为1。
3.3 基于强化学习的航迹控制方法
为实现巡检的目标动态实时监测,不断调整航迹控制状态和语义信息,提出了基于强化学习[16]的航迹控制方法,分别设定航迹网络集合R为模型学习网络GR,空间实体拓扑网络On_Entity为策略指导网络GO,GR为当前的航迹策略提供语义航迹特征,并从实际执行的数据中学习,提高模型的精准性;GO为GR的航迹预测控制提供经验策略和历史轨迹,从实际执行态势数据中学习并优化策略知识。
为了最大化满足GR巡检策略,定义结果集GR上状态的期望累积回报量值,计算公式如下所示:
其中:Ri=[Ri(P0),Ri(P1),…,Ri(Pn)]为每个位置上的语义向量;为策略π下的行为状态转移概率。而对于每个安全许可机制下可控状态,得到折扣期望累积回报最大化策略集,从任意位置节点pi出发最大化满足学习模型网络R的策略。
如果不存在以概率1 满足φU的策略,则从所有最优策略集合π*中选择从给定初始状态出发得到满意概率最大的策略进行学习。对于模型学习网络的每一个状态,根据与之间的GO交叉嫡定义一个策略回归目标函数:
由此,更新航迹最优策略和策略指导网络算法步骤如下:
4 实验与结果分析
结合项目研究内容,采用真实的电力系统数据背景进行仿真。将全局环境区域限定为W×L=100 km×100 km,应用1台四旋翼无人机飞行速度为5 m/s,最大的偏角度为60°,最小有效观测距离为2 m,仿真实验采用Gazebo 软件平台进行,采样周期为1 s,将OWL 文件通过Jena 导入至平台中。与真实场景相比其区别在于该实验可以对场景进行随机布置,实验中由于网络中传感数据的不确定问题,应对超出预测范围的特征干扰,即空间实体拓扑网络中没有出现的实例,直接采用随机方式会严重影响控制效果。为此,采用拉普拉斯平滑方法对检测到的当前事件数据进行预处理。另外,为提高仿真实验的实用性和合理性,消除数据检测随机误差的影响,对数据重复实验10次后取平均值作为最终结果。
4.1 航迹控制分析
无人机在电力巡检中由策略指导网络GO生成多条历史轨迹数据,并在各位置节点上标注了语义接口信息,由图5(a)可知,形成了在垂直平面上的历史网络轨迹图。由图5(b)可知,运行本文方法后,无人机从初始状态出发,根据生成的策略确定在当前状态位置需要采取的行动。然后根据策略指导网络GO执行下一个位置状态的转移,重复以上过程达到终止状态,最终生成一个鲁棒满意[17]策略π*。
图5 轨迹形成策略Fig.5 Trajectory generation strategy
为描述期望性能等级和鲁棒性之间的权衡关系,设置不同期望性能等级rc对生成鲁棒满足策略π*的影响。定义策略π*的鲁棒函数以确保给定策略能够满足期望性能等级rc,用于评价策略π*的影响。
其中:U(α,U′)为信息差不确定模型;R(π,u)为面向策略π*和不确定参数u的性能评价函数。由图6 可知,对于rc从0~100,π*的鲁棒性随着rc的增加而降低,说明本文方法可以在不确定性信息中使无人机从偏离的轨迹控制中回归,符合鲁棒性满意度原则。这是由于一方面,利用构建了语义实体的概念,建立On_Entity 网络模型,为航迹控制提供了语义接口服务;另一方面,利用强化学习方法最大化满足模型学习网络的巡检策略,并在每个位置状态上生成一个期望累积回报向量,对策略指导网络GO的结构进行学习;使用GO输出策略为一个稳定的监督训练信号,并调整偏离的航迹线路,将学习到的知识更新到策略指导网络GO中。
图6 策略鲁棒性曲线Fig.6 Curve of strategy robustness
4.2 性能比较
为进一步说明本文方法在航迹控制的有效性,与现有的其他方法:启发式方法[18]、粒子群优化方法[19]和遗传算法[20]进行性能比较。性能比较平台利用Matlab对相关数据进行统计和编程,形成关于各方法的导入压缩包,从目标网络适应度和巡检实体覆盖率两种指标衡量不同方法下的航迹控制效果[21]。其中,目标网络适应函数描述了在轨迹控制过程中无人机对区域目标信息的不确定程度,表示为无人机对感知信息熵的代数平均值;巡检实体覆盖率描述了无人机在一定巡检时间内对空间实体覆盖数量与整个区域内实体数量的之比。如图7 所示,不同方法下无人机轨迹控制的目标网络适应度和巡检实体覆盖率随迭代次数和时间变化的结果。
图7 各航迹控制方法性能比较Fig.7 Performance comparison of different trajectory control methods
由图7(a)可知:本文方法在每代最优值会出现微小的波动,有利于算法跳出局部最优解区域,并在第25 次迭代时收敛趋于稳定适应值1.2 附近,这种现象主要受益于强化学习的策略π*生成方法,使无人机根据当前航迹网络在策略回归目标函数的指导下向指导网络学习优化,同时空间拓扑结构相似度度量提高了对目标实体感知的适应值,保证了算法收敛稳定;而启发式方法在第30 代时逐步收敛稳定,但收敛较慢且适应值较高;粒子群优化方法的适应值与本文方法相近,可以实现全局的控制,但随着迭代次数的增加陷入了不稳定状态;遗传算法同样接近本文方法的适应值,但振幅较大,难以满足期望控制状态。
由图7(b)可知,随着时间的变化,各种方法的覆盖率逐步升高,在最终结果中启发式方法的覆盖率为83.5%,粒子优化方法的覆盖率为87.2%,遗传算法的覆盖率为88.4%,本文方法的覆盖率为95.6%。本文方法在巡检实体覆盖效率高于其他方法且有上升的趋势,这是由于本文方法在初始阶段对巡检区域内每个实体进行了语义建模,体现了空间拓扑网络对航迹行为控制的优势,从而提高了覆盖效率。
5 结语
无人机航迹控制很大程度上取决于感知设备对周边环境概念的理解,而实现这一点的基础是构建有效的实体网络,生成统一的概念内涵并对位置结构进行合理的度量。本文在探索研究电力巡检领域过程中,对电力系统的实体知识进行领域建模,构建关于时空属性的内涵概念,生成关于位置节点的语义航迹序列网络及其语义接口,根据空间拓扑结构相似性度量的结果集,分析安全许可机制,在强化学习基础上学习策略指导网络的航迹控制,生成统一的概念内涵和最优航迹控制策略,能够满足最大化鲁棒性能。实验结果从目标网络适应度和巡检实体覆盖率两方面验证了本文方法的有效性。然而,对于数据规模较大的问题,本文方法不能保证每次迭代都可以达到最优策略解,容易陷入局部最优的情况,这是由于现有实验涉及电力巡检的训练数据在同一个区域内完成,采集的数据量较少且情况单一,网络的模型过于复杂容易过拟合。下一步将考虑用多无人机集群的方法解决对电力巡检环境的感知问题,并在立体空间上进行探索应用,以提供更高效的语义巡检服务。