基于STPA与多智能体的列控运营场景危险分析及仿真验证方法

2021-02-04张亚东李科宏

中国铁道科学 2021年1期

张亚东，王硕，李亚，郭进，李科宏

（1.西南交通大学信息科学与技术学院，四川成都 611756；2.西华大学管理学院，四川成都 610039）

作为列车控制核心技术装备之一，列控系统广泛应用于我国高速铁路和城市轨道交通，主要实现列车移动授权实时计算、追踪间隔自动控制、运行速度安全防护等安全苛求功能，在保障行车安全、提高运输效率等方面起到了关键作用。一旦列控系统发生危险失效，轻则中断行车影响效率，重则导致重大行车事故。

在控制列车安全、高效运行的过程中，列控系统中包含了从注册启动到停车注销共十几种运营场景，不同场景下存在不同的参与主体、交互行为与控制模式，不同场景间又存在复杂的动态切换与叠加关系，这导致列控系统潜在的危险行为及其致因具有隐蔽性、多样性、复杂性较强的特征，且致因事件间的关系呈现非线性特点。因此，对列控复杂运营场景进行系统危险分析及安全验证，对于保障行车安全具有重要意义。

目前在业界应用较为广泛的系统危险分析方法，主要是基于线性事件链的。例如：故障模式影响分析（Failure Mode and Effects Analysis，FMEA）、故障树分析（Fault Tree Analysis，FTA）、事件树分析（Event Tree Analysis，ETA）等［1］。这类传统分析方法认为事故是由一系列存在因果关系的事件线性顺序发生而导致的，其虽有简单易用等优点，但却难以分析致因事件间呈现复杂非线性关系的危险场景［2］。为弥补其不足，美国麻省理工学院的Nancy Leveson 教授提出系统理论事故模型与过程（System-Theoretic Accident Model and Processes，STAMP）安全理论。该理论基于系统论和控制论，在充分考虑组织管理、系统交互等对系统安全影响的基础上，将系统视为1种分层控制结构，从控制的角度分析安全问题，认为安全性是人为因素、系统组件、环境因素和组织管理因素在非线性相互作用下的1 种整体涌现性。一旦出现外部干扰、组件失效或组件的异常交互未能得到很好地控制等情况，即安全约束失效，则会产生不安全控制行为，导致事故发生［3］。

基于STAMP 理论，Nancy Leveson 进一步提出了用于危险分析的系统理论过程分析方法（Sys⁃tem-Theoretic Process Analysis，STPA）。与传统分析方法相比，STPA 方法关注系统内部的控制—反馈过程，可充分分析具有非线性因果关系的危险致因。当前，STAMP 理论及STPA 方法已在航空航天、交通运输、工业控制等领域安全苛求系统的危险分析中得到逐步运用［4-5］。在铁路领域，闫宏伟等［6］利用STPA 方法对列车进站停车运营场景进行建模与危险致因分析，分析结果为列控系统设计提供了理论依据。OUYANG等［7］基于STAMP理论对“4.28”胶济铁路事故进行分析，对事故传播过程进行建模与讨论，为事故应急管理制定了有效措施。刘宏杰等［8］结合STPA 方法与XSTAMP软件，对平交道口控制系统进行安全分析，利用线性时序逻辑语言，最终得到形式化的安全需求。刘金涛等［9-10］利用形式化方法对STPA 进行扩展，实现了对CTCS-3级系统功能的安全分析，并以无线闭塞中心交接为对象，基于STAMP 理论提出1种混成自动机和对象约束语言OCL 与STAMP 模型相结合的方法，分析了需求阶段的无线闭塞中心交接危险因素。SPIEGEL 等［11］提出1 种将Petri网形式化模型集成到STAMP中的新方法——形式化STAMP，并将该方法应用到“7.23”温州动车事故的建模与分析中。综上，基于STAMP 和ST⁃PA 的系统安全分析方法研究，目前集中在方法的直接应用或与形式化方法的结合等方面，主要解决STAMP 和STPA 分析过程存在的歧义性问题，并利用仿真建模技术实现系统模型的形式化验证。而关于危险分析与仿真技术相结合的研究相对少见，能够仿真验证STPA危险分析结果的有效技术手段也较为缺乏。

智能体是人工智能领域中的重要概念，其模型描述（控制器、感应器与执行器）与STAMP分层控制结构模型中的控制—反馈回路（控制器、传感器与执行器）在结构上是统一的。在表达复杂系统的层次关系、子系统的自主行为以及子系统间的动态交互与协同控制等方面，多智能体模型具有显著优势［12］。借助多智能体仿真技术手段，易于实现危险致因和安全约束的分别注入，从而仿真验证危险致因和安全约束对系统安全的影响。

考虑以上因素，本文将STPA危险分析方法与多智能体仿真技术相结合，提出1种列控运营场景危险分析及仿真验证方法；以单电台的无线闭塞中心（Radio Block Center，RBC）切换场景为研究对象，辨识该运营场景下潜在的不安全控制行为，提取其危险致因和安全约束；构建多智能体仿真平台，通过危险致因和安全约束的注入与仿真，验证提出的列控运营场景危险分析及仿真验证方法的正确性和可行性。

1 列控运营场景危险分析及仿真验证方法

参考文献［3］和文献［12］，结合我国高速铁路列控系统特点，提出1 种列控运营场景危险分析及仿真验证方法。该方法的总体流程可归纳为：基于列控系统运营场景的需求描述，分析运营场景中的参与主体、交互行为与控制逻辑，结合STAMP理论与多智能体建模方法，构建运营场景分层控制多智能体结构模型；基于该模型，利用STPA方法进行运营场景危险分析；利用多智能体仿真技术，构建运营场景多智能体仿真平台，注入危险致因和安全约束，通过仿真，验证危险分析的正确性。具体流程如图1所示。

图1 危险分析及仿真验证总体流程

1.1 运营场景分层控制多智能体结构模型构建

根据列控运营场景需求描述，分析特定运营场景下的参与主体、交互行为和控制逻辑，将每个参与主体抽象为1 个单独的智能体，基于STAMP 理论和参与主体间的交互行为，逐步细化运营场景各层次不同智能体间的控制—反馈关系，明确每个层次通过控制过程向下层施加的约束以及向上层反馈约束的执行结果，构建基于特定运营场景的分层控制多智能体结构模型（以下简称为“结构模型”）。

1.2 运营场景危险分析

基于结构模型，利用STPA方法进行运营场景危险分析，步骤如下。

步骤1：结合不安全控制行为分类，从以下多个方面，辨识运营场景下潜在的系统不安全控制行为。包括：系统未提供所需的安全控制；提供了错误的控制行为；在错误的时间（过早/过晚）提供控制行为；控制行为结束过早或持续过长等。

步骤2：在结构模型中，提取与不安全控制行为相关的控制—反馈回路，如图2 所示，并从以下多个方面识别不安全控制行为的危险致因。包括：控制器输入错误/缺失；控制算法不恰当；过程模型不一致、不完整或不正确；传感器不恰当运行造成反馈不正确、不精确、消息延迟/未被提供；执行器不恰当运行造成控制行为不合适、无效或错误等。

步骤3：在不安全控制行为及其危险致因辨识的基础上，针对每1条不安全控制行为的具体危险致因，制定相应的系统安全约束。

图2 基于控制—反馈回路的危险致因辨识

1.3 运营场景仿真验证

基于构建的结构模型，利用多智能体仿真技术和Mason 开发工具，构建运营场景多智能体仿真平台，实现列控运营场景的多智能体仿真以及危险致因注入等功能。在1.2 节得到的危险致因、安全约束基础上，结合结构模型，分析危险致因及对应安全约束的发生位置、持续时长和注入时机。在仿真过程中，依据以上信息，将危险致因和安全约束分别注入仿真平台，分析危险致因和安全约束对系统安全的影响，验证危险分析的正确性以及安全约束的可行性。

仿真平台由控制台子系统、多智能体仿真子系统、危险致因/安全约束注入子系统、仿真监测子系统4 个部分组成，平台架构如图3 所示。各子系统承担的功能分别是：控制台子系统用于控制仿真进程；多智能体仿真子系统用于运营场景各个智能体的功能逻辑仿真及其信息交互；危险致因/安全约束注入子系统用于实现仿真过程中的危险致因/安全约束注入；仿真监测子系统用于监测记录仿真状态以及可视化展示。

图3 列控运营场景多智能体仿真平台

2 单电台RBC 切换场景的建模与危险分析

无线闭塞中心（RBC）切换场景是CTCS-3级列控系统14 种典型运营场景之一，分双电台切换和单电台切换2 种情况。考虑到单电台RBC 切换场景参与主体多、交互逻辑复杂、安全性要求高，本文以这一运营场景为例，将其代入前述危险分析及多智能体仿真验证方法，进行建模与危险分析。

2.1 单电台RBC切换场景描述

单电台RBC切换场景如图4所示，描述了列车在2个不同RBC的边界处，实现行车许可控制的安全切换过程。其中，RBC1 负责向RBC2 发送切换预告信息、进路请求信息、列车数据等；RBC2 负责向RBC1发送进路信息、接管列车信息等。该场景下，当列车最小安全末端越过切换点后，车载设备根据RBC1 的命令切断与RBC1 的通信连接，才开始呼叫RBC2建立通信会话，获得新的行车许可。在此过程中，车载设备使用RBC1先前提供的延伸到RBC2控制区域的行车许可监控列车运行。

图4 单电台RBC切换场景

2.2 系统级事故与危险定义

根据单电台RBC 切换场景，分别定义并编号RBC 切换过程中可能发生的系统级事故以及导致这些事故发生的系统级危险，详见表1和表2。

表1 系统级事故定义

表2 系统级危险定义

2.3 分层控制多智能体结构模型构建

分析可知单电台RBC 切换场景的参与主体包括：列车超速防护系统（ATP）、移交RBC1、接收RBC2、切换应答器组、列车。将每个主体视为1 个智能体（Agent），基于控制模型的构建方法，建立单电台RBC 切换场景下的分层控制多智能体结构模型（以下简称为RBC 切换结构模型），如图5 所示。由图可知：车载ATP 智能体分别与RBC1智能体、RBC2 智能体、列车智能体、切换应答器组智能体间存在控制—反馈回路，RBC1 智能体与RBC2智能体间存在控制—反馈回路。

2.4 不安全控制行为辨识

图5 RBC切换结构模型

基于RBC 切换结构模型，以RBC1 智能体与车载ATP 智能体之间的控制—反馈回路为例，结合不安全控制行为分类，辨识潜在的不安全控制行为。由于篇幅所限，仅列出部分辨识结果见表3。其中，不安全控制行为的编号规则为：RBC1（智能体1）-ATP（智能体2）-USCA（不安全控制行为的英文首字母缩写）-序号。

2.5 危险致因辨识与安全约束制定

以不安全控制行为RBC1-ATP-USCA-7 为例，进行危险致因辨识与安全约束制定。与该不安全控制行为对应的控制—反馈回路，如图6所示。

图6 RBC1-ATP-USCA-7对应的控制—反馈回路

基于控制—反馈回路，利用1.2 节所述运营场景危险分析方法，进行危险致因辨识，制定安全约束，由于篇幅所限，仅列出部分分析结果，见表4。其中，危险致因场景ID的编号规则为：RBC1-ATP-USCA-7（不安全控制行为编号）-CF（致因因素的英文首字母缩写）-序号；安全约束ID 的编号规则为：RBC1-ATP-USCA-7（不安全控制行为编号）-SC（安全约束的英文首字母缩写）-序号。

表3 RBC1智能体与车载ATP智能体间潜在的不安全控制行为（部分）

表4 危险致因与安全约束（部分）

3 仿真验证

3.1 仿真参数设置

选取京广高铁武汉—广州段下行线K1 242+041—K1 263+195段进行仿真验证。所选线路全长21.154 km，最高运行速度310 km·h-1，线路坡度数据见表5，线路曲线数据见表6。全线划分闭塞分区11个，RBC切换预告点（LTA）位于K1 243+238，RBC 切换执行点（RN）位于K1 249+348。以该段线路的单电台RBC 切换场景为对象，仿真相关列控参数见表7。

仿真列车选取CRH380A 型动车组，动力配置6M2T，编组长度203 m，列车限速350 km·h-1，荷载重量429.2 t，回转系数0.1。列车牵引、制动性能数据分别如图7和图8所示。

3.2 多智能体仿真平台构建

参照RBC 切换场景技术规范，前文提出的RBC 切换结构模型以及仿真参数，利用多智能体仿真工具Mason，构建列控RBC 切换场景多智能体仿真平台。仿真平台主界面如图9所示，其中轨道区段不同颜色表示不同含义：蓝色表示空闲、红色表示正常占用、白色表示移动授权、紫色表示故障占用。

表5 仿真场景线路坡度

表6 仿真场景线路曲线

表7 仿真场景列控参数

图7 列车牵引性能曲线

图8 列车最大常用制动性能曲线

图9 仿真平台主界面

3.3 仿真验证

基于仿真平台，对单电台RBC 切换场景危险分析进行仿真验证。验证时，本文以RBC 切换场景中的不安全控制行为RBC1-ATP-USCA-7 为例，选取导致该不安全控制行为的2 种典型危险致因及其对应的安全约束，分析其对系统安全的影响，验证危险分析的正确性以及安全约束的可行性。

1）危险致因RBC1-ATP-USCA-7-CF-1

该危险致因可描述为：切换流程启动后，RBC2 进路授权范围内有异常占用，RBC1 与RBC2 通信中断，RBC2 不能向RBC1 发送缩短的进路授权。

（1）将危险致因注入仿真平台。列车在RBC1控制区域内运行，到达RBC 切换预告应答器组后，RBC1 向RBC2 请求进路（RBC1 与RBC2 通信正常），RBC1 根据RBC2 提供的进路信息，将列车移动授权延伸至RBC2 管辖范围内（行车许可终点：K1 259+129）。列车越过切换预告点后危险致因发生，RBC1 与RBC2 通信中断，并且RBC2 进路授权范围内的第1 个轨道区段（K1 249+383—K1 251+347）变为故障占用。由于RBC2 不能向RBC1 发送缩短的进路授权，在未加安全约束条件下，列车将按照通信中断前的移动授权继续运行，如图10所示，此时列车将会冒进该故障轨道区段，导致行车事故，危及行车安全。

图10 注入危险致因时的RBC1与RBC2通信中断仿真结果

（2）将安全约束RBC1-ATP-USCA-7-SC-1注入仿真平台。该安全约束可描述为：切换流程启动后RBC1 与RBC2 通信中断，RBC1 应向车载ATP 发送缩短至切换边界的移动授权。注入安全约束后，RBC1 与RBC2 通信中断，RBC2 进路授权范围内有异常占用，RBC1 将缩短移动授权至RBC1 管辖边界处并发送给列车，车载将重新计算生成目标点在切换点前的目标距离速度防护曲线。仿真结果如图11 所示，可以看出，注入安全约束后，行车安全得到了保障。

图11 注入危险致因及相应安全约束时的RBC1与RBC2通信中断仿真结果

2）危险致因RBC1-ATP-USCA-7-CF-4

该危险致因可描述为：RBC1 与车载ATP 通信中断，RBC1 不能向车载ATP 发送缩短的移动授权。

（1）将危险致因注入仿真平台。列车在RBC1控制区域内运行，越过RBC 切换预告应答器组后，RBC1 向RBC2 请求进路，RBC1 根据RBC2 提供的进路信息，将列车移动授权延伸至RBC2管辖范围内，此时RBC1 与车载ATP 通信中断，如果RBC2 进路授权范围内的进路状态发生变化，例如RBC2 进路授权范围内的第3 个轨道区段（里程K1 253+303—K1 255+292）变为故障占用，由于RBC1 不能向车载ATP 发送缩短的移动授权，在未加安全约束条件下，列车将按照通信中断前的移动授权继续运行，如图12 所示。此时列车将会冒进该故障轨道区段，导致行车事故，危及行车安全。

图12 注入危险致因时的车载ATP与RBC通信中断仿真结果

（2）将安全约束RBC1-ATP-USCA-7-SC-4注入仿真平台。该安全约束可描述为：RBC1 与车载ATP 通信中断超时后，车载ATP 应触发最大常用制动。注入安全约束后，车载ATP 与RBC1 通信中断超时后，车载ATP 向列车输出最大常用制动，当列车速度降至CTCS-2 级最大允许速度250 km ·h-1后，自动转换为CTCS-2 级运行，列车根据CTCS-2 级列控系统行车许可（终点为故障轨道区段入口）继续运行。仿真结果如图13 所示，可以看出，注入安全约束后，行车安全得到了保障。

图13 注入危险致因及相应安全约束时的车载ATP与RBC通信中断仿真结果

4 结语

本文提出1 种基于STPA 与多智能体的列控运营场景危险分析及仿真验证方法，采用分层控制多智能体结构模型描述RBC 切换场景的控制—反馈关系，结合STPA 方法辨识RBC 切换场景下潜在的不安全控制行为，基于控制—反馈回路分析导致不安全控制行为的危险致因，进而制定系统安全约束。以单电台RBC 切换场景为研究对象，利用多智能体仿真技术构建仿真平台，选取危险分析数据中的2 条危险致因以及对应的安全约束，分别进行危险致因和安全约束的注入与仿真，仿真结果验证了危险分析的正确性以及安全约束的可行性。该方法不仅支持单危险致因注入的仿真分析，而且未来还可扩展为多危险致因耦合的复杂危险场景仿真验证，具有一定的应用价值与前景。