高速铁路信号系统安全性改进探讨
2018-03-07姜楠
姜 楠
(北京全路通信信号研究设计院集团有限公司,北京 100070)
1 概述
我国铁路行业正在经历飞速的发展,越来越多的高速铁路开通,带来铁路运行速度、舒适性和列车密度的提升。国内高速铁路的运营里程已经超过其他国家,并且还在不断地增长。
伴随着高速铁路的建设和运营,铁路信号设备也在向计算机化、信息化、多系统协同工作的方向发展。
中国高速铁路的发展在实践和工程中带动和促进了世界高速铁路技术的不断发展,高速列车的商业运行速度迅速提高。旅行时间的节约,旅行条件的改善,旅行费用的降低,绿色环保出行理念的提升,使得高速铁路在世界范围内呈现出蓬勃发展的强劲势头。
高速铁路在中国以及世界范围内的快速发展,人们对高速铁路认同程度不断提高,同时对高速铁路的安全性提出了期待和要求。参考民航飞机的安全性,自1970年起,飞机系统建立以1×10-9为特征的事故率标准。对于灾难性的事件,期望其发生的概率低于1×10-9时,认为是极不可能发生的。目前高速铁路要求达到的安全目标,即不发生灾难性事件的概率,基本也是1×10-9数量级。
人们对安全的追求是没有止境的,高速铁路相关的安全标准和规范也随着工程实践而改进。本文本着防微杜渐的思想,结合信号控制系统设计、维护、调试中发现的一些问题,给出一些对安全性改进的建议和方法。
2 面临的问题和挑战
2.1 复杂性增加
高速铁路信号系统已经是一个复杂的系统,应用了大量的计算机技术、软件工程技术、通信信息技术。高速铁路的信号系统由多个子系统构成,如TCC子系统、ATP子系统、RBC子系统、CTC子系统。每个子系统都运行着复杂的软件,有的子系统的代码可能超过30万行。这些子系统大部分是安全相关系统,承担着保障铁路安全运行的功能,如果安全功能失效,可能导致灾难性的后果。
GB/T 20438(IEC 61508)对于简单安全相关系统有一个定义:一种安全相关系统,应满足两个条件:
1) 已很好地确定了每个单独部件的失效模式 ;
2) 能够完全确定在故障状态下系统的行为。
GB/T 20438同时给出一个简单安全系统的举例:一个或几个限位开关,通过一些继电器来切断电机电源的系统。
对比简单安全相关系统的定义,TCC、ATP等不能归类为简单安全相关系统,而是复杂的安全相关系统。根据简单安全相关系统定义,可以推定,对于TCC、ATP等复杂安全相关系统:
1) 不能很好地确定每个单独部件的失效模式 ;
2) 不能完全确定在故障状态下系统的行为。
对于复杂系统,由于其失效模式难以一一确定,也难以完全确定在故障状态下的行为,必然存在不确定性。尤其是对于系统性故障复杂软件,现在还没有好的方法来完全排除软件中的错误,实现复杂的无错软件,这一点在EN 50128的引言中有如下描述。
目前,无论是质量保证法(即避错措施)还是软件容错法的应用,都无法保证系统绝对安全。尚未发现一个可证明较复杂的安全相关软件中不存在错误的方法,特别是规范和设计的错误。
如何减少系统性故障,尤其是软件的错误,是高速铁路信号控制系统面临的一个挑战。
2.2 信息隐藏
高速铁路的发展,带来大量的计算机化技术、通信和信息技术、大量复杂的软件。现代铁路的信号系统,已经由当初的硬接线继电系统,发展为基于大规模集成电路、逻辑器件和处理器为基础的电子系统。
基于处理器系统与硬接线继电系统的一个明显区别就是信息和逻辑的可视化程度完全不同。
基于硬接线的继电系统,其电路和动作是完全可视的,所有接线对于设计人员、调试人员、维护人员等是公开的。对于联锁系统,继电联锁的解锁电路,最终用户可以与电路设计人员一样,了解所有的电路逻辑,根据电路和接线图,推断电路的检查条件和动作特征。
基于处理器的电子系统,其内部的数据流、逻辑流、控制流一般对外不可见,只能从系统边界的输入和输出来推断其内部行为。除了设计人员,其他人员很难清楚内部的处理逻辑、实现方式。在一定程度上,基于处理器的电子系统,内部错误更难以发现。
2.3 多系统协同
现代高速铁路系统是由多个系统协同工作的大系统,各子系统间具有复杂的信息流、每一个子系统需要根据来自其他子系统的信息配合,并与其他子系统配合输出相应的信息。
一个典型的CTCS-3信号控制系统中的信息数据流向,如图1所示。由图1可以看出,地面设备、轨旁设备、车载设备三者间有复杂的信息交互和数据流向;地面设备各子系统内部间,也有着复杂的信息流。
以S5联锁子系统为例,流入的信息流有:CTC信息、TCC信息、站内设备信息;流出的信息流有:CTC信息、TCC信息、站内设备信息、RBC信息。各信息说明如表1所示。
这种多系统协同工作的大系统,面临的共同问题是子系统间信息流的故障传播,一个子系统信息流故障时如何抑制其传播,以缩小有害影响。
在TR50506-2中,对故障传播给出一个示例,如图2所示。
图1 CTCS信号系统数据流
在一个指定的功能单元(FU)内的错误传播(如内部传播)是由计算过程导致的:一个错误成功地演化成其他错误。
错误传播从一个功能单元(i级)到另一个从i级功能单元接受服务的功能单元(i+1级)通过服务接口传播发生。同时,i级功能单元提供给i+1级的服务错误,且随后i+1级功能单元的故障看起来是i级功能单元的一个外部失效,并将错误传播给了i+1级别的功能单元。
此处指的功能单元,可以是某个子系统,也可以是某个子系统内部的一个模块,失效传播的机制是类似的。
2.4 单故障
从飞机系统安全性的发展来看,安全性的提升经历了以下几个阶段:
阶段1:追求系统功能的完整性,没有引入单故障概念;
表1 联锁系统与RBC交互信息
图2 故障、错误和失效的产生以及表现机制的例子
阶段2:完整性加上有限的设计特征选择冗余,考虑单故障的故障率;
阶段3:引入单故障概念,必须考虑灾难性单故障;
阶段4:引入故障安全概念,考虑任一单故障加上任一可预知故障组合。使用FMEA,FHA,FTA进行风险分析。
借鉴飞机系统的安全性,结合铁路信号设备运行的实践情况来看,单故障在铁路信号设备中可以引起巨大的危害,铁路相关的标准,如EN 50129,明确提出了对单点随机故障的防护要求,对于SIL3/SIL4系统,任何单一可能的随机故障,不应导致系统处于危险状态,危及行车安全。
从铁路信号设备的实际运营情况来看,相比单点随机故障,系统性的单点故障频率更高,产生的危害也更大。
3 安全性改进
有针对性地给出应对系统高复杂性、信息隐藏、多系统协同工作和单故障的几点改进研究方向。
3.1 形式化
形式化方法(Formal Methods)的基本含义是借助数学方法来研究计算机科学中的有关问题。
形式化方法提供一个框架,在框架中可以用数学的方式开发和验证系统。
形式化方法在EN 50129和EN 50128中都有要求。由于软件的错误都是系统性故障,没有随机性故障,所以在EN 50128中,多次出现对形式化方法的强烈推荐(HR)使用要求。
如在EN 50128中,表A.2软件需求规范,采用形式化方法进行软件需求描述,被强烈推荐使用。
对于形式化方法来说,由于其基于严格的数学,具有严格的语法和语义定义,从而可以准确地描述系统模型,排除矛盾、二义性、含糊性等情况;同时,在对系统进行严格描述的过程中,将会帮助用户明确其原本模糊的需求,并发现用户所陈述的需求中存在的矛盾等情况,从而相对完整、正确地理解用户需求,最终得到一个完整、正确的系统模型。
形成完整的形式化模型后,则可以进行形式证明。
在EN 50128表A.5,如表2所示,验证和测试中,形式证明技术在SIL3和SIL4等级中被强烈推荐使用。
表2 验证和测试技术要求
形式证明的目标是使用理论模型、数学模型及规则,就有可能在程序不需要运行的条件下证明程序的正确性。
如PROVER公司提供针对铁路信号领域的形式化证明工具。在根据要求编写形式化设计规范、测试规范、安全规范后,可以证明软件实现的正确性。由于形式化证明是基于数学的方法,其结果是严谨可信的。或者说在假设其前期规范正确的前提下,产生的软件是无错的。
法国在铁路信号的形式化上应用较多,如巴黎地铁14号线的安全关键部分就采用形式化的开发和证明方法。
对于复杂的软件,采用形式化方法开发、形式证明;或对既有传统开发方法设计的复杂系统,采用形式化方法来对其验证,或要求第三方采用形式化方法来进行独立形式验证,可能是复杂系统安全性提升的一个重点方向。
3.2 信息可视化
可视化是指将数据信息转化为一种视觉形式,其充分利用人们对可视模式快速识别的自然能力。可视化将人脑与计算机这两个最强大的信息处理系统联系在一起。可视界面能够更有效地监视、操作、过滤、对比与理解大规模数据,并与之方便交互,从而可以极其有效地发现隐藏在信息内部的特征和规律。
可视化是一种计算方法,它把计算机使用的数字和代码转换成几何信息,使外部人员可以观看他们的计算逻辑和结果。
对于基于计算机的铁路信号设备来说,数据信息的可视化,应包括将安全相关运算和输出结果信息以易于工程和操作人员理解、熟悉的图形化形式直观展示出来。
对于研发人员来说,关键信息的图形化展示,每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
对于工程、调试、运营、维护人员来说,关键信息的图形化展示,可以实时、全面地向使用人员交互设备状态和输出,作为图形化信息的观察者,可以方便、直观地与自己的预期进行比较,更容易发现问题。
如联锁系统对于涉及行车安全的对外输出信息,根据是否在人机界面进行显示,说明如表3所示。
根据数据信息可视化原则,对于涉及行车安全的信息,应在有人值守终端进行显示,而不是只由最终使用该信息的系统进行处理和使用。
遵循信息可视化原则可以大大增加各个环节发现错误输出的概率。
联锁形成的给RBC的SA信息应与进路信息叠加显示;CTC显示RBC生成的行车许可延伸。当信息有误时,操作人员有机会及时发现和盯防,在系统调试期间也容易发现异常。
表3 联锁输出数据信息
如果所有安全信息输出不能实现,至少在调试,测试、安装阶段,应具备信息可视化的条件,使隐藏故障容易发现。
3.3 信息融合
多源信息融合(简称为信息融合)是指组合和合并多个来源的信息或数据以便形成一个统一结果的技术。它起源于军事领域中的多传感器综合应用,往往又叫多传感器数据融合(或数据融合)。
信息融合是一种多层次、多方面的数据处理过程,对来自多个信息源的数据进行自动检测、关联、相关、估计及组合等处理。
对于高速铁路信号控制系统这种多协作、多数据来源的大系统,有条件做信息融合处理。对于涉及行车安全的信息,当具备多信息融合的条件时,应采用自监督或相互监督的机制,对多数据进行关联、组合等处理,通过多数据源来提高安全性、同时防止错误的数据在子系统间有害传播。
根据《铁路车站计算机联锁安全原则》TB/T3482如下2条要求。
1) 来自其他安全系统的通信数据,如果经安全校验后数据出现非预期或矛盾的结果,计算机联锁系统应采取安全措施。
推而广之,所有安全相关的设备,作为信息使用方,可以在已有信息的基础上根据冗余信息进行规则符合性校验,避免单一信息出错造成不可接受的安全后果。
某一信息接收方,当具有一致或相近信息含义的数据具有多个来源时,应对多来源数据进行基于安全的一致性检查。
2) 联锁软件内部同一设备状态和运算结果,需要对外驱动以及给多个外部系统发送时,对外驱动以及给各系统发送的信息含义应一致。
推而广之,所有安全相关的设备,软件应采取技术手段检查输出的一致性。如车载可根据收到的C2和C3信息,进行基于安全的行车许可比较,提升系统安全性能。
3.4 单故障防御
EN 50129中对单故障的要求:当可识别的任何一种单一随机硬件故障发生时,应保证SIL3/SIL4的系统保持安全。
除单一故障外,还对多重故障的影响有要求:应及时检测可能直接造成危害或与继发故障组合后造成危害的多重故障(例如两重或三重故障),并且强制达到一个安全状态。
另外,还要求进行共因失效分析,以确保多重故障只在多个随机单一故障组合情况下发生,而不是一个共因故障的结果。
EN 50129中,对单一故障防御的要求是基于硬件随机故障提出的,基于硬件的随机故障,系统性故障则不可量化。比如软件的实现错误,是通过一系列技术、质量、安全管理的要求,来降低系统性故障发生的概率。
从另一个角度来说,EN 50129并没有提出对系统性单一故障防御的要求。而是采取了与SIL等级对应的技术和管理措施后,可以认为系统性故障发生的概率与硬件随机性故障在一个量级上。
但是目前铁路领域的信号系统,其规模、复杂度均已经达到很高的水平,通过采取标准要求的技术和管理措施,从实践来看,是否能同硬件随机失效一样,降低到可以忽略的水平,是一个值得商榷和进一步探讨的问题。
正如EN 50129中B3.6中提到的系统性故障防护(人的设计错误,软件错误)要求:除通过质量和安全管理技术来减少人为错误的概率之外,还应通过技术性措施,使即便存在一个危害性系统性故障,也应最大程度地防止它产生不可接受的风险。不妨也在有条件时,适当考虑单一的系统性故障防御,如上文提到的多源数据校验、信息可视化技术,从工程实践的角度,提高铁路信号设备的安全水平。
4 总结和展望
本文通过对高速铁路信号系统的发展、面临的问题和挑战的分析,提出安全性改进的几个可能的方向,希望能够进一步提升中国高速铁路信号系统的安全性,满足人们安全、高效出行的要求。
[1]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 28808-2012 轨道交通 通信、信号和处理系统控制和防护系统软件[S].北京:中国标准出版社,2013.
[2]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员.GB/T 28809-2012 轨道交通 通信、信号和处理系统信号用安全相关电子系统[S].北京:中国标准出版社,2013.
[3]国家铁路局.TB/T 3482-2017 铁路车站计算机联锁安全原则[S].北京:中国铁道出版社,2017.
[4]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 20438.1-2006 电气/电子/可编程电子安全相关系统的功能安全[S].北京:中国标准出版社,2006.
[5]佘晓丽.协同交互失效分析方法及铁路信号系统应用[D].北京:清华大学,2016.
[6]英国标准学会.BS PD CLC/TR 50506-2-2009铁路应用-通信、信号和处理系统-50129应用指导[S].英国标准学会,2009.
[7]吕毅.形式化方法介绍及其在工程中的应用[J].微电子学与计算机,2003(10):26-28.
[8]陈科文.多源信息融合关键问题、研究进展与新动向[J].计算机科学,2013(8):6-8.