复杂空间机构三机备份控制系统架构分析
2018-08-23杨永常蒋彦超
杨永常,赵 蔚,蒋彦超,徐 荣
(上海宇航系统工程研究所,上海201109)
1 引言
随着航天技术的发展,复杂空间机构产品在航天领域应用得越来越广泛,如航天器大型太阳电池翼、对接机构以及机械臂等,且它们往往为航天器上的关键设备[1]。复杂空间机构的运行出现急停、误动作等故障可能会造成航天器机械损伤,甚至会造成整器任务失败等灾难性后果[2]。在外太空环境中,空间机构控制系统CPU模块中的处理器(如DSP)、程序存储器(ROM)以及数据存储器(RAM)等受到空间环境的影响,发生电离总剂量[3]、位移损伤效应[4]以及单粒子效应[5]等导致元器件失效,致使控制系统运行中断而最终导致所驱动机构急停,或致使控制系统运行错误而最终导致机构产生误动作。
现今,空间机构控制系统常见的冗余模式为双机备份[6],包含:双机冷备份、双机热备份、双机温备份以及双机双工等实现架构。相对于单机非冗余形式,双机冗余的可靠性有很大提高,但由于其依赖主、备份切换实现冗余,用于复杂空间机构控制系统仍存在以下不足:
1)无论软切换还是硬件切换,切换的判别和切换过程均需要一定时间,需要中断系统运行,实时性不高。而复杂空间机构产品在运行时,需保证系统工作的连续性和稳定性;
2)对于双机备份系统,班机工作时如出现元器件失效,往往会输出错误的控制信号,最终导致机构产生误动作;
3)配置继电器等硬件切换电路的双机备份系统,切换电路是一个薄弱环节,其故障往往导致电路系统冗余失控,甚至危及整个电路系统。
传统双机备份的架构适用于对系统可靠性有一定要求、但对系统连续执行能力要求不高的电气系统[7],而大型太阳电池翼、对接机构以及机械臂等复杂空间机构,对系统运行的实时性、连续性和平稳性要求都非常高,须在系统设计上采取相应措施来保证系统具有高可靠的连续、正确运行能力。为满足复杂空间机构对控制系统的无中断、无错误运行要求,本文提出一种采用三机热备份的控制系统方案,并对方案的架构原理、信息流、冗余设计及可靠性设计指标等进行设计与分析。
2 方案设计
三机热备份控制系统设计的关键在于如何使控制系统自主、及时发现并定位故障,从而剔除故障,以实现实时输出正确的控制信号。为实现上述目的,本文提出了一种以“三取二”仲裁表决为核心的设计方案,即三个CPU模块同时运行,实时将三机运行结果进行“三取二”仲裁表决,以及时发现错误数据并确认故障模块。根据复杂空间机构所含的执行机构类型不同,机构所需的控制、驱动信号可以分为模拟量和数字量两种。虽然模拟量参数可以通过模数转换电路转换为数字量,但由于模拟量参数为有一定误差范围的区间值,而不是某一固定的数据值,所以难以实现“三取二”仲裁表决。而且,由模拟量转换为数字量会导致数据量增大。
综上所述,当控制系统处理及输出的控制信号为较少数字量信号时,考虑将三机同时运行且将三机所有运行结果进行“三取二”仲裁表决,将表决结果作为控制输出,此种方案的控制系统可以自动容忍故障错误数据,此类系统为三机容错模式架构的控制系统。当控制系统所处理及输出的控制信号为模拟量信号或数据量较大时,考虑将三机备份系统设计为三机同时运行,但仅其中一机作为当班机进行控制输出,三机交换关键数据进行“三取二”仲裁表决,将表决结果作为判断当班机是否正常工作的依据。此种方案的控制系统可以及时发现故障,实现无缝软切换,此类系统为三机冗余模式架构的控制系统。
2.1 三机容错模式架构控制系统
2.1.1 架构原理
控制系统三个CPU模块电路上相互独立,逻辑上相互平等。在工作时三个CPU模块均运行,三机同步措施可采用任务同步方式。三机运行结果均送入表决器中,表决器通过“三取二”的仲裁表决方式,将结果分别送往串并联的OC门电路进行数据整合输出。需下传到地面进行监控的三机遥测数据分别被送入两个遥测下传通道,每个遥测下传通道分别将三机遥测数据进行轮流下传。三机容错模式架构原理见图1。
此种架构模式的控制系统如出现某一CPU模块故障输出错误数据,系统通过仲裁模块对接收到的三机运算结果进行“三取二”表决,屏蔽故障CPU模块输出的错误结果。通过仲裁模块表决,可保证即使某一CPU模块出现故障,系统也可以正确、连续运行。当某一仲裁模块故障输出错误结果时,采用串并联形式的OC门控制信号输出电路屏蔽故障仲裁模块输出的错误数据。OC门输出模块由于采用串并联设计,可自动容忍、屏蔽自身故障。
2.1.2 信息流
三机容错模式架构的控制系统以自检测、地面判别、三机结果比对等方式作为系统降级与重构、升级与恢复的依据,控制系统的降级与重构、升级与恢复均由地面监控人员决策后,通过发送遥控指令实现。如根据下传的遥测参数发现两CPU模块同时出现故障,则由监控人员通过发送遥控指令指定某一正常CPU模块工作,当故障模块通过重启等方式恢复正常工作后,则由监控人员决策是否发送遥控指令恢复三机工作模式。该架构以三机结果比对作为系统降级与重构、升级与恢复的最重要和最常用的依据,流程设计为:首先四个仲裁表决模块分别对三机运算结果进行“三取二”表决,然后将各自表决结果送入串并联输出电路进行数据整合,最后将整合后的关键数据部分回传至各模块,作为各模块判定各自是否出现故障的依据。该过程的信息流示意如图2。
2.1.3 冗余设计
控制系统三路CPU单元、多路仲裁表决输出单元、串并联OC门输出控制单元以及串并联关键数据整合单元等整个系统各部分均进行热冗余设计,系统无单点失效环节。当某一模块故障,系统自动屏蔽故障点的错误输出,不需要切换,以保持良好的整机时序工作连续性。当两模块同时出现故障,系统切换至健康模块执行,降级为单机工作模式。
2.2 三机冗余模式架构控制系统
2.2.1 架构原理
控制系统三个CPU模块在逻辑上相互平等,在工作时均运行,但只有一个CPU模块作为当班机进行控制输出,其余模块为热备份工作状态。当班机接收全部数据,并进行相应计算,输出计算结果。备份模块接收来自外部的数据及当班机的关键数据,对数据进行相应运算但不进行控制输出,三机同步措施同样可采用任务同步方式。架构原理示意如图3。
2.2.2 信息流
控制系统各CPU模块通过自检测、“三取二”健康管理措施以及地面判别等方式作为系统降级与重构、升级与恢复的依据。其中,“三取二”健康管理措施为:三个CPU模块均设置仲裁子模块并各自进行运算,通过内总线将各自运算的关键数据送至另外两个CPU模块的仲裁子模块。当某一CPU模块的仲裁子模块接收到另外两CPU模块数据后,与本机运算结果进行“三取二”表决,将表决结果作为判别本模块是否出错的依据。各模块通过自检测、“三取二”等健康管理措施,实时检测三个CPU模块是否正常工作,并将结果送至两控制输出接口模块作为切机依据。如当班机故障,由输出接口模块控制,在用户数据采集、处理和输出的周期内平稳切换至健康模块执行。出现故障的模块进行离线处理,系统进入双机工作模式,故障模块恢复后,重新恢复三机冗余方式。如果在两机工作情况下,通过自检测发现当班机故障,则进入单机工作模式,根据两故障模块恢复情况决定恢复两机或三机冗余工作模式。系统信息流示意如图4。
控制系统控制信号输出通道为热冗余备份工作模式,默认a通道工作,当班通道模块或三个CPU模块检测到当班通道故障时,在数据处理周期内自动切换到另一通道工作,三个CPU模块分别与两个通道通信。CPU模块当班机将CPU模块当班机和控制输出通道选择情况及输出的控制信号实时送往两通道,另外两机将当班机和通道选择情况分别送往两通道作为判断的辅助依据。两控制信号输出通道模块将三个CPU模块传送的当班机和通道选择情况进行“三取二”表决,将表决结果作为确认CPU当班机和当班通信模块的依据,从而建立本通道与当班机的通信。当通信模块最终判定本通信模块工作正常时,向被控对象输出有效的心跳信号以及CPU产生的通道选择标志作为判定本通信是否有效的依据。
系统三个CPU模块与两个通信通道之间的通信关系默认为CPU模块A与控制信号输出通道a模块通信。当班CPU模块故障并检测到下一模块正常时,按照CPU模块A—CPU模块B—CPU模块C—CPU模块A……的顺序进行当班机切换。当工作的通信通道故障并检测到另一通道正常时,按照通道a—通道b—通道a……进行通信通道的切换。当A\B\C三个CPU模块均故障时,系统停止控制相关工作并通过遥测下传报CPU故障。当a\b两个通道均故障时,系统停止控制通道工作并通过遥测下传报通信故障。三个CPU模块及双通信通道工作及通信状态关系如图5所示。
2.2.3 冗余设计
控制系统三路CPU模块单元、多路仲裁表决输出单元及输出接口等均进行热冗余设计,同时由仲裁表决模块辅助判断当班CPU选择情况,由心跳信号以及CPU产生的通道选择标志告知被控对象输出通道的选择,系统无单点失效环节。当某一模块故障,系统自动识别故障并在用户数据采集、处理和输出的周期内平稳切换至健康模块执行,以保持较好的整机时序工作连续性。当两模块同时出现故障,系统切换至健康模块执行,降级为单机工作模式。
3 可靠性及应用验证
3.1 可靠性比对分析
由于具体设计细节不同会影响可靠性指标的计算[8],本文对可靠性指标不进行定量分析,仅通过与传统双机备份系统的可靠性指标进行定性比对分析,来验证三机备份架构控制系统的可靠性设计情况。
前述介绍的几种两机备份架构的控制系统,其基本工作原理类似且其硬件组成同样可以采用类似的电路实现,所以两机备份的可靠性分析也可以采用相同的模型,两机备份的控制系统可靠性模型见图6。
因此,两机备份情况下,可靠性指标为式(1):
根据前述分析,三机容错架构控制系统和三机冗余架构控制系统的差异主要存在于软件和信息处理方式中,其系统工作原理类似且硬件组成可以采用类似的电路实现,所以其可靠性分析时可采用相同的模型[9],三机备份可靠性模型见图7,可靠性指标如式(2)。
三机CPU模块相较于两机CPU模块设计主要多了三机CPU模块之间的内通信总线。假设当三机系统指定某一机工作时,其内总线不再参与运算工作。因此,其单机工作模式的可靠性与双机系统某一机的可靠性一致。可见指定单机工作模式下的三机冗余CPU的可靠性要高于双机冗余CPU的可靠性。另外,三机的仲裁模块相较于两机输出模块在功能上多出了控制信号、CPU当班机参数以及通道选择标志等信号的“三取二”表决功能,新增功能仅为简单的逻辑判断。以信号输出模块采用FPGA为例,新增功能仅占用几百门逻辑单元,相较于现今常用作信号输出模块的10万门量级的FPGA芯片来说,其对可靠性的影响可以忽略。因此,三机仲裁表决模块与两机输出模块可靠性可假设为一致。两种模式下的驱动电路采用相同的电路形式,则可得式(3)所示不等式:
从分析结果可以看出,采用三机备份架构控制系统的可靠性设计指标要高于采用两机备份架构的控制系统。
3.2 应用验证情况
采用三机容错模式架构的控制系统,一个模块故障时不需要切机等任何动作即可自动屏蔽故障,对所有的控制输出信号均进行仲裁表决和串并联整合,可以在输出前保证了每个控制参数的正确性。但由于其对所有输出信号均进行仲裁表决和数据整合,资源占用量大,且难以实现模拟量参数的“三取二”表决。因此,三机容错模式架构的控制系统适用于对系统运行平稳性、连续性要求非常高,但驱动系统输入仅为少量数字量的空间机构系统。国内某型号空间对接机构产品采用了此类架构的控制系统,并已成功通过在轨验证。
采用三机冗余模式架构的控制系统,通过自主、实时检测故障的方式,能够在检测到当班机出现故障时,由仲裁及输出接口模块在用户数据采集、处理和输出的周期内平稳切换至健康模块执行。由于同一时间仅有当班机的运算结果作为控制信号输出,相对于三机容错模式的控制系统,其资源占用少且易于实现输出模拟量参数的控制信号。但其仅对关键参数进行“三取二”表决,且软件实现较为复杂以及需要软件切换当班机进行故障处理等不利因素。因此,三机冗余模式架构的控制系统适用于驱动系统输入包含较多数字量或模拟量的复杂空间机构系统。国内某型号太阳翼系统采用了此类架构,且经过原理样机联试验证了方案的可行性。
4 结论
本文为满足复杂空间机构对控制系统的无错误、无中断运行要求提出的包括三机容错和三机冗余两种架构的三机热备份控制系统方案,经定性分析与原理验证,具有保证系统连续、无误运行的优点,比传统双机冗余系统可靠性更高,更适用于复杂空间机构的控制。