信息系统的复杂电磁环境防护
2020-02-03杜英梅童万烽赵金华
杜英梅 童万烽 赵金华
(黑龙江省军区 黑龙江省哈尔滨市 150001)
随着我国电子科技的发展和经济实力增强,加之拥有大量的科技人才,以及电子、控制、计算机技术的发展和普及,使得数字化设备中的数控系统成本越来越低,容错技术融入系统设计过程中具有可能。这种方法主要解决数字化设备在电磁环境下不能正常工作的难题,使得信息设备的成本提高千分之一左右,但却能够使得数字化设备可靠性从99%提高到99.5%-99.8%。容错技术是防护电磁软破坏的最好方法之一,容错技术有效防止数字化设备在电磁干扰、各种辐射环境中运行出错及失败,提高系统可靠性。
1 电磁环境对于信息系统的危害
复杂电磁环境对信息系统也有很大的影响。因为经济生产、生活的过程之中,需要借助于电磁环境,完善数据信息的传输。从过往经验来看,信息在通过电磁环境进行交互传播的同时,其自身的稳定性也受到电磁环境的影响,导致稳定性、完整性下降。从过往经验来看,电磁环境的影响是一个长期性、复杂性的过程,例如信息在电磁环境的干扰下,其会出现信息传输中断、丢失的情况,影响了信息的使用。同时在使用环节数据信息出现差错的概率增加,这种情况的出现,导致信息失真,影响了信息的实用性。
如图1 所示,从电磁信号对通信系统相关设备的耦合路径可以其对于征信信息平台的危害极大,影响了正常设备运行的成效。
2 容错的基本概念和技术
容错技术作为一种技术手段,其能够在系统出现故障的情况下,系统仍旧可以正常运转。容错技术在信息系统中的应用,能够增强信息系统的运行成效与稳定性,防范各类突发事件的发生,确保各项活动的有序进行。容错技术正是用于构造一种能够自动排除非致命性故障的系统,即容错系统。容错技术的基础在于硬件设备的容错能力,随着硬件技术的快速发展,相关理论的逐步成熟,硬件容错能力稳步提升。软件作为硬件配合驱动的重要途径,通过硬件的有效容错,保证了突发状态下,硬件组成的有序运转。从二十世纪七十年代开始,软件容错的作用逐步被重视,作用发挥日益明显。例如出现了数据备份技术等相关技术手段。在2002 年,我国成功发射的神州飞船船载控制计算机,就是利用容错技术进行设计的,它也是我国容错技术应用的典范。容错技术从冗余设计的角度出发,通过资源交互路径的适当增加,来实现信息的稳定共享。考虑到信息资源的差役,冗余技术呈现出差异化的特性,形成硬件、软件冗余处理机制。具体来看,硬件冗余主要依托硬件,来实现部分循环,保证容错效能。软件则主要将不同的软件进行同一功能的使用,通过这种方式,保证软件能够适应多种场景之下的使用需求。信息冗余是利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错;时间冗余是通过消耗时间资源来实现容错,其基本思想是重复运算以检测故障。冗余设计可以是元器件级的冗余设计,也可以是部件级的、分系统级的、或系统级的冗余设计。冗余要消耗资源,应当在可靠性与资源消耗之间进行权衡和折衷。
图1:通信系统受电磁环境干扰的耦合路径
3 信息系统的电磁防护
3.1 电磁干扰对电子设备的破坏方式
从实际情况来看,电磁辐射对于电气设备的影响主要表现在4个方面的内容。具体来看,当出现电压击穿的情况时,设备中的电磁能被接收设备逐渐放大,转变为较大的电流,这些较大电流在经过高电阻时,局部出现高压,高压区域的出现,导致电子元器件回路发生击穿的情况。电子元器件的烧毁,主要表现在元器件结构出发熔断等永久性损伤,在这种情况下,电子元器件的功能完全丧失,相关作用难以正常发挥。同时在电磁环境下,大量存在的微波,使得金属温度上升,温度环境的变化,无疑使得电子设备的运行环境发生深刻变化,导致整个电子元器件性能的下降。尽管现阶段技术人员对于电子设备做好了相应技术处理,应对电涌冲击的影响。但是从实际情况来看,这种技术处理方式并不完善,例如部分电流会沿着缝隙,涌入电子元器件之中,导致敏感元器的性能的丧失。同时,当信息系统的功率处于较低水平的过程中,系统损伤较低,但是瞬间干扰的程度仍旧较大,如果没有采取必要的处理,势必造成系统无法正常运转。
3.2 容错技术在信息系统设计中的应用
数字化设备的电磁防护主要是进行设备和设备使用环境的屏蔽,积极有效的屏蔽可以最大限度地保护数字化设备免遭电磁干扰的破坏,但只靠屏蔽技术来防止电磁干扰的破坏是不够的。在系统设计时,就应该考虑到复杂电磁环境对数字化设备运行造成的软破坏,还要考虑针对电磁环境对数字化设备的“瞬时干扰”造成的运行错误和瞬时失效而采取的防护策略。
设计一个容错系统,首先要根据电磁环境和各种可能的情况分析各种失效模式,然后,采用合理的冗余管理技术,有针对性的加以预防和保护,使可靠性等综合性能指标最优。
3.2.1 信息系统的双机容错体系结构
双机容错系统采用的是系统冗余方式,因其构造简单,容易实现,成本小,对一般应用其可靠性完全可以满足系统要求。
(1)系统结构。待命储备双机系统,因其结构简单,是联机系统中用的最多的一种结构,一台机器工作,另一台机器处于待命状态,工作机故障时将任务切换到备用机上执行,从而延长系统的寿命。待命储备双机系统应采用双机协同容错方式,该系统是用两台计算机分别独立的处理同一任务,处理结果进行比较,如果一致便由主机输出。此种结构切换容易,可靠性较高,尤其适用于较难检测的偶然性故障。在电磁环境比较恶劣的环境下使用这种体系结构是必要的。
(2)故障检测和恢复。快速准确检测到系统故障是提高系统可用性的关键,容错系统设计通常采用以下几种故障检测手段。一是截获异常。硬件错误和软件错误都可能造成系统异常,例如,在瞬时故障干扰下而发生地址、指令等的跳变而造成除零错。利用截获异常的手段,可以检测多数软件错,也能检测一部分硬件错。二是心跳检测。主机通过高速串口向从机定时发送查询信息或备份数据,若主机或从机在规定时间内没有听到对方的“心跳”或“响应”,则认为对方已发生严重故障。三是监视定时器(Watchdog)。主机CPU 一般自带看门狗电路,通过编程实现对系统的监测。四是I/O回路检测。I/O 设备主要包括A/D,D/A,D/D,其中主要对A/D,D/A 进行检测,将采用I/O 回路自试验方法进行检测,进行检测时将对接口的每一个通路进行检测,通常结合信号采集而实施。五是CPU 自检测。CPU 是控制主机的心脏,控制着整个系统的正常工作,其功能正确与否至关重要。
(3)故障机的隔离。已查出异常状态的主机,可以人工干预,手动切换,或由软件自动切换,系统则进入单机工作模式,隔离故障机可以防止错误的蔓延。
(4)系统重构条件。一是降级。从宏观上看,当某一台控制主机出现故障,不能正常工作时,信息系统应该降级为单模使用。在具体实现时,判断系统降级的条件是:对方频繁地复位、根据对方复位次数判断出对方已经切断电源、心跳检测认为对方不在活着、发现系统信息总线上长期空闲、对方请求降级。二是升级。从宏观上看,当某一台控制主机认为故障已经排除,可以正常工作时,信息系统应该升级为多模使用。三是切换。切换与恢复过程是系统实现高可用性的关键步骤,也是系统最后的故障处理手段,只有在主机出现严重故障时才使用。
3.2.2 信息系统存储模块的容错设计
存储器是一种靠电荷移动形成双稳态的元件,对空间电磁辐射和电磁干扰比较敏感,容易出现翻转现象,即受电磁干扰后由一个稳态翻转到另一个稳态。存储单元内容的变化对软件的运行非常不利,造成死机或输出错误结果,必须用技术手段加以解决。国内外通常采用检错纠错编码的策略来应对存储单元的翻转。
目前,存储系统包括RAM、ROM、PROM、EEPROM、SSD等。由于电磁干扰对RAM 的影响远比ROM 严重,所以各种常数、参数应尽量固化于ROM 中,将引导程序与上层软件交互的一些参数存放在EEPROM 中,并且在多处存放,可以进行三模表决。三摸表决就是三个模块同时执行一样的操作,以多数相同的输出作为该表决系统的正确输出,通常称为三中取二,是基于“少数服从多数”的一种纠错原理,表决系统也称为一种故障掩盖系统(Fault Masking)。由于PROM 是只读存储器,并具有固化后不能改变的特点,它的抗干扰能力特别是抗电磁辐射能力远比RAM 强。系统的引导程序部分和固定的常数部分都固化于PROM 中。引导程序的程序区、可变数据区和固定数据区分开存放。在运行时把程序和数据复制到RAM 中运行,这样,即使PROM 中的可变数据区受到破坏,仍可以把数据常量复制到RAM 中运行,不影响引导程序的执行。专用操作系统可以存放在EEPROM 中,而系统应用程序、控制参数、工程参数等存放在更可靠、高性能的固态存储器SSD 中,这是目前解决电磁环境干扰的最好策略。
3.2.3 信息系统的容错总线设计
作为一种成熟的CAN 总线,其技术规范性较好,有着较好的实用性。具体来看,CAN 总线的运算效果较强,可以采取主动式的管理机制,进行信息数据的快速共享。并且这种技术控制方式,其灵活性较强,可以满足不同场景下的使用需求。例如建立起不同的控制节点,完成不同优先级的控制任务,实现控制任务的顺利完成,在整个控制过程中,多个节点同时进行信息数据的发送,这种情况可以避免数据的冲突,可以进行不同点、直通点的传播方式。 CAN 总线的容错方案采用软件控制的备份冗余方式,其基本思路是使用两个CAN 总线控制器,每个总线控制器配备一个CAN 总线驱动器,通过两对差分线路构成总线BUS1 和BUS2。正常情况下,由软件设置总线控制器从BUS1 和BUS2 接收数据,从BUS1 发送数据,当BUS1 发生故障时则切换至BUS2 发送数据。这时总线的故障检测是一个关键,总线控制器中存在两个错误计数器(接收错误计数器和发送错误计数器),当接收错误和发送持续存在时,错误计数器溢出,该节点被置为“总线脱离”状态。这时总线控制器中断以通知处理器,处理器就应执行切换操作。当某一节点切换至BUS2 后,应通知其余节点进行切换,该节点应循环向其余节点发送信息,直至所有节点都切换到BUS2 并向其发回应答,此后再进行正常信息。
3.2.4 信息系统的容错软件设计
不管是引导程序还是上层软件,都必须进行可靠性设计,使系统更加完善。故障处理就是可靠性设计中的一个重要方面,系统需要对瞬时故障和永久故障作正确的处理,使系统在故障状态下仍保持较高的可用性。我们应该编写3 至5 个相同功能的不同版本的软件,利用软件设计差异来实现容错。
4 结论
容错技术是一门新兴技术,起步较晚,不被人们所重视,但随着自然环境和电磁环境的恶化,加之电子设备广泛应用和普及,人们越来越重视电子设备的防护。容错技术可以提高数字化设备的可靠性,在关键领域已得到广泛应用。我国在空间应用领域,为防止空间电磁干扰、空间粒子、及辐射等空间环境的破坏,利用容错技术研制神州卫星星载计算机控制系统,使得我国神州系列飞船成功运行。这证明容错技术在信息系统领域具有广泛可行的应用前景。