面向计算机系统的容错技术
2018-03-23卓杰
摘 要随着计算机技术的飞速发展,给人们的工作及生活提供了大量的便利,不仅缩短了工作时间,同时提高了效率。计算机高效准确的计算力也是各行业生存及发展的必要因素,计算机的稳定性至关重要。人们也越来越重视计算机系统的容错技术。本文主要介绍了当前的计算机系统容错技术及合理的升级方法,并为计算机系统的合理化发展提出了相关的建议。
【关键词】计算机系统 容错技术 硬件错误 软件错误
1 计算机系统常见的错误
计算机系统错误不仅来源于软件的运行故障,硬件的失灵也是造成计算机系统错误的原因。近年来,随着科研人员工作的不断深入,电路主板技术的不断完善,计算机硬件的问题主要来源于计算机处理器的瞬时故障。而出现的原因主要是有几个方面:首先是电压超载,使计算机晶体管无法正常工作,从而出现瞬时故障;其次是计算机处理器的超频处理,造成负荷过载,从而出现故障;第三是当某一个发生问题时就会造成计算机处理器出現问题,由于晶体管数量巨大,也增加了计算机故障出现的频率。
2 计算机系统容错技术分析
2.1 计算机硬件容错技术
相比较软件层面的问题,硬件方面的故障更容易发生,且修复更为困难。计算机硬件发生故障主要有两个方面,一个是瞬时故障,主要来源于个别系统短时间停止工作,大多数是由于系统超载,这种情况主要由于计算机的多部件整合;一个是永久故障,主要源于个别系统部件损坏,而维修方法只能是更换损坏的部件。
计算机的硬件容错设计思路是通过对设备的温度管理或对操作系统安装备用设备,来解决在硬件发生错误时及时启动备用装备,并且反馈故障信息,以便及时检修。
现代计算机系统的设计中通常采用的是双系统模式,甚至三系统模式也很常见,多系统的设计方案存在固有的问题,每个系统的错误都需要独立修复,这就说明允许出现的故障率是n-1,在使用过程中,必须保证其中的一套系统处于工作状态,才能保证计算机不会停止运行。多系统的设计方案会造成计算机发生故障时,就会造成故障信息的反馈延迟,需要统一管理设备进行查找故障。
计算机系统的冗余设计指的是在信息传输过程中,通过增加信息的重复以便在计算机出现故障时确保信息传输的完整性。计算机信息冗余容错技术有两种方法,一种是计算机错误信息的检测,另一种是计算机错误信息的纠正。
计算机信息的冗余技术故障检测方式的优势有以下几个方面:成本低、操作简单、故障检测速度快、信息处理及时。
计算机时间冗余技术可以增加计算机系统的容错率,操作方法是在统一的硬件设施上,在不同的时间段对相应的计算机指令操作。计算机在表决电路的协同下,将信息数据延迟发送至处理器,并根据处理时间复制为多个附件,再推送至表决器,从而查找故障原因。
计算机实践容错技术的核心是推送数据流的延迟,延迟时间过长会错过计算机修复的最佳时间,增加系统出现问题的概率。如果延迟时间过短,则会在短时间内数据量过大,从而造成信息的冗余,也会增加计算机系统的故障率。
计算机硬件线程技术是通过多核心的中央处理器使真正线程上的错误降级,这就可以有效的减少计算机整体系统故障的发生率。多线程容错技术的核心是启用多个主引导线程和多个备用线程分别进行数据计算,并将计算结果上传到顶层数据分析器进行比对,最终发现错误。但是这种容错技术也存在缺陷:工作量大,效率低,并且多个主引导线程和多个备用线程同时计算,很容易引发设备部件锁死。
2.2 计算机软件容错技术
计算机软件的容错技术主要是提前控制。计算机软件多样,并且在涉及过程中并没有统一的标准,因此对于各个软件的故障控制较为困难。所以计算机软件在出现故障问题时,大多数属于编程人员的编写错误。为了提高计算机软件的使用效率,降低出错率,就要求软件在编写过程中采用高级编程语言来进行,当前C++是最高级的编程语言,可以有效的降低计算机软件的报错率,提高使用效率。
计算机软件出现故障时的应对策略有两种,一种是回滚恢复,即计算机回滚至出错之前的最后一次正确运行状态,重新进入正常运转;一种是后向深入,即计算机软件可以自我查找故障原因,自主排除故障,从而恢复正常运转。
计算机多版本软件容错技术的方法是通过多种编程语言和开发工作制造多版本软件,大大提升计算机的兼容性,从而提高计算机的容错率。多版本软件容错技术设计需要注意保持设计框架的一致性。从而确保软件发生故障时的回滚。
3 计算机系统错误回卷恢复机制
计算机硬件及软件错误排除方法的核心都是在系统运行过程中,通过反馈信息,对故障进行针对性的解决。这种排除方法的优势在于可以排除虚假信息,并且不会中断计算机的运行。缺点是对于错误的检测和恢复能力是有限的。
计算机系统错误回卷恢复机制有两个方面:一个是以之前计算机操作系统的检测点为基准,进行错误回卷恢复;一种是以计算机操作系统错误统计信息为基准,进行错误回卷恢复。
4 常见的计算机故障排除策略
针对不同计算机的安装环境、运行方法、信息处理方式,采用相应的故障排除方法。当前计算机容错方法主要还是在广泛的方法上进行创新,通过非定制的COTS预防式处理计算机可能出现的系统故障,同时COTS可以确保计算机软件在修复错误时的可靠性。
当前,计算机硬件故障的检测和排除相对比较完善,但是对于软件方面的故障排除技术有待发展,未来通过不断对软件故障排除研究的深入,从而提高计算机系统的容错率,有效的提高计算机的使用效率,降低软件故障排除成本。
计算机的操作系统是计算机运行、储备的核心,因此提高计算机的安全性可以从计算机操作系统进行着手研究,在高精尖的技术领域中,国外的操作系统安全性低,不利于国防事业的发展,而国内的操作系统相对落后,也不适合应用到高精尖领域。因此提高我国操作系统的应用能力,是未来我国计算机产业发展的方向。
参考文献
[1]徐奡,夏德天,郑久寿.高升力系统控制计算机容错技术研究[J].微电子学与计算机,2015,6(17):36-40+45.
[2]贾佳,杨学军,李志凌.一种基于冗余线程的GPU多副本容错技术[J].计算机研究与发展,2013,07(23):1551-1562.
作者简介
卓杰(1976-),男,山西省临汾市人。助讲,主要从事计算机教学工作。
作者单位
临汾职业技术学院 山西省临汾市 041000