考虑存储过程的复杂系统可用性仿真
2022-02-09范哲铭陈垦伦李亚球
范哲铭,陈垦伦,李亚球,2
(1.工业和信息化部电子第五研究所,广东 广州 511370;2.广东省电子信息产品可靠性技术重点实验室,广东 广州 511370)
0 引言
对于长期储存和一次性使用的复杂系统,经过一段时间的存储、探测和故障维护后,其内部材料性能的变化将直接导致其性能下降,这对其任务的执行会造成不良的影响。例如:电子元件焊点的氧化膜或杂质,机械部件的腐蚀或锈蚀,轴承润滑剂的氧化变质,橡胶部件等材料的老化变脆,支撑结构材料的微裂纹膨胀等因素都将导致复杂系统的可靠性逐渐地下降[1]。在实际的使用过程中,随着维护和试验方法的不断进行,复杂系统在储存过程中将承受测试、维护甚至部件更换过程,这一系列操作也将直接影响复杂系统的储存可靠性。
目前国内外存储可靠性研究主要采用以下方法[2-3]:存储故障率预测方法、自然存储寿命测试数据评估方法、故障插值方法、加速寿命测试方法[4]和故障树分析方法,以及基于贝叶斯定理的评估方法、基于神经网络的预测方法[5]和基于模糊系统的存储可靠性方法等。其中,存储故障率预测方法、自然存储寿命测试数据评价方法和故障插值法通常采用现场存储数据和长期存储测试进行存储可靠性的工程和统计评估;加速寿命测试方法通过更大的压力使元件快速地失效来推断元件的故障率和寿命,可以在短时间内评估元件的存储寿命;传统的故障树分析方法和基于模糊系统的存储可靠性方法通过分解系统功能和收集故障数据来建立系统故障树,然后通过分析或仿真方法计算,进而评价系统的存储可靠性。这些方法通常从数据的角度来研究存储对复杂系统固有可靠性的影响。然而,在复杂系统的实际使用中,合理的维护工作、适当的保障资源、适当数量的备件将对复杂系统任务的完成造成重大的影响。
为了评估存储对复杂系统任务执行的影响,考察复杂系统执行单元在特定维护和保障资源条件下完成给定任务的能力,本文采用仿真思想考虑复杂系统存储、使用、维护和保护等环节,并考虑存储过程以对复杂系统可用性进行仿真研究,以此提出评估复杂系统可靠性、维修性和保障性(RMS)特征水平的手段。
1 复杂系统的特点及其寿命概况
从交付到任务执行(或退役),复杂系统应经历运输/处理、仓库存储、测试、维护、待机工作与存储和任务执行(或退役),以及其寿命概况中的其他几个环节[6-7]。其寿命一般可分为3个阶段:仓库存储阶段、任务准备阶段和任务执行阶段。复杂系统在仓库储存阶段处于非工作状态,但在任务准备阶段和任务执行阶段则处于工作状态。复杂系统需要在前两个阶段进行测试、维护和其他工作。
复杂系统在存储、使用、维护和保护过程中具有以下特点。
a)不同的阶段有不同的故障率
仓库储存阶段和任务准备阶段的复杂系统由于不同的环境条件而承受不同的压力,前者是非工作状态,而后者是工作状态,因此其失效机制发生变化,导致不同阶段的复杂系统具有不同的失效率。
b)存储故障应通过定期测试进行识别和修复
在存储过程中引起的复杂系统故障应称为存储故障,属于隐藏的功能故障。在仓库储存阶段,复杂系统及其部件处于非工作状态,无法及时地感知其故障。存储故障只能在定期测试过程中进行识别和修复。在任务准备阶段,复杂系统的各个部件均处于通电、测试和组装等工作状态,一旦发生故障,就可及时地进行维护和维修。
c)不同的阶段有不同的维修时间
为了从时间上促进维修工作,仓库仓储阶段进行的定期测试及维护工作在储存任务的执行过程中进行,类似预防性维修;而准备阶段的修理工作在任务完成后进行。
2 仿真模型
为了更好地描述上述复杂系统的储存、使用、维护和支持过程,在充分地考虑复杂系统存储过程、任务需求和保障需求的基础上,本文建立了由4个部分组成的仿真模型的整体结构,包括功能模型、任务模型维护模型和保障模型[8]。
a)功能模型
功能模型用于描述复杂系统的功能和结构组成,以及各个部件的可靠性、维修性、保障性和其他功能特性。由单元与单元数之间的故障逻辑关系、单元类型和单元故障数据分布等信息组成。
b)任务模型
它是一个用于描述复杂系统存储过程、任务场景或使用程序的模型,包括任务级别、执行对象、序列、概况、任务阶段时间、时间关系、成功条件和致命故障判断等信息。
复杂系统模型被定义为顺序、概况和任务阶段3个层次。任务阶段定义任务开始时间、持续时间和结束时间等,一些任务时间根据特定的时间关系形成概况,多个概况形成序列。在复杂系统的仓库阶段,存储概况需要经历多次定期测试和相应的修理与维护。
c)维修模型
用于描述复杂系统零部件的所有类型的修理和维护工作过程。它包含维护对象、维护属性(预防性修理和维护/恢复性修理和维护、故障部件和维护资源所需的维护资源量、MTTR、修理和维护的类型、维修站点)等信息。
d)保障模型
该模型用于描述复杂系统支援系统及其相关特性。它主要由维修站点对象、维修站点之间的关系、修理和维护站点属性(位置、级别和站点之间的层次关系、维修资源的类型和配置数量或配置率)和其他信息组成。
可知,复杂系统的存储、使用、维修和保障过程可以描述为在功能模型的条件下由任务模型驱动保障模型上的任务模型和维修模型的过程。其中,功能模型是运行的主体;保障模型作为运行平台;任务模型是驱动事件,当维修模型作为任务内容时同时也是任务内容。因此,整个仿真模型可以充分地描述复杂系统在存储和使用过程中的静态配置,也可以提供在仿真过程中,随着任务驱动而生成的各种事件的动态变化的能力。
3 仿真逻辑
复杂系统存储、使用和维修保障系统是一种典型的离散事件系统,其系统状态由任务开始、故障发生和修理完成等离散事件驱动,本文采用离散事件动态仿真的思想,采用面向事件的时钟推进方法完成复杂系统存储、使用、维修和保障过程的仿真。
3.1 任务流逻辑
在仿真过程中,任务模型是驱动整个仿真运行的核心,因此仿真过程逻辑的设计是正确运行仿真的关键。本文考虑了在复杂系统寿命中任务、故障和维护等特征,设计的仿真过程逻辑如图1所示。
图1 故障采样的逻辑原理图
首先,对历史故障进行检查,每次任务开始时扫描执行任务的复杂系统的所有故障,使用该阶段的可靠性方框图来确定故障是否会影响本阶段的执行。若有,提交维修申请;若无,继续下一步申请保障资源的使用。如果保障资源的使用不能满足条件,则任务失败;如果保障资源的使用能满足条件,则保障资源取得成功,继续接收设备功能模型发送的故障信息,使用可靠性模型确定故障是否会影响任务的实施。如果故障影响了任务的执行,则根据任务阶段的信息来确定是否可以进行紧急修理。
a)如果可以进行紧急修理,则向维修模块发出维修事件请求,维修模块将执行维修处理过程,并消耗维修时间。维护时间可用来判断任务阶段是否达到可延迟时间,如果维修时间超过可延迟时间,则任务失败;如果维修时间在任务阶段的可延迟时间内,则任务继续执行。
b)如果没有紧急修理备,该任务就会失败。
当所有的故障处理完成后,任务仍在继续时,进入下一个任务阶段,并继续执行上述程序。
3.2 故障抽样逻辑
获取的复杂系统及其部件的故障时间是复杂系统仿真运行的来源,故障发生会引发维修事件,维修需要保障资源,因此故障时间的采样是正确运行仿真的先决条件。
在考虑存储过程的复杂系统可用性仿真中,由于两阶段复杂系统失效机制的变化,存储阶段和任务准备阶段的失效率不同,需要根据不同的分布进行采样。同时,复杂系统在长时间储存后,其性能会有一定程度的下降,可靠性也会下降。复杂系统的可靠性不再和准备阶段初始时相同,因此在准备阶段对故障时间采样不能直接获得分布函数,需要根据失效分布进行转换以获得故障时间。故障采样逻辑如图2所示。
图2 故障采样的逻辑原理图
首先,应将所有的部件添加到故障采样列表中,进行逐个故障采样。通过采样部件仓库存储阶段的故障率信息获取故障时间ti,比较存储阶段的任务时间,如果故障时间短于存储任务时间,我们可以认为故障发生在存储阶段,让当前时间T等于最近的常规检测时间,即故障在这个时刻被确定并被修复。然后,继续采样组件以获取下一个故障时间,直到故障发生时间大于存储任务时间。
如果故障发生时间比存储任务时间长,它表明故障不发生在存储任务时间,因此,我们需要计算在存储任务时间结束时刻部件的故障概率并通过转换获得部件在准备阶段开始时刻的可靠性,然后采用坐标平移法对准备阶段的MTBF信息进行采样,采用初始可靠性非1的采样公式,获取任务准备阶段部件的失效时间。
以此类推,直到通过采样获得所有部件的故障时间之前,可以根据时间顺序形成故障事件列表。
4 案例
4.1 仿真输入条件
复杂系统概况分为存储阶段、战备准备阶段和任务执行阶段两个阶段,如图3所示。
图3 仿真的任务概况图
存储时间为10年,战备准备和任务执行阶段总平均时间为1 000 h,可延迟时间为150 h,定期测试间隔为3年,资源备件满足率可达90%。
复杂系统设备由A、B、C、D、E、F等几个子系统组成,整个复杂系统视为一个系列模型,各个子系统的MTBF(h)和MTTR输入参数如表1所示。为了简化模型,假设存储状态下的故障率是战备状态[9]下的故障率的10倍,故障和维修时间服从指数分布。
表1 仿真输入参数列表 单位:h
4.2 仿真过程及结果
对于复杂系统这类一次性使用设备,任务成功率通常可以用来表示其可靠性[10]。在传统的分析中,仿真逻辑不考虑存储阶段,复杂系统的可用性计算公式如下:
而在战备准备阶段发生的故障可以随时接受修理和维护,但在任务执行阶段发生的故障无法维修。修理和维护应满足资源和备件的数量要求。如果在任务时间结束时整个任务中的所有故障都已被修复,并且修理消耗的总时间没有超过允许延迟时间,则认为复杂系统的任务执行成功。
在式(1)中,AO代表复杂系统的可用性,Pzc和Pww分别表示复杂系统在存储阶段、战备阶段和任务执行阶段成功使用的概率。存储过程后成功的概率通常可以可视化为其存储可靠性Rzc,例如:
Pzc=Rzc。
共进行了6次仿真,每次仿真时整个任务概况循环25次,得到了每次仿真结果的Pww或AO的统计平均值。无论存储阶段如何,存储阶段的仿真条件都不会输入到任务概况中,得到Pww值后,AO值采用公式法计算;考虑到存储阶段,在任务概况中输入存储阶段的仿真条件以得到AO价值。
无论是否考虑存储过程,复杂系统可用性值的仿真输出结果如表2所示。
表2 仿真输出结果列表
由表2可知,不考虑存储阶段的仿真逻辑通常依赖于人类的经验来选择Rzc值,这可能会导致可用性的巨大波动。本文假定存储阶段的复杂系统的可靠性分别为0.8和0.9来进行仿真,Rzc被发现对可用性的计算结果有很大的影响,但不能反映检测和维修对存储的影响。考虑存储过程的仿真逻辑直接根据存储过程中复杂系统各个部分的RMS参数进行仿真,以表明存储阶段的各种事件对复杂系统可用性的影响。仿真结果表明,两种仿真结果在相同条件下收敛,后者可以实现更精细的仿真,反映存储的各种特性对复杂系统能力的影响。
4 储存阶段定期试验对复杂系统可用性的影响
定期测试周期也将对复杂系统的存储,甚至整个任务概况产生影响。因此,建议将定期试验周期间隔(单位:年)设置为1、2、3、4年,存储时间(单位:年)为4、8、12、16、20年。通过仿真模型计算了复杂系统的可用性,结果如图4所示。
图4 定期试验周期和储存年限对复杂系统可用性的影响
从图4中可以看出,随着存储年份的增加,当复杂系统需要执行任务时,复杂系统的可用性将会下降,延长定期测试的周期将会加强这种可用性的下降趋势。定期测试周期越长,故障修复时间越长,在转向使用过程时出现可用状态的概率就越小,因此可用性就越低。在给定的仿真案例数据下,当存储周期不超过8年时,1、2或3年的测试周期对复杂系统的可用性没有显著的影响,但4年的测试周期将大大地降低这种可用性。因此,可以根据图4和给定的可用性要求确定合理的定期测试周期。仿真结果与MTBF、MTTR等数据直接相关,因此需要获得更准确的结果和影响,从而进一步详细地确定复杂系统各个子系统的MTBF和MTTR分布和数值。
5 结束语
本文在考虑存储过程对复杂系统影响的基础上,分析了存储过程和使用过程不同的仿真逻辑,建立了考虑存储过程的复杂系统可用性仿真模型,分析和评估RMS水平对完整战备率和任务成功率的影响。仿真更关注复杂系统在存储和工作状态下故障率的差异,比如磨损和撕裂故障的影响,以及存储过程中经历的各种测试和维修事件对复杂系统能力的影响。该仿真可用于复杂系统的演示阶段,为用户提出适当的复杂系统RMS指标时提供手段,也可在已知存储相关失效数据的前提下应用于复杂系统寿命的评估,并可进一步地用于复杂系统的寿命延长工作。