航天工程风险分析方法综述
2018-06-02金光远于国娟
刘 晓 麦 强 金光远 于国娟
航天工程技术创新高,模块众多,关联性强,工程失败的社会经济损失巨大,风险特性突出,需要科学方法支持航天工程的技术和管理决策。风险分析方法能够识别工程的各种潜藏风险并对风险大小及损失进行定量化的度量和分析,据此提出减少风险的各种方案,已经成为世界各国航天部门通常采用的一种科学方法。风险分析方法众多,既有定量方法也有定性方法,其中基于数据的定量化分析方法的侧重点也有所不同。这里力图梳理航天工程中经常使用的几种风险分析方法,并提出未来风险分析方法的发展方向。
基本风险分析方法
风险分析的主要内容包括风险识别、风险估计及风险评价,即存在的风险因素是什么,发生的可能性有多大,造成的损失有多少。基本航天工程风险分析方法有几种类型:
失效模式效果分析。当决策时间很短并且数据量较大时,失效模式效果分析通过定性或顺序数据帮助决策者对不同重要性的风险进行排序,对不同风险源的发生概率及其后果进行描述。基于一个数据表格,项目决策者集中于高概率及后果严重的风险。
影响图表。影响图表可以从工程的复杂过程中提炼和分解出显著的不确定因素,并应用专家评价、统计或数学模型对这些不确定因素进行分析。该方法应用节点代表不确定性,应用弧代表条件概率相关度,从而构建出一个不确定性的影响关系网络,对工程事故、研发和实施等工程过程中的风险开展分析。
概率风险测度(PRA)。这一方法最初应用于核电站的风险分析,由于其完全定量化的特点,NASA在航天飞机、国际空间站等复杂系统工程项目上都应用了这一方法来定量化地评估失效概率。这些系统的特点是组成要素及关联非常复杂,并且总体可靠性的要求很高,也非常难以评价。
这一方法评估失效概率的过程是:首先将产品从概念上分解为功能模块,接着评价在不确定外部事件条件下组件和子系统的失效率,最后将其组合成一个整体的失效概率。为了确定基本组件的可靠性,这一方法采用了包括专家评价、统计方法和数学模型等方式。由于该方法的定量化特点,NASA花费了大量的资源用于风险管理和事故调查,收集了大量风险数据,为这一方法的精细化和大面积推广奠定了很好的基础。
风险分析方法的进展
随着航天工程越来越庞大,其组织管理也越来越复杂,风险分析方法也在不断发展。特别是在进一步关注技术、产品等传统风险的基础上,风险分析方法也越来越关注于人及组织因素所产生的风险。这类风险分析方法主要有几种类型:
工作过程分析模型。工作过程分析模型将组织因素考虑到工程的安全评价中,能够对组织结构及组织之间的相互关系对工程风险的影响进行分析。该方法的基础仍然是PRA方法,其中通过对失效概率公式的调整来描述由于组织及程序因素造成的元器件失效。首先会识别有关组织、过程、缺陷类型及运行产品的详细知识;其次评价这些因素间相互作用强度的重要性;最后对于重要的相互作用,通过定量化的模型计算其调整失效概率。
安全文化。安全文化认为一些工程风险产生于组织中共同的组织行为,并且已经发现了一些协作行为理论,还识别出了大量的与风险相关的人及组织因素。与安全文化相关的重要理论包括:从众理论,认为在没有显著意见的情况下,个体更容易遵从组织的公开声明从而忽视潜在的风险;顺从理论,认为大部分的一般工作人员会屈服于权威的要求;集体考虑理论,认为集体决策降低了对可选方案进行严格评价的可能性,更容易选择风险性更高的方案。个体的行为受到组织行为形成的安全文化影响,产生工程风险。
正常事故理论。正常事故理论(Normal Accident Theory)认为,尽管有些事件看似并无风险,但当不可预见或当初认为不太可能的外部环境发生改变时,这些事件会产生灾难性的后果。这种风险在复杂系统中会频繁发生,因为这类系统中的组成要素往往存在非线性关系,同时存在大量潜在的无法识别的失效模式。该理论还认为,对于复杂系统,通常的风险分析方法可能会因为失效而无法完成,因此应用简单技术替换复杂技术。
高可靠性组织理论。高可靠性组织理论认为,在真实的实践中,一个组织经历的事故量要远低于风险管理理论提出的风险事件,该现象在航天飞机等航天工程中也得到了验证。因此,在使用一定资源用于风险分析的同时,更应当加大过程审查、奖励激励、风险感知及控制力度,以减少风险事件的发生。
信息处理理论。信息处理理论认为风险事件的形成与组织中的信息及信息处理有关,例如隐蔽性工作和异常事件处理的间隔期。其中,隐蔽性工作是一种信息不对称性现象,通常发生在复杂性较强的重大工程中,其引起的“搭便车”及“走捷径”行为等均会引发工程风险。而异常事件处理的间隔期是异常事件处理行动与获得信息之间的时间间隔,这种反应潜伏期是许多风险事件产生的原因。一旦由于管理或技术瓶颈造成项目落后于进度安排,潜伏期便会影响返工,从而造成过程质量的快速下降。
综合性的风险分析方法
风险分析方法除了用于识别和度量风险之外,还可以与其他方法相结合应用于工程方案的优化和决策,或者进行更为全面的风险分析。这类方法主要有:
先进计划风险分析和管理模型。先进计划风险分析和管理模型基于工程风险分析,结合优化方法,确定分配给工程系统结构设计和强化过程(避免项目失效风险)的经费预算。对于不同的工程项目方案(由不同的组件组成),该模型还可以计算得出理想的、连续价值的预算来强化这种元器件。
异常检测模型。异常检测模型应是用PRA的一种组织仿真方法——可视化设计组——同时估计计划和项目的失效风险。该方法应用开发过程离散时间排队模型估计功能在运行中的失效概率。该模型假设未识别的工程误差是运行风险的主要原因,并应用“未识别的异常”来测度工程项目的风险。当情况变得糟糕时,异常检测模型认为可能产生更多的例外事件。通过提供模型收敛标准,异常检测模型能够对重要的“扰动”问题进行研究和分析。
风险分析方法的未来发展
随着管理理论的深入及科学技术的进步,航天工程的风险分析方法也在不断发展。未来航天工程风险分析方法会以PRA方法为核心,在广度和深度上进一步发展。
考虑分散的组织因素。世界航天工业的组织非常复杂,一个工程由完全不同的组织共同完成。这些组织不仅处于不同的地理位置,并且组织文化、规章制度等也完全不同。这对PRA实施过程中的合作和交流带来了极大的困难,需要一个综合性的PRA模型保证建模过程的完整性和一致性,特别是能够处理子系统之间的相关性及接口之间的失效因素,并且可以正确处理影响子系统的外部事件。
微观层次的失效逻辑模型。PRA方法的基础是对失效情景的识别,但是在PRA的实践中,通常会忽略一些风险因素。这是因为PRA模型对航天项目的分析是自下而上的。通常在分析之前,系统被分为多个模块以便于分析。从风险分析角度来说,这种做法可以识别一些事故的结果,但是在分析时就将系统定义为一些模块会忽略失效事件之间的依赖性和共性,从而将影响模块的真正风险隐藏起来。这就需要一种微观的方法评估系统中某种元器件在整个系统中的作用,以便全面地识别失效的初始事件。
具有一定弹性的PRA方法。航天工程中的风险因素较多,出于经济上的考虑,不可能对所有的风险事件都进行详细的分析。PRA方法的筛选机制是采用情景分析的方法,对损失程度最大的风险事件进行详细的风险分析。但这种硬性规定具体风险事件的方法可能会忽略一些原本不太重要,但情景的非线性变化却会引起巨大损失的风险事件。因此,需要进一步在强化分析深度的基础上扩展分析的广度,建立一个能够随情景变化的、富有弹性的PRA方法。该方法首先必须能够利用好分析的资源,其次能够根据信息收集情况选择分析的深度,并且能够识别引起风险的主要情景。
考虑人的行为及决策偏好。航天工程是分段实施的,任一阶段人的行为均可能引起部件失效等风险。同时,风险分析对决策的支持较为简单,仅仅是通过风险评价后的排序确定决策方案,没有考虑决策者可能的风险偏好等重要因素。因此,PRA的发展还需要考虑人的行为及决策偏好,根据组织行为的研究成果,结合PRA方法评估不同阶段人的行为可能带来的风险。同时,还应进一步考虑决策者的风险偏好,综合PRA和优化模型方法为相关决策提供支持。
结合大数据及人工智能。PRA方法的一大优点是能够应用贝叶斯概率方法通过较少的数据得出结论,但是现在的PRA未能充分应用所有能够得到的数据。在航天工程项目中,数据来源多样,有实验数据、飞行数据、专家观点等。因此,基于传统的贝叶斯概率方法,综合采用其他数据处理方法,如大数据及人工智能方法等,能够更好地评价失效概率。
航天工程的风险分析方法众多,其中PRA方法能够基于较少的数据对风险进行定量化的计算,在航天工程项目中得到了广泛的应用。同时,PRA方法也需要通过不断的改进完善以适应航天工业的新发展。