人非圣贤孰能无过：对FMEA方法的深入思考

2013-07-26范飞,黄澍

上海质量 2013年1期

编者按

国际质量科学院院士、经营卓越方案咨询公司总裁、美国工业工程研究院副院长格雷戈里·H.沃森博士在近期的《六西格玛论坛杂志》上撰文“人非圣贤孰能无过”，对失效模式和影响分析（FMEA）方法进行了深入的探讨。

因为所有的人都会犯错误，所以应着重留意错误的类型以及导致这种错误的原因。

材料的物理性能遵循熵法则，因此关注材料性能随时间衰变的方式就很重要。由于设备与系统受应力的作用，并且应力大小会超过设计极限，因而必须要弄清这些极限所发生的位置，且超过极限时会发生什么。工程的本质是提供功能与抑制失效。因此对潜在的失效提出相应控制计划是成功的关键因素，它能确保过程及过程提供的产品或服务的可靠性。但是只有在了解系统设计固有风险的本质后，才能开展这项工作。

在很多组织中，风险管理和失效分析工作被简化为应用失效模式和影响分析（FMEA）方法，以便在新产品开发过程中，满足产品设计的阶段性关键要求。FMEA被用来识别潜在失效模式，分析造成每个失效模式的起源，并描述失效产生的潜在后果。

此外，FMEA对失效产生后果的严重程度、失效模式发生的可能性以及失效情况探测能力这三个指标进行评分来对风险进行评估。然后通过对这三个指标进行计算获得风险顺序数（RPN），以确定消除风险的先后次序。

表面看来，这似乎是一个十分合理的过程，它采用科学的方法来消除失效模式。但这种风险分析方法过于简化，并混淆了为了预防失效而需要考虑的技术和管理决策方面的问题。

为什么这样说？如今在整个工程过程中存在一些涉及风险分析和管理的重要问题，而标准的FMEA方法并不适用于处理这些问题。通过对FMEA方法演变过程的思考及对其逻辑结构与应用的观察，或许存在更好的替代方法，能更全面地评估潜在风险，并可以应用于产品或服务设计之中。

自1949年11月9日美国军方首次使用FMEA以来，它一直没有什么太大的变化。FMEA使人思考事物如何失效，并进一步激发人们思考如何消除、减小或缓解这类失效模式。FMEA从技术层面对失效机会进行了总结，并明确了对失效原因的管理方法。

回顾我的海军生涯，FMEA最初是用来评估失效模式的“失效的物理机理”，这可以通过工程原理和材料性能来评估。后来，它还被用于识别软件设计领域问题。这些早期的FMEA应用往往是建立在测试与工程学的基本原理之上。

但是随后FMEA便转移到技术性的头脑风暴法，失去了其工程实际层面的根基。如今对于失效分析，需要采用更全面的并侧重于商业性的系统方法。FMEA如何能满足这些要求？

应用标准FMEA方法存在如下4个问题，限制了其作为一种工程方法的有效性：

1）对失效的物理机理缺乏理解。必须考虑失效模式本身。在通常情况下，FMEA的应用仅局限于那些过去已经出现过的失效问题：已知失效模式。那未知失效模式呢？随着新技术的出现，并非所有失效模式都能被认识。当遇到新的失效问题时，必须要深入了解它们的特点。

该失效模式是否独立（比如部件，象电阻或电容失效，不能发挥其自身的功能）？这类失效中除了该部件的功能退化或失效外不会有其他影响。或者该失效模式是否是从属的（如某一失效会引发系统中连续或连锁失效的发生）？FMEA不能提供一个层级式的视角来描述复杂或连续的系统性失效模式。

理解复杂失效模式需要进行故障树分析（FTA）。为了获取失效函数需要进行专门的试验，以便弄清失效模式的运作机理和特性。这意味着必须对新技术中的部件进行超负荷运行测试来发现其失效机理。

头脑风暴法仅仅是失效分析的开始。FMEA必须结合工程分析和应力测试来确定失效的物理机理。

2）失效分析在产品设计过程中的错误应用。通常大部分的失效分析以FMEA开始，以FMEA结束。因此，在整个工程过程中必须通过系统方法应用FMEA。应用FMEA的系统方法需要进行一系列风险分析，并在新产品研发基础上调整方向。

因此在针对产品实施FMEA时，首先应该在界定市场特征和确定设计概念优先顺序时就应着重分析潜在失效。其次识别那些表征产品市场特征的技术功能层面的潜在失效，并关注设计失效是如何产生的。然后再识别材料及结构层面的潜在失效。关于过程或持续生产能力方面的潜在失效是整个潜在失效识别的最后一个环节。

当在新产品设计和开发中单纯使用FMEA进行失效分析时往往会忽略或混淆上述重要观点，最终导致风险评估的不足。因此FMEA应是用来控制风险的初步方法，而对于那些工程控制不了的、在产品或生产过程外的风险，必须通过防错方法来进行预防，那些不能预防的风险必须在控制计划里得到特别关注。识别风险仅仅是风险管理的第一步。

3）失效风险计算法的误区。在标准FMEA中，总体风险由RPN值表示，并根据该值对相关失效模式进行排序以便确定采取纠正措施的优先顺序。但这种方式会受到评估方法的影响。通常使用等级量表来量化其中的三个因子的值（如严重度、发生频度和探测度），而这三个因子值的大小仅仅是根据失效模式之间的相互比较而确定的。当将这些因子整合为一个指标时，如RPN，由于将等级型分值通过乘法进行运行后，其值将失去原先所表示的量级含义，因此这些值将不再代表其有效的整体排名。

在许多情况下，将这三个因子合并会产生“颠倒排序”的情况。在这些情况中，由于RPN中其它因子的度量值较小，导致在最终整体的排序中，原本严重度较高的或发生频度较高的失效模式的排名下降。即便“颠倒排序”现象没有发生，由于评分是基于主观感知基础上，所以在理解这些等级量表上也会存在问题。

即使固定发生频度的评价方法（例如使用失效试验数据、现场失效数据或过程能力）仍不能解决该问题，主要是因为探测度和严重度是等级性分值。例如，某个因子的分值为4，但并不表示它的严重度是另一个分值为2的因子的两倍。但是当把两个因子绘制在一个2×2的矩阵中就能清楚地看出它们的关系。例如，当把发生频度和严重度的值放在同一格中，我们把得到的结果值称作关键性指数。

4）不适当地将探测度作为风险评价标准来用。探测度是代表检测失效模式发生的频率能力的指标。探测是一种工程行为，应跟消除和减少风险的行为一起，作为风险缓解过程中的纠正行动得到管理。使用关键性指数代替RPN的作用，是将注意力转移到失效模式的内在风险上，并将对探测度的关注推迟至设计完成后。这样就把探测变成了失效的预防行为（成为了防差错）。

失效分析由三个部分组成：确定潜在失效；识别实际失效模式；分析失效机理以确定失效产生的原因。预防失效则包括以下三个阶段：消除失效，降低严重度与探测报警。因而FMEA并非提供了一个完整的失效分析方法，它仅仅解决了失效分析三个阶段中的第一个阶段。它不能用来估计产品使用寿命，因为失效模式与发生失效的频率之间并无关联，频率是以时间来估算失效间隔。因此，FMEA必须借助测试与物理失效分析作为补充来全面了解产品或服务为何不能发挥正常的作用以致无法实现预期效果。

面对失效，我们需要做些什么？我们必须了解失效的物理机理及其潜在失效后果。然后，我们必须消除失效事件或通过采取诸如降低失效后果的严重度或过程的防差错这样的手段来减少失效事件，从而降低失效带来的危害。要实现这样的效果需要借助可靠性工程的帮助，而FMEA至多只能起到促进获得失效机理及其潜在失效后果的作用。

为克服FMEA过于简单化的弱点，我们必须在深入了解其优缺点后进行应用。在大部分情况下，如果没有在理解可靠性函数基础上进行分析或坚持研究失效模式背后的因果关系，实施FMEA将变为无的放矢。如果失效分析是要用于为降低风险提供结构化决策辅助，我们必须完善FMEA的使用方法，以便更好地实现目标。

我们绝不能盲目地应用质量方法，必须谨记应用这些方法的前提条件、局限性以及验证结果的方法。我们绝不能在没有弄清前提条件和明确使用注意事项的情况下，继续应用错误或误导性的方法，并把它作为质量标准。