APP下载

根本原因分析在美国Vogtle核电站的应用

2015-01-08王晓娇

科技视界 2015年11期
关键词:根本原因分析

王晓娇

(山东核电有限公司,山东 海阳 265116)

0 引言

设备故障、人因失效、质量问题、不当维修及操作、组织管理问题等在核电站的运行中是需要引起足够重视的问题。如何通过一种系统、正规的、逻辑的方法找出问题所在,对故障的每个环节都加以分析,最后加以综合整理,得出问题根本原因,从而有针对性的制定出出合理的纠正性行动,消除问题产生的根本原因,防止相同或类似的问题重复发生,这就需要用到根本原因分析技术(Root Cause Analysis,RCA),这是我们使用RCA的目的所在。

美国Vogtle核电站从建造阶段开始就非常重视对于设备故障、组织管理问题、人因失效、系统异常等的分析,通过多年的摸索和经验积累,逐步建立了一套完整的根本原因分析组织管理体系,使用TapRooT 公司开发的根本原因分析技术,同时也使用其它类型的RCA技术,对出现的重大问题(或反复出现的问题)进行根本原因分析,制定纠正措施,对结果进行有效性审查,保证了设备系统的安全可靠运行,促进了管理的改进,提升了电站性能。

1 Vogtle电站RCA组织管理体系

Vogtle电站在绩效改进部 (Performance Improvement Department)下设RCA组,有3名专业工程师专门从事根本原因分析工作。根据Vogtle电站状态报告分级,SL1级的CR需要对其进行根本原因分析;RCA小组采取项目组的形式管理,由根本原因主管经理直接领导;RCA小组的组长及成员由根本原因管理层指定,取决于被调查的项目,组员的来源如下,以便于对需处理的状态有一个全面、彻底的分析。

(1)专业问题专家

(2)当事部门

(3)受纠正性行动影响的部门

(4)培训部

图1 RCA组织机构

2 在Vogtle核电站使用的RCA技术

进行根本原因分析要使用一种或多种正规的根本原因分析技术,在不同的工业领域使用的根本原因分析技术有1300多种,对于不同的事件各种技术都有自己的优缺点。在Vogtle电站,使用了8中根本原因分析技术,分别是:

(1)屏障分析法

(2)变更分析法

(3)事件&病原分析法

(4)故障树分析法

(5)Kepner-TregoeTM(KT)问题分析法

(6)风险树分析法

(8)人因差距分析法

应用上述技术,可以对事件进行评估,确定根本原因,给出适合的解决办法防止事件重复发生。如前所述,可以使用的RCA技术不仅限于这8种,但是这8种方法是经过验证的、在工业领域广泛采用的方法,使用这些方法,可以对技术问题、管理缺陷、设备故障、人因失效等不同类型的问题进行评估分析。在某些情况下,使用单一一种技术就能确定根本原因,但是经验证明在大多数情况下,如果要确定事件的根本原因,需要多种RCA技术配合使用。

3 Vogtle核电站根本原因分析过程

3.1根本原因分析——综述

进行根本原因分析所采取的一系列有关联的活动,取决于在根本原因调查阶段遇到的具体情况。经验表明,通常调查、分析以及报告编写过程是一个反复的过程,而非按次序一步一步进行到底的。如下图所示,进行根本原因调查分为三个阶段。直到原因被确定了才能采取纠正性行动。

图2RCA过程

3.2根本原因分析——发起

Vogtle核电站的状态报告CR分为4级,分别为SL1、SL3、SL4、SL5,其中对SL1级的CR进行根本原因分析。(注:SL1级CR:对电站安全、公众/个人安全、电站运行有重大影响的事件,在CAPCO会议上确定CR等级。)

3.3根本原因分析——准备

当一个状态被确定需要进行RCA时,就开始进行根本原因调查;当RCA的结果被电站管理层批准,纠正性行动发布后,根本原因调查过程结束。

管理层指定根本原因主管经理来组织及管理整个过程。SL1级的事件需要进行根本原因调查,由事件审查小组来执行。该小组的成员包括:组长、有资质的分析员、专业问题专家。取决于事件的风险和重要程度,可能需要一个由管理层直接领导的事件独立审查小组来。

3.3.1 问题描述

分析员和组长使用如下导则对问题进行界定并描述。问题描述需经根本原因管理层的讨论和同意。

1)与当事人交流,获得初步信息,对被感知的问题以及由该问题导致的后果有一个初步的了解。被感知的问题不可能总是反映实际发生的问题,但是它可能是实际发生问题的表征。

2)进行问题描述,需要考虑以下要素:

(1)恰当的问题描述,由三个要素组成:

①来源

②状态

③结构

(2)明确是什么发生了问题(而不是为什么发生了问题),其目的是明确该问题仅限于某一设备或状态(但是也可能适用于其它相同或类似的设备或状态)。

(3)明确问题的不利影响和后果以及后果的严重程度。

(4)确保问题描述只包含1个问题;

(5)不要将问题描述与后果相混淆;

(6)不要将问题描述与纠正性行动相混淆;

(7)在调查过程中,持续使用问题描述以保证关注点不偏移。

3.3.2 取决于被调查问题的重要性,RCM应就技术根本原因评估的独立审查给出一个初期的定性

例如,如果设备的失效牵涉到一系列非常少见的工况或非普遍的失效模式,而不像那些在之前发生过并被成功修复故障,那么进行独立审查就是必要的。由于现有技术资源的局限性,确定故障模式的起因会受到限制。

3.4根本原因分析——开始初步调查

3.4.1 为了避免发生下列问题,要马上开始进行调查

1)证据(物证或书面证据)遗失(如硬件、记录文件、计算机信息等);

2)当事人和目击者的第一手报告随着时间的流逝会发生改变(由于压力、记忆力下降等);

3)相似的问题可能重复发生。

3.4.2 现场保护

为了进行现场保护而采取的一系列行动可能有所不同,包括但又不限于以下所列:

1)延迟现场清扫;

2)在由于清洁导致信息丢失或消除前获取信息;

3)采取照相、录像等手段记录现场;

4)与事故相关的重要材料,如实记录发现它时的状态;

5)记录事件目击者或参与者的名字;

6)收集与当事人对于其所参与活动的陈述;

7)尽早对当事人进行面谈,最好在轮班结束之前进行;

8)在与事件有关的设备/构筑物/部件拆除前采集图像,图像要有比例尺和方位显示。

3.4.3 尽早进行实物证据的收集

为了进行实物数据的收集而采取的一系列行动可能有所不同,包括但又不限于以下所列:

1)对拆除的每个阶段连续拍照记录,内容有划痕、褪色、尺寸、方位等;

2)对失效设备进行保护(保持原状,便于后续分析);

3)不要对断裂面、涂层、润滑油等做任何改动;不要对失效设备进行去污、清扫等操作;如果需要对取样进行化学分析,带上干净的手套;

4)将失效部件分开装袋,标明设备名称、编号、日期等;

5)将物品移至受控区域存放,防止窜改或丢失;

6)收集样品:

(1)润滑油或冷却剂

(2)涂层、涂料

(3)灰烬或其它降级的材料

7)拷贝可能有关联的文件

(1)工作包

(2)值班日记

(3)计算机数据,带状记录纸等

3.4.4 保证客观性,避免武断地得出结论

最重要的是对事实进行证明,而不是做出假设。例如:你不能假设工人使用了程序,或按照规定执行了程序,或操纵员听到了报警记录仪上记录的报警;同样,你也不能假设通过电话给出的指令被接听者听到并理解了。要确保记录的所有事实得到证明,所有假定有清楚的指示。

3.4.5 必要的时候,考虑进行实验室试验,获取破坏性/非破坏性故障分析结果,邀请厂内/厂外专家参与;就评估代价VS收益进行判断

记住:所有的人因事件都是由人的错误引起的。但也要避免把所有的故障根本原因都归结于人因,而是要找到错误最根本的原因。

3.5根本原因分析——进行调查

3.5.1 调查事实

这一步进行的调查所获取的信息要用于下一步如何“分析结果”。

1)调查的开始有时是很困难的,下列技巧有助于工作的开展:

(1)确定本应该存在的屏障;

(2)确定初始行动;

(3)确定故障先兆;

(4)确定本应该提供保护的防御物/措施;

(5)确定适当的目标、策略及程序;

(6)确定Error是活跃的还是潜伏的;

(7)如果Error是活跃的,任务的执行需要技巧、规则或相应的知识吗?

(8)涉及到什么样人类工程学因素(Human engineering factor)?

(9)什么样的人因工具是适用的(在故障时)?

(10)考虑使用“纸上谈兵”式的分析;

2)进行数据及文件审查;

3)与当事人面谈;

4)进行人因审查;

5)搜索有关系的 CR/OE(condition report/operating experience);

6)从初步调查中,要明确要附加信息的方面(领域):

(1)明确证据的关键部分(如失效部件、日志等),应对其进行面试的关键人员;

(2)关键人员是那些对事件有了解和经验的人,在根本原因评估过程中要对其进行面谈,包括:

①事件现场的人员;

②控制室或C&T办公室的人员;

③事件发生后去过现场的人;

④在调查阶段也要明确其他的关键人员,分析员要保证对这些人也进行了面谈,列在根本原因报告中。

7)进行附加调查,通过多种渠道来证实当事人的陈述。从多种渠道收集信息,与关键人员面谈。

3.5.2 分析结果

分析结果的过程是一个整合全部信息的过程,通过正规的根本原因分析方法(如事件-起因图表、K-T问题分析法、MORT)来确定“为什么”事件会发生。

1)确定是否需要更多的信息或后续的调查,直到调查结束。调查的过程是一个“迭代”过程,新的数据及证据都要整合到分析中去。分析员(或整个小组)要对以下所列进行追踪:

(1)所有事件的进展;

(2)所有证据的来源;

(3)所有结论的理由;

(4)所有假设的基础;

(5)所有文件的来源;

2)将附加信息添加到已经获得的证据及相关的事实中去;

3)保持所有信息的条理性,便于在调查中检索;

4)将根本原因调查报告作为质量记录保存起来,调查中收集到的支持信息要保存5年左右的时间。

3.5.3 进行调查

分析结果来确定“为什么”事件会发生。

1)对收集到的信息进行分析直到:

(1)起因在SNC的控制范围之外;

(2)再没有其它的起因来解释事件的结果了。分析员要对每一个发生的问题问“为什么”直到所有的“为什么”都有了令人满意的解释。例如,调查的问题为“截止阀泄漏”,调查者应该询问:

①“截止阀为什么泄漏?”

②因为该阀门没有正确的密封。

③“为什么阀门没有正确的密封?”

2)根本原因方法总结文件定稿(如E&CT图表,K-T报告等);

3)确定恰当的原因编码(根本原因和因果因子);

4)解决所收集的文件中相互冲突的信息(如日志、面谈记录等);

5)确认新的信息不会使得出的结论发生改变。

6)如果出现了根本原因不明确的状况,那么:

(1)解释为什么没有确定根本原因的依据;

(2)描述难以获得的用来确定根本原因的信息;

(3)描述为了确定根本原因,哪些进一步行动是必要的;

(4)明确可能的起因;

(5)提供证据来支持所阐明的可能的起因。

3.5.4 进行广泛性(Broadness)审查

1)进行状态程度及起因程度审查 (Extent Of Condition/Extent Of Cause);

2)重复事件评估(NMP-GM-002-GL03):如果该问题或相似的问题以前在电站、集团公司或工业领域发生过,就要对为什么没有被预防进行评估;

3)进行安全文化评估(NMP-GM-002-F24)。

4)组织及程序审查(NMP-GM-002-F08)。

3.5.5 根本原因证实

对问题的真实根本原因进行证实。

1)使用如下标准对原因进行证实:

(1)如果根本原因不存在的话,该问题不会发生。例如,如果预防性维修是充分的,那么阀门就不会泄漏。

(2)把原因消除或纠正后问题不会再次发生 (因为有相同的病原)。例如:如果修改了预防性维修的要求,即便是预防性维修不充分,阀门也不会再次泄漏。

(3)原因的消除或纠正会防止该问题或相似问题的反复出现。例如:纠正针对泄漏阀门的预防性维修,使用相同的预防性维修程序,也会防止其它阀门的泄漏。

3.5.6 推荐纠正性行动

为了解决问题的起因,防止问题再次发生,对纠正性行动给出建议:

1)纠正性行动计划应包含如下所列行动:

(1)当前的纠正性行动——可能已经完成;

(2)临时的行动;

(3)用于纠正每个根本原因的CAPRs;

(4)针对病原(Causal Factor)的纠正性行动;

(5)来源于状态程度及起因程度审查的纠正性行动;

(6)来源于以前发生的类似事件审查的纠正性行动;

(7)来源于安全文化审查的纠正性行动。

3.5.7 有效性审查

1)作为根本原因评估的一个组成部分,需要进行有效性审查。有效性审查的目的是为有效性审查人员提供根本原因纠正性行动目的的概要,让有效性审查人明白如果遵照并执行了推荐的纠正性行动,其效果是什么样的。

2)对有效性审查没有固定格式要求,需要考虑包括的有:

(1)有效性审查的范围(如纠正性行动的时间表包含什么,预期是什么?)

(2)关键的方面/标准(例如:What will success look like?)

(3)是否需要临时的有效性审查?

3)有效性审查方案也应该考虑并明确:在存在什么样的时机下才能进行有效性的确定。有效性审查的到期日应该与当时存在的时机相一致。

3.5.8 潜在问题分析(PPA)

使用K-T潜在问题分析技术或其它相似的技术对所推荐的纠正性行动进行分析。进行PPA的目的是对所推荐的纠正性行动进行评估,确保找出所有的非故意结果并加以处理。分析员/调查小组组长应该把所审查的领域(Area)和考虑的项目(Item)记录下来,将其整合到所推荐的纠正性行动中去。

3.6根本原因分析——记录

将根本原因分析的整个过程的发现记录下来,作为永久保存、查询的记录;为后续趋势跟踪、问题解决及纠正性行动审查提供检索信息。

(1)纠正性行动项要得到责任部门经理的同意;

(2)由 MRM(Management Review Meeting)来批准纠正性行动;在纠正性行动得到落实前,为了防止相同或类似的事件再次发生,应该按照下列要求来做:

1)在事件发生后的5个工作日内,进行根本原因分析的人员就应该确定是否需要采取临时行动来挽回损失、弥补缺陷;

2)临时行动项应分发给责任部门,用工单、状态报告或行动项的方式对其进行跟踪;

3)临时行动项要递交给根本原因分析主管,拿到MRM上讨论;

4)举例:设备失效所采取的临时行动有:

(1)安装备用设备

(2)临时变更

(3)等效性决策

(4)变更设备运行方式

(5)使用运行票或隔离牌

(6)进行预防性维修

(6)与TS(技术规格书)相关的设备故障需要做可运行性决策,这个过程就包括了临时行动项

6)涉及人因失效的事件,也要采取临时性的纠正行动,包括以下方面:

(1)人员培训

(2)轮班培训,办公室发公告

(3)停工整改

3.7 RCA 的到期日

根本原因中规定了RCA的到期日,通常是45天(从指派根本原因小组组长及分析员当天开始)。第一阶段要在30天内完成,第二阶段要在第一阶段结束15天内完成。除非得到管理层(延期由VP来批准)的批准,否则要严格按照上述时间要求来执行。RCA延期需要满足以下条件:

1)提供延期的理由;

2)描述由于延期对于电站的影响;

3)对所采取的临时行动进行描述;

4)接受纠正性行动延期风险的依据。

4 进行根本原因分析应该注意的问题

在进行根本原因分析的过程中,有些错误的出现会直接影响分析结果的公正性和准确性。因此,从业人员应特别注意:

1)受惯性思维的影响。依据自己已有的经验,在头脑中已经有了对根本原因的初步认识,在后续的调查过程中受此认识影响,使对问题的判断按照“既定方向”行进,导致无法找到问题的根本原因。

2)缺乏足够的证据支持。行动不及时,丧失了第一时间获取实物证据、当事人证言、文件/计算机证据的时机;调查不够深入、充分,导致对实际情况的了解有限。

3)思路狭窄。依赖简单的思维模式将“根本原因”置于已有的经验模式中,造成无法找到根本原因。

4)迷信权威,没有进行独立思考。对于“权威”的判断和结论盲目相信,自己没有进行独立思考。

5)忽视细节。问题的关键有时候隐藏在细节中,在进行事件调查的时候缺乏精密的试验和分析,得到的结论缺乏有力的依据,使之无法找到根本原因。

6)信息过滤。对于事件的调查可能触动个人、部门的利益,在调查阶段利益相关人/部门不配合,隐匿关键信息,或有意将重要信息置于次要位置。

7)应付交差。由于时间要求紧迫,或领导催促,为了及时完成任务,对大量信息、证据无法一一证实、确认,缺乏全面的试验或深入的分析,最终得到的分析报告不能完全反映根本原因。

5 几点思考

1)对于状态报告的分级要明确。Vogtle电站对所有出现的问题,不管是技术问题、管理问题,还是程序问题、人因问题,都是通过发起状态报告来处理的。每年大概会有11000~12000个CR产生,面对这么多需要处理的CR,需要对其进行准确的分类,根据重要程度划分等级。Vogtle电站的CR分为四个级别,分别是SL1、SL3、SL4、SL5,对每个级别都有非常详细的定义,并且要在CAPCO会议上讨论确定,其中需要对SL1级的CR进行根本原因分析;如果对于状态报告没有一个详细的分级,对所有的CR都进行根本原因分析,将会造成人力资源、技术资源、行政资源的浪费,对此需要引起足够的重视。

2)对于经验反馈工程师的培养要尽早开始,人力搭配要合理。Vogtle电站的绩效改进部(PI部)有3位专业工程师做原因分析,采取了“老中青”相结合的方式,他们都参加了TapRootR公司的授权课程并取得了相应的资质。其中的一个老工程师叫Danny的具有运行、维修(电气、仪控)、技术支持、保健物理、培训多专业背景,具有非常丰富的经验。公司的AP1000项目马上就要开始调试了,在调试阶段可以深入了解设备、系统性能,积累丰富经验,为后续的调查分析工作打下基础;在这个阶段就要有意识的、系统的、规划明确的培养经验反馈工程师。

3)强有力的组织体系是开展RCA的保障。在Vogtle电站,很多工作都是以专项(Program)的形式开展并完成的,根本原因分析作为CAP(Corrective Action Program)专项的一部分,由上至下受控于一个严格的组织体系,每个环节的参与者都有明确的分工和接口,中间有监督机构,后续有有效性审查措施,保证了RCA过程的顺利执行。

4)建立运行经验(Operating Experience,OE)数据库,加入 INPO/WANO,在全世界范围内分享核电业界经验数据,有助于RCA的深入开展。

5)领导层要对根本原因分析给予充分的支持。事件的处理通常分为调查取证、分析、采取纠正性行动三个阶段。而往往在第一个阶段完毕后,人们就急于采取纠正性行动,而把第二阶段给忽略掉,这时候需要根本原因分析小组坚持自己的工作原则,顶住来着各方面的压力(如时间压力、行政压力等)。高级别领导层的对于RCA的支持会保证整个RCA过程的顺利推进,取得令人满意的结果。

6)重视对于领导层的培训。领导层的推动是工作开展的关键因素,而有些问题也是由于领导所处的“特殊”位置,“特殊”影响力导致的。因此,加强对领导层的培训,从管理层面、工作分配层面来做,使他对他的职责有非常明确的认识,我个人认为也是推动工作开展的一个重要方面。

7)Vogtle电站的根本原因分析报告要被本厂、佐治亚州政府、集团公司、INPO、NRC等多方监管,写报告占据了他们很大的精力和时间,但又不得不做。我们要做的是把整个RCA过程详尽的记录下来,严格按程序的规定去做,最总综合整理就是一份完美的报告。

8)在整个核电站范围内不断完善根本原因分析体系,形成根本原因分析的氛围和文化。在实践中学习,在实践中提高,相信根本原因分析工作定会在核电站的防止重大事件的重发以及解决重大技术问题方面发挥越来越重要的作用。

猜你喜欢

根本原因分析
血液透析患者发生跌倒不良事件根本原因分析及护理对策
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
电力系统及其自动化发展趋势分析
柴油机压缩空气起动系统三通球阀内漏分析与处理
根本原因分析法在新生儿静脉输注脂肪乳外渗不良事件中的应用
中西医结合治疗抑郁症100例分析
应用根本原因分析法持续改进手术室流程与环境管理案例分析
在线教育与MOOC的比较分析
领会两个“根本原因”的深刻内涵永远坚持实事求是的思想路线