系统安全理论与模型发展研究综述
2014-07-24缑变彩覃亚伟
缑变彩, 覃亚伟, 王 帆
(1.武汉科技大学 城市学院, 湖北 武汉 430083; 2.华中科技大学 土木工程与力学学院, 湖北 武汉 430074;3.长江水利委员会长江科学院, 湖北 武汉 430015)
系统安全理论与模型发展研究综述
缑变彩1, 覃亚伟2, 王 帆3
(1.武汉科技大学 城市学院, 湖北 武汉 430083; 2.华中科技大学 土木工程与力学学院, 湖北 武汉 430074;3.长江水利委员会长江科学院, 湖北 武汉 430015)
复杂社会技术系统的安全绩效取决于技术层面因素与组织管理层面因素的相互作用关系,而非个体要素。事故被认为是复杂系统中各个要素之间相互作用所产生的一种涌现现象,需要用系统安全思想进行研究,建立相应的系统安全模型。本文简要回顾了事故致因与系统安全理论的发展趋势,将事故致因与系统安全理论依据研究范式划分为三代,即规范性理论与模型、基于系统状态偏离标准程度的描述性理论与模型、以及基于系统实际行为的描述性理论与模型,在此基础上,总结了建立系统安全模型的现状、必要性和挑战,强调建立系统安全模型需要从近端因素到远端因素、从静态分析到动态建模、从还原论到整体论进行转变,将安全分析重点从找寻事故原因转移到事故发生机理上来。
系统安全; 复杂社会技术系统; 安全风险建模
社会技术系统于20世纪60年代初由英国Tavistock研究所提出[1],泛指技术密集和资金密集、积聚能量巨大的工业组织,认为生产系统都具有技术和社会表征,而且是紧密联系和相互作用的,系统绩效取决于这种相互作用而不是个体要素,并由此萌发了“系统安全”的基本思想,指在一个项目的全生命周期内运用一定的技术和管理手段,系统地、有远见地识别和控制危险[2]。然而现有的事故模型对组织等社会层面的分析与生产等技术层面的分析却往往是分开进行,缺少对两者相互作用关系的研究。
本文将在回顾事故致因与系统安全理论与模型的基础上,分析构建系统安全风险分析模型所面临的挑战,以期作为今后构建地铁施工系统安全风险分析模型的基础。
1 事故致因与系统安全理论及模型的发展
Rasmussen[3]根据安全风险研究的思维范式将安全风险分析思路分为三个阶段,据此可将研究安全风险的理论和模型按时间划分为三代(图1)[4]。
图1 事故致因与系统安全理论及模型的发展
1.1 规范性理论与模型(第一代)
规范性理论与模型主要体现的是一种“深层防御”的思想,通过提高系统的冗余性,建立多层防御,以及将工作流程标准化来改善系统的安全性。“深度防御”思想最大的贡献在于它迫使人们在对系统进行设计和运行时必须考虑事故可能发生的路径,从而为系统的设计和运行提供参考依据。然而系统的冗余性也使得系统的复杂性增加,更重要的是,这些“防御措施”可能会隐藏系统发展到危险状态的过程,降低人们的安全意识[4~5]。
1.2 基于系统状态偏离标准程度的描述性理论与模型(第二代)
基于系统状态偏离标准程度的描述性理论与模型认为事故的发生是系统状态偏离标准程度过大所导致,具体又可以分为以下两类[6]。
1.2.1 事件序列理论与模型
事件序列理论将事故描述为一系列事件依次发生所导致的结果。这些模型假设事件发生所产生的影响可以通过预先定义好的因果关系进行传播并最终导致事故的发生,其代表有Heinrich的多米诺理论[7],Johnson的能量理论[8],前者认为事故是一系列自我平衡事件的转换结果,即事故是不期望事件发生后的一种补偿,后者则认为事故是由于防护不足导致能量意外释放所致。
事件序列模型通常采用演绎法或归纳法分析事故发生的原因或事件导致的后果,如事件树(ETA)及故障树(FTA)等。Norman Rasmussen研究并提交的WASH-1400报告[9]建立了概率风险评估技术框架,基于上述方法在核电领域进行安全评估,极大地推动了此类模型的研究和应用。FTA/ETA由于能够描述风险的三个要素,且计算简便,因此也被应用于隧道、桥梁等土木工程领域,如Sturk等人[10]用FTA分析了公路隧道施工对周围环境的破坏风险;Hong 等人[11]采用ETA识别了隧道开挖过程中可能遇到的不利事件并用于帮助盾构机选型设计;Choi等人[12]基于ETA构建了一个桥梁施工失事场景的自动识别方法。
1.2.2 流行病学理论与模型
流行病学理论将事故的发生比喻成疾病传播,认为事故的发生是多个因素(如行为偏差、防御措施失效等)共同作用的结果。与事件序列理论类似,流行病学理论也是基于因果关系描述事件所产生的影响是如何传播的,但与事件序列理论不同的是,流行病学理论能描述导致事故的因素间更为复杂的作用关系,某个事件既可能是几个事件共同作用的结果,也可能是导致另外几个事件发生的原因之一。
流行病学模型最著名的代表为Reason的“瑞士奶酪”模型[5],Reason将系统的不同层面表示为瑞士奶酪的切片,切片上的“洞”表示系统各个层面的缺陷。事故从最远端的组织决策(即规划、设计、管理、沟通等)失误开始,这些缺陷为事故的发生创造了最初的潜在条件;组织决策上的失误可能导致现场管理者的管理难度加大(如需要完成的任务繁杂),并造成工作条件恶化(如工作量过大,进度吃紧),从而导致人的失误或违规操作,并导致事故发生(图2)。该理论可以作为风险评估模型的建模框架,如Ren等人[13]基于“瑞士奶酪”理论构建了一个具有五层层次结构的风险评估模型,用层次结构来描述从根本原因到事故后果的因果作用关系及风险的传播过程。
图2 瑞士奶酪模型
然而,无论是事件序列理论还是流行病学理论,都是基于事件因果关系来描述事故的发生,这种思路有一定的局限性。正如Rasmussen所说:“基于事件解释事故的发生对于改善系统安全没有多少帮助……很明显,我们需要一种新的方法来描述系统行为,将重点放在实际的、动态的工作情景中导致人的失误或违规操作的机理,而不是人的失误或违规操作本身”[3]。而Leveson认为,解决这一问题需要采用系统工程思想[14]。
1.3 基于系统实际行为的描述性理论与模型(第三代)
基于系统实际行为的描述性理论,如Barry Turner的人为灾难理论(MMD)[15],Charles Perrow的常态事故理论(NAT)[16],Karlene Roberts提出的高可靠性组织理论(HRO)[17]等,对现在事故致因和系统安全的研究思路有着很深的影响,如MMD理论认为:(1)事故有着共同的产生模式,可以用来分析并提高系统的安全性;(2)事故发生有一个较长的孵化期,事故发生原因可以深究到过去一系列不利因素的累积;(3)事故不能仅仅归咎于技术问题,组织与管理才是事故发生的关键。NAT理论认为系统交互的复杂程度和耦合程度是决定系统安全与否的两个重要特点。而HRO理论认为要从本质上限制事故的发生并实现尽可能高的系统绩效,一个组织(称为高可靠性组织)通常需要具备四个特点:(1)安全与生产应同等重要,且组织内部对该目标一致认同;(2)权力分散与权力集中的管理模式需同时存在;(3)较强的组织学习能力;(4)广泛使用系统冗余。
Rasmussen[3]是开创基于控制论、系统论分析系统安全的先驱之一,他认为类似博帕尔、切尔诺贝利这样的事故并不是各个备件失效和人为失误叠加所造成的巧合,而是在竞争激烈的环境中受到经济效益的压力导致组织行为系统性的向事故发生的边界迁移(图3)。
图3 系统向事故边界自然迁移
Rasmussen认为任何工作都会受到管理、功能和安全上的约束,工作目标与约束形成了个体行为,个体要么适应约束要么改变约束来达成既定目标,而在这个过程中,管理提供了一个“效益梯度”,而个体提供了一个“效率梯度”,例如管理者通常为了经济效益,期望在最短时间内完成既定任务,但这样会大大增加工人的工作量,而工人为了按期完工便会采取一些捷径。因此,在这两个梯度的共同作用下,系统会逐渐向安全边界迁移直到观察或感觉到危险的存在,如果未察觉到危险或察觉到危险但未采取措施,系统继续迁移越过安全边界从而导致事故发生。与之前通过标准流程控制系统行为的偏离程度不同,Rasmussen认为应通过提高边界的可见性并学习如何在边界应对危险来控制系统行为,即构建一个“安全梯度”来遏制系统滑向事故边界的趋势,为此,Rasmussen将风险管理描述为一个控制过程,并指出风险管理必须建立在依据控制需求得出的危险源分类之上[3]。
Leveson[14]基于系统论建立了系统理论事故模型STAMP,认为事故是复杂系统中各个要素相互作用(如人、技术、环境之间的影响)所产生的一种涌现现象,缺少对这些相互作用施加约束的控制行为将导致事故的发生。因此,安全实际上是一个控制问题,事故分析应尝试从控制论的角度对整个社会技术系统进行建模分析,而这个控制结构的基本组成是约束、反馈回路和控制层级。按照Leveson的观点,系统不是静态的,而是一个不断适应周围变化来实现目标的动态过程,由于系统处于不断变化之中,系统安全的控制实际是一个不断施加约束来维持或确保这个适应过程安全进行的过程。据此,Leveson从控制论的角度将事故原因分为三类:(1)安全约束不足;(2)控制行为的执行不足;(3)反馈不足或缺失。
相比之下,第三代系统安全定量分析模型仍处于发展之中,除了Leveson基于系统动力学构建的STAMP(Systems-Theoretic Accident Model and Processes)模型[18]之外,Mohaghegh等人[19, 20]基于事件序列图、故障树、贝叶斯网络和系统动力学建立了系统安全风险分析混合模型SoTeRiA(Social-Technical Risk Analysis),Stroeve等人[21, 22]则提出了TOPAZ(Traffic Organization and Perturbation AnalyZer)模型,采用基于Agent的动态风险建模技术和Monte Carlo仿真技术分析飞机地面滑行存在的碰撞风险。表1总结了三种模型的不同之处。
表1 三种模型的对比
2 从第二代到第三代之动机与挑战
目前,第三代事故致因与系统安全理论仍处于发展阶段,相应的分析模型则更少,主要仍以第二代分析模型为主。那么究竟是否需要第三代安全风险模型呢?这与建模分析的目的有关,如果分析目的只是“问责”,那么基于解析法的第二代事故致因与系统安全模型就足够了,因为此类模型可以有效地追溯事件的经过直至发现对事故负有责任的人或物。然而实际中往往发现,对于某几个人的问责并不能阻止类似事故的重演,新的管理者同样面临着前任管理者所面临的问题,这是因为此类分析并不能充分揭示事故发生的原因从而从根本上改善系统安全;相反,如果分析的目的是如何构建更安全的系统,那么就需要第三代系统安全分析模型,将重点从找寻事故起因上转移到研究系统的行为模式上来[14]。
可见,为了预防事故的发生或重演,有必要构建第三代系统安全风险分析模型。然而从第二代模型转变为第三代模型主要面临三个挑战。
2.1 从近端因素到远端因素
事故的发生背后都有其组织管理原因,组织因素几乎在所有事故中都伴有重要角色并成为理解与预防事故发生的关键[23],如杭州地铁一号线萧山湘湖段“11.15”事故,其主要原因既包括基坑超挖,钢支撑体系存在薄弱环节等技术问题,也包括监测、监理工作严重失职等管理原因,然而管理因素究竟如何影响实际施工过程却难以进行定量分析[24]。而第二代系统安全模型主要是还原事故发生场景,分析造成事故发生的技术或人为的近端因素,因此如何将远端的组织管理因素纳入到模型中是系统安全风险建模面临的挑战之一。
2.2 从静态分析到动态建模
复杂社会技术系统是一个为实现系统目标不断适应自身及周边环境变化的动态过程,事故是由于系统的模块如人、组织结构、工程任务、技术设备在这一过程中相互作用所导致的一种涌现现象[25]。因此,第三代系统安全风险分析模型必需考虑系统随时间发展的自适应过程,尤其是在系统受到生产力(如成本、进度)的压力时;此外,系统变量之间还会存在一定程度的延迟,一些不利因素的结果并不会立即显现,而这种延迟有时会掩盖事故发生的征兆,增加事故分析的难度[26]。例如Goh等人[27]在分析Tasmania岩石崩落事故后发现,在事故发生之前已经有不少的征兆,事故的起因可以追溯到较早的时间。因此他们得出结论,事故的发生也不是一蹴而就,而是各种不利因素随时间发展不断累积叠加最终导致的。然而,基于事件因果关系的第二代模型无法反映系统的时间特性,因此,如何建立系统的动态模型是系统安全风险建模面临的又一个挑战。
2.3 从还原论到整体论
传统的建模思路通常是将复杂社会技术系统进行分解后再分别建模分析,然而,许多学者质疑这种基于解析的、还原论思想方法的合理性,他们认为这种思路与事故的系统理论思想并不一致[28]。相比之下,整体论认为复杂系统整体大于系统个体之和。安全分析的系统思想是把安全看作一种涌现现象,是系统整体的一个属性,由系统中的元素相互作用产生,而非其元素自身属性。例如,对盾构机本身的安全性和可靠性分析并不能得出使用该盾构机进行地铁施工是否安全的结论,而必需将其置于复杂的“人—机—环境”交互过程之中才有意义。因此,一个系统模型不能依靠子模型的简单叠加,而应是一个系统思想为导向的整体模型,将失效事件看作系统工作的一种产物,将事故损失看作系统工作的一种结果[29]。因此,如何基于整体论的思想进行建模是系统安全风险建模面临的第三个挑战。
3 结 语
在过去的几十年间,人类建造的系统和建造这些系统所处的环境一直在不断发生改变,这些改变给人类安全建造和运行这些系统带来了诸多挑战,需要采取系统安全思想来指导相应的安全工作,基于系统论、控制论构建第三代的系统安全风险分析模型,对事故发生的规律进行总结,从而更好地预防事故的发生。
[1] Rice A K. The Enterprise and Its Environment[M]. London:Tavistock Publications,1963.
[2] Roland H E,Moriarty B. System Safety Engineering and Management[M]. New York:John Wiley,1990.
[3] Rasmussen J. Risk management in a dynamic society:a modelling problem[J]. Safety Science,1997,27(2-3):183-213.
[4] Saleh J H,Marais K B,Bakolas E,et al. Highlights from the literature on accident causation and system safety:review of major ideas,recent contributions,and challenges[J]. Reliability Engineering and System Safety,2010,95(11):1105-1116.
[5] Reason J. Managing the Rsks of Organizational Accidents[M]. Birmingham :Ashgate Publishing Limited,1997.
[6] Hollnagel E. Barriers and Accident Prevention[M]. Birmingham:Ashgate Publishing Limited,2004.
[7] Heinrich H W. Industrial Iccident Prevention[M]. New York:McGraw-Hill,1936.
[8] Johnson W G. The Management Oversight and Risk Tree (MORT) Safety Assurance Systems[R]. USA:National Safety Council,1980.
[9] Rasmussen N. Reactor Safety Study, an Assessment of Accident Risks in US Nuclear Power Plants[R]. Washington DC:US Nuclear Regulatory Commission,1975.
[10]Sturk R,Olsson L,Johansson J. Risk and decision analysis for large underground projects, as applied to the Stockholm Ring Road tunnels[J]. Tunnelling and Underground Space Technology,1996,11(2):157-164.
[11]Hong E S,Lee I M,Shin H S,et al. Quantitative risk evaluation based on event tree analysis technique: application to the design of shield TBM[J]. Tunnelling and Underground Space Technology,2009,24(3):269-277.
[12]Choi H H,Lee S Y,Choi I Y,et al. Reliability-based failure cause assessment of collaTPed bridge during construction[J]. Reliability Engineering and System Safety,2006,91(6):674-688.
[13]Ren J,Jenkinson I,Wang J,et al. A methodology to model causal relationshiTP on offshore safety assessment focusing on human and organizational factors[J]. Journal of Safety Research,2008,39(1):87-100.
[14]Leveson N. A new accident model for engineering safer systems[J]. Safety Science,2004,42(4):237-270.
[15]Turner B A. Man-made Disasters[M]. London: Wykeham Publications,1978.
[16]Perrow C. Normal Accidents: Living with High-risk Technologies[M]. New York:Basic Books,1984.
[17]Roberts K H. Managing high-reliability organizations[J]. California Management Review,1990,32(4): 101-113.
[18]Leveson N,Daouk M,Dulac N,et al. Applying STAMP in Accident Analysis [DB/OL]. [2013-12-08]. http://sunnyday.mit.edu/caib/walkerton.pdf.
[19]Mohaghegh Z,Mosleh A. Incorporating organizational factors into probabilistic risk assessment of complex socio-technical systems: principles and theoretical foundations[J]. Safety Science,2009,47(8):1139-1158.
[20]Mohaghegh Z, Kazemi R, Mosleh A. Incorporating organizational factors into probabilistic risk assessment (PRA) of complex socio-technical systems:a hybrid technique formalization[J]. Reliability Engineering and System Safety,2008,94(5):1000-1018.
[21]Stroeve S H, Blom H A P, Bakker G J. Systemic accident risk assessment in air traffic by Monte Carlo simulation[J]. Safety Science, 2008,47(2):238-249.
[22]Stroeve S H,Sharpanskykh A,Kirwan B. Agent-based organizational modeling for analysis of safety culture at an air navigation service provider[J]. Reliability Engineering and System Safety,2011,96(5):515-533.
[23]Leveson N, Dulac N,Marais K,et al. Moving beyond normal accidents and high reliability organizations:a systems approach to safety in complex systems[J]. Organization Studies,2009,30(2-3):227-249.
[24]解东升,钱七虎,戎晓力. 地铁工程建设安全风险管理研究[J]. 土木工程与管理学报,2012,29(1):61-67.
[25]Marais K,Dulac N,Leveson N. Beyond Normal Accidents and High Reliability Organizations:Lessons from the Space Shuttle[C]. Cambridge :Paper presented at the ESD External Symposium,2004.
[26]Lofquist E A. The art of measuring nothing:the paradox of measuring safety in a changing civil aviation industry using traditional safety metrics[J]. Safety Science,2010,48(10):1520-1529.
[27]Goh Y M,Love P E D,Brown H,et al. Organizational accidents:a systemic model of production versus protection[J]. Journal of Management Studies,2012,49(1):52-76.
[28]Hollnagel E,Woods D D,Leveson N. Resilience Engineering:Eoncepts and Precepts[M]. Aldershot: Ashgate Publishing Limited,2006.
[29]Santos-Reyes J,Beard A N. A systemic approach to managing safety[J]. Journal of Loss Prevention in the Process Industries,2007,21(1):15-28.
Review of the Development and Research on System Safety Theories and Models
GOUBian-cai1,QINYa-wei2,WANGFan3
(1.Wuhan University of Science and Technology City College, Wuhan 430083, China;2.School of Civil Engineering and Mechanics,Huazhong University of Science and Technology,Wuhan 430074, China; 3.Changjiang River Scientific Research Institute, Wuhan 430015, China)
The safety performance of a complex socio-technical system is determined by the interaction between organizational and managerial factors and technical factors, rather than the single element within the system. The accident can be viewed as an emergent phenomenon arises from the interaction of different agents, which requires a system safety perspective and the related system safety model. The development of accident causation and system safety was reviewed. The theories and models were classified into three generations according to the research paradigms, namely prescriptive theories and models, descriptive theories and models in terms of deviations from norms, and descriptive theories and models in terms of actual behaviors. Based on the review, current trends, motivation and challenges of establishing a system safety model were summarized. The importance of shift from proximal factors to distal factors, from static analysis to dynamic modeling, and from reductionism to holism has been emphasized that the focus should be transferred from causes to mechanisms.
system safety; complex socio-technical system; safety risk modeling
2014-05-03
2014-07-17
缑变彩(1986-),女,河南安阳人,助教,硕士,研究方向为施工安全(Email:1621109445@qq.com)
中央高校基本科研业务费专项资金资助项目(2013QN028)
X91
A
2095-0985(2014)04-0083-05