基于故障树分析的数控装置硬件平台功能安全设计与实现*
2015-11-02袁晓慧尹震宇黄祖广王帅华
袁晓慧,尹震宇,黄祖广,王帅华
(1.中国科学院大学,北京 100049;2.中国科学院沈阳计算技术研究所总线实验室,沈阳 110168;3.沈阳高精数控技术有限公司,沈阳 110168;4.山东大学机械工程学院,济南 250061;5.国家机床质量监督检测中心,北京 100102)
基于故障树分析的数控装置硬件平台功能安全设计与实现*
袁晓慧1,2,尹震宇2,3,黄祖广4,5,王帅华1,2
(1.中国科学院大学,北京 100049;2.中国科学院沈阳计算技术研究所总线实验室,沈阳 110168;3.沈阳高精数控技术有限公司,沈阳 110168;4.山东大学机械工程学院,济南 250061;5.国家机床质量监督检测中心,北京 100102)
针对国产数控装置硬件平台安全性能不足且缺乏有效定量评估方法的现状,提出基于故障模式影响诊断分析和简化故障树法的数控装置硬件失效评估模型。通过计算装置硬件失效概率及失效原因重要度分析的结果,对影响装置失效的薄弱模块增加冗余、诊断设计。验证改进后的数控装置硬件平台可达到IEC62061标准中SIL2等级要求,在工程上具有很好的应用价值。
数控装置;功能安全;故障树分析法;IEC62061;安全完整性等级
0 引言
机床安全是现代制造业赖以生存和发展的基础,涉及到国民经济各个部门及人们的安全与健康。据有关部门统计,我国制造工业的大中型企业中,由于机床安全性不足而引起的不同程度人员伤亡事故每年都能达到数百起[1]。同时,机床的安全性能对国产数控机床能否走出国门,进军国际市场也起到了至关紧要的作用[2]。
众所周知,数控装置作为数控系统乃至机床的控制中枢,为保证数控机床正常工作,数控装置必须具有安全功能以控制机床在出现随机失效时能依旧降级运行,不造成停机损失。目前,国外先进的安全数控系统开发厂商Siemens、FANUC、PILZ等公司都陆续推出了自己经第三方认证的安全数控产品[3]。如西门子达到SIL3等级认证的840D数控系统中运用安全集成技术,通过改进软、硬件的设计在原有数控系统中集成了安全控制功能,从而保正机床的安全需求:如安全停车,即当机床出现意外时能安全可靠的停车;或安全速度监控,在设定方式下,监控各轴的移动速度不超过安全速度等[4]。然而,我国由于功能安全标准引入时间较晚,相较于欧美国家已经研制出成熟的SIL3等级高档数控系统,及国内目前技术、成本、需求等现实因素的综合考量,开发满足IEC62061标准SIL2等级的中档安全数控装置已经能够满足现实生产需求,成为业内要突破的首要任务。因此,本文以中科院沈阳计算所自主研发的LT-B10数控系统为平台,研究适用于数控装置硬件平台的功能安全评估及实现方法,为进一步研制国产安全数控系统提供探索方向。
1 功能安全概述
1.1 功能安全概念及标准
数控装置的功能安全,是指数控装置具备故障安全处理的行为。即当出现故障时,能够进入安全状态或进行故障消除的数控装置,又称之安全数控装置[5]。换句话说,当安全数控系统满足以下条件时就认为是功能安全的:当任一随机故障、系统故障或共因失效发生时,都不会导致安全系统故障,从而避免引发人员的伤亡、设备财产的损失。
近年来,随着安全相关控制系统功能安全这一课题的研究深入,有关国际组织陆续出台了一系列有关控制系统功能安全的标准,例如IEC功能安全标准系列:功能安全基础标准IEC61508、针对过程工业的IEC61511、机械工业领域的IEC62061、IEC60204等[6]。我国相关部门也积极开展了国际标准的转化工作,如国家标准化委员会于2012年发布的我国首部数控系统功能安全强制性标准GB 28526-2012《机械电气安全-安全相关电气、电子和可编程电子控制系统的功能安全》。此类标准的出台,对数控装置功能安全的研究起到了极大的推动及指导作用。
1.2 功能安全评估参数及指标
在研制安全数控装置的过程中,将安全完整性等级SIL作为总体设计的依据和衡量数控装置安全性能的指标,SIL等级越高,装置发生失效的概率越低,安全性能越好。安全完整性等级是一定条件下安全功能得到正确执行的概率,其数值代表着风险降低的数量级[7]。IEC62061标准中将对安全相关控制功能的安全完整性等级SIL要求,等效为装置每小时危险失效概率PFH,两者对应关系如下表1所示[8]。
表1 SIL等级对照表
同时,硬件的最高安全完整性等级还受限于硬件的故障裕度和安全失效分数SFF。硬件结构约束表示在安全失效分数确定下,安全完整性等级与最低硬件故障裕度之间的关系,所以,硬件最高安全完整性等级与硬件的故障裕度和安全失效分数密切相关。由于本文所讨论的数控装置属于IEC62061标准中定义的B类子系统,其结构约束如下表2所示。
表2 B类相关子系统结构约束表
1.3 功能安全评估模型
功能安全基础标准IEC61508附录C中对于如何计算装置的失效概率给出了如下几种可用方法:简化公式法、马尔可夫模型法、故障树分析法FTA、可靠性框图法RBD及蒙特卡勒仿真法等[9],但具体的方法则要专业人员根据实际情况进行选择确定。对比上述几种方法可知,对于运行时间较长的数控装置而言,马尔可夫模型虽然计算结果精度高,但在计算时存在状态转移矩阵指数爆炸的风险,计算量大甚至无法计算,在工程计算上不适合应用;简化公式法相较马尔可夫模型计算量小但结果精度较低,有时不能满足工业现场需要。权衡计算复杂度与结果精度的双重要求,本文选用简化的FTA分析法对数控装置硬件进行失效概率的计算。
FTA分析法是在装置设计过程中,通过对可能造成装置失效的各种原因进行分析,画出逻辑框图,自上而下建立从现象到原因的有向逻辑图的方法[10]。通过确定引起失效的各基本事件发生概率,计算顶事件的发生概率即要求时的平均失效概率及各底事件的重要度。该方法在验证装置是否满足相应安全完整性等级的同时,亦能确定影响装置失效贡献度最大的基本原因,为后续装置的改进设计提供科学依据。传统FTA分析法通过确定故障树的全部最小割集,再利用不交布尔代数法计算求得顶事件的发生概率F(T):
注:表示第i个底事件的发生概率。
考虑到数控装置各模块的失效概率一般都控制在10-6数量级以下,故本文在故障树计算过程中采取适当简化的方法,计算精度完全能够满足现场设备要求。即设对于“或门”连接的顶事件发生概率近似为:
由于装置发生危险失效主要有两种模式:检测到的危险失效和未检测到的危险失效。因此,对于单通道1oo1结构装置,即装置的各模块均为串联结构,任一模块发生失效均导致装置失效,此结构要求时失效概率PFD计算公式[11]:
平均要求时失效概率PFDavg计算公式:
公式中λSD、λSU、λDD、λDU分别表示检测到的安全失效、未检测到的安全失效、检测到的危险失效和未检测到的危险失效概率。TI表示装置测试周期,MTTR表示故障平均维修时间。
2 数控装置失效分析
2.1 数控装置硬件结构
根据LT-B10数控装置的功能结构特点可将其划分为四个主要的功能模块,如下图1所示。
图1 数控装置功能结构示意图
四模块在功能上构成串联结构,即其中任一模块发生危险失效,将导致装置发生故障,停止工作。
2.2 硬件模块失效模式影响及诊断分析
失效模式影响及诊断分析FMEDA是计算装置失效概率的基础,它通过对装置中的元件逐一进行详细的失效分析,以表格的形式列出各元件的失效模式、失效影响、重要性及各类失效数据,从而得到各功能模块的失效数据、诊断覆盖率DC及安全失效分数SFF,为后续的功能安全评估提供必要的信息。
分别对LT-B10数控装置的底板、电源模块、核心板模块及显示板进行FMEDA分析。采用国军标GJB/ Z299C-2006《电子设备可靠性预计手册》中的数据作为失效数据来源[12],元器件失效模式按照机械安全标准IEC62061中的失效模式划分。由于FMEDA分析过程过于复杂,篇幅有限,本文只列出各模块最终分析结果如表3所示。
表3 装置FMEDA汇总表
3 数控装置功能安全评估建模
3.1 底板模块故障树构建算例
由LT-B10数控装置的硬件结构可知,造成装置危险失效的事件为:底板危险失效、电源模块危险失效、核心板危险失效及显示板危险失效。首先,对底板模块进行FTA分析,底板模块失效是由电源单元、控制单元、NCSF总线单元、外围接口单元及BOOT选择单元的失效造成,因此构建底板模块故障树模型如图2所示。
结合图2中基本失效事件及核心板FMEDA分析所得的失效数据,代入公式(3)、公式(4),计算可得:
图2 底板故障树分析图
用要求时失效概率除以检测周期TI得到底板每小时危险失效概率:
同理,分别再对电源模块、核心板及显示板进行故障树构建,并计算相应模块的要求时平均失效概率PFD及每小时失效概率PFH值。由于篇幅限制,本文只给出最终计算结果,模型构建及计算过程不再赘述。
3.2 评估结果
将上述各模块FTA分析计算所得的结果汇总于表4中,并将各模块失效数据相加得到LT-B10数控装置各项失效概率指标如下:
表4 数控装置各模块失效率核对表
对应表1,LT-B10数控装置在高要求操作模式下的每小时失效概率为各模块PFH之和3.284×10-6,即可达到标准中定义的安全完整性SIL1等级。
4 改进及验证
4.1 改进方案
通过表4各功能模块FMEDA分析可知,影响数控装置功能安全等级的模块依次为:底板、显示装置、核心板及电源模块。因此,分别对各模块进行改进设计,通过提高各模块危险自诊断能力或增加冗余装置来提高装置的安全完整性等级。具体改进措施如下:
(1)由于底板的诊断覆盖率DC(诊断覆盖率指检测出的危险失效率与总危险失效率的比值)仅为9.84%,结合底板的FMEDA分析,在对失效率贡献较大的电源单元、控制单元及NCSF总线单元增加诊断电路。底板电源单元主要指3.3V部分,除了正常的故障排查外,增加了指示电路,可通过LED的状态直观的判断出3.3V电源故障,如图3所示。
控制单元中FPGA上电加载程序是通过主串模式由专用的配置芯片完成的,如图4,增加了配置完成标志状态DONE指示电路,每次配置完成且配置成功时,该指示灯点亮。
NCSF总线单元中,如图5,对总线接收到的差分信号对RD+/-增加差分放大及检测电路,当差分信号RD+/-进入电路时,输出信号在正、负两状态之间转变,产生方波输出Signal-A;若输入端差分信号RD +/-有噪声来回多次穿越临界电压时,输出端即受到干扰,其正负状态产生不正常转换,即可视为故障状态。
图3 底板电源诊断电路图
图4 底板控制单元诊断电路图
图5 底板NCSF总线单元诊断电路图
(2)显示装置的安全失效分数SFF=26.66%,达不到标准中对硬件的结构约束。应提高危险自诊断能力,如图6,对显示板液晶屏接口的行同步信号、场同步信号、像素时钟信号增加故障诊断电路,将其光藕隔离、反相驱动输出的信号接入底板的控制单元,通过内置计数器功能,监控显示板的故障。
(3)核心板在对失效率贡献较大的控制单元和时钟电路增加诊断电路,即对核心板CPU加WDG看门狗复位电路,由专门的芯片MAX813L实现,如图7,MAX813L芯片和CPU的一个IO引脚相连,通过程序控制该引脚在小于1.6s的时间间隔内发送一个脉冲信号,若程序超过1.6s发送脉冲信号,则内部定时器溢出。
(4)电源模块增加冗余配置,将原设计的1oo1结构改为1oo2结构。本文所涉及的电源模块中,主要是指VCC5V低压冗余电源,采用传统的冗余电源设计方案即由2个5V电源分别连接二极管阳极,以“或门”的方式并联输出至电源总线上。如图8所示,可以让1个电源单独工作,也可以让多个电源同时工作。当其中1个电源出现故障时,由于二极管的单向导通特性,不会影响电源总线的输出。
图6 显示模块诊断电路图
图7 核心板诊断电路图
图8 电源模块示意图
4.2 评估结果
再次构建改进后B10数控装置故障树,计算装置PFD、PFDavg及PFH值,所得的结果汇总于表5中:
表5 数控装置各模块失效率核对表
对比表4,表5数据可知,改进后的数控装置在PFD、PFDavg及PFH值上都降低了一个数量级达到10-7,且安全失效分数SFF满足标准中对B类系统的结构约束。对应表1得改进后的LT-B10数控装置硬件平台可达到SIL2等级,达到改进目的。
5 结束语
改进后的LT-B10数控装置采用双通道带诊断1oo2D结构,通过提高各模块的危险自诊断能力或增加冗余配置使装置的安全完整性等级从SIL1提升至SIL2,满足国内中档市场设备安全要求。本文对数控装置硬件平台的安全完整性等级评估[参考文献]
方法及改进方案进行了探索性研究,为下一步研制具有自主知识产权的国产功能安全数控产品提供了有效方法。
[1]陈磊.高速机床系统安全性能评价及优化方法的研究[D].青岛:山东科技大学,2005.
[2]杨志波,林浒,陶耀东.数控装置可靠性预计方法的研究[J].组合机床与自动化加工技术,2011(1):1-4.
[3]靳江红,吴宗之,赵寿堂,等.安全仪表系统的功能安全国内外发展综述[J].化工自动化及仪表,2010,37(5):1-5.
[4]赵巍.840D数控系统中的安全控制在数控机床中的的应用[J].黑龙江科技信息,2011(27):14.
[5]黄祖广,张承瑞,赵钦志,等.数控系统功能安全标准综述[J].制造技术与机床,2013(8):163-166.
[6]张建国.浅谈机械安全-E/E/PE控制系统的功能安全标准IEC62061[J].中国仪器仪表,2009(5):49-55.
[7]周亚,徐皑冬,白占元,等.功能安全温度变送器设计和可靠性分析[J].自动化仪表,2012,34(6):70-73.
[8]International Electrotechnical Commission.IEC 62061 Safety ofmachinery-Functional safety of safety related electrical,electronic and programmable electronic control systems[J]. 2005.
[9]International Electrotechnical Commission.IEC 61508 Functional safety of electrical/electronic/programmable electronic safety-related systems[J].2010.
[10]许荣,车建国,杨作宾,等.故障树分析法及其在系统可靠性分析中的应用[J].指挥控制与仿真,2010,32(1):112-115.
[11]徐玉娟,阳宪惠.用故障树法计算不同结构变送器失效率[J].石油化工自动化,2007(3):1-5.
[12]GJB/Z299C-2006电子设备可靠性预计手册[M].北京:中国人民解放军总装备部,2006.
(编辑 赵蓉)
Design and Implementation of Functional Safety of the Hardware Platform of Domestic Numerical Control Device Based on FTA
YUAN Xiao-hui1,2,YIN Zhen-yu2,3,HUANG Zu-guang4,5,WANG Shuai-hua1,2
(1.University of Chinese Academy of Science,Beijing 100049,China;2.NC Bus Lab,Shenyang Institute of Computing Technology,Chinese Academy of Science,Shenyang 110168,China)
Considering the current situation of the hardware platform of domestic numerical control device has an insufficient safety performance and lack of effective quantitative evaluationmethod,Coming up w ith a numerical control device hardware platform failure assessmentmodelbased on failuremodel effectdiagnostic analysis and simplify fault treemethod.A fter the analysis of computing device hardware failure probability and the importance of failure cause,redundant and diagnosemeasures are taken for the weak part which causes the platform failure.Experiments verified that the improved numerical control device hardware platform achieved IEC62061 standard and it has a good application value in engineering.
numerical control device;functional safety;failure tree analysis;IEC62061;safe integrity level
TH122;TG506
A
1001-2265(2015)08-0070-04 DOI:10.13462/j.cnki.mmtamt.2015.08.018
2014-10-23;
2014-11-24
国家科技重大专项课题:高档数控机床与基础制造装备"数控系统功能安全技术研究"(2014ZX04009031)
袁晓慧(1990-),女,山东东营人,中国科学院大学硕士研究生,研究方向为数控系统硬件功能安全,(E-mail)471716311@qq.com。