基于大数据的特种设备宏观安全风险预警方法研究*
2018-05-08王新浩黄西菲
王新浩,罗 云,李 桐,黄西菲
( 1.中国地质大学(北京) 工程技术学院,北京 100083; 2.中国特种设备检测研究院,北京 100029)
0 引言
特种设备作为我国国民经济和人民生活的重要基础设施,量大面广,具有特殊的专业技术性和潜在高危险性[1]。近年来,我国特种设备万台死亡率呈下降趋势,但特种设备事故的伤亡人数仍是发达国家的4~5倍[2]。为进一步遏制特种设备事故发生,保障人民生命和财产安全,我国实行严格的监督检验制度[3]。在此过程中,特种设备监管机构积累了大量的数据资料。充分挖掘、利用其中的潜在价值,将对增强监管针对性,提高检验效率,实现特种设备监督检验工作优化提升具有重要意义。
目前,我国特种设备风险评价预警的研究主要集中在单体设备风险评价和整类设备风险评价2个方面。单台设备风险评价方面,文献[4]、文献[5]、文献[6]等分别以机电类、承压类等特种设备为对象,构建风险评价模型,指导企业进行隐患查治以及风险防控。但由于此类方法的研究对象尺度相对较小,对安全监督检验工作的指导作用有限。在此背景下,部分学者尝试通过风险强度模型[7]、功效系数法[8]等方式评价整类设备的风险等级,指导政府合理分配监管力量。
受上述文献启发,本文拟构建1种宏观安全风险预警方法,以特种设备安全监督检验大数据为基础,利用关联规则挖掘、社区发现、可视化等数据挖掘技术,对区域范围、缺陷类别等多种宏观指标进行预警,以期为特种设备监督检验提供更多指导意见,进一步增强监管针对性,提高检验效率。
1 理论基础
1.1 宏观安全风险
宏观安全风险是指从较大时间尺度和空间范围来度量的系统性、综合性、社会性安全风险,是各种不确定性对安全监管预期目标的不利影响。其研究范畴是多维度视角下的风险防控规律,包含多种时间尺度(包括风险过程、周期、时段等),多种空间范围(点、线、面、体、单位、行业等),多种应用领域(政府检查、行业监管、技术检验等)。因此,宏观安全风险具有社会性、系统性、综合性等特点。
1)社会性:宏观安全风险具有社会风险的属性,不仅包括本体(设备)风险因素,还包括受体风险因素。
2)系统性:宏观安全风险以系统为研究对象,不仅涉及设备、人员、环境和社会等因素的主要特征和状态,还包含系统因素间的内在联系。
3)综合性:宏观安全风险具有自然风险与社会风险、个体风险与群体风险综合的特性,包括生命安全风险、财产安全风险、环境安全风险、社会安全风险等形态。
基于上述定义可以认为,为了满足政府检查、行业监管、技术检验的需求,实现宏观安全风险预警,应以海量数据为基础,分析设备、人员、环境等多种微观因素间的联系,进而评估宏观层面风险的状况。
1.2 大数据
安全生产大数据是指在进行与安全生产相关的活动时,通过一定方式获取到的可反映安全生产本质规律、体现安全生产基础理论价值的安全生产数据集,以及对安全生产数据集进行处理时所使用的大数据思维和大数据技术[9]。根据《特种设备安全监察条例》相关规定,我国特种设备监督检验机构会开展特种设备监督检验、定期检验、型式试验以及专门为特种设备生产、使用提供无损检测服务,在此过程中形成了大量的安全生产检查报告、设备设施检验案例报告、设备设施可靠性鉴定报告等监管数据[10]。随着监督检验工作的开展,大量数据被不断积累,最终汇集成了特种设备安全监督检验大数据。
1.3 数据挖掘技术
数据挖掘(data mining, DM)是数据库知识发现(Knowledge-Discovery in Databases, KDD)中的一个步骤,一般是指从大量数据中挖掘有趣模式和知识的过程,主要通过统计发现、机器学习、专家系统和模式识别等方法实现[11]。宏观安全风险预警方法涉及多最小支持度关联规则挖掘算法、快速展开(Fast unfolding)算法和可视化技术。
多最小支持度关联规则挖掘算法是等价类变换(Equivalence class transformation, Eclat)算法[12-13]的优化算法,可以用于挖掘各类因素间的关联关系。Eclat算法是采用垂直数据格式挖掘频繁项集的深度优化算法,是在概念格理论的基础上,利用基于前缀的等价关系,将搜索空间划分为较小的子空间,对各子空间进行自下而上的搜索,进而获取频繁项集[14]。不同于传统水平数据格式挖掘算法,该算法不用通过扫描所有数据集来确定(K+1)项集的支持度,算法效率较高,适应于数量巨大、因素众多的安全生产大数据。
现实世界中,许多复杂系统可以表示成图或网络,如社会网络、生物网络、信息网络等。复杂网络可以自然地分成一些节点组,使同1个节点组内的2个节点之间比不同节点组的2个节点之间更倾向于有边相连,网络的这种拓扑特性被称为社区结构,相应的,每个节点组被称为1个社区[15]。通过对社区信息的认识,可以帮助我们了解各安全相关因素间的亲疏关系,进而进行针对性监管和检验。快速展开算法是基于模块度对社区划分的一种迭代的算法[16],算法包括模块化优化(Modularity Optimization)和社区聚集(Community Aggregation)2个阶段,首先,通过模块化优化,将每个节点划分到预期邻接的节点社区;然后,将第一阶段得到的社区聚合成1个点,并重复上述过程,最终使各个节点分配到最优社区。
可视化技术是利用计算机图形学和图像处理技术,将数据信息转换为图形信息,并交互处理的理论、方法和技术[11]。将可视化技术应用于宏观安全风险中,可以更加清晰地表现各类因素间的关联关系,以及因素关系的紧密程度,方便监管者理解风险信息,优化监管检验策略。
2 宏观安全风险预警方法
宏观安全风险预警主要包括数据预处理、风险预警信息挖掘、可视化分析及决策3个环节,如图1所示。
2.1 海量数据预处理
数据预处理是宏观安全风险预警中的一个重要环节,尤其是对含有异常数据、不完整数据的对象进行挖掘时,需要进行数据预处理,以提高数据挖掘对象的质量,并最终达到提高所获信息质量的目的。
1)结构化处理:政府检查、行业监管、技术检验等资料多以文本形式存储,而数据挖掘模型往往无法直接处理这些非(半)结构化信息,因此需要对文本资料进行预处理,以满足数据挖掘需求。在此阶段,非(半)结构化文本资料中的主要信息将以关键词的形式被提取与存储,形成结构化数据。
图1 宏观安全风险预警流程Fig.1 Process of macro safety risk warning
2)清理与集成:原始资料往往存在着大量的“脏”数据,如主要属性信息缺失、关键指标偏离期望值、数据结构不一致等,这些数据会影响信息质量。在此阶段,需要填补遗漏数据、剔除异常数据、平滑噪声数据,并对数据结构进行标准化处理,将不同来源的数据合并到一起,形成统一的数据集合。
3)选择与变换:根据分析需求,选择数据信息,然后对数据进行规格化操作,利用一般化识别编码(Generalized Identifier, GID)将关键词转化为结构化代码,形成安全生产监管数据库,为数据挖掘做准备。
2.2 风险预警信息挖掘
风险预警信息挖掘主要包括3部分,首先,利用多最小支持度关联规则挖掘算法挖掘单台设备微观因素间的关联关系;然后,根据冗余原理删除冗余关联规则;最后,基于快速展开算法,对关联规则进行社区发现与划分。
1)关联规则挖掘:因素性质不同,出现频度也不尽相同,如瓶体受火焰损伤的可能性明显少于管路管件存在缺陷的情况,西部地区特种设备数量明显小于东部地区等。因此,最小支持度设置过高,则无法挖掘这些低频度因素的关联规则;而降低支持度阈值,关联规则数量又会急剧增多,增加分析难度。针对上述问题,设计多最小支持度关联规则挖掘算法,在传统Eclat算法基础上,分别对各因素指标设置不同的最小支持度,从而解决出现频率不均匀的问题,发现更多有用的规则。具体步骤包括:步骤1,根据监管需求设置多最小支持度、最小置信度、最小Kulczynski(Kulc)值和最大不平衡比(Imbalance Ratio, IR);步骤2,搜索数据集,获得符合各自最小支持度的频繁1项集;步骤3,按照最小支持度对频繁1项集进行升序排列,形成如图2所示的搜索空间;步骤4,应用Eclat算法,获取满足各自最小支持度的频繁项集;步骤5,根据最小置信度、最小Kulc值和最大IR,计算满足条件的关联规则。
图2 频繁项集搜索树Fig.2 Frequent item sets search tree
2)冗余发现与删除:设置多最小支持度进行挖掘关联规则会产生大量规则,监管者很难有效分析和利用这些规则。为了解决此问题,提出冗余原理,有效减少规则数量。
设关联规则X→Y和A→B,若(X∪Y)⊇(A∪B),且A⊇X,则A→B可以称为X→Y的冗余规则。
证明:由(X∪Y)⊇(A∪B)可知,Sup(A∪B)≥Sup(X∪Y);又因为A⊇X,则Sup(X)≥Sup(A)。
设Sup表示项集支持度,Conf表示规则的置信度。
因此,可由X→Y推出A→B,即A→B为X→Y的冗余规则。
3)社区发现与划分:若将关联规则的前、后项分别看作通过连线连接的2个独立节点,那么通过关联规则挖掘,可以得到由若干节点和连线组成的复杂网络。利用快速展开算法,对这些节点进行社区划分,可以确定节点间的亲疏关系。
通过上述过程,安全生产监管数据库中的监督检验信息被转化为存在于不同社区中的关联规则。利用关联规则,监管者可以根据已知因素预测其他因素存在的可能性,实现风险预警;根据社区划分,则可发现不同因素间的紧密关系,进而指导监管检验策略的优化。
2.3 可视化分析及决策
宏观安全风险的可视化图像可以看作是一个由若干节点和连线组成的复杂网络,节点代表各类安全相关因素,因素出现的频度越高,对应节点越大;因素间的关联关系则由连线表示,连线越粗表示关系越紧密。关系密切的因素节点被归为同1个社区,并用不同的颜色进行区别。通过对可视化图像分析,监管者可通过已知节点来预警未知节点,并根据社区分类情况对关系密切的参数进行统一监管。
3 应用实践分析
以2008—2016年全国长管拖车检验数据为例,进行应用实践分析,验证方法的可行性。
3.1 数据描述
实践过程中,收集2008—2016年全国长管拖车检验案例报告1 123份,以纸质文件和电子文档形式为主。经过数据预处理,得到1 123条结构化数据,每条数据均包括缺陷类型、设备使用地区、使用单位、设备类型、制造单位、制造时间、缺陷描述关键词、检验结论关键词、检验人员9类信息。其中,缺陷类型包括:管路及管件缺陷、爆破片安全装置缺陷、气瓶固定装置缺陷、气瓶腐蚀、瓶口缺陷、气瓶鼓包等19项因素;缺陷描述关键词包括:缺陷形式描述、缺陷位置描述、检查方式描述3类,如:裂纹、变形、底部、钢印端、宏观检查、渗透检测等59项因素;检验结论关键词主要包括:更换、修复、继续使用、缩短周期、报废、复检等10项因素。
分析检验案例报告时间分布发现,检验案例报告数量由2008—2016年逐年递增,且增长趋势较为平稳,如图3所示。分析其中原因,一方面,与我国长管拖车制造能力提升,长管拖车的保有量逐年递增有关;另一方面,自2008年国家质量监督检验检疫总局正式颁布《长管拖车定期检验专项要求》起,长管拖车定期检验方式方法与制度法规不断优化完善,相应的气瓶装备报检系统逐步建立并投入使用,检验报告的数据质量及存储能力大幅提高,使得可利用数据量增多[17]。
统计设备缺陷类型及比例,共得到管路及管件缺陷、爆破片安全装置缺陷、气瓶固定装置缺陷等19种缺陷,如图4所示。数据涵盖了主要的长管拖车缺陷问题,且前3种缺陷的数量占总数的54%,与实际情况相符[18]。可以认为,本文涉及的长管拖车数据与实际情况基本相符,具有进一步数据挖掘与分析价值。
图3 检查时间分布情况Fig.3 Distribution of check time
图4 缺陷类型及比例Fig.4 Defect type and proportion
3.2 数据挖掘
应用Python对数据挖掘算法进行编码。设频度阈值为10,即若因素出现次数大于10,则被划分为频繁1项集。频繁1项集的最小支持度为该项出现频率的20%,如管路及管件缺陷频度为213,则该项的最小支持度为42。另外,设最小置信度为70%,最小Kulc为50%,最大IR为50%。运算得到关联规则4 131条,删除冗余规则2 455条,占总规则数的59.4%,剩余1 676条关联规则被划分74个社区,如表1所示。
关联规则分析应以满足用户需求为目的,因此,在进行特种设备宏观安全风险预警过程中,应从政府监管部门、制造企业、检验机构、使用单位4个角度进行规则分析挖掘:
1)缺陷信息与使用地区间的规则,如规则1表示气瓶壁薄缺陷多出现在04地区的长管拖车中,用于预警某地地区的某类缺陷可能存在的风险较大,指导政府监管部门调整监管策略、提高监管针对性。
表1 关联规则及社区Table 1 Association rules and communities
2)缺陷信息与制造企业间的规则,如规则2表示制造单位01制造的设备多出现气瓶固定装置缺陷问题,用于指导制造企业优化生产工艺,提升设备可靠性。
3)缺陷信息与检验人员、设备类型间的规则,如规则3表示检验员11可以高效利用硬度检测技术检测硬度异常问题,用于检验机构优化人员培养、调整检验方法,提高检验效率。
4)缺陷信息与使用单位间的规则,规则4表示使用单位08多出现气瓶固定装置缺陷问题,用于指导企业发现缺陷产生原因,优化设备使用操作规程、明确维修保养重点。
3.3 可视化及分析
关联规则数量众多,因素间往往存在紧密关联关系,如表1规则3与规则5中,硬度检测、硬度高于标准值、气瓶硬度异常缺陷、不允许使用等因素往往同时存在。为了便于发现因素间的有用现象,指导分析决策,对上述1 676条关联规则进行可视化处理,如图5所示。
图5 关联规则可视化Fig.5 Visualization of association rules
分析图5发现,因素间呈明显的聚集现象,形成若干紧凑的社区。由各社区核心因素的标签可以看出,相同缺陷类型或企业类型涉及的因素关系较为紧密,不同社区间节点相对独立;如:气瓶硬度异常、使用单位03等社区节点数量多、连线密集,气瓶鼓包、气瓶腐蚀等社区间却几乎没有连线。因此,只要合理控制各自社区中连线较多的关键因素节点,就可以大幅降低社区规模,达到宏观风险预控的目的。
为发现社区内部因素间的关系,需对各个社区进行逐一分析,以使用单位03社区为例进行说明,如图6所示。图中x轴为关联规则的前项,y轴为规则后项,第2行第3列的节点表示使用地区08等8项因素存在的条件下,会出现硬度超出标准值等14项因素,有70条规则与该类因素有关。点的大小代表该类规则出现的频度,点越大表示该类规则出现频度高;点的颜色表示规则的置信水平,颜色越深置信度越高。
具体分析如下:
1){使用地区08→硬度超出标准值}、{使用地区08→气瓶硬度异常缺陷}、{硬度超出标准值→使用地区08 }、{气瓶硬度异常缺陷→使用地区08 }同时出现,且3项因素互为条件的现象,说明3项因素间的关系十分紧密。因此,可以认为使用地区08的气瓶硬度异常问题具有较高风险,应进行针对性检验与管理。
2){制造单位03→硬度超出标准值}、{制造单位03→气瓶硬度异常缺陷}说明该单位制造的设备存在该类缺陷的可能性较大。但由于相应节点颜色较浅、置信度较低,关联度相对较弱,因此不能确定是否存在必然联系,制造单位应认真进行工艺安全分析,降低风险。
3)检验员03,08,10,11均检测出气瓶硬度异常缺陷,其中检验员11对应的规则置信度与频度较高,说明该检验人员对该类异常问题的检验较为高效,应分析其检验方式方法,并予以推广。
4)使用单位03出现气瓶硬度异常缺陷问题的概率较高,该单位应查询分析缺陷设备的制造单位,减少该单位设备的使用率,提升设备安全水平。
图6 社区可视化Fig.6 Visualization of community
4 结论
1)应用并优化关联规则挖掘、社区发现、可视化等数据挖掘技术,构建1种宏观安全风险预警方法,以特种设备安全监督检验大数据为基础,通过挖掘单台设备微观因素间的关联关系,实现整类特种设备宏观安全风险的识别与预警。
2)以2008—2016年全国长管拖车检验数据为例进行应用实践分析,研究结果表明,该方法可以对区域范围、缺陷类别等多种宏观指标进行预警,指导针对性监管与检验。
3)本文提出的方法以安全生产监管大数据为运行基础,对于信息化水平较低、历史数据较少的机构单位,数据挖掘效果可能不佳,而如何增强对稀疏数据的挖掘能力将是下一步研究方向。
[1] 江书军.基于动态博弈的特种设备安全投入监管策略研究[J].中国安全生产科学技术,2014,10(S1):59-64.
JIANG Shujun. Study on supervision strategies for safety investment of special equipment based on dynamic game theory [J].Journal of Safety Science and Technology, 2014, 10(S1): 59-64.
[2] 王新浩,罗云,何义,等.特种设备政府安监职能转变风险预警及控制决策方法研究[J].中国安全科学学报,2014,24(12):103-109.
WANG Xinhao, LUO Yun,HE Yi,et al.Research on method of risk pre-warning and control decision when transferring function of government safety supervision of special equipment[J]. China Safety Science Journal, 2014,24(12):103-109.
[3] 崔庆玲,罗云,崔刚,等.基于灰色理论的特种设备安全事故预测研究[J].中国安全生产科学技术,2013,9(5):141-144.
CUI Qingling,LUO Yun,CUI Gang,et al.Study on prediction of special equipment accident based on grey theory [J].Journal of Safety Science and Technology, 2013, 9(5):141-144.
[4] 崔文,罗云,曾珠,等.机电类特种设备典型事故风险分级预警预控方法研究[J].工业安全与环保,2014,40(5):59-62,4.
CUI Wen, LUO Yun,ZENG Zhu,et al. The study of ranking methods of the typical accidents risks of machinery & electronic special equipment for early-warning and pre-controlling [J]. Industrial Safety and Environment Protection, 2014, 40(5):59-62,4.
[5] 杨景标,郑炯,李绪丰,等.承压类特种设备系统性风险研究[J].中国安全生产科学技术,2012,8(8):41-46.
YANG Jingbiao,ZHENG Jiong,LI Xufeng,et al.Investigation on the failure consequence weighting model in risk assessment for pressure equipment [J]. Journal of Safety Science and Technology, 2012,8(8):41-46.
[6] 陈学东,艾志斌,杨铁成,等.基于风险的检测(RBI)中以剩余寿命为基准的失效概率评价方法[J].压力容器,2006(5):1-5.
CHEN Xuedong,AI Zhibin,YANG Tiecheng,et al.Assessment method of failure probability with residual life as reference in risk-based inspection (RBI)[J].Pressure Vessel Technology, 2006(5):1-5.
[7] 门智峰,张彦朝.特种设备的风险评估技术[J].中国安全生产科学技术,2006,2(1):92-94.
MEN Zhifeng,ZHANG Yanchao. Risk assessment of special equipment [J].Journal of Safety Science and Technology, 2006,2(1):92-94.
[8] 王冠韬,罗斯达,罗云,等.基于功效系数法的特种设备宏观安全风险评价模型[J].中国安全生产科学技术,2016,12(9):146-151.
WANG Guantao,LUO Sida,LUO Yun,et al. Assessment model of macro safety risk for special equipment based on efficacy coefficient method [J].Journal of Safety Science and Technology, 2016,12(9):146-151.
[9] 欧阳秋梅,吴超.安全生产大数据的5W2H采集法及其模式研究[J].中国安全生产科学技术,2016,12(12):22-27.
OUYANG Qiumei, WU Chao. Research on 5W2H acquisition method and mode of big data for work safety[J]. Journal of Safety Science and Technology, 2016, 12(12):22-27.
[10] 张长鲁.煤矿事故隐患大数据处理与知识发现分析方法研究[J].中国安全生产科学技术,2016,12(9):176-181.
ZHANG Changlu.Study on big data processing and knowledge discovery analysis method for safety hazard in coal mining [J]. Journal of Safety Science and Technology, 2016, 12(9):176-181.
[11] HAN J,KAMBER M,PEI J.Data mining concepts and techniques (Third Edition) [M]. Waltham: Morgan Kaufmann Publishers, 2012: 243-248.
[12] 马明焕,王新浩,许晓辉,等.基于数据挖掘技术的事故隐患预警方法研究[J].中国安全生产科学技术,2017,13(7):11-17.
MA Minghuan,WANG Xinhao,XU Xiaohui,et al.Research on the method of hidden danger early warning based on data mining [J]. 2017, 13(7):11-17.
[13] 王新浩,秦绪华,罗云.基于垂直数据格式的企业隐患预警方法研究[J].中国安全科学学报,2017,27(2):157-162.
WANG Xinhao, QIN Xuhua, LUO Yun,et al. Research on vertical data format based method for enterprise hidden trouble early warning [J]. China Safety Science Journal,2017,27(2):157-162.
[14] ZAKI M J. Scalable Algorithms for Association Mining[J]. IEEE Trans.knowl.data Eng, 2000, 12(3):372-390.
[15] 程学旗,沈华伟.复杂网络的社区结构[J].复杂系统与复杂性科学,2011,8(1):57-70.
CHENG Xueqi,SHEN Huawei. Community structure of complex networks[J]. Complex Systems And Complexity Science, 2011, 8(1):57-70.
[16] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R A. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics-Theory and Experiment, 2008(10): 155-168.
[17] 董红磊,李邦宪,薄柯,等.我国长管拖车安全技术发展综述[J].中国特种设备安全,2014,30(8):1-5.
DONG Honglei, LI Bangxian,BO Ke,et al. Review of the development of tube trailer cylinder on safety technology [J].China Special Equipment Safety, 2014, 30(8):1-5.
[18] 骆辉,薄柯,李邦宪,等.高纯气体长管拖车结构特点及定期检验问题[J].中国特种设备安全,2016,32(3):35-39.
LUO Hui, BO Ke,LI Bangxian,et al. Structure features and periodic inspection problem of high purity gases tube trailer [J].China Special Equipment Safety, 2016, 32(3):35-39.