基于规则模式的瓦斯爆炸事故信息抽取技术
2023-03-27梁建军雷咸锐蔡忠杰
梁建军,雷咸锐,吴 斌,蔡忠杰,栗 婧
(1.山西潞安化工集团 能源事业部,山西 长治 046204;2.中国矿业大学(北京)应急管理与安全工程学院,北京 100083)
据统计2005—2020 年我国煤矿重大级别以上事故共发生253 起,伤亡5 125 人,其中瓦斯爆炸事故占各类重特大事故发生数的45%,伤亡人数的57%。对煤矿事故报告进行分析发现所有的事故皆为责任事故,且研究表明在引起事故发生的直接原因中,人的不安全行为约占80%。因此,开展行为安全研究,规范人作业过程中的行为,对于预防事故发生具有重要意义。事故案例致因分析是获取行为原因的主要方法。目前,案例致因分析多由人工阅读的方式对文本中描述的致因信息进行识别,但该方式费时费力,且获取的结果会受人主观因素影响。信息抽取是自然语言处理研究领域的重要组成部分,主要研究内容为从文本中提取特定描述信息[1]。基于此,希望借助信息抽取技术,以事故致因理论为指导,构建适用于煤矿瓦斯爆炸事故致因信息抽取方法,以快速获取事故文本中的致因信息,探索事故发生规律,为煤矿安全管理工作开展提供数据支撑。
近年来,国内外学者对信息抽取技术进行了研究:XU Hua 等[2]对MedLEE 医疗信息抽取系统进行改进,构建了MedEx 医疗药物信息抽取系统,利用患者诊疗记录对系统抽取结果的准确性进行了验证;SPASIC 等[3]为克服从医疗报告中获取关于治疗药物详细信息难的问题,设计了一种适用于临床医疗数据信息的抽取系统;原欢[4]为解决远洋运输业人工处理业务邮件信息效率低下的问题,利用GATE 提供的文本工程体系框架,基于规则信息抽取技术构建海洋货运电子邮件关键信息抽取方法;孙水华[5]构建基于规则模式的抽取算法模型,对中医针对文档中的数据进行了自动抽取;梁帅[6]、刘茜茜[7]为提升病理文本数据的利用率,以病理文本数据为研究对象,构建了结构化信息抽取系统,该系统可实现病理文本数据信息自动化结构抽取,辅助医疗人员进行疾病诊断。从上述文献梳理可以看出,国内外学者对信息抽取技术的应用取得了很多成果。
1 理论基础
1.1 事故模型选择
目前常用的事故致因模型有人因分析模型(HFACS)、STAMP 模型、事故致因“2-4”模型(24Model)、SCM 模型、AcciMap 模型。事故致因模型各有优缺点,为选出最适用于煤矿领域的事故致因分析模型,将从事故模型的系统性、组成方面进行比较。SCM 模型[8]和HFACS 模型[9]属于简单链式事故致因模型,事故原因的发生存在先后顺序,原因之间逻辑关系清晰。24Model 模型[10]、AcciMap 模型[11]和STAMP 模型[12]均属于网状事故致因模型,从系统的角度,较为完整地描述了事故致因之间的相互作用关系,认为事故原因之间既存在层级之间的正向和反馈作用,也存在因果之间的相互作用,更能够准确地反映现今复杂的社会-技术系统的真实情况。除STAMP 模型外,其他模型均为模块化事故致因模型。模块化适用于大量案例分析时进行原因统计分析,便于使用和从事故报告内获取原因进行分类。与其他致因模型相比,24Model 模型将事故原因模块化,有利于对事故原因的归类统计和定量分析;各模块具有明确的定义和严格的界限,能够保证事故原因彼此独立;其多用于煤矿事故的分析,作为一个复杂网络的事故致因模型,网络中明确了事故原因之间的相互作用关系,基于24Model 模型的网状特点,通过进行大量的事故分析,能够识别出瓦斯爆炸事故中的关键原因。因此,选取24Model 模型作为研究开展煤矿瓦斯爆炸事故致因研究的理论基础和分析工具。
1.2 24Model 模型定义
事故致因24Model 模型是在事故致因模型基础上研究形成,至今先后经历了6 个理论发展阶段[13]。24Model 模型认为不安全行为和不安全物态是引起事故的直接原因;在对行为的发出者识别方面,认为动作发出者应涵盖组织内对事故发生影响的所有工作人员;在间接原因组成上,将间接原因归结为个人能力不足导致,其影响因素包括知识、意识、习惯、心理和生理5 个方面。24Model 模型认为引起事故的根源原因和根本原因是由组织层面导致,将根本原因归结为安全管理体系缺失,事故发生的根源原因归结为企业安全文化的缺失。
以24Model 模型为理论框架,基于规则模式的方法对事故致因信息抽取,需明确致因因素各模块的定义和识别方法,以使计算机在处理文本时能够准确抽取目标信息。
1)不安全行为。24Model 模型给出的不全行为定义为对当次事故发生有重大影响或者引起激活当次事故的行为。可依据规章、事故案例和风险评估3种方法对其识别[10]。
2)不安全物态。24Model 模型对不安全物态的定义为对事故发生有重大影响物态,其识别的方法有3 种:违规的物态;不违规引起事故的物态;风险评估后认为存在高风险的物态[10]。
3)间接原因。24Model 模型认为引起事故的间接原因包含知识、意识、习惯、心理和生理5 类因素[10]。安全知识对意识、习惯、行为、物态均具有较大程度的影响[14],安全知识影响路径如图1。从图1 可以看出,知识对事故的影响存在3 条影响路径,分别是因安全知识不足直接导致不安全行为和物态产生;安全知识不足引起安全意识降低或安全习惯不佳,通过安全意识或习惯对不安全行为和物态产生作用。在间接原因分析上,仅对24Model 中的安全知识不足进行抽取。
图1 安全知识影响路径分析Fig.1 Safety knowledge influence path analysis
1.3 信息抽取技术选择
基于机器学习的统计抽取、基于自然语言理解抽取、基于规则模式抽取[15]是从文本中实现信息抽取的3 类主要技术方法。基于自然语言理解的信息抽取方法技术复杂,不适合广泛信息的抽取;基于机器学习的统计抽取方法常用于分类和预测研究,侧重于研究文本关键词的分布,抽取结果准确性有待商榷;基于规则模式的信息抽取方法对所研究的文本语言,领域以及文本格式有着严重的依赖性,且可移植性弱,但针对同一类事故的抽取而言,其相对于机器学习的统计方法和自然语言理解方法抽取准确率相对要好,可以更精准地获取待抽取文档的主要特征信息。结合研究的内容,选择基于规则模式的文本抽取技术作为瓦斯爆炸事故文本致因信息抽取的方法。
1.4 事故致因分析范围确定
事故是组织根据适用要求规定的、造成确定负效应的1 个或者一系列意外事件,从事故定义可以看出,事故发生在组织之内。以24Model 模型为事故致因理论依据,研究对象为煤矿瓦斯爆炸事故,因此选取事故矿井作为分析的组织范围,煤矿的上级单位、政府监管单位等导致的事故致因因素不计入分析范围。结合上文的阐述,确定事故致因分析范围和识别的内容。在原因方面主要识别内容为不安全动作,不安全物态和安全知识不足。
2 基于规则模式的致因信息抽取
2.1 致因信息抽取步骤
基于规则模式抽取算法,将煤矿瓦斯爆炸事故致因抽取分为预处理、事故文本关键信息抽取、分词处理、信息匹配、间接信息抽取等5 步。
1)预处理。将事故报告文本类型转为txt 格式,根据事故报告的特点,将1 篇完整的报告分为:首段、矿井概况、事故经过、事故原因和责任者的处理建议5 个部分,并将各部分内容存储至不同的列表中。
2)事故文本关键信息抽取。利用通用“抽取规则+关键词”对事故描述中关键语句进行抽取。
3)分词处理。对提取出的语句进行分词处理。
4)信息匹配。将语句分词的结果与原因词典中的信息进行匹配,凝练语句,获取引起事故的不安全行为和物态。
5)间接信息抽取。将不安全行为及物态结果分别与安全知识词典的键进行匹配,推导出缺失的安全知识。
2.2 规则模式抽取方法构建
事故致因抽取算法图如图2。
图2 事故致因抽取算法图Fig.2 Algorithm diagram of accident causes extraction
事故原因信息描述多样、复杂多变且描述无规范格式,所以依靠固定的规则模式难以获取。通过对2005—2020 年间的事故案例库梳理发现,事故原因信息描述中常含有固定的词语搭配,比如因违章爆破而导致事故发生,在原因描述中会出现“爆破”、“炮”、“违章”等词汇,所以若想通过信息抽取技术获取导致事故发生的原因信息,可通过构建原因“通用规则模式+关键词”的形式对含有关键词的句子进行提取,对抽取的关键语句进行分词处理,将分词结果与事故致因字典的键进行匹配获取最终的事故原因描述。因此,构建高质量的关键词库和事故致因字典对信息抽取技术抽取的结果至关重要。
研究所使用的事故致因字典和关键词库是通过文献分析[16-17]、小组讨论、煤矿现场调研等方法获得。获取的关键语句部分关键词库见表1。
表1 关键词词库Table 1 Keywords thesaurus
事故致因字典有3 部分组成,分别是行为、物态、安全知识字典。行为字典的作用是对文本抽取出信息进行同义转述,将文本中关于不安全行为的描述转为简短凝练的专业术语;物态字典同理;安全知识字典作用是根据获取的原因信息识别出导致事故发生的安全知识不足和管理体系欠缺的方面信息。部分事故致因字典信息见表2,表2 中:键的作用是用于匹配关键语句分词结果;值为输出的原因信息描述。
表2 事故致因字典Table 2 Accident cause dictionary
2.3 事故致因抽取实现及可视化
目前常用于科学信息分析的编程语言有Java、C++、Python、R 语言4 类。Python 是一种面向对象的脚本语言,具有的丰富且强大的库函数可供调用,如数据分析库Pandas、自然语言和文本处理库NLTK、Re 等。所构建的事故致因信息抽取方法应用研究,属于自然语言处理领域,可选择Python 作为抽取结果实现的编程语言。与C++、Java 等汇编语言相比,Python 具有大量的自然语言处理和数据分析相关的库函数;代码可读性强,简单易学。
目前比较常见的文本可视化工具见表3。
表3 文本可视化工具Table 3 Text visualization tools
从表中可以看出:从绘制图类型的丰富度、是否支持中文和代码量3 个方面比较,Pyecharts 均优于其他4 类可视化工具。Pyecharts 基于Python 环境开发设计,可绘制的图类型有柱状图、雷达图、可视化地图、树状图等,且绘制图形具有动态特征,可用于网页的交互设计,事故致因结果展示选择Pyecharts作为可视化工具。
3 基于规则模式的事故分析验证
选取2007 年山西省临汾市洪洞县左木乡瑞之源煤业公司重大瓦斯爆炸事故案例进行抽取展示,并将信息抽取结果分别以Html 文档和Excel 文件保存,便于人工后续对结果的统计分析。
3.1 事故致因结果抽取
1)事故基本信息。2007 年12 月5 日左木乡瑞之源煤业公司发生1 起瓦斯爆炸事故,共伤亡105人。5 日23:00,调度值班员听到井下爆炸声后向正副矿长汇报;副矿长在井口询问情况后到通风机房送电失败,盲目组织人员下井施救,致使15 名施救人员CO 中毒死亡;6 日5:00 向安监局报告事故。经调查,事故发生地点处于无风作业状态,造成瓦斯大量积聚超限,工人违章爆破产生火焰引爆瓦斯。事故直接原因:①该矿超层越界、乱采滥挖;②非法盗采的9#煤层以掘代采作业点(40 m 盲巷)无风作业,造成瓦斯积聚,达到爆炸界限;③违章放炮产生火焰,引起瓦斯爆炸;煤尘参与爆炸。事故间接原因:①该矿长期违法超层越界盗采9#煤层;②违规超能力;超定员组织生产。事故发生后,该矿未按规定及时上报,迟报近6 h;在施救人员没有佩戴专业救护装备的情况下,盲目组织施救,造成次生事故的发生;该矿在停产整顿期间严重超能力、超定员组织生产;在盗采9#煤层时,没有合理的通风系统,没有安装瓦斯检测监控系统。
2)事故致因信息抽取。将处理为txt 文本类型格式的报告,读入致因信息抽取脚本程序,首先对文本进行分块预处理,并对事故原因描述段落进行打印。
对事故致因信息进行抽取,加载事故致因词典和关键词库至程序,对事故原因段落的关键语句进行抽取。调用Jieba 分词工具,对关键语句进行分词,在完成分词工作后通过与事故致因词典进行匹配,获取引起本次事故致因分析结果。使用Pandas对结果进行封装,形成Excel 文件;利用Pyecharts 对抽取所得的数据进行可视化处理,形成Html 文档,将Excel 文件和Html 文档导出保存。
使用Google Chrome 浏览器打开导出Html 文档,可查看事故致因可视化Tree 图结果,事故致因信息可视化情况如图3。
图3 事故致因信息可视化Tree 图Fig.3 Visualization Tree of accident cause information
3.2 事故致因信息人工分析
24Model 模型事故原因分析图如图4。
图4 24Model 事故原因分析图Fig.4 Accident cause analysis diagram of 24Model
利用24Model 对本事故原因进行人工分析,主要内容为一次性行为和物态。一次性行为是事故发生的直接原因,包括不安全行为和不安全物态2 个方面。分析事故报告可知以下问题:①不安全行为:放炮不使用水炮泥封孔、没有合理的通风系统、超能力生产、未执行“一炮三检”、采取作假图纸进行生产、超层越界、乱采滥挖;②不安全物态:工作面无风、瓦斯超限、无瓦斯监控系统。
3.3 抽取结果验证
为验证抽取结果的准确性,简单对构造抽取方法获取的直接原因统计结果与事故报告及人工分析进行对比,程序抽取与人工分析对比见表4。
表4 程序抽取与人工分析对比Table 4 Comparison between program extraction and manual analysis
由表4 可知:程序抽取所抽取的致因因素均包含在内,且更具有逻辑性,更具有事故预防的实用性;而人工分析事故报告中将原因简单分为直接原因和间接原因,未将原因进行分类,难以根据原因结果提出预防对策;程序抽取与人工分析进行对比,可发现在准确率方面,契合度较高,覆盖人工分析所得结果的90%,由此证明了所构建方法的可靠性和抽取结果的准确性,能够用于瓦斯爆炸事故的分析。
4 结 语
通过学科交叉的方式,构建基于规则模式的煤矿瓦斯爆炸事故信息提取技术方法,对在非结构化文本中快速提取瓦斯爆炸事故信息,基于大数据的安全生产态势动态评估及指导安全生产进行精细化管理具有重要意义。针对专业性较强的案例致因提取,提出了基于规则模式的煤矿瓦斯爆炸事故信息抽取技术的方法和流程;在事故致因24Model 模型基础上,构建了煤矿瓦斯爆炸事故的关键词库和事故致因字典;将抽取结果与人工分析进行对比,抽取的致因结果覆盖人工分析的90%,证明所构建方法的可靠性和抽取结果的准确性,能够用于瓦斯爆炸事故的分析。