基于RNN的煤矿安全隐患信息关键语义智能提取系统
2021-03-26陈梓华马占元李敬兆
陈梓华,马占元,李敬兆
(1.安徽理工大学 电气与信息工程学院,安徽 淮南 232001;2.大同煤矿集团有限责任公司,山西 大同 037000
煤矿安全检查是煤矿企业日常生产与管理的重要环节[1]。现阶段,煤矿日常安全隐患排查流程主要采用定期派遣工作人员下井检查记录,并将检查后存在的隐患问题通过书面文档的形式汇总,上级排查人员以隐患问题记录项为条件,检索煤矿安全规程违反条例项,录入煤矿安全隐患智能语义采集与决策系统,最终通过系统分析决策,制定安全隐患事故解决措施[2]。其中,煤矿安全生产检查与记录存在以下问题:安全隐患问题描述不准确且繁杂,对于相同安全隐患问题表述方式不统一等。此类问题致使煤矿安全隐患检索效率低下,无法实现煤矿安全隐患实时排查处理。政府和煤矿企业迫切需要一种智能过滤隐患表述中不必要词句,实时精确检索煤矿安全隐患关键词的煤矿安全隐患语义信息智能提取系统。
目前,国内外针对煤矿安全隐患语义特征提取等方面的研究相对较少[3,4],但对于网络文本语义分析等相关方面的研究相对完善,主要采用加权匹配相似度[5-7]、深度学习算法[8-11]等方法。其中,文献[5]针对普通关键词提取方法未考虑词间隐含关系,提出了一种依据词语文本图和间的相似度进行加权,使用随机游走的方法迭代计算出相关节点间的相似度,最终以降序的排序方式获取文本关键特征词。该方法获取短文本体征词典准确率较高,但无法解决煤矿安全隐患表述冗余且不准确现象。文献[9]介绍了一种基于的全卷积神经网络的高精度文本特征图语义分割方法,该方法通过特征图切分模块,局部区域放大特征,高效且精细分割边缘,使得网络语义判别力得到提高。文献[10]提出了一种基于CNN-LSTM的短文本语义特征提取模型,通过划分大小不同的卷积窗口,引入长短记忆模型分析文本中语义情感倾向,从而提取短文本的语义特征。文献[9]和[10]使用了基于不同神经网络算法的深度学习方法,动态划分待提取特征区域,进行细密语义特征提取,但对于煤矿具体安全生产场景适应性不强,无法高效筛选特定煤矿安全隐患关键词,且未涉及相同安全隐患表述不统一现象。
本文针对上述研究存在煤矿安全隐患描述繁杂现象与相同问题表述方式等问题,提出了一种基于循环神经网络(Recurrent Neural Network,RNN)的煤矿安全隐患智能提取系统,实现规范化存储隐患数据,实时精确提取待检索关键词,准确获取对应煤矿安全规程违反项,规范化存储相关安全隐患数据,提高煤矿安全检查核心人员的工作效率。
1 煤矿安全隐患关键语义智能提取系统架构
煤矿安全隐患信息关键语义智能提取系统主要采用基于RNN语义特征提取的关键技术。本系统后台依次遍历煤矿安全隐患描述项语句,以逗号为界限分割语句,逐句提取关键语义特征,积累过往提取的特征记忆,获取安全隐患特征关键词,最终使用系统数据库数据处理技术,通过语义关键词映射表,实现煤矿安全规程违反条例项的精确检索。
煤矿安全隐患关键语义智能提取系统由数据采集层、模型推理层、特征提取层、智能检索层构成,如图1所示。
图1 煤矿安全隐患关键语义智能提取系统结构
1.1 数据采集层
数据采集层主要采集的是日常安全隐患排查后的问题汇总项数据。煤矿安全人员周期性的将煤矿井下安全检查隐患问题汇总,核心检查人员依据隐患程度筛选,人工统计安全隐患需待检索项,并以“时间-地点-问题-人员”格式的文档存储。同时,人工分析煤矿安全规程条例内容,提取标准关键词并建立“一级-二级-三级”多级模式的煤矿安全规程条例项存储数据库,各级分类数据表间的索引等。数据采集层结构如图2所示。
图2 数据采集层结构
1.2 模型推理层
基于RNN的煤矿安全隐患关键语义提取模型推理层是本系统的核心。系统通过已获取的物理信息源,如煤矿安全人员记录的隐患时间、地点和内容等,进行实际需求分析、算法逻辑设计、实例化对象等操作,构建出基于RNN的煤矿安全隐患数据关键语义提取模型,经过测试反馈调整,从而使用稳定的系统模型来进行精确语义关键词提取。基于RNN的煤矿安全隐患关键语义提取模型推理过程,如图3所示。
图3 模型推理层结构
1.3 特征提取层
特征提取层主要是对煤矿安全隐患记录内容中的关键词精确提取,服务器数据库初期构建标准关键词字典和同词性相近词词典,随着数据量增加,各词性相近词词典不断丰富,待检索语句基于煤矿隐患信息关键语义智能提取模型处理后,该语义关键词可映射数据库标准关键词,规范安全规程关键词检索操作,如图4所示。
图4 特征提取层结构
1.4 智能检索层
智能检索层主要工作方式是多级分类数据表互联索引。该系统调用数据映射的标准关键词至服务器数据库,依据类别各级所属数据表进行递进式检索,“一级分类”按照煤矿安全规程专业分类分为“一通三防、掘进、防治水、机电等”,“二级分类”依据为“人员、设备、环境等”,“三级分类”根据隐患程度分为“一般隐患、重大隐患、红线隐患”,各级类别表之间采用一对多的链式存储模式,最后一级数据表采用平面数组方式定向存储隐患程度、标准关键词词典、安全规程编号与名称、条例编号、条例内容等关联属性项。系统通过特征提取层获取到的标准关键词与标准关键词词典中的词句匹配,从而并行式进行煤矿安全规程违反条例项精准检索,如图5所示。
图5 智能检索层结构
2 基于RNN的关键语义智能提取模型构建
基于RNN的关键语义智能提取模型构建过程如图6所示。其核心思想是:首先将以逗号为界限进行语句分割,从首句开始,比对同词性相近词数据表,过滤句中除名词和动词以外的词,通过0,1,2,…,n的序列对初提取关键词标号,并以正向对角阵的形式输出;然后在记忆第一句的基础上,对第二句进行关键词提取,建立对角阵,直至系统检测遍历到句号终止,获取由正向对角阵构成的特征矩阵;接着,通过特征矩阵与词性权值矩阵,得到输出层正向方阵序列,最后通过最大池化函数,以一维n×1的矩阵存储各时段关键词的最大系数,从而获取对应的关键词组输出,映射标准关键词数据表,即可得到煤矿安全隐患表述项的标准关键词组,从而进行后续煤矿安全规程精确检索功能。
图6 基于RNN的关键语义智能提取模型原理图
基于RNN的关键语义智能提取模型算法步骤如下:
1)初始阶段,设输入的关键词待提取语句为Ci,(如:待提取语句为“煤矿人员没戴安全帽,请戴安全帽”;样本权重为1),其样本权重为Ui,同词性相近词数据表为W(v,n),并对数据表中每个词标识Wid,以便后续辨识,记匹配过滤后获取的词集为Xi,(例如:第一次过滤前词集为“煤矿”“人员”“没戴”“安全帽”;多次过滤后词集为“人员”“戴”“安全帽”“戴”“安全帽”; 分别为1,2,3,2,3),则输入层中提取各阶段初始词集合,可用式(1)表示。
2)记动词词性权值为Wv,名词词性权值为Wn(如“戴”的权值为0.8,“人员”“安全帽”的权值为0.6,),样本在t-1时刻的记忆为hi=t-1,t-1时刻输入语句获取的关键词词集矩阵为St-1。当t=1时,St=X1,则St-1元素表示为:{V(t-1)i,i,N(t-1)j,j},则t-1时刻词集中动词集合V(t)和名词集合N(t)具体形式,可用式(2)表示。
St-1={V(t-1)i,i,N(t-1)j,j+ht-2}=
{v1,1,v2,2,…,vi,i,n1,1,n2,2,…,nj,j+ht-2}
(2)
则:示例语句第一次的关键词集矩阵为S1=diag(0,0.8,0.6,0.6)。
由于t时刻词集的提取需要考虑t-1时刻的记忆,则t时刻关键词词集矩阵表达式St见式(3)。关键词样本在t时刻的样本活动情况见式(4)。
St={V(t-1)i,i,V(t)i+1,i+1,N(t-1)j,j,N(t)j+1,j+1}
(3)
ht=St-1Wn+St-1Wv+UtXt
(4)
3)记各时刻提取的关键词词集St集合为矩阵F(v(t),n(t))见式(5),则隐含层处理后输出的特征关键词矩阵O(1,…,t-1,t)表达式见式(6)。
O(X1,…,Xt-1,Xt)=F(v(t),n(t))×[Wv,Wn]T
(6)
则:示例语句算法处理后特征矩阵为F(v(2),n(2))=diag(0,0.8,0.6,0.6,0,1.8,1.6,1.6)。
则:示例语句的F(v(2),n(2))在隐含层处理后的关键词特征矩阵为O(X2)=(0,0.6,0.4,0.4,0,1.4,1.0,0)T。
4)将获取到的输出结果集进行最大池化,获取每一时刻最大权值,同时依据中所在矩阵位置编号获取关键词标识Wid,考虑样本活动强弱,从而得到局部语义关键词数列Q{Q1,Q2,…,Qn},其池化公式见式(7)。
(7)
则:示例语句的局部语义关键词数列Q{Q1,Q2}={(0.8)T,(1.4,1.0)T},其对应的Wid为(2,2,3)。
5)对相同局部关键语义关键词标识Wid进行化简,得到全句最终语义关键词集合P{P1,P2,…,Pn},则可得到示例语句提取的关键词集合为{“戴”,“安全帽”}。
3 实验与应用分析
山西同煤集团于2018年1月采用了基于CNN的煤矿安全隐患智能语义采集系统,2019年6月份开始使用该系统。
本文为验证基于RNN的关键语义智能提取模型在不同语句长度条件下,标准关键词命中率以及用于检索过程中关键词检索准确度和消耗时间,在山西同煤集团下属的忻州窑矿区煤层进行了相关实验。实验1:实验采样待提取关键词数据量为10000条,实验分组10组,每组1000条。将基于RNN的关键语义智能提取模型(模型1)、基于CNN算法的智能采集模型(模型2)[2],以及相似关键字匹配算法模型(模型3)应用于安全隐患违反条例项的检索过程中,检索均采用煤矿安全隐患智能采集与智慧决策系统软件[12-15],验证其提取关键词的准确度,召回率,F-score值(评判指标)和消耗时间,实验结果对比见表1。其中,召回率=[(正确检索的条数)/1000],准确率=[(正确检索的条数)/(实际检索的条数)],F-score=[(2*准确率*召回率)/(准确率+召回率)],耗时=关键词提取耗时+检索耗时。
表1 各模型提取语义关键词检索的平均精确率与耗时实验结果对比
通过表1的对比实验表明:与基于其他模型的系统相比,基于RNN的关键语义智能提取模型的检索系统,语义提取准确率高、综合评价F-score值等评判指标优、提取语义关键词检索耗时少,解决了安全隐患关键语义提取效率、语义表述不规范,以及精确度不够高问题,保证了安全检查人员的条例检索效率,大大减轻了其日常工作量。
实验2:实验采样待提取关键词的语句长度为10、30、50、70、100、120、140、160、180和200字,在不同长度语句,基于RNN的关键语义智能提取模型和基于CNN的智能采集模型,共进行10组实验,一组两模型各10次,进行映射标准关键词命中率平均趋势对比,实验结果如图7所示。
图7 不同长度语句下标准关键词命中率实验对比结果
通过图7标准关键词平均命中率变化趋势对比,可以得出:基于RNN的关键语义智能提取模型和基于CNN的智能采集模型在语句长度为100字以内时,标准关键词映射命中率均非常高;随着语句长度的增加,基于RNN的关键语义智能提取模型关键词映射命中率趋于高系数稳定,而基于CNN的智能采集模型呈现下降趋势,关键词平均命中率最终低于90%。实验验证了基于RNN的语义特征提取算法具有高可靠性,且适用于煤矿企业安全生产检查环节。
4 结 语
煤矿安全隐患信息关键语义智能提取系统针对现阶段煤矿安全生产面临的严峻问题,以循环神经网络为基础,构建语义关键词智能提取模型,高效获取语义关键词,为精准检索安全规程条例项提供条件。该系统解决了煤矿安全隐患问题表述不标准,核心隐患问题描述不清等问题,提高了煤矿安全隐患排查能力,减轻了日常安全检查人员的工作量,极大促进了煤矿企业安全生产管理的智能化。