APP下载

面向非均衡文本信息的企业生产安全氛围智能感知模型

2022-05-30谢汉青邱少辉王寓霖段在鹏

安全与环境工程 2022年3期
关键词:分类算法生产

谢汉青,邱少辉,王寓霖*,张 灿,李 帆,段在鹏

(1.中铝东南材料院(福建)科技有限公司,福建 福州 350015;2.中铝瑞闽股份有限公司,福建 福州 350015;3.福州大学环境与安全工程学院,福建 福州 350108)

良好的企业生产安全管理是企业正常安全生产的重要保障,企业安全生产管理相关研究常集中于事故致因理论[1]、事故防控模式[2]、事故分析模型[3]等领域。近年企业安全生产管理研究尤其注重人因管理[4],其相关研究开始集中于安全文化[5]、安全氛围[6]、安全行为[7-8]等领域,其中安全氛围以其涵盖范围广、形式新颖等特点成为企业安全生产管理研究的热点。1980年,Zohar[9]首次用安全氛围表示安全文化,可见安全氛围和安全文化在某种程度上是相似的,都反映了班组和企业的一种潜在的文化状态;同年,Zohar提出了安全氛围的定义,称其为“组织内员工共享的对于具有风险的工作环境的认知”[10]。之后,国内外学者对安全氛围的定义也都与此类似,如Alistair等[11]提出安全氛围包括员工对安全问题的态度,对员工参与处理安全问题的评价等因素;张江石等[12]提出组织和群体对安全问题的认识构成了安全氛围,并进一步建立了72个安全氛围的指标要素和构成模型;施妃霞等[13]研究了机场安全氛围与机场员工安全行为之间的关系;Zohar[14]在其研究中指出,在安全氛围较差的企业或组织中,员工更容易出现违章操作等不安全行为;Probst等[15]研究指出,安全氛围对工作场所中存在的安全风险具有预测性,营造良好的安全氛围能够降低生产事故的发生,从而提高企业安全业绩;邱东阳等[16]利用文献计量法梳理了安全氛围领域总体发展现状及研究热点;Le等[17]研究了工会会员与美国成年工人对安全氛围看法之间的关联。

纵观国内外对安全氛围的研究发现,其研究方法大部分是基于人工统计调查,采用人工处理大量文本信息,具有主观性较强、容易漏查某些关键信息等缺陷,并且传统有关安全氛围的研究停留在简单的定性判断,仅有少量的定量数据分析,缺少实际的应用价值。随着科技的飞速发展,传统的分析方法现今已不能满足安全氛围领域的统筹研究。

智能化文本挖掘是由计算机自动提取文本特征,依据一定的算法,将文本按内容或属性归到一个或多个类别的过程[18]。文本分类技术能够充分挖掘文本知识,其中很重要的一个步骤就是分类模型的选择和构建。目前已有许多机器学习方法被应用到文本分类中,主要有SVM[19-20]、DT[21]、KNN[22-23]、Adaboost[24-25]等方法,如樊兴华等[26]利用朴素贝叶斯提出了一种新的高效的文本分类技术。文本分类的应用研究也十分广泛,如刘昭等[27]提出了一种基于社交网络数据的交通突发事件识别方法;薛楠楠等[28]利用文本挖掘方法研究了建筑工人的不安全行为,验证了文本挖掘和因素分级结果的实用性和合理性;葛继科等[29]针对火灾文本中各类别分布不均衡的特点,提出了一种基于改进朴素贝叶斯的文本分类算法,用于对其进行相对准确的分类。但是,目前对于企业生产安全氛围文本信息分类的应用研究较少,且几乎未见智能感知模型在企业安全氛围研究方面的应用。然而大量研究表明,安全氛围对改进企业员工的不安全行为有积极的作用,而智能化方法能够充分利用企业安全生产过程中产生的安全检查数据来对企业生产安全氛围的文本信息进行挖掘,因此智能化挖掘企业生产安全氛围文本信息,全面开展企业生产安全决策十分必要。

海因里希法则说明了在机械事故中,死亡或重伤、轻伤或故障以及无伤害事故数量的比例接近1∶29∶300。对于不同的生产过程,不同类型的事故,上述比例关系不一定完全相同,但这个统计规律说明了在进行同一项生产活动时,无数次意外事件必然会导致重大伤亡事故的发生。而在实际的企业安全生产活动中,事故程度明显存在不平衡现象,相应产生的安全检查数据也为非均衡的样本数据。在智能感知模型的研究中,不均衡的样本数据会使学习模型产生偏差,所占比例较大的类可能导致在模型训练中出现过拟合现象,智能感知模型训练需在均衡数据的基础上开展。因此,需要利用类SMOET算法对非均衡的样本数据进行均衡化处理。为此,本文提出了一种面向非均衡文本信息的企业生产安全智能感知方法,该方法利用机器学习算法和自然语言处理技术充分挖掘企业生产安全氛围文本信息。首先对原始文本数据进行停用词和分词处理;然后构建了“类SMOTE”算法生成少数类样本,用于解决文本数据不均衡问题,并利用基于隐含狄利克雷分布(LDA)主题模型提取样本主题;最后使用多种算法构建文本分类器,实现了安全氛围主题辨识和安全氛围等级预测,进而智能感知企业的生产安全现状。

1 企业生产安全氛围文本信息预处理

在收集归纳企业的生产安全氛围文本信息时,由于企业文本数据量较大,采用文本分类技术对其进行科学的组织和管理显得尤为重要。在实证研究过程中,基于东南某有色金属加工企业的安全管理信息系统(Safety Management Information System,SMIS),收集了2015—2019年该企业生产全过程共126 009条安全生产文本信息,依据文本信息对企业生产安全氛围现状进行计分。本研究中原始文本数据与软件的连接方式(数据输入方式)为:首先基于企业SMIS系统导出数据表,并将表格转为CSV格式;然后基于Python开源工具包pandas中的 read_csv()函数将原始文本数据输入至编程软件,输入软件的文本数据经后续切分词、停用词清洗等处理后,进行初步统计并输入相关模型。企业原始文本数据包括员工、所在组织、隐患描述、计分、记录时间等信息,在对企业生产安全氛围文本信息进行分析时,主要依据隐患描述和计分两大项。其中,计分等级[30]是安全相关领域专家和该企业安全管理人员结合该企业实际情况制定,并经过多年管理实践不断修正得出的,代表的是对安全奖惩行为的不同划分状况,具有通用意义。基于着重展示企业典型危险源或危险场所和优先考虑出现频率最高计分项两方面,筛选出示例数据如表1所示。

表1 企业生产安全氛围文本相关信息

表1中选取的为行车、铸造机、污水站、磨床等企业典型危险源或危险场所的数据;从“计分”项来看,表1中所列数据包含0.1、0.2、0.3三类计分项数据量占所有计分项(7项)数据量的94.8%。

由于文本信息大部分没有明确的记录标准,通过预处理可以去掉无用信息,降低模型噪音,因此对文本信息进行预处理非常必要。该企业生产安全氛围文本信息长度较短,同时夹杂着数字、字母以及符号、空格等不同格式信息,这要求在文本信息分析时需要对文本信息进行预处理。企业生产安全氛围文本信息预处理流程,如图1所示。对收集到的文本信息进行预处理包括:去除文本空格、去除文本中的符号、运用jieba分词器(Python生态系统中的中文分词库类)对文本进行分词。查看分词结果,如果对特定或者专业的词汇处理效果不佳,可以利用jieba中的suggest_freq(动态修改词频)对其进行定义划分,重新调整和完善相关词汇,接着去除停用词,最后得到模型训练的文本信息。

图1 企业生产安全氛围文本信息预处理流程图

导入文本数据,经过文本信息预处理后,统计得出分词后的前10个分词频率的柱状图,见图2。

图2 企业生产安全氛围文本信息词频统计柱状图

由图2可知,该企业生产安全重要隐患主要是人员因素,如“钳工”,因此该企业要注重人员管理,可以从加强人员的安全培训教育、规范人员的操作流程、制定完善的安全制度措施、做好安全防护工作等方面不断完善;物的因素主要包括“行车”等,因此该企业要提高操作人员的专业素养,注意行车安全,制定好专门的行车路线和行车通道,重点关注钳工作业的生产安全。

2 基于“类SMOTE”算法的企业生产安全氛围非均衡文本处理

现有文本大部分是非均衡样本,即在分类问题中,不同类别的样本数不相称或数量级相差较大。非均衡样本可能导致企业安全氛围等级预测模型训练过程中出现过拟合现象。

对收集到的该企业生产安全氛围文本数据按分值和字段长度进行分类数量统计,其统计结果见表2。

表2 企业生产安全氛围原始文本字段统计结果

由表2可知:文本计分中95%都为正向得分,表明该企业生产安全氛围状况良好;另外也可发现文本计分类别主要集中在0.1、0.2、0.3三大类,计分类别为0.1的文本信息最多,达到46 414条,即该样本为显著的非均衡样本,如果直接对该非均衡样本进行训练分析,则易产生过拟合现象,会降低少类样本的灵敏性[31-32]。

现有解决非均衡样本的方法主要有合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE),SMOTE算法是随机过采样算法的一种改进方案[32-33],其基本思想是对少数类样本进行分析,并根据少数类样本人工合成新样本添加到数据集中。该算法主要用于不均衡数据的处理,其结果是产生了少数类中的部分数据,这个过程是在少数类全部样本T中,找到样本Xi的K个近邻,然后在K个近邻中随机选择一个样本Xi(n)再生成一个0到1之间的随机数δj,从而合成一个新样本Xij:

Xij=Xi+δj·[Xi(n)-Xi]

(1)

SMOTE算法的优点在于其能够有效消除样本不均衡性,解决多数类样本的存在对模型结果的影响;但该算法的样本生成策略导致其只能处理“数值”型样本,无法处理非均衡文本信息。非均衡文本信息根据SMOTE算法思想[34-35],可设计“类SMOTE”算法来消除文本数据中的不均衡性,该算法对于非均衡文本信息处理方式,其相关的思路具体如下:

(2) 统计原始文本分词长度分布比例,即将文本分词长度人为划分为40n(n是正整数)比例,统计各类别中文本长度分词比例R。

(3) 对于每一个少数类文本,依据该类别中文本的分词频率即取词概率N,选择若干个样本词,构建新的文本。将分类类别文本数据量最大记为P,少数类别中原始文本数量为S,新生成文本长度D=P-S,使得S+D总文本数量中各文本长度分词比例仍为R。

依据上述“类SMOTE”算法思路,对实例中的非均衡原始文本信息进行处理,生成的新文本数据量统计结果,见表3。

表3 企业生产安全氛围文本信息数量对比

由表3可知,新的总文本数量达324 213条,各计分类别的文本数据量基本实现平衡,有助于实现后续模型拟合。同时,该文本数据量的生成也为非均衡文本数据处理提供了新的思路。

3 基于隐含狄利克雷分布的企业生产安全氛围主题辨识

在文本数据量较大的情况下,传统人工处理方法难以对文本信息有一个整体的认知。为了高效获得文本主旨信息,快速找到每个分类文档中的主题分布和每一个主题中词的分布,本文利用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)方法对企业生产安全氛围主题进行辨识。LDA主题模型是一种无监督学习,通过将文档中的词进行分频统计,得出规定数量的主题,并能够计算出每个主题、每个主题上词的概率分布,其在文本识别、文档分类等自然语言处理场景中常有应用。在LDA主题模型中,首先指定一个主题数目K,之后所有的主题分布就都基于K个主题展开。具体基于LDA主题模型的文本信息分类统计图,见图3。

图3 基于LDA主题模型的文本信息分类统计图

基于LDA主题模型的文本信息主题识别具体步骤如下:

(1) 按照概率P(di)选中一篇文档di;

(2) 从Dirichlet分布α中抽样生成文档di的主题分布θm;

(3) 从主题分布θm中抽取文档di第j个词的主题Zm,n;

(4) 从Dirichlet分布β中抽样生成主题Zm,n对应的词分布φk;

(5) 从词分布φk中抽样生成词Wm,n.

根据上述分成7类的安全文本利用LDA主题模型对其进行主题分析,分词统计结果见表4。

表4 基于LDA主题模型的分词统计结果

为了找到文本各类别之间主题分布情况,利用LDA主题模型对各类别文本主题进行分析,得到各分类文本主题内容,见表5。

表5 各分类文本主题内容统计

由表5可以看出:

(1) 将文本主题进行分类,负值-1和-0.5计分类别中“行车”所占比重最高,推测行车安全是该企业生产安全重点;违规操作也是企业安全隐患中的一环;同时,分析发现在生产过程中可能存在由于手机的使用,导致安全隐患和事故发生,故在后续的安全管理过程中,需进一步改进。

(2) 由正向计分类别分析得出,“发现”一词权重较大,表明该企业对发现相关安全隐患事件存在相关的控制措施;同时,安全工作的重点在于人和机器状态的管控。

4 基于机器学习算法的企业生产安全氛围智能感知模型

以上着重对企业生产安全氛围感知中的主题识别方面进行了探究,下面将对企业生产安全氛围感知中的安全氛围等级预测进行研究。本研究先将原始数据输入至编译软件中后,利用“类SMOTE”方法生成少数类别的新文本信息,与原始文本信息一起随机组合,一起作为总文本信息;然后对总文本信息进行清洗后,使用LDA主题模型通过将单个词作为输入,将其传递给该词独有的单个线性隐藏层,并使用softmax激活层预测该词上下文的其他词,从而获取该词的分布式表示,也就是词向量;最后将数据划分为70%的训练集和30%的测试集,进行建模和分析。

不同的分类算法对不同数据的敏感程度不同,需要训练分类算法进行择优。为了寻找最合适的分类预测器,对多种分类算法进行了相关模拟,本文选用了多种回归模型,既有基于线性模型、适用于线性数据的经典分类器,也有基于图论、不易过拟合、适用于低相关度数据的分类器,能够兼顾绝大多数的数据类型;同时,选用的基于3种不同原理的集成模型能够将不同的单分类器进行综合,可提高最终的预测精度,有利于找到适合该类样本的分类预测模型。

为了对模型预测效果进行有效评估,利用不同分类算法模型训练得出各类别文本的F1-Score值分布图和不同分类算法模型训练的总体预测精度图,见图4和图5。

图4 不同分类算法模型训练的各类别文本F1-Score值分布图

图5 不同分类算法模型训练的总体预测精度图

由图4和图5可知:F1-Score值分布图显示出投票法和贝叶斯模型对收集的文本数据训练效果的拟合度较好,总体预测精度达到了0.78,但是投票法模型训练得到的各类别文本F1-Score值分布总体表现更好,说明模型更加稳定,但对训练得到0.1计分类别的分类效果欠佳,可利用处理后新生成的文本数据,通过多种分类算法模型对获得的数据集进行模拟分类;单分类器K近邻模型对文本数据模拟得到整体预测精度为0.31,模型的拟合效果精度不理想,整体的召回率也偏低,不适合对大量文本数据进行拟合。

总结上述文本信息处理和分析,得出面向非均衡文本信息的企业生产安全氛围智能预测表,见表6。

表6 面向非均衡文本信息的企业生产安全氛围智能预测表

由表6可知,面向非均衡文本信息的企业生产安全氛围智能预测,经过文本信息的分析和处理,通过输入相关文本就可以智能预测输出主题,并科学预测出相关文本的等级分类,有利于企业科学化安全分析及管理。

5 结 论

(1) 利用分词统计所研究的有色金属加工企业生产安全氛围文本信息,结果发现该企业生产安全重要隐患主要是人员因素,对该企业而言,在收集到的企业生产安全文本数据中,机械安全如行车是生产安全需要重点关注的环节,同时对于特种作业员工包括“钳工”等需重点关注其作业的生产安全,规范相关操作流程,加强生产安全监督及管理,落实生产安全责任制。

(2) 借鉴SMOTE算法思想,提出“类SMOTE”算法用于解决非均衡文本信息问题。该方法利用文本分词统计分词频率,以词频作为随机概率值进行取词,按照原始文本分词长度比例生成新的文本,并根据文本分类分词结果中不平衡比例设置采样比例。对于每一个少数类文本,利用该类别的分词频率,依据一定的采样比例,可构建新的文本。该方法的提出,为不均衡文本信息的处理提供了一种新的解决办法,为文本采样提供了新思路。

(3) 通过LDA主题模型可对所研究的有色金属加工企业生产安全氛围主题进行辨识。根据收集的文本信息资料显示:正向计分类别划分主题突显的是及时发现安全隐患,重点是人的不安全行为,包括人员违规使用通讯设备手机、“钳工”等因素;负向计分类别划分主题突显的是现场物的不安全状态,包括“叉车”“卷材”等。

(4) 通过多种算法模型对新生成文本与原始文本构成的组合文本数据集进行训练,结果发现投票法模型的训练效果在该案例中表现最优,达到78%的预测精度,贝叶斯模型虽然预测精度与投票法模型一样,但贝叶斯模型的鲁棒性稍次于投票法模型;其次是堆叠法模型和逻辑回归模型预测精度达到0.76。在后续的研究过程中可以进一步探讨文本分类模型差异的原理,有针对性地进一步提高模型的拟合度。

猜你喜欢

分类算法生产
物联网管大棚 防寒生产两不误
让安全生产执法真正发挥震慑作用
阿宽的生产小组
Travellng thg World Full—time for Rree
注意注意!吸管来袭
按需分类
教你一招:数的分类
说说分类那些事
学习算法的“三种境界”
算法框图的补全