基于人格特质和机器学习分类算法的建筑工人不安全行为识别
2022-11-16周建亮胡飞翔邢艳冬高嘉瑞袁华凯
周建亮, 胡飞翔*, 邢艳冬, 高嘉瑞, 袁华凯
(1. 中国矿业大学力学与土木工程学院, 徐州 221116; 2. 中铁上海设计院集团有限公司徐州设计院, 徐州 221116)
建筑业是中国重要的劳动密集型产业,历来从业人员众多,但因其复杂的施工作业环境和人员管理,建筑安全事故频频发生,安全生产形势异常严峻,使得建筑工人时刻面临发生事故的威胁和遭受风险伤害的挑战。据研究表明,作为建筑现场安全事故的主要参与者和直接受害者,建筑工人的不安全行为是导致事故发生的主要和直接原因[1]。所以,工人的不安全行为应是实践管理的重点对象。
目前,更多的学者将研究不安全行为形成因素的重点集中在工人个体因素、环境因素和组织管理因素3个层面。在个体因素层面[2],主要涉及人的心理因素(情绪、态度、脑力负荷等)和生理因素(生理疲劳、身体状况、工作负荷等)对不安全行为的影响。在环境因素层面[3],主要涉及物理环境(噪声、照明、温湿度等)和社会环境(国家治理监督、社会舆论监督、家庭安全劝导等),其均会对工人的危险感知能力造成影响,从而引起工人不安全行为的发生。在组织管理层面[4],主要涉及组织(安全氛围、安全文化、人际关系等)和管理(领导、沟通、激励、制度等)两个方面,主要影响工人的安全认知,从而导致工人不安全行为的产生。尽管学者们的研究角度并不统一以及具体结论存在偏差,但仍可以发现,个体因素(内因)是影响工人不安全行为的主要因素,而环境因素和组织管理因素(外因)可以通过影响个体因素来间接影响工人的不安全行为。随着不安全行为形成机理研究的不断深入,对于建筑工人不安全行为的产生过程,业内学者也达成了较为一致的共识[5],即施工生产过程中工人受其外部环境的影响,经过其内部心理认知活动的加工处理,最终产生不安全行为。由此可得出,工人行为是其内在认知的外在表现,不安全行为是由认知失误导致并在过程中受到个体差异性的影响。Zuckerman[6]最早研究指出,想要获得高度体验感的人更倾向于出现不安全行为,导致事故的发生。而后Sutherland等[7]也通过观察300多名工人工作,发现有些人比其他人更容易发生事故。这使得一些研究人员开始考虑个性特征与事故发生的相关性,后来Beus等[8]通过一项荟萃分析,提出并统计证实了一个人的个性特征可能会使他们容易变得不安全,从而导致安全事故的发生。因此,对工人不安全行为的管控可以从个性特征入手。
在个性特征的视角下,人格特质作为在思维、情感和行为模式上的个体差异,是个体外在行为的内在动机。因此,工人的人格特质对不安全行为产生的重要影响也是不容忽视的[9]。基于Mccrae的大五人格理论,个体人格特质可分为外倾性、宜人性、责任心、神经质和开放性5个维度。外倾性表现交际能力,宜人性揭示相处态度,责任心描述工作谨慎性,神经质描述情绪控制能力,开放性则表示创新能力和好奇心。2014年,Sing等[10]首次使用艾森克人格问卷调查了建筑工人人格与职业事故之间的复杂关系,发现神经质与事故的损伤程度和伤害数量高度相关,该研究也为建筑工人人格特质对不安全行为的影响研究奠定了基础。2020年,Gao等[11]对280名建筑工人进行调查,发现在大五人格特征中,责任心与建筑工人安全行为的相关性最强,其次是外倾性、宜人性和神经质。Zhang等[9]则基于大五人格模型和计划行为理论,研究发现建筑工人的人格特征、风险倾向和不安全行为意图存在显著关联,且其中的外倾性、责任心和开放性与风险倾向呈正相关从而导致不安全行为倾向的提升。同年,章少康等[12]研究也发现建筑工人的人格特质中的责任心、神经质和宜人性的评分与有意不安全行为呈负相关关系。由此可见,既有研究已经发现人格特质与不安全行为的关联性,但其对不安全行为的作用机理还有待进一步挖掘。除此之外,胡喆等[13]还基于认知模型和大五人格理论,统计分析了533份建筑工人数据,研究了人格特质在不安全行为中的作用以及其应用于现场安全管理中的适用性,发现利用人格特质可以有效判别建筑工人的不安全意图。由此可知,人格特质作为与事故发生概率相关的个体差异,是决定个体行为的关键因素,具有作为个性化安全管理有效工具的价值,然而目前针对人格特质在安全管理中的应用研究还较少[13]。
因此,为更好地实施工人安全管理向个性化发展,探索建筑工人人格特质在安全管理中的应用方案,现以大五人格特质为对象,开展建筑工人不安全行为识别研究。通过分析建筑工人的大五人格属性和不安全行为类别特征,探究不同人格属性映射的行为类别,同时比选机器学习不同分类算法的评估指标,确定识别不安全行为的最优算法模型。以期在拓展人格特质导致不安全行为理论的同时为安全管理实践提供有效借鉴。
1 理论基础
1.1 人格特质与不安全行为
个体人格特质由先天基因与后天经历共同作用形成,对其自身行为和处事风格都会产生一定影响,因而研究人员认为工人的不安全行为与其人格特质必然存在联系[14]。相关学者[8-11]以建筑工人为研究对象,针对大五人格模型中的五种人格维度,对每种人格维度与建筑工人在施工作业过程中的不安全行为关系进行了研究。
大多数研究结果表明[15-17],高外倾性和高宜人性的工人乐于沟通,愿意采用安全措施,以此避免其不安全行为;高责任心的工人能够自觉遵守各项规章制度,采取安全措施保证自身安全;而高开放性的工人虽然可塑性强,通过安全培训能够把精力放在安全行为上,但个体本身喜欢探索创新,愿意冒险,寻求变化带来的刺激,极大增加自身的不安全性;高神经质的工人则容易精神紧张,情绪烦躁,导致注意力不集中,容易发生不安全行为。因此,Beus等[8]提出“工人的人格特质不同就会具有不同的事故经历”,而“事故倾向性”一词也被很多研究人员用来形容更易于发生安全事故的工人的人格特质[18]。
1.2 机器学习分类算法模型
分类与回归树(classification and regression tree,CART)算法:CART与ID3、C4.5、C5.0都属于决策树算法,区别在于为根节点和子节点选择属性时使用的分割标准。ID3、C4.5、C5.0以信息熵为特征选择标准,而CART以基尼指数为标准,从而具有更高的计算效率。因此,采用CART算法来构建决策树,以下3种集成模型也是基于CART算法。
随机森林(random forest,RF)算法:一种通过整合思想集成多个决策树的学习算法,使用装袋方法来训练数据。其工作原理是形成多个弱分类器(决策树)独立学习和进行预测,并最终根据这些先前的预测做出最优预测。因此,它的分类性能优于任何弱分类器。
自适应提升树(adaptive boosting,AdaBoost)算法:一种将多个弱分类器结合成强分类器的集成算法,总体思想是对训练分类器进行循环,不断使用新的分类器对前者进行修正,并给予前拟合不足的训练实例更多的权重,然后用新的权重对新的分类器进行训练,随着权重的不断更新,新的分类器越来越关注这些难题,同时这个循环还在不断前进。
梯度提升决策树(gradient boosting decision tree,GBDT)算法:一种与AdaBoost类似的分类算法,不断使用新分类器并纠正前者。区别在于每个分类器学习前面所有分类器的残差,而不是通过迭代来调整实例权重,并能够适合当前分类器。除此之外,每一轮的GBDT训练都是基于前一轮训练模型的负梯度值。因此,无论GBDT用于分类还是回归,其弱分类器总是CART回归树。
近年来,机器学习模型已被广泛应用于安全研究领域[19],但大多是关于事故严重程度的分类和事故影响因素的相关分析,而针对不安全行为的研究相对较少[20]。所以,现以大五人格特质作为指标,选取具有集成特征且建模思想完全不同的RF、AdaBoost、GBDT三种机器学习方法和CART算法作为分类模型[21],通过比选4种分类算法的准确度,确定识别不安全行为的最优算法模型,具体流程如图1所示。
图1 分类算法识别性能比选流程
2 研究分析
2.1 研究对象与数据采集
以徐州市在建的8个房建类项目的建筑劳务工人为研究对象。调查的数据样本包括建筑工人人格特质数据和不安全行为数据两部分,被调查者的行为数据与人格数据相对应。
人格数据使用简化版大五人格量表(NEO-FFI)进行采集,该量表具有较高的信效度,由5个维度构成,每个维度12道题目,每道题均采用5级计分法。调查历时3个月,共有418名工人参与了调查,共收集418份样本数据,有效数据403份(有效率96%)。被调查者由101个女性和302个男性组成,年龄在25~45岁,工龄控制在5年以内。采用克隆巴赫α系数检验大五人格量表样本的信效度,由表1可知,大五人格量表总体克隆巴赫α系数是0.841,5个维度分量表克隆巴赫α系数介于0.78~0.86,表明量表有较好的内部一致性。
表1 大五人格测量量表信度
行为数据通过半结构深度访谈(SSI)、查阅留存的建筑工程安全罚款单和分发纸质的问题列表(单选题和多选题)等多种方法进行采集,本部分的纸质问题列表不包含量表问题,具体方法见表2。
表2 行为数据采集方法
而不安全行为的分类则采用叶贵等[22]提出的建筑工人不安全行为量化分类框架,根据不安全行为发生的频率和意向性,将不安全行为分为习惯偏差型、程序偏差型、感知偏差型和技能偏差型4类。通过咨询现场管理人员和安全专家,每种类型选取4个具有代表性的不安全行为形成问题列表,具体题项内容和不安全行为类别说明见表3。
表3 问题列表题项和不安全行为类别说明
2.2 散点图和映射关系分析
2.2.1 人格特质-不安全行为散点图分析
为保证数据可靠性,对无效样本进行筛选清除,同时适当删除一些行为频率较低的数据样本,最终保留292个用于数据分析的有效样本,其中每种不安全行为类别各73个。将人格特质得分和不安全行为类型分别进行均值化和标签化处理,由图2所示的大五人格数据散点分布图可知,4种类型的不安全行为分布表现出较好的集聚性,每一类行为的人格特质特征与其他行为都具有较为显著的差异性。可见在具体的施工情景中,不安全行为的出现可能具有偏向性,而这种偏向性会受到建筑工人人格特质的影响,如习惯偏差型和程序偏差型的行为主体责任心较低,而感知偏差型和技能偏差型的行为主体责任心较高,说明高责任心的工人发生不安全行为时更倾向于无意的感知偏差型和技能偏差型不安全行为。从整体分布的情况来看,感知偏差型行为主体的人格特质得分都较高,而程序偏差型的行为主体得分都较低,由此可知各维度的人格要素都会对工人的不安全行为产生影响,但主导因素需要进一步探究。
图2 人格特质-不安全行为数据散点分布图
2.2.2 人格特质-不安全行为映射关系分析
以292名建筑工人人格特质得分的平均值(AVE)和标准差(SD)为阈值[23],将各维度人格特质划分为3个等级:分值大于AVE+SD为高、介于AVE±SD之间为中、小于AVE-SD为低。4种不安全行为类别的人格特质特征分布如图3所示,习惯偏差型的行为主体人格特质表现为高外倾性、中神经质、中宜人性、低责任心、低开放性;程序偏差型的行为主体人格特质表现为中外倾性、低神经质、低宜人性、低责任心、高开放性;感知偏差型的行为主体人格特质表现为中外倾性、高神经质、中宜人性、高责任心、中开放性;技能偏差型的行为主体人格特质表现为中外倾性、中神经质、中宜人性、中责任心、中开放性。由此可知,习惯偏差型主体主要表现为外倾性较高、责任心较低,程序偏差型主体主要表现为开放性较高、神经质较低,感知偏差型主体主要表现为神经质较高、开放性较低,而技能型主体主要表现为整体各特质均衡、局部宜人性较高、开放性较低。
图3 不安全行为人格特质的映射分布特征图
2.3 基于人格特质数据的不安全行为识别
基于筛选得到的292个样本数据作为数据集,其中每种不安全行为类别各73个。将建筑工人的 人格特质数据和不安全行为数据分别进行归一化和标签化处理,以5个人格特质指标作为输入端,4种不安全行为类别作为输出端,采用CART、RF、AdaBoost和GBDT算法分别进行识别。鉴于决策树在生长过程中容易对数据进行过分拟合,导致泛化能力较低,需要对模型参数进行优化,从而实现决策树的特征选择和剪枝,提高模型性能和泛化能力。因此为了获得可靠的优化参数,使用10倍交叉验证[24]和网格搜索相结合的方法进行最优设置的搜索。最终训练好的模型使用准确率(accuracy,A)、精准率(precision,P)、召回率(recall,R)和综合评价指标(F1-score,F1)等评价指标进行评估,各指标的数学含义见表4。
表4 预测模型评估指标说明表
以习惯偏差型不安全行为为例,采用10倍交叉验证对4种分类算法(CART、RF、AdaBoost、GBDT)的性能进行评估。从图4中可以看出,GBDT算法在准确率、精准率、召回率和综合指标四个方面的表现都是最好的,其习惯偏差型不安全行为的指标识别率分别为94.74%、96%、98.63%和97.3%,而后依次为RF算法、CART算法和AdaBoost算法,后面3种算法的识别准确率分别为93.51%、91.03%和89.87%。由此可见,在习惯偏差型不安全行为的预测性能方面,RF算法的预测性能接近于GBDT,表现较好,而AdaBoost各方面指标的表现都较差。
图4 4种分类算法对习惯偏差型不安全行为的预测效果
鉴于准确率、精准率、召回率和综合评价指标(F1)4个评估指标太多,无法对模型进行整体评估,但仅仅使用准确率来评估模型质量又太片面,而综合评价指标(F1)是精准率和召回率的综合指标,所以,选用准确率和综合评价指标(F1)两个指标来评估4种分类算法对不安全行为的预测性能。如图5所示,分别计算4种不安全行为的各分类算法的准确率和F1。
图5 4种分类算法识别不安全行为的准确率和F1值
结果表明,GBDT模型的整体识别准确度和F1分别为91.52%和96.24%,RF模型的准确度和F1分别为90.87%和95.19%,AdaBoost模型的准确度和F1分别为89.07%和94.18%,CART模型的准确度和F1分别为85.6%和92.11%。由此可见,GBDT模型在准确度和F1两方面表现最好,即模型分类性能最好。
3 结果与讨论
利用机器学习分类算法探究基于人格特质特征分布数据的建筑工人不安全行为自动识别,为基于心理态的建筑工人不安全行为识别探索了新的方法和思路。同时,人格特质类型与建筑工人不安全行为之间映射关系的建立为施工企业预测和判断建筑工人的不安全行为偏好,实现以建筑工人为中心的精准化、个性化和智能化的安全评估和干预管理提供了依据。
(1)建筑工人人格特质与不安全行为存在映射关系。高外倾性、中神经质、中宜人性、低责任心、低开放性人格特质的建筑工人容易发生习惯偏差型不安全行为,此类不安全行为属于有意违规且高频发生的常见类施工不安全行为。个体特质表现为自我要求不严格,责任心较低,但又性格活跃,对危险行为持乐观态度,乐于寻求感官刺激,外倾性高,导致不安全行为的发生。
中外倾性、低神经质、低宜人性、低责任心、高开放性人格特质的建筑工人容易发生程序偏差型不安全行为,此类不安全行为属于有意违反施工操作程序但低频发生的不安全行为。个体特质表现为责任心不强,为满足自身省时省力的需求而违反规则,同时开放性高,喜欢即兴创新,试图探索新的途径提高工作效率,如跳过或改变施工工序,从而发生不安全行为。
中外倾性、高神经质、中宜人性、高责任心、中开放性人格特质的建筑工人容易发生感知偏差型不安全行为,此类不安全行为属于无意违规但高频发生的不安全行为,主要是因为自身感知能力不足。个体特质表现为高神经质,精神状态不稳定,情绪波动大,注意力容易分散,虽然责任心较高,但安全意识不强,危险感知能力较差,导致自身不安全行为的发生。
中外倾性、中神经质、中宜人性、中责任心、中开放性人格特质的建筑工人容易发生技能偏差型不安全行为。此类不安全行为属于无意违规且低频发生的不安全行为,主要是因为自身技能与施工活动要求技能不匹配。个体特质表现为责任心较高,其他特质保持常态,但由于自身技能限制,仍无法满足危大工程的技能要求,导致不安全行为的发生。
(2)GBDT算法是识别不安全行为的最佳分类算法模型。以准确率、精准率、召回率和综合评价指标(F1)来评估比选CART、RF、AdaBoost和GBDT四种分类算法的不安全行为预测性能,并以识别习惯偏差型不安全行为为例,初步得出GBDT分类算法模型的识别性能较好。为整体评估各类不安全行为,选用准确率和综合评价指标(F1)作为最终指标进行评估,结果表明GBDT算法模型的整体识别性能最优,该模型识别不安全行为的准确率和综合评价指标F1分别为91.52%和96.24%。其次为RF算法、AdaBoost算法和CART算法。