基于XGBoost算法的实验室安全风险预测模型研究
2019-12-27王国田戴筠一许少钧
王国田,戴筠一,许少钧,蒋 涛
实验室安全与环保
基于XGBoost算法的实验室安全风险预测模型研究
王国田1,戴筠一2,许少钧2,蒋 涛2
(1. 扬州大学 实验室与设备管理处,江苏 扬州 225009;2. 扬州大学 数学科学学院,江苏 扬州 225009)
通过相关文献归纳实验室安全风险检查指标体系,基于XGBoost算法,研究检查指标体系的数据采集、数据预处理以及风险预测模型的初步建立,在此基础上,探索模型的训练、实验室风险权重及模型的主要参数优化等方法,确立可行的实验室安全风险预测模型,为开展实验室安全评价和隐患整改提供可靠的依据。
指标体系;XGBoost算法;数据采集;模型建立;模型训练和优化
实验室安全检查是实验室管理的重要工作内容。教育部科技司于2015—2017年开展了连续3年的高校实验室安全督查工作,检查项目采用了《高等学校实验室安全检查项目表》[1](以下简称《检查表》),该《检查表》涵盖组织体系、规章制度、安全教育、化学安全、生物安全、辐射安全、仪器设备安全等11大类40小类,共235个条款(2018年又修订为12个一级指标和358个二级指标)。检查表主要特点是项目多、范围广,检查结果采用“符合”“不符合”“不适用”的分类评价方式,对于“不符合”项就要记录隐患问题,是风险辨识和隐患排查的主要方法之一,在教育部组织的实验室安全督查中得到了验证与认可[2-3],是目前高校实验室安全检查的硬性要求。
检查表在高校运用和实践中,对于实验室一些“显性”特征,检查结果和实际较为相符,风险辨识度较高,隐患问题的整改较好得到落实。但是对于检查表中众多检查项目,因其对应的实验室特征往往呈“隐性”状态,且具有一定的不确定性和复杂性,相互之间还存在很多的“关联”和“牵制”,现场定性判定的结果,并不全部真实反映实际情况,尤其是对检查结果为“不符合”项,检查者与被检查者之间有争论,意见的分歧直接影响到风险辨识结果和隐患问题的及时整改。目前,大数据处理、建立数学模型、运用相关算法开展实验室风险识别,评价出更加科学、公正、具体的风险等级,实现危险源分类分级管理符合高校发展的趋势[4-5]。
1 实验室安全风险检查指标体系的构建
高等学校涉及化学、生物、医学、工程等类别的实验室,各类实验室安全管理工作涉及面广,内容繁多,检查项目不尽一致。参照规范性、科学性、系统性、可操作性的构建原则[6],以《高等学校实验室安全检查项目表》(2018)为主要基础,收集相关文献资料,结合实际工作经验,归纳出我校生物医学实验室安全检查指标体系,其中一级指标10个,二级指标59个,并将二级指标细分为“优”“良”“中”“差”4个等级的检查特征,并形成检查指标集={1,2,…,59},见表1。
表1 生物医学实验室安全风险预测检查指标体系及特征
表1(续)
表1(续)
表1(续)
2 基于XGBoost算法实验室安全风险预测模型的建立
2.1 XGBoost简介
XGBoost算法是陈天奇等在2015年提出的一种新的集成学习算法[7],是一种把若干个弱分类器整合为一个强分类器的方法,特点是将多个准确率较低的决策树模型组合成一个准确率较高的模型,具有并行速度快、复杂度可控、可自动学习缺失值分裂方向、容错及泛化能力高、结果预测值接近真实值等特点,目前已广泛应用于数据挖掘、信用风险预测、质量特征预测等实际的工作中,如文献[8]针对电子商务网站用户信息进行数据挖掘,准确预测了用户购买行为;文献[9]分析网络信贷平台的用户,对申请贷款用户的信用风险进行了预测;文献[10]能够预测生产环节特征产品质量,及时做出对应的决策等。
2.2 数据采集
按照集成学习算法的特点,至少应采集2次以上的结果数据,作为机器学习和识别,以2018年度我校生物医学实验室900次实验检查为例,按照检查指标集,经过次实验形成检查数据集={}(=1,2,…,900),={1,2,…,n,n+1}(=1,2,…,59),其中S1,2,…,代表第次实验中个检查项目的检查结果,+1代表第次实验的实验结果,对实验结果也进行评价,分安全、一般、警告、风险4个等级。第次实验的实验结果类别及评价标准,见表2。
表2 第j次实验结果类别及评价标准
2.3 数据预处理
对于检查类别的自然数编码,其取值大小没有物理意义,直接在模型上使用可能导致结果误差。本文采用独热编码(One-Hot)离散化处理类别变量[11]。对于数据集的每一行,将每一个检查项目(即1,2,…,I)的值(优、良、中或差)转化为0-1向量,0-1向量的4个元素分别对应4个不同的等级(从右到左分别代表优、良、中和差),元素的值为该项检查项目是否为该等级,是则为1,否则为0。例如,11(第1次试验的第1号检查项目)的1,为优,则将其转换为向量(0,0,0,1),向量的第4个元素值为1,代表11的值为优,而其他3个元素值为0;对于实验结果(即I+1),从右到左分别代表安全、一般、警告、风险。独热编码转换关系,如表3所示。
表3 第j次实验数据的独热编码转换关系
2.4 风险预测模型初步建立
基于XGBoost算法建立风险预测模型,模型主要包括3个方面:①将多个准确率较低的决策树模型组合成一个准确率较高的模型;②利用贪心策略及二次最优化确定最优节点及最小的损失函数,在此基础上进行树分裂,根据预测数据每次建立最优树,当达到树的最大深度时停止迭代;③采用Python语言和调用XGBoost工具包,自动运行CPU多个线程,发挥分类运算速度快、效果好等优势。模型的XGBoost主要算法流程如下[12-14]:
(1)初始化回归树(),损失函数集合l(),此时模型为常数值
(2)Whileon 1,2,3,…,T do
(3)do
(4)计算损失函数的最小值
(5)把得到加到l()中
(6)While t on 1,2,3,…,
(7)l()中选取最小时对应的()开始建树
(8) 采用贪心法寻找最优分裂节点迭代生成新的树
(9)If deep>max deep break
(10)基本模型完成
(11)利用栅格搜索等方法调优参
(12)优化模型对得到的数据进行综合分析
3 实验室安全风险预测模型的训练与优化
3.1 模型训练及权重确立
由于检查结果是类别性数值,取样的数量不尽一致,因此,在模型训练过程中使用十折交叉运算,使每份数据中各类别的分布与完整数据集分布更一致,所得模型更可信。本文利用上述的900组数据集,将数据集中的4个类别分别归纳并划分成10等份,每次运算时按比例轮流选取810个数据集作为训练集,90个数据集作为测试集,利用测试集对模型进行测试,统计10次的测试结果的准确率≥83%,各项指标的权重取值范围为[0, 1],且所有检查项目的权重和为1,确立的权重与实验室风险的对应关系为:①轻微影响0~0.1;②一般影响0.1~0.2;③重要影响0.2~0.4; ④决定影响0.4以上。权重越大的检查项目结果对实验结果的影响就越大。
3.2 模型的主要参数优化
本文XGBoost算法定义了参数max-depth、learning-rate及n-estimators,其中max-depth为树的最大深度,这个值是用来避免过拟合,值越大其模型会得到更具体更局部的样本;learning-rate为学习率,通过减少每一步的权重,可以提高模型的鲁棒性;n-estimators为决策树个数,用来避免欠拟合和过拟合。通过不断测试,当训练的max-depth为4,learning- rate为0.18,n-estimators为1时,此时模型的性能达到最优。模型主要参数与准确率accuracy关系,如 图1、图2、图3所示。
图1 max-depth与accuracy关系
图2 learning-rate与accuracy关系
图3 n-estimators与accuracy关系
4 实验室安全风险预测模型的应用
将实验室安全风险预测模型应用于我校2019年1月新一轮生物医学实验室安全检查,预测出59个二级指标的权重,并归纳到相应的一级指标中,权重表明生物医学实验室安全风险预测等级为一般,需要重点整治的有:
(1)危险化学品存在的隐患问题最多、风险度较高,是实验室整治的重点环节;
(2)基础安全设施和个人防护方面投入不足,需要加快建设;
(3)化学、生物等专业性安全教育不足,是实验室安全准入管理整治的主要方面;
(4)安全检查不及时、不到位,暴露出的各类隐患问题需要限期整改等。
生物医学实验室风险特征,如图4所示。
图4 生物医学实验室风险特征
5 结语
基于XGBoost算法的实验室安全风险预测模型,能定量分析实验室存在的风险特征及权重,有助于实验室安全风险评价和危险源分类分级管控。然而,全面实践现有的实验室安全风险预测模型,还需从可靠性和可操作性方面进一步研究,探索适应高校实验室安全管理发展需求,逐步实现实验室从程序管理向工序管理转变。
[1] 冯建跃,金海萍,阮俊,等.高校实验室安全检查指标体系的研究[J].实验技术与管理,2015, 32(2): 1–10.
[2] 冯建跃,杜奕,张新祥,等.高校实验室安全三年督查总结(Ⅰ)[J].实验技术与管理,2018, 35(7): 1–4, 11.
[3] 杜奕,冯建跃,张新祥.高校实验室安全三年督查总结(Ⅱ)[J].实验技术与管理,2018, 35(7): 5–11.
[4] 彭迎涛,宋绍义,方德英.大数据传播过程风险识别及其指标体系研究[J].科技管理研究,2018(10): 78–82.
[5] 费腾,于柏,赵斌.基于Simulink的高校实验室安全评价体系应用[J].实验室工作研究,2017, 36(4): 75–78.
[6] 董继红,李占印. DHGF 集成法在高校实验室安全管理评价中的应用[J].实验室研究与探索,2013, 32(9): 251–254.
[7] CHEN T Q, UESTRIN C G. XGBoost: A scalable tree boosting system[C]. San Francisco: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016.
[8] 张昊,纪宏超,张红宇. XGBoost算法在电子商务商品推荐中的应用[J].物联网技术,2017, 7(2): 102–104.
[9] 甘鹭.基于机器学习算法的信用风险预测模型研究[D].北京:北京交通大学,2017.
[10] 蒋晋文,刘伟光. XGBoost算法在制造业质量预测中的应用[J].智能计算机与应用,2017, 7(6): 58–60.
[11] 美团算法团队.美团机器学习实践[M].北京:人民邮电出版社,2018.
[12] 赵天傲,郑山红,李万龙,等.基于XGBoost的信用风险分析的研究[J].软件工程,2018, 21(6): 29–32.
[13] HARRINGTON P.机器学习实战[M].北京:人民邮电出版社,2013.
[14] 林静,林振宇,郑福仁,等. LabVIEW虚拟仪器程序设计从入门到精通[M]. 2版.北京:人民邮电出版社,2013.
Research on laboratory safety risk prediction model based on XGBoost algorithm
WANG Guotian1, DAI Junyi2, XU Shaojun2, JIANG Tao2
(1. Laboratory and Equipment Management Office, Yangzhou University, Yangzhou 225009, China; 2. College of Mathematical Science, Yangzhou University, Yangzhou 225009, China)
Based on the XGBoost algorithm, the data collection, data preprocessing and preliminary establishment of risk prediction model of laboratory safety risk inspection index system are studied. On this basis, the training of the model, weight of laboratory risk and optimization of the main parameters of the model are explored for the establishment of a feasible laboratory safety risk prediction model, which provides a reliable basis for carrying out laboratory safety evaluation and hidden danger rectification.
index system;XGBoost algorithm;data collection;model establishment;model training and optimization
G474
A
1002-4956(2019)12-0245-07
10.16791/j.cnki.sjg.2019.12.058
2019-04-18
中国高等教育学会高等教育科学研究“十三五”规划课题2019年度实验室管理专项课题(2019SYSYB06)
王国田(1963—),男,江苏邗江,学士,高级实验师,主要从事实验室安全管理。E-mail: gtwang@yzu.edu.cn
蒋涛(1978—),男,山东潍坊,博士,副教授,研究方向为计算科学和应用科学。E-mail: jtrjl2007_@126.com