APP下载

机器学习在重点领域信用风险分类应用研究

2023-02-02周洪美裴飞陈云蕾兰鹏张志清

中国标准化 2023年17期
关键词:机器学习指标体系

周洪美 裴飞 陈云蕾 兰鹏 张志清

摘 要:国家高度重视涉及人民群众生命财产安全的电梯等特种设备重点领域安全监管。面对目前电梯保有量持续增长、电梯安全监管形势复杂的情况,市场监管部门提出了對电梯维保企业实施信用风险分类监管的需求。本文在研究通用型企业信用风险分类模型的基础上,考虑电梯专业领域风险因素,并引入机器学习算法构建了电梯维保企业信用风险分类指标体系和模型。通过H省电梯维保企业的验证结果发现,该模型结果能够较好地反映电梯维保企业存在的问题,能够有效提高监管及时性、精准性、有效性,有助于合理配置监管资源并提升监管效能,推动监管更加公平有效。

关键词:机器学习,信用风险分类,指标体系,电梯安全监管

DOI编码:10.3969/j.issn.1002-5944.2023.17.007

基金项目:本文受国家重点研发计划项目“市场主体信用风险智能评价预警关键技术研究及系统研发”(编号:2022YFC3302404)、国家市场监管总局资助科技计划项目“电梯安全监管大数据应用及相关标准研究”(项目编号:2021MK160)资助。

Research on the Application of Machine Learning in the Supervision of Credit Risk Classifi cation in Key Fields

—Taking Elevator Maintenance Enterprises as An Example

ZHOU Hong-mei1 PEI Fei2 CHEN Yun-lei1 LAN Peng3 ZHANG Zhi-qing3

(1. Hongdun Bigdata Co., Ltd.; 2. China Standardization Press Co., Ltd.; 3. Information Center of State Administration for Market Regulation)

Abstract: China has attached great importance to safety supervision in key areas of special equipment such as elevators involving the safety of peoples lives and property. Faced with the continuous growth of elevators and the complex situation of elevator safety supervision, market regulation departments have proposed the need to implement credit risk classifi cation supervision of elevator maintenance enterprises. On the basis of research on general enterprise credit risk classification model, this paper considers the risk factors in the fi eld of elevator, and establishes a credit risk classifi cation index system and model for elevator maintenance enterprises by introducing machine learning algorithms. The verifi cation results of elevator maintenance enterprises in H province indicate that the model can well refl ect the problems existing in elevator maintenance enterprises, effectively improve the timeliness, accuracy, and effectiveness of supervision, which helps to allocate regulatory resources reasonably, improves regulatory effi ciency, and promotes fairer and more effective supervision.

Keywords: machine learning, credit risk classifi cation, index system, elevator safety supervision

0 引 言

随着我国经济的不断发展、全面建成小康社会,中国特色社会主义进入新时代,人民对电梯的需求也不断增加,电梯成为人民美好生活需求的重要组成部分[1]。我国电梯保有量与产量稳居世界首位,是电梯生产和使用大国。电梯质量安全事关人民群众生命财产安全和经济社会发展稳定。近年来,我国电梯万台事故数和死亡人数持续下降,安全形势稳定向好[2]。但是,电梯质量安全事关人民群众生命财产安全和经济社会发展稳定,随着电梯保有量持续增长,老旧电梯逐年增多,电梯困人故障和安全事故一旦发生,社会影响很大,市场监管总局提出了严格要求加强对电梯的安全监管。《市场监管总局关于加强重点领域信用监管的实施意见》(国市监信发〔2021〕28号)提出要“综合运用大数据、人工智能等信息技术手段,依托国家企业信用信息公示系统,建立完善重点领域信用记录、信用档案,推进企业信用风险分类管理,全面提升智慧监管水平”[3],《市场监管总局关于推进企业信用风险分类管理进一步提升监管效能的意见》(国市监信发〔2022〕6号)提出“食品、药品、特种设备等直接关系人民群众生命财产安全、公共安全,以及潜在风险大、社会风险高的重点领域,在按照现有规定实行重点监管的同时,要统筹行业风险防控和企业信用风险分类管理,强化业务协同,实行全链条监管”[4]。因此,对电梯相关企业尤其是数量最多的电梯维保企业实施信用风险分类管理,对及时监测电梯运行风险、提升电梯监管效能具有较强的支撑作用。

1 模型设计原则

对电梯维保企业实施信用风险分类管理,最重要的是设计电梯维保企业信用风险分类模型。信用风险分类管理模型综合利用计量经济学、统计学、机器学习等多学科交叉的大数据建模理念,贯穿于建模的各个环节,保证模型的准确性和健壮性。电梯作为特种设备监管中重点,电梯维保企业信用风险分类模型设计应具有科学性、实用性、可操作性等特点。因此,必须确定正确的指导原则,才能达到预期目的。

(1)有标可对。参考市场监管总局通用型企业信用风险分类管理指标体系以及《电梯安全技术规范》(GB 7588-2020)构建本领域的分级分类监管机制。电梯维保企业信用风险分类指标体系基于通用型企业信用风险分类指标体系,重点从企业基础属性信息、企业动态信息、监管信息等方面构建分类指标体系,科学赋予指标权重,并根据监管实际不断更新调整,持续优化完善,结合电梯领域特点,构建符合实际情况且具有电梯领域特色的企业信用风险分类指标体系。

(2)有法可依。电梯维保企业信用风险分类指标体系参考《中华人民共和国市场主体登记管理条例》《中华人民共和国特种设备安全法》《特种设备安全监察条例》《特种设备检验人员考核规则》《特种设备检测机构核准规则》《特种设备型式试验机构核准规则(第1号修改单)》《电梯型式试验规则》等有关法律法规中的相关规定,根据监管工作实际确定相关指标维度。

(3)整体性。指标的设计、选择和确定即需要在现有的、能够获取的数据资源中尽可能客观地反映电梯维保企业的整体情况,又能反映需要监管的重点。

(4)系统性。电梯维保企业信用风险分类模型既有通用性也有专业性,各项指标必须有机结合,相互之间既不重复又不矛盾,这是电梯维保企业信用风险评价指标体系是否合理的关键。

(5)实用性。指标应选取的指标数据要比较容易取得,且不能过于复杂,以重点的、有代表性的指标实现全面性原则与实用性原则的统一。

(6)关联性。现有的数据或单一指标很难准确揭示潜在风险,需要将不同指标与监管经验、案例分析关联,发现其内在的关联性,有助于发现潜在风险线索并用于引导监管方向。

2 模型算法设计

2.1 电梯维保企业信用风险影响因素

影响电梯维保企业信用风险的因素是指电梯维保企业在运营过程中为减少违法行为所表现出来的风险因素,综合各方面的研究,影响因素包括通用型信用风险因素、专业领域风险因素以及其他因素[5-7],见图1。

(1)通用型信用风险因素

企业通用型信用风险因素包括基本因素、动态因素、监管因素、关联因素、社会评价因素五个方面的因素。其中基本因素包含企业规模、企业年龄、企业背景等基础特征信息,反映了基于企业群体特征所表现的风险因素;动态因素包含企业准入许可、登记备案、年报公示、经营状况、纳税社保、知识产权等方面的行为信息,反映了基于行为特征所表现的风险因素;监管因素包含行政检查、行政处罚、诉讼信息、经营异常、黑名单、失信被执行人、信用信息等方面的信息,反映了基于历史监管记录所表现的风险因素;关联因素包含企业相关人员违法失信信息和关联企业违法失信信息,反映了基于企业关联关系所表现的风险因素;社会评价因素包含投诉举报、舆情评价和社会关注度等信息,反映了基于社会评价信息所表现的风险因素。

(2)专业领域风险因素

本研究所涉及到的电梯专业领域风险因素主要包括人员、设备、管理三方面的因素[8-9]。其中人员因素包括人员配置情况、具备资质的工程师数量占比、具有资质的工程师数量、人均负责电梯数量等人员相关信息,反映了基于电梯领域相关人员特征所表现的风险因素;电梯安全因素包括重大安全风险隐患、安全检查、安全隐患排查、安全隐患整改等电梯安全相关信息,反映了基于电梯安全特征所表现的风险因素;管理因素包括安全管理制度、电梯乘梯须知、电梯设备档案、一梯一档建立安全技術档案等电梯管理相关信息,反映了基于电梯领域管理特征所表现的风险因素。

(3)其他因素

影响电梯维保企业信用风险的因素除了通用型信用风险因素和专业领域风险因素外,法律法规、政策支持、环境变化、地理条件、气候变化等因素也影响着电梯维保企业信用风险,但这些因素一般对某个区域的企业都是相同或相近的,因此在构建针对单个企业信用风险评价时可以忽略。

2.2 电梯维保企业信用风险分类模型指标体系构建

为提高企业信用风险分类在电梯领域的契合度和有效性,电梯维保企业信用风险分类模型指标体系在通用型企业信用风险分类模型指标体系的基础上,梳理目前可获得的数据资源,融合各政府部门的电梯许可、监督抽查通报、召回公告等信用信息等专业领域风险相关数据指标,并运用机器学习算法特征筛选等算法,最终完善一套新的、可不断优化迭代的电梯维保企业信用风险分类指标体系。

电梯相关企业信用风险分类指标体系基于企业通用型风险分类指标体系构建,共包含5个一级指标,21个二级指标和57个三级指标。5个一级指标与通用型指标相同,分别为基础属性信息、动态信息、监管信息、关联信息和社会评价信息。其中基础属性信息指反映电梯维保企业基础属性相关的风险特征,包含企业规模、企业年龄、企业背景等3个二级指标,8个三级指标;动态信息反映电梯维保企业行为相关的风险特征,包含许可和准入事项、登记备案事项、经营状况、纳税社保状况、认可认证、标准等6个二级指标,16个三级指标;监管信息全面反映监管中发现的风险信息,包含重大安全风险、安全检查、经营异常名录、黑名单、失信被执行人、行政检查、行政处罚、诉讼信息等8个二级指标,19个三级指标;关联信息反映了电梯维保企业的关联风险,包含关联人员违法失信信息和关联企业违法失信信息等2个二级指标,9个三级指标;社会评价信息,反映了投诉举报和互联网舆情等外部信息中存在的风险信息,包含投诉举报和舆情评价等2个二级指标,5个三级指标。

电梯企业信用风险分类指标的构建是通过“通用+专业”指标融合方式进行构建,既考虑通用型指标的普适性,又考虑特殊行业指标的专业性。与企业通用型信用风险分类指标相比,保留了企业规模、企业背景、经营状况、经营异常名录、黑名单信息、失信被执行人、行政检查、行政处罚、诉讼信息关联人员违法失信信息、关联企业违法失信信息、投诉举报、舆情评价等二级指标和对应的三级指标。针对电梯安全增加了电梯安全检查、重大安全风险二级指标,其中重大安全风险是指电梯企业是否重大火灾隐患逾期未改名单,电梯安全检查包括了未按时定期检验、未定期开展安全隐患排查、未及时完成隐患整改、未编制以安全生产责任制为主要内容的安全管理制度、未按一梯一档建立安全技术档案、检验设备、仪器是否满足要求。各项检测、试验记录是否符合现场实际、是否张贴电梯乘梯须知、是否有健全电梯设备档案等三级指标。

2.3 电梯维保企业信用风险分类模型算法设计

(1)指标赋分

每个指标项可以根据取值不同分为类别指标和数值指标,类别指标取值是有限的(如是否为纳税非正常户),数值指标的取值是连续且分散的(如注册资本)。为了模型计算的方便,需要将数值指标转化为类别指标,数值分类需要综合考虑该指标的数值分布及其与风险目标变量的关系。对每个指标的各类别风险赋分可以采用平衡记分卡进行赋分,需要根据该类别与风险变量的关系进行赋分[10]。如行政处罚是电梯维保企业信用风险的一个反映,可以将一年内受到行政处罚的比例作为风险测量变量,计算出全部电梯维保企业受到行政处罚比例的平均值μ和标准差σ,如果该类别的受到行政处罚比例为x,则该类别赋分为:

(2)指标权重

指标的权重设置可采用德尔菲法、层次分析法等主观赋权法或者特征工程、相关分析法、熵权法等客观赋权法,计算出各三级指标权重、二级指标权重和一级指标权重。本文基于历史企业抽查检查和行政处罚结果实现对企业分类的标注,通过引入逻辑回归、SVM、AdaBoost、GBDT、XGBoost等机器学习算法,实现自动最优权重的确定。

(3)信用风险得分计算

每个电梯维保企业信用风险得分最高为1000分。各个指标项的最高分为1000分,每个电梯维保企业的信用风险总得分计算方法如下:

信用风险总得分=∑[各个三级指标得分×三级指标权重×二级指标权重]×一级指标权重

(4)信用风险等级分类

根据电梯维保企业信用风险得分由低到高将电梯维保企业分成A类(信用风险低)、B类(信用风险一般)、C类(信用风险较高)和D类(信用风险高)。每个电梯维保企业信用风险得分为0~1000分,得分越高表明电梯维保企业风险越高。电梯维保企业信用风险得分与信用风险等级的对应关系见表1。

3 模型优化验证

3.1 数据处理说明

此次选择H省电梯维保企业674家作为研究对象,通过整合各类数据,以表1中指标体系为依据构建相关指标,同时以2021年企业监管数据中企业是否发现问题作为企业信用风险分类的依据。通过描述性分析、相关性分析等方式对数据进行数据探索,发现在此项目中,数据存在缺失值、异常值及样本不均衡等问题:

(1)对于缺失值,根据数据缺失实际情况,采用模型填充、直接删除等方式对数据进行处理;

(2)对于异常值,结合业务实际情况,异常值属于正常数据,在此不进行处理,我们通过计算WOE值、IV、cart树分箱、卡方分箱等方法对数据进行分箱离散化处理并编码,并确定特征权重重要性;

(3)对于相关性分析结果,从结果可以看出各指标间相关性相对来说不突出,在此不做处理;

(4)对于样本不均衡的问题,使用下采样和SMOTE过采样两种方法来解决该问题,用这两条路线进行对比实验。

4.2 算法选取及模型構建

基于历史监管数据对样本进行分类,采用有监督学习的方式来训练模型,算法上通过比较逻辑回归、SVM、朴素贝叶斯等算法,最终选择逻辑回归分类算法进行机器学习模型构建。并通过对模型搭建及多次调参训练,模型结果汇总见表2。经过对比分析,模型调优后的召回率、准确率和精准率最高,再结合ROC曲线和AUC值,最终选择调优模型结果作为最终应用模型。

利用调优后的模型对电梯维保企业进行风险测算,信用风险低、信用风险一般、信用风险较高和信用风险高的占比呈现倒金字塔形式,分别为50.76%、40.46%、6.11%和2.67%。

4.3 模型应用验证

结合模型分类结果和2022年H省三个地区的电梯维保企业“双随机、一公开”抽查检查结果进行比对(见表3),发现风险等级为D类的问题发现率为90%左右,C类企业问题发现率最低也接近50%,而A类和B类企业的问题发现率均低于20%。这表明该模型结果能够较好地反映电梯维保企业存在的问题,能够有效提高监管及时性、精准性、有效性,有助于合理配置监管资源并提升监管效能,以公正监管促进公平竞争、优胜劣汰。

5 结语和建议

通过构建电梯维保企业信用风险分类模型,可以实现对电梯维保企业信用风险的自动分类,及时对电梯维保企业信用风险进行研判,根据风险分类结果对企业实施差异化监管,科学有效配置监管资源和力量,提升监管效能。为进一步充分应用机器学习提升电梯维保企业信用风险分类管理的精准型,现提出如下建议:

一是增强专业领域数据归集能力。目前电梯维保企业通用因素相关指标数据基础相对较好,而专业领域数据缺乏统一的数据归集中心而散落到各个业务系统中,数据的完整性和全面性存在较大问题,需要通过相关机制建设提升专业领域数据归集能力。同时,需要深化传感器、物联网、边缘计算等新技术的应用,提升对电梯运行相关数据的采集能力,为电梯领域信用风险分类模型奠定坚实数据基础。

二是持续迭代优化指标体系模型。构建“信用风险分类驱动监管业务”为核心的监管业务流程闭环系统,在生成信用风险分类结果后,及时推送、驱动线下监管,同时再次将线下监管结果采集至平台,形成由监测到监管再到监测的全流程业务闭环。通过业务监管实际问题发现情况以及各类日常检查、专项检查结果的反馈,及时评估模型的科学性和准确性,通过机器学习等方式持续优化指标体系和模型,进一步提升模型的准确性,更好地支撑电梯维保企业信用风险分类工作。

参考文献

[1]国务院办公厅.国务院办公厅关于加强电梯质量安全工作的意见[EB/OL].(2018-02-09)[2023-04-13].http://www.gov.cn/zhengce/content/2018-02/09/ content_5265380.htm.

[2]國家市场监督管理总局.市场监管总局关于2022年全国特种设备安全状况的通告[EB/OL].(2023-03-16)[2023-04-13].https://www.samr.gov.cn/samrgkml/nsjg/ tzsbj/202303/t20230316_353874.html.

[3]国家市场监督管理总局.市场监管总局关于加强重点领域信用监管的实施意见[EB/OL].(2021-06-08)[2023-04-13].https://www.samr.gov.cn/samrgkml/nsjg/ xyjgs/202106/t20210608_330344.html.

[4]市场监管总局.市场监管总局关于推进企业信用风险分类管理进一步提升监管效能的意见[EB/OL].(2022-02-14)[2023-04-13].http://www.gov.cn/zhengce/ zhengceku/2022-02/14/ content _5673425.htm.

[5]赵吉臣.电梯安全性能影响因素与电梯检验探讨[J].科技创新与应用,2020(20):122-123.

[6]文涛,秦定林,李云安,等.浅谈影响电梯安全的几方面因素及应对策略[J].中国电梯,2020,31(19):42-43.

[7]廖鸿儒.电梯安全性能影响因素及电梯检验检测的强化路径研究[J].中国设备工程,2020(23):158-160.

[8]李泉.电梯安全性能影响因素和强化电梯检验检测策略研究[J].中国设备工程,2020(1):126-128.

[9]回彩娟,杨洋.简析电梯在安装、使用和维修过程中的风险因素[J].中国特种设备安全,2019,35(6):65-68.

[10]杨臻黛.业绩衡量系统的一次革新——平衡记分卡[J].外国经济与管理,1999(9):7-11.

作者简介

周洪美,博士,红盾大数据(北京)有限公司副总经理,高级统计师,研究方向为政务领域大数据应用。

裴飞,硕士,《中国标准化》杂志社有限公司社长,正高级工程师,研究方向为标准与质量管理。

陈云蕾,本科,红盾大数据(北京)有限公司分析师,研究方向为大数据建模。

兰鹏,硕士,市场监管总局信息中心应用开发一处工程师,研究方向大数据应用。

张志清,硕士,市场监管总局信息中心应用开发一处副处长、高级工程师,研究方向数字政府建设、人工智能应用。

(责任编辑:张瑞洋)

猜你喜欢

机器学习指标体系
浅谈公路统计指标体系的构建
层次分析法在生态系统健康评价指标体系中的应用
供给侧改革指标体系初探
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用
城镇排水系统量化指标体系研究
测土配方施肥指标体系建立中‘3414