APP下载

基于三种机器学习算法的智能制造能力成熟度评价

2021-07-07蒋天宁朱玉杰张标

经济师 2021年1期

蒋天宁 朱玉杰 张标

摘 要:根据中国各省市的发展状况提出评估智能制造能力的成熟度模型。从智能制造装备、工业信息化、工业创新力、行业应用四个方面选取21个智能制造能力指标,采用BP神经网络、随机森林回归、支持向量机回归3种机器学习算法构建智能制造能力成熟度模型并进行训练以及验证。利用K折交叉验证、泛化误差定量的评估3种模型,选择出最优评价模型后再利用最优评价模型的输出值,确定各城市智能制造能力的成熟度等级。结果表明:(1)随机森林回归模型最适用于评价智能制造能力成熟度,且其特征重要性可以为指标与成熟度的相关性提供依据。(2)我国广东、江苏、山东三地的智能制造能力成熟度等级最高,贵州、西藏、甘肃等地等级最低。

关键词:智能制造 成熟度模型 BP神经网络 随机森林回归 支持向量机回归

中图分类号:F224;TP391  文献标识码:A

文章编号:1004-4914(2021)01-229-03

一、引言

近年来,随着科学技术的不断发展与社会的不断进步,信息化和工业化水平大幅度提升。我国制造业正朝着智能制造的生产模式迈进。我国智能制造相较于国外起步虽晚,但近几年融合了新一代信息技术的智能制造的发展成绩显著{1}。我国制造业由于各地区各产业各企业发展不平衡的限制,目前发展较为多样化,机械化、自动化、信息化、电气化均共存于产业中。目前,国内对于评价智能制造成熟度水平的研究并不多,各学者的评价模型不尽相同,且通常只选取一种评价模型进行训练及测试,因此缺少评价模型的横向对比{2}。本文将针对智能制造成熟度评价模型的选取问题,以我国的31个主要省市作为研究对象,分别用BP神经网络、随机森林回归、支持向量机回归三种机器学习算法进行模型的构建以及评测,选出最优评价模型,最后利用其模型对各省市进行智能制造能力成熟度评价。

二、指标的选取和成熟度的划分

(一)指标的选取

为保证数据的完整性和准确性,本文共选取31个主要省市进行研究。本文结合各省市智能制造发展的实际特点选取如下四个一级指标:

1.智能制造装备。智能制造装备实现了企业的数字化、网络化和智能化。智能化设备与技术帮助传统产业在产业结构升级的路上不断探索进步,逐步形成完善的产业体系。

2.工业信息化。智能制造是工业化和信息化深度融合的产物,智能制造运用“互联网+”的技术,贯穿着整个生产活动中。因此,工业信息化水平的高低决定制造业的智能化程度。

3.创新能力。推进制造业智能化转型升级,全面发展智能制造需要更多大量新技术与新模式的诞生,以创新来推动发展{3}。市场的不断变化,个性化需求的日益增多,都需要企业源源不断的创新思想和技术来应对。

4.行业应用。新模式新业态的智能制造业为战略性新兴产业发展带来了新的启发,如规模化定制产业、智能制造服务业等{4}。因此,聚焦智能制造行业发展现状来评价智能制造能力成熟度是必须且必要的。

综上,本文共选取了4个一级指标。为了能够真实地展现各省市的真实情况,综合考虑实际情况以及数据的可获得性,共选取了21个二级指标,指标体系如表1所示,指标的来源均为国家统计局以及2018年各省市统计年鉴。

(二)智能制造能力成熟度等级划分

智能制造能力成熟度模型可以客观地评估能力等级,并呈现阶梯式的改进步骤{5}。由于它的高度适用性,也被IT、工业等领域积极采纳{6}。本文结合各区域企业的实际状况,将成熟度分为五个等级,五个等级分别对应五个水平,具体说明如表2所示。

三、算法

(一)BP神经网络

BP神经网络是一种多层前馈神经网络,共包括输入层、输出层和若干个隐含层{7}。BP神经网络由输入层输入数据,通过由阈值和权值组成的隐含层对数据进行处理,最后由输出层得到结果,再将输出值和期望输出进行比较,不断调整阈值和权值,直到输出值逼近期望输出{8}。具体步骤如下:

6.重复3~5步,直到误差减小到满足要求为止。

(二)随机森林回归

随机森林是由决策树{h(x,δm),m=1,2,…,T}组成的一种分类器,其中,x表示输入变量,δm为独立同分布的随机向量,T为决策树的棵树。随机森林既可以适用于分类问题也可以用于回归问题。随机森林通过输入训练样本,有放回的抽取子样本建立分类树形成随机森林,最终输出值为T颗决策树输出的平均值{9}。具体步骤如下:

1.从原始训练集中利用bootstrap法有放回的隨机抽取m个新的训练集,形成m颗分类树。

2.对m颗分类树节点下的l个特征中选取n个特征(n≤l),通过比较基尼指数,选取基尼指数最小的作为最优特征进行分裂。基尼指数为:Gini=1-ki为Ji类出现的概率。

3.每棵树无修剪的最大程度生长,重复T次后,形成CART决策树。

4.每一棵决策树输出的平均值即为最终结果。

(三)支持向量机回归

支持向量回归是支持向量机推广到回归问题得到的回归模型。支持向量回归认为,在训练集中存在一个超平面,使得超平面上下两边间隔达到最大,最大间隔即为寻找的支持向量回归,目标即为使训练集的点最大程度地拟合到模型中,也就是所有训练集的点和超平面之间的总偏差最小{10}。本文为非线性问题,因此需将训练集映射到更高级的空间使非线性问题转化为线性问题,并引入核函数进行求解{17}。具体步骤如下:

1.给定训练样本集:S=(x1,y1),(x2,y2),…,(xn,yn)

2.划分超平面所对应的的模型可表示为:f(x)=wTφ(x)+d

最小化函数:minw,d‖w‖2,s.t.yi(wTφ(x)+d)≥1(i=1,2,…,n)

其中:w为法向量,d为位移量,φ(x)表示将x映射后的特征向量

3.引入核函数k(xi,xj),求解对偶化最优问题:

解出α之后,可以求得w,进而求得b

四、机器学习模型的选择与训练

机器学习的学习过程分为数据获取、数据预处理、特征工程、训练模型选择、评估模型{11}。首先按照21个指标整理出31个省市的原始数据,然后对数据进行归一化处理。机器学习训练需要一定量的数据量支持,为了得到更好的仿真效果,对处理过的数据进行模拟仿真得到300组仿真数据。

本文选取BP神经网络、随机森林回归、支持向量机回归三個机器学习模型进行交叉验证,得出模型的平均准确率。将全部仿真数据重新用于3个模型进行训练,得到最终模型,再对31组原始数据进行验证测试,和期望输出值进行比较,最后比较横向比较两步测试的结果并分析,选出具有优秀表现的机器学习模型。

(一)K折交叉验证

本文首先采用K折交叉验证进行模型的评估与选择,K取值为10具有更好的评价效果。本文将300个仿真数据分为相等的10份,即K1、K2、K3,…,K10。取Ki作为测试数据集,剩余部分为训练数据集。本文的问题类别为回归分析,因此选取1-均方误差作为评价标准。

(二)机器学习模型的训练与验证

在K折交叉验证的过程中由于需要留出一部分数据进行评估测试,因此只使用了一部分数据训练模型。由于三个模型的10折交叉验证准确度值均达到了85%以上,因此,三个模型的表现都很优秀。现在将300组数据全部用于模型的训练,并用31组原始数据得到的实际输出与期望输出值进行对比验证。本文的期望输出值为Ei=wij*sij,其中wij表示城市i的权重为第j个一级指标所包含的二级指标数与总指标数的比值,sij表示城市i的一级指标j的得分之和。三种机器学习模型的预测值和期望输出的误差对比图(如图1所示)。

(三)模型的选取

三种模型的10折交叉验证平均准确度和泛化误差值如下表3所示。由表3可以看出三种模型中只有随机森林回归的10折交叉验证准确度高于85%。并且随机森林回归的泛化误差也最小,这表明随机数森林回归的输出值误差波动最小。因此,本文选择随机森林回归进行各城市智能制造成熟度的评价,评价结果如表4所示。

五、结论

本文运用三种机器学习算法对31个主要省市的智能制造成熟度分别进行了评价,通过10折交叉验证和泛化误差对三种方法进行比较,最后确定随机森林回归对比其他两种模型具有优越性,因此选择随机森林算法对31各省市的智能制造成熟度进行评价。为各个省市智能制造成熟度的评级方法和研究过程提供思路和方法。之后的研究可在此基础上结合指标重要性对随机森林回归进行改进与探究,实现对智能制造成熟度更全面的评价。

注释:

{1}CAINELLI G, MARCHI V D, GRANDINETTI R.Does the development of environmental innovation require different resources evidence from Spanish manufacturing firms[J].Journal of Cleaner Production, 2015,(94):211-220

{2}LEE J,BAGHERI B,KAO H A.A cyber-physical systems architecture for industry 4.0-based manufacturing systems[J].Manufacturing Letters, 2015,(3):18-23

{3}WEBER P, WAGNER C.Equipment interconnection models in discrete manufacturing [J].Ifac Papersonline, 2015,48(1):928-929

{4}Wadhwa,Vivek.Why Its Chinas Turn to Worry about Manufacturing[N].Washington Post,2012,01:11

{5}齐小玲,冯大鹏.CMMI体系建立过程及在项目管理中的作用[J].计算机科学.2013(S2):436-438

{6}温国锋.基于成熟度的工程项目风险管理能力提升模型研究[J].现代物业(上旬刊).2015(6):66-69

{7}潘超杰.基于BP人工神经网络的物流配送中心选址决策[J].知识经济,2010,(9):10-16

{8}柴颖.基于随机森林回归分析的径流预报模型[J].水利水电快报,2018,39(9):36-38

{9}李永娜.基于支持向量机的回归预测综述[J].信息通信,2014(11):32-33

{10}马旭霞.支持向量机理论及应用[J].科学技术创新,2019(2):13-14

{11}周志华.机器学习[M].北京:清华大学出版社,2016

(作者单位:东北林业大学工程技术学院 黑龙江哈尔滨 150000)

(责编:若佳)