基于一维卷积神经网络的工业产业安全评价与预警研究
2021-01-29郭艳芹米热阿依米吉提
张 业 郭艳芹 米热阿依·米吉提
(新疆财经大学经济学院 新疆乌鲁木齐 830012)
工业是国民经济的主体,在国民经济中处于主导地位,是十分重要的物质生产部门。改革开放以来,中国工业取得了长期快速发展,建立起了完整的产业体系,但是近几年来国际单边保护主义迅速抬头,国际贸易摩擦不断加剧,给中国工业产业安全发展带来了前所未有的困境和挑战。因此,建立有效的工业产业安全预警系统,并对产业安全状况进行量化、评价、预警,对工业产业安全发展有重要意义。
一、文献综述
随着经济全球化发展,产业安全问题引起学者们越来越多的关注。国内关于产业安全问题的研究多为定量分析产业安全评价[1],实证方法有DEA模型[2]、层次分析法[3]、功效系数法[4]等。关于安全预警方面的研究比较少,部分学者利用BP神经网络算法在非线性映射和识别能力方面的优势,通过对相关数据进行学习、训练,形成适应该数据的预警模型,进而评价产业安全状况。金成晓和俞婷婷(2010)[5]运用灰色预测模型预测产业安全各评价指标,并与历史数据相结合建立三层BP神经网络对制造业产业安全未来状况进行系统预警;白燕飞等(2015)[6]从国际贸易角度构建BP神经网络模型对奶牛产业安全进行预警研究;汪芳和朱德宇(2016)[7]则运用灰色预测模型和主成分分析法评价汽车产业安全状况,基于BP神经网络模型对汽车产业未来状况进行系统预警;在研究中医药产业安全方面,汤少梁和张笑笑(2017)[8]采用熵权—灰色关联分析法对中医药产业安全状况进行评价,同样运用灰色预测模型进行指标预测,运用BP神经网络算法对未来中医药产业安全状况进行预警。
多数文献运用BP神经网络算法来研究产业安全问题是基于其具有很强的非线性映射能力,网络中的隐含层数和各层的神经元数可根据训练结果自行设置。但是BP神经网络算法也存在的一些缺陷:首先,容易陷入局部极小值,跳不出训练峰值;其次,学习速度比较慢;最后,BP神经网络中隐含层内激活函数多为sigmoid函数或者logsig函数,它们在趋近于端点位置时梯度趋近于0,这样会造成网络学习率更新缓慢或梯度消失无法学习的问题。Hinton(2015)[9]建立卷积神经网络有效地缓解了上述问题。卷积神经网络具有局部感知和参数共享两个特点,局部感知是指在卷积神经网络中每个神经元只对数据的局部信息进行感知,然后将感知到的信息进行处理并在更高层进行合并,从而得到数据的全部表征信息。权值共享是指在卷积神经网络算法中卷积核的权重可以对不同局部信息重复使用,这样能有效地减少可训练参数的数目,加快模型的训练和收敛速度。另外,卷积神经网络的激活函数可以运用ReLU函数,有效解决了梯度两端学习率更新缓慢问题。以往的文献还未应用卷积神经网络来预测产业安全状况。
因此,本文在现有研究成果的基础上构建工业产业安全评价指标体系,运用熵权—灰色关联分析法对2000—2018年工业产业安全状况进行评价,再运用LSTM神经网络预测模型预测2019—2023年工业产业安全各评价指标数据,将所有预测数据和历史数据相结合,建立基于一维卷积神经网络的工业产业安全预警模型,并对2019—2023年的工业产业安全状况进行系统预警。
二、产业安全评价
(一)评价指标体系构建
本文参考以往文献的研究成果[10][11],从产业国际竞争力、产业控制力、产业对外依存度和产业生存环境四个方面出发综合评价工业产业安全状况,建立工业产业安全三级评价指标体系如表1所示。具体指标说明如下。
国际市场占有率X1(%):本文选用工业产业出口贸易总额占世界工业出口贸易总额的比重来衡量工业国际市场占有率,反映工业产品国际竞争能力。贸易竞争力优势指数X2(%):本文选用工业总出口额与总进口额之差占两者之和的比重来度量贸易竞争力优势程度,指标数值越大,则国际竞争优势越大。显示性比较优势指数X3(%):显示性比较优势指数=(中国工业产品出口总额/世界工业产品出口总额)/(中国总出口额/世界总出口额),指标数值越大,则国际竞争优势越大。劳动生产率X4(万元/人):本文选取工业生产总值对从业人员年平均人数的比值来反映劳动生产率,体现劳动要素在产品价值创造中的贡献。销售利润率X5(%):本文选取工业利润总额对营业收入的比值来体现工业产业单位收入的盈利能力。总资产贡献率X6(%):本文选取工业利润总额占工业资本总额的比值来反映产业内企业全部资产的获利能力。资本密集度X7(万元/人):本文选取工业产业总资产对从业人员年平均人数的比值来衡量资本密集度,体现资本要素的相对丰裕程度。R&D投入强度X8(%):本文采用工业R&D经费支出占工业营业收入的比重来反映企业对技术创新的重视程度。新产品投入强度X9(%):本文选取工业新产品开发经费支出占工业新产品销费收入的比重来体现产业产品创新能力。R&D人力强度X10(%):本文选取R&D人员全时当量值占总工作人数的比例来反映企业创新潜力。产业进口依存度X11(%):本文选取工业产品进口总额占工业产业总产值的比重来衡量产业对外依赖程度,指标数值越低,表明产品对国外的以来程度越低。产业技术依存度X12(%):本文选取工业引进国外技术经费支出占工业技术获取改造总支出的比重来反映产业对外技术依赖程度,产业技术依存度越高,表明工业的发展越依赖国外技术支撑,对技术产品的进口依存度越大,对我国工业产业安全造成的威胁越大。外资股权控制率X13(%):本文选取外资企业总产值占工业总产值的比重来反映外资对国内产业控制情况。外资市场控制率X14(%):本文选取外资企业利润总额占工业利润总额的比重来体现外资对国内市场的控制程度。资本成本X15(%):本文选择一年期银行贷款利率来衡量资本成本,反映产业筹集和使用资本需要付出的代价。单位能耗X16(%):本文选取工业能源消费总量占工业生产总值的比重来反映产业每单位总之所消耗的能源量。环境治理强度X17(%):本文选取工业污染治理投资占工业生产总值的比重来反映工业对污染治理的重视程度。
研究所用数据主要源于2000—2018年《中国统计年鉴》《国际统计年鉴》和《科技统计年鉴》。数据具有真实性和可查性。
表1 工业产业安全评价指标体系
续表 1
(二)评价方法选择
1.灰色关联分析法
灰色关联分析法作为衡量因素间关联程度的一种方法,对数据要求较低并且计算量小,因而被广泛运用[12],其具体操作如下。
归一化处理,对原始数据进行归一化(无量纲化)处理。
在(1)、(2)式中:xij为 第i年 份第j个 指标的初始值,Yij为 第i个 年份第j个指标进行标准化后的处理值,minxij为 初始值的最低值, m axxij为初始值的最高值。按(1)、(2)式对数据进行归一化处理组成比较序列Xj,将每项指标最优值组成参考序列X0,构建X矩阵。
计算关联系数,关联系数是比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,反映关联程度,即曲线间几何形状的差别程度。
其中,分辨系数ρ,按照国际惯例通常将分辨系数取为0.5。
计算关联度。关联系数反映各个指标各个时刻的关联程度,不便于进行整体性比较。因此取其平均值,作为比较数列与参考数列间关联程度的数量表示[13],关联度公式如下:
2.熵权法
为了避免实证研究中权重赋予时候的主观性影响[14],本文采用熵权法来确定权重Wi,具体操作如下:
在(1)、(2)式中:xij为 第i年 份第j个 指标的初始值,Yij为 第i个 年份第j个指标进行标准化后的处理值,minxij为 初始值的最低值, m axxij为初始值的最高值。
计算在第j个指标下第i个年份所占比重:
求第j个指标的信息熵:
其中,n为年份个数。
求第j个指标的差异系数:
求第j个指标的权重:
其中,m为指标个数。
(三)评价过程
本文使用MATLAB软件将各年份工业产业安全评价指标值作为比较序列,指标最优值作为参考序列,根据公式(5)得出反映工业产业安全状态的关联度如表2所示,关联度越大,说明该年份工业产业越接近最安全状态。
表2 2000—2018 年工业产业安全关联度
(四)评价结果分析
根据表2中工业产业安全关联度及位次发现,2000—2004年工业产业安全度整体处于较低水平并波动变化,2001年工业产业安全度最低,反映出随着市场的进一步扩大,特别是中国加入WTO后,外国工业产品、服务和投资更多地进入中国市场,给国内工业产业安全造成一定程度影响;2005—2008年工业产业安全度呈缓慢上升趋势,表明国企改革有成效,利用体制优势加大推动了工业化进程,2008年有所下降说明美国次贷危机爆发对中国工业经济发展和工业化进程造成了一定的影响;2009—2014年我国工业产业安全度呈逐年上升的趋势,体现了工业转型升级所带来的成果,但受次贷危机影响,中国的工业化转型升级很大程度上重走了数量和速度型的老路从而出现供需错配问题,传统工业产能过剩的同时,部分高精尖产品供不应求。针对这一问题,我国在2015年前后开始实施供给侧结构性改革,经过几年努力,取得了明显的效果,使得2015年以来安全度增速上升,《中国制造2025》行动纲领也逐渐发挥出顶层设计和举国体制的优势。但是从整体来看,与最佳产业安全状态的关联度不足0.8,表明供给侧改革虽成效显现,但产业升级还任重道远。
三、产业安全预警
(一)预警区间选择
本文参照国家对突发公共事件预警等级的划分逻辑,设置预警区间及信号对照表(表3)。
表3 预警区间及信号对照
(二)预警方法选择
神经网络将给定数据集作为样本集输入网络,网络按照合适于该数据集的网络结构调节神经元间的拓扑结构,进而得到预期输出,然后通过大量训练来达到优化模型的目的。训练的过程就是优化模型权重的过程,也是让损失函数尽可能小的过程。当损失函数值下降到尽可能小的程度并趋于稳定时,表明训练后的神经网络模型权重较好地拟合输入和输出数据,网络训练就此结束。当训练完成后,就可以使用该模型来解决一些判别性的问题。
卷积神经网络具有参数共享机制,可以让网络的参数数量大大地减少,学习速率加快,并且可以灵活调整激活函数,有效地避免过拟合(Overfitting)。卷积神经网络还具有很强的非线性处理能力,可以有效反映影响工业产业安全的各因素间相互关系。同时,卷积神经网络能根据给定数据,通过训练和学习,得出反映输入和输出间关系的优化模型,保证评价结果的客观性。根据数据特征,本文采用一维卷积神经网络建立工业产业安全预警模型。
1.建模框架的选择
在使用PyCharm(IDE)建立工业产业安全预警模型之前,要选择合适的深度学习框架,深度学习框架有很多种,比如Tensorflow,Caffe,MXNet,PyTorch等。在当前开源的框架中,PyTorch框架在灵活性、易用性、速度这三个方面较有优势:PyTorch的灵活性反映在自动反向求导,如果对网络进行修改,可以实时并最快地运行程序;PyTorch的设计线性且直观,易于准确定位错误,从而很大程度上节约了调试的时间;PyTorch的底层源代码更好理解,有利于深入理解内部的实现。本文选择PyTorch框架进行建模。
2.输入、输出及隐含层结构设置
不同的隐含层结构会影响训练结果的好坏和训练性能,由于训练数据偏少,所以使用较深层的网络无法收敛,通过不断地调整网络,大量训练发现设置8层隐含层的神经网络即可学习到数据的特征,这八层分别为,两层卷积层,两层池化层,一层dropout层,三层全连接层,结构路径如图1所示。
图1 一维卷积神经网络结构图
3.输入、输出层节点设置
隐含层的数量在神经网络拟合数据的准确性中起到了关键的作用,每个隐含层能够对前一层的神经网络的特征进行组合,从而构造更复杂的特征,并更好地拟合给定的数据集。根据数据集特征,输入层的节点数以指标数量为准,输入节点数为17,设定输入层为三维张量结构(1*1*17)。输出层节点数通常是由需要输出的数据类型和表达方式来决定的,本文将警度分为5个等级,因此输出节点数为5,设定输出层为二维张量结构(1*5)。
(三)预警数据准备
1.预测方法选择
未来数据需要根据以往数据特征来推测,而传统神经网络只关注某一时刻的信息特征,没有时间概念,Recurrent Neural Network(RNN)循环神经网络可以实现神经网络的记忆功能,但是它只适合处理短时依赖问题。当已知相关信息与预测点时间间隔比较远的时候,网络就难以学到该相关信息。Graves and Alex(2012)[15]构建了LSTM神经网络可以很好地解决这个问题。LSTM神经网络是一种特殊的RNN,网络架构如图2所示。
图2 LSTM 神经网络图
LSTM 神经网络拥有四个结构,即 Input gate、Output gate、Forget gate 和 Cell。“Input gate”层通过 sigmoid激活函数来决定哪些值用来更新信息;“Output gate”层首先通过sigmoid激活函数得到一个初始输出,然后使用tanh函数将值缩放到−1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出;“Forget Gate”层用于筛选信息;“Cell”层用来记录信息传递给下一时刻用。图2中ft、it、Ot分别为Forget gate、Input gate、Output gate层,σ 层输出 0-1 之间的数值,描述每个部分可以通过的量。LSTM模型相应计算公式为(10)—(15)。
其中,xt为t时刻的输入,W为权重矩阵,b为偏置矩阵,C⇀t为t时刻的候选向量,Ct为t时刻的更新值,ht、ht−1为t时刻和t−1 时刻模型输出值。
2.输入、输出层节点设置
根据LSTM神经网络输入信息点特征,原始数据的年份间隔19年,输入节点数为2,输入层为三维张量结构(1*1*2),由于输出层预期数据是预测年份数据值,因此输出节点数为1,设定输出层为三维张量结构(1*1*1)。
3.预测过程
经过多次试验,LSTM神经网络模型最终采用的函数及参数见表4。
表4 LSTM 神经网络函数、参数组合
经过1400次训练后,基于各指标数据的LSTM神经网络模型的loss值基本下降到0.01以下,表明网络学习效果较好,网络权重较好拟合各指标数据。损失函数值下降曲线见图3。
图3 MSE 损失函数下降曲线图
根据训练后各指标数据的网络权重,该模型可预测各指标数据值。本文设定预测年份为5年,通过网络训练,可获得2019—2023年各指标数据并作为预测样本。
(四)预警过程
将已得样本集分为训练集、测试集和预测集,由于网络实际输出节点为5并反映5种预警状态,而且测试集中至少需要两组数据反映不同预警状态以测试网络性能,因此,本文设定2014年和2015年的指标数据作为测试集,2000—2013年和2016—2018年的指标数据作为训练集,2019—2023年的预测指标数据作为预测集。根据一维卷积神经网络输入层数据特征,所有数据需进行归一化处理,如表5所示。
表5 指标归一化后的 3 类样本
续表 5
经过网络多次试验,模型最终采用的函数及参数见表6。
表6 一维卷积神经网络函数、参数组合
根据表6可知,网络经过4000次训练后,一维卷积神经网络模型的Loss值下降到0.001以下,表明此网络训练较好,输出较精确,网络权重较好拟合指标数据特征。损失函数下降曲线及训练次数见图4。
图4 交叉熵损失函数下降曲线图
根据已训练好的模型权重,可测试两组测试集和五组预测集的输出结果,在预测训练中,将2014年、2015年,以及2019—2023年的归一化指标数据输入网络,得出对应的预警信号结果如表7所示。
表7 一维卷积神经网络测试和预测结果
(五)预警结果分析
网络输出测试集的信号结果分别为2和3,说明网络很好的学习了各指标数据,为预测集结果的准确性提供了保证。网络输出预测集的信号结果都为3,表明2019—2023年工业产业安全状态整体良好,安全警度为Ⅳ级(正常)。结合当前的工业产业发展状况以及政策实际,本文认为结果可靠。在当前宏观形势上我国大力推进制造强国建设,对工业产业安全发展起到了促进作用,整体向好,但是某些影响因素仍需进一步改进。
四、结论与建议
本文建立基于一维卷积神经网络的工业产业安全预警模型,并对2019—2023年工业产业安全状况进行系统预警。结果表明:研究年限初期,随着市场的进一步扩大,特别是中国加入WTO后,关税大幅度减让,外国工业产品、服务和投资更多地进入中国市场,给国内工业产业安全造成一定程度影响;但随着工业改革不断深入,外资对工业产业控制力下降,产业对外依存度相对降低,工业产业国际竞争力提升,从而工业产业安全度不断提升,尤其是近几年,安全度增速上升;预测未来五年工业产业安全程度整体处于安全状态。
本文结合评价指标权重、各年关联系数与预警信号结果,提出几点相关建议。第一是要适当提高工业产品的国际市场占有率,建议优化出口产品结构,增加高附加值产品的出口,加大发展高技术制造业和装备制造业,全面推动制造业技术升级,提高产品国际竞争力,完善对外贸易市场网络布局,进而促进工业产业安全发展。第二要提高工业产业劳动力素质,在研发方面,加大工业技术创新人才培养力度,增强产业创新能力;在生产方面,积极开展技能培训,提高生产人员技术水平,增强产业竞争能力。第三,进口对外依存度应继续保持较低水平,从指标数据中可知,进口对外依存度逐年降低,反映出我国工业受跨国影响程度在逐年降低,这有利于工业产业安全发展。第四,适当引进外资和技术,完善外资控股相关制度,坚持新发展理念,加强创新能力建设,促进工业产业转型升级。第五,维护金融环境稳定,提升国有资本运营效率,优化营商环境,增强市场主体活力。落实中小企业扶持政策,促进中小企业健康发展。第六,加大工业污染治理投资力度,对新增企业落实严格的环保措施并督促现有环保设备缺乏、排放标准不达标的企业加快污染治理改造。第七,稳步推进工业高质量发展,努力提升产业链水平,加大对生产关键新材料、重大短板装备等短板产业的扶持力度。第八,加速构建工业产业安全新生态,随着全球智能化发展,在工业互联网时代,安全主体不仅仅限于政府和企业,第三方组织或个人也需加入,每个安全主体承担各自的安全责任,政府负责战略规划、安全企业负责技术研发、第三方机构负责形势研判。各方都是安全生态构建的参与者,携手共建工业产业安全新生态,合力保障工业产业安全的健康发展。