APP下载

基于数据驱动的海水环境中3C钢腐蚀速率的预测

2022-12-07翟秀云陈明通

材料保护 2022年10期
关键词:海水向量速率

翟秀云,陈明通

(攀枝花学院公共实验中心,四川 攀枝花 617000)

0 前 言

钢材在海洋环境中的腐蚀破坏不仅会造成直接或间接的重大经济损失,还会产生人员伤亡的重大事故。随着海洋资源开发的深入,人们希望能够预测不同海域、海洋环境条件下钢材的腐蚀速率,为海洋工程设施设计提供依据[1]。3C钢是一种造船用的碳素结构钢,随着它的广泛应用,其腐蚀问题也引起了工程界的高度关注[2-4]。

材料腐蚀速率的预测方法主要有基于机理的公式计算[5]和有限元分析[6],但由于影响因素多且各因素之间又具有很强的线性或非线性相关性,找到腐蚀速率与各影响因素之间的关系非常困难,特别是有限元分析法,在计算的整个过程中需要进行大量假设,且耗费大量时间[6]。研究者们发现基于数据驱动的机器学习模型可以快速、有效地预测材料的腐蚀速率[2,7-10],并且应用前景广阔。特别是所建立的3C钢腐蚀速率预测模型[2,8-10]具有较高的预测精度,能够满足腐蚀速率计算的要求。这些机器学习模型中广泛使用了神经网络模型,而适用于解决小样本、非线性问题的支持向量回归(Support Vector Regression,SVR)模型很少采用,并且在3C钢腐蚀速率预测的研究工作中,未采用过已证明预测精度高的组合模型[11]。

本工作对文献中的数据进行变量筛选,利用4个参数建立了3C钢腐蚀速率的高斯核函数支持向量回归(Support Vector Regression with Gaussian Kernel Function,RBF-SVR) 模型[12-14],结果表明该模型具有较理想的预测性能。在此基础上,将已建立的RBF-SVR模型与文献中的GA-BPNN(Back propagation neural network based on genetic algorithm,基于遗传算法的反向传输神经网络)模型[9]、四层BPNN(Back propagation neural network,反向传输神经网络)模型[10]组合为一个模型,结果表明此组合模型的预测性能高于以上3种模型。

1 数据集与计算方法

1.1 数据集

本工作的数据集来源于参考文献[15,16],由46个3C钢的腐蚀速率(Y,3.61~22.64 μA/cm2)样本组成,输入变量为5个海水环境参数,分别为温度(℃)、含氧量(mg/L)、盐度(mg/L)、pH值、氧化还原电位(mV),用参数X1、X2、X3、X4、X5表示。数据集详见参考文献[15]。将数据集分成2部分:用于建模的训练集和用于验证的测试集。把序号为7、10、14、21的试验数据作为模型的测试集样本,其余数据作为训练集样本。

1.2 支持向量回归

支持向量回归(SVR)是解决非线性回归问题的一种有效方法,也是一种有监督学习算法,已被成功应用于各个领域[17-20]。它在解决小样本问题的同时,又能解决神经网络算法中的高维问题和局部极值问题,使其具有更大的优势,其结构也非常简单。由于考虑了经验风险和预测风险之间的平衡,使计算模型具有良好的预测性能和泛化性能。

样本集为(y1,x1),…,(yl,xl),x∈Rm,y∈R,其中,x为m维特征变量,y为目标变量,l为样本数,SVR在线性回归时,用下列方程表示:

f(x)=ωTx+b

(1)

ω为系数向量,b为常数,目标函数的原始形式:

(2)

(3)

上式中ε为不敏感损失函数参数,i=1,2,…,l。

求解:

(4)

通过引入核函数可以将原始输入非线性映射到特征空间,然后利用SVR求解复杂的非线性回归问题。非线性SVR的解可通过以下方程求解:

(5)

其约束条件为:

(6)

本工作中所建立的SVR模型采用高斯核函数(RBF),其表达式如下:

(7)

式中:σ2表示高斯核的频宽。

1.3 模型的评价指标

本工作中对于模型的泛化性能的评价指标主要有2个,分别为均方根误差(Root Mean Square Error,RMSE)、平均相对误差(Average Relative Error,MAE)。它们的计算公式如下:

(8)

(9)

式中ei和pi分别为3C钢的腐蚀速率的实验值与预测值;n为样本的数量。

1.4 计算的实施

本次计算是在材料数据挖掘在线计算平台(OCPMDM)上进行的[12,20]。它可以在上海大学材料数据挖掘实验室的网站上免费使用(http://materials-data-mining.com/ocpmdm )。它的前身是HyperMiner软件包[21,22],其免费版本可从以下网址下载:http://chemdata.shu.edu.cn:8080/MyLab/Lab/download.jsp。

2 结果与讨论

2.1 变量筛选

变量筛选是建立成功模型的关键步骤,它可以降低特征空间的维数,进一步降低过拟合的风险,更好地去除与目标值无关的变量和噪声干扰。同时,还可以缩短训练时间,进一步提高模型的预测能力和泛化性能。本工作采用了基于支持向量回归的遗传算法(GA-SVR)、前进算法(Forward-SVR)和后退算法(Backward-SVR)筛选自变量,形成最优特征集。遗传算法是一种受自然选择过程启发的元启发式算法,属于进化算法的一大类。与其他优化算法相比,遗传算法能够从响应面上的局部最优解出发,在不需要响应面上的知识或梯度的情况下,可以求解多种优化问题。3种算法的评价指标均为RMSE。前进法是回归方程中的自变量从无到有,由少到多逐个引入来构建模型的一种方法。后退法与前进法相反,即先建立全变量模型,然后逐步剔除无统计学意义的自变量,以此构建回归模型的一种方法。

Forward-SVR和Backward-SVR的计算结果如图1所示,从图1可以看出,2个算法获得的结果一致,即当变量数为4时RMSE的值最小。利用GA-SVR进行变量筛选时,进化代数为100次,变异概率为0.05,计算结果与前2种方法相同,最优的变量子集也相同,由X2、X3、X4、X5组成。此结果表明,海水温度(X1)对腐蚀速率的影响较小,这与实际相符。因为海水温度每升高10 ℃,化学反应速度提高约10%,海水中金属的腐蚀速率将随之增加;但温度升高,氧在海水中的溶解度下降,每升高10 ℃,氧的溶解度降低约20%,使金属的腐蚀速率有所降低。因此,在上述2个过程的共同作用下,温度对金属的腐蚀速率的影响变得非常小。

根据以上3种变量筛选算法的结果,得到用于建模的数据集如表1所示。表中编号带‘*’号的数据为测试集样本,其余的数据为训练集样本。

表1 不同海水环境参数下的 3C 钢腐蚀数据集Table 1 The dataset of 3C steel corrosion in different seawater environment

(续表1)

注:表中参数的含义和单位分别为:Y(腐蚀速率,μA/cm2)、X2(含氧量,mg/L)、X3(盐度,mg/L)、X4(pH值)、X5(氧化还原电位,mV)。

2.2 建立RBF - SVR模型

为了得到性能最佳的 RBF-SVR 模型,需要对模型超参(正则化参数C、不敏感损失函数参数ε、RBF核函数的系数γ)进行调整。如果把C、γ和ε一起看,当C比较大,γ比较大,ε比较小时,会有更少的支持向量,模型会比较复杂,容易出现过拟合。当C比较小,γ比较小,ε比较大时,则相反。在这里,使用了SVR的留一法交叉验证(LOOCV)与网格搜索对它们进行调优。设定C在1~100之间,步长值为1,ε在0.01~0.10之间,增量为0.01,γ从0.5~1.5之间变化,步长为0.1。当评价函数RMSE最低时,SVR模型最优,此时对应的3个参数即为建模所用的超参。

模型超参的网格搜索过程如图2所示。在网格搜索过程中,当模型的RMSE为最小时得到最优的超参组合为:ε=0.02、C=22、γ=0.8。基于以上变量筛选以及参数优化的结果,使用 4 个特征建立RBF-SVR模型,其方程如下所示:

(10)

式中:x是未知向量,xi是模型的支持向量。n和βi分别是支持向量的个数和拉格朗日乘子。

图3显示了训练集和测试集的3C钢腐蚀速率实验值和RBF-SVR模型预测值的比较,以进一步分析模型的预测能力。从图3中可以看出,模型的RMSE为1.431 3,R为0.896。由于4个测试集样本非常靠近拟合线,所以模型的预测性能符合要求。

2.3 建立综合模型

RBF-SVR模型对于测试集的4组样本的预测值及对应的相对误差见表2所示,该表也列出了已发表文献中建立的3C钢腐蚀速率预测模型对于测试集的预测情况,主要有PSO-RBFNN[基于粒子群优化(PSO)的径向基神经网络(RBFNN)]模型、GA-BPNN模型、四层BPNN模型。

表2 不同模型对测试集的预测结果Table 2 Prediction results of different models for the testing samples

从表2中可以看出由较少的变量(4个,其它模型变量数为5个)所建立的RBF-SVR模型只有样本14的预测值相对误差较大,整体来看,其预测性能较好。将文献中已建立的GA-BPNN、BPNN模型与本工作中的RBF-SVR模型做为基础生成组合模型[11]。经计算分析可知,组合模型具有最小的相对误差(MAE=1.46)。由于它将算法在样本点上错误的估计平均化了,使预测结果更接近于真实值,即对样本点的预测在多个角度评估后会使预测值变得更为可信。

3 结 论

本工作利用4个特征(含氧量、盐度、pH值、氧化还原电位)建立了预测海水环境中3C钢腐蚀速率的RBF-SVR模型,并在3种模型(RBF-SVR、GA-BPNN与BPNN)的基础上建立了3C钢腐蚀速率的组合模型,经比较分析发现利用多种机器学习算法建立的组合模型具有更高的预测精度。因此,本工作所提出的方法可以为建立更高效的金属材料腐蚀速率预测模型提供有意义的参考,也对3C钢在海水中的腐蚀监测工作提供有价值的指导。此外,如果收集更多的同类型的训练数据时,可以对模型进行进一步的修正,以获得准确度更高的3C钢腐蚀速率预测工具。

猜你喜欢

海水向量速率
向量的分解
聚焦“向量与三角”创新题
“化学反应的速率与限度”知识与能力提升
喝多少杯海水能把人“渴死”?
海水为什么不能喝?
速度和速率有什么不同
海水
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
不同冷却速率下低压转子钢30Cr2Ni4MoV的凝固组织