基于MPSO-SVM的硫化橡胶及助剂的太赫兹光谱分类识别
2021-01-09殷贤华奉慕霖石玉林
殷贤华,刘 昱,贺 微,奉慕霖,石玉林
(1.桂林电子科技大学 电子工程与自动化学院,桂林 541004;2.广西自动检测技术与仪器重点实验室,桂林 541004)
引 言
丁腈橡胶(nitrile butadiene rubber,NBR)、氯丁橡胶(chloroprene rubber,CR)、丁基橡胶(isobutylene isoprene rubber,IIR)和丁苯橡胶(styrene butadiene rubb-er,SBR)是4种使用比较广泛的通用橡胶,主要用来制造各种轮胎和一般橡胶制品。2-硫醇基苯并噻唑(2-mercaptobenzothiazole,MBT)是橡胶工业中广泛使用的硫化促进剂,常常作为其它硫化促进剂的母体原料[1];一硫化四甲基秋兰姆(tetramethyl thiuram monosulfide,TMTM)可以降低硫化橡胶的拉伸强度,适用于工程车辆[2];4,4′-二硫代二吗啉(4,4-dithiodimorpholine,DTDM)可以使硫化胶拉伸强度和耐疲劳性能平衡,同时耐热、耐老化性能也比较好,适用于小轿车[3]。随着橡胶工业的发展,对橡胶及其助剂的有效检测具有重要的研究意义。目前主要的检测方法有气相色谱法、燃效实验法和红外光谱法等,由于这些方法耗时且准确性低,无法高效地实现橡胶材料的区分,寻找一种高效无损的检测方法至关重要。
太赫兹(terahertz,THz)波作为一种频率处于0.1THz~10THz之间的电磁辐射[4],其量子能量低、散射效应较弱,对环境辐射不敏感[5],基于太赫兹技术的时域光谱(terahertz time-domain spectroscopy,THz-TDS)系统逐渐应用在许多领域。橡胶及多数助剂属于高分子化合物,在太赫兹波段的吸收和谐振很强,显示出“指纹”特性[6],这使得基于太赫兹的橡胶及其助剂的检测研究成为可能[7]。近年来,国内外学者针对橡胶及其助剂的太赫兹吸收特性展开了研究[8-10]。研究结果表明,部分橡胶及助剂在太赫兹波段展现出独有的吸收特性,具有一定的研究意义。目前的研究中主要针对橡胶和添加剂在太赫兹频段的吸收特性,却很少使用具体的算法来对吸收峰接近或者重叠的橡胶或者助剂建立分类模型。所以,通过太赫兹检测技术进行吸收峰相似的橡胶和助剂的精确分类识别具有重要意义。
支持向量机(support vector machines,SVM)作为经典的分类算法,成功地应用在各种分类场景[11-13]。但是在SVM模型中,其惩罚参量C和径向基核函数参量σREF对分类结果影响较大,如何优化这两个参量,关系到分类模型的优劣[14]。粒子群算法(particle swarm optimization,PSO)作为一种群体智能寻优算法,在工程计算中广泛应用。部分学者将PSO应用在SVM的参量寻优,实现了相对较好的效果[15-16]。本文中针对PSO容易陷入局部最优、搜索范围窄的缺点,将随机权重策略和异步学习因子同时引入到PSO算法中,提出改进的粒子群算法(majorization particle swarm optimization,MPSO)。针对物理特性相似、特征吸收峰相近的橡胶和硫化促进剂,将MPSO与SVM结合建立精确分类模型,提高橡胶和硫化促进剂的识别准确率。
1 实验与方法
1.1 样本制备
实验中以NBR,CR,IIR和SBR 4种常用的硫化橡胶,以及MBT,TMTM和DTDM 3种硫化促进剂为实验对象。选用的4种硫化橡胶由国家橡胶及橡胶制品质量监督中心(广西)提供,为纯度为94%以上的原生橡胶粉末经过混炼、返炼、硫化3步制作而成,然后对橡胶质检所提供的橡胶样片裁剪成满足实验系统测试要求的实验样片;3种硫化促进剂购于东莞市百亿塑料制品有限公司(纯度均在96%以上),首先按照设计好的样本配置比例进行称量,然后将样本在研钵中进行充分的研磨混合,最后利用压片机在49000N的压力下压制成片。每个样片厚度 1mm 左右,直径 12mm 左右,重量约180mg。每种样片制作了36个实验样品,其中4种硫化橡胶共144个实验样品,3种硫化促进剂共108个实验样品。为减少空气水分对实验样品的影响,样本压制前后,分别将原材料和压制好的样片放入YB-1A真空恒温干燥箱中在50℃下干燥2h左右。实验样品具体信息见表1所示。
Table 1 Types and quantities of experimental sample set 1 and set 2
1.2 实验仪器
实验设备主要由飞秒激光器(德国TOPTICA公司生产)和太赫兹时域光谱系统(美国Zomega公司生产)组成。其中飞秒激光器进光功率约为120mW,脉冲持续时间为100fs,中心波长为780nm,重复频率为80MHz。实验时,将室内温度控制在25℃左右,为减少空气湿度对实验的影响,将THz-TDS实验箱中充入干燥空气,使箱内空气湿度降到1%以内,具体的设备原理图见参考文献[17]。
1.3 光学参量提取
THz-TDS检测的主要目标是获得表征材料特征的宏观光学常数,一般包括复折射率、电导率和吸收系数等。利用透射式THz-TDS在获得参考信号Eref(T)和样品信号Esam(T)后,经过傅里叶变换得到对应的频域信号Eref(ω)和Esam(ω),其中,T表示时间,ω为太赫兹波振动的角频率。吸光度表示太赫兹波被材料吸收的程度,其为无量纲的相对量。使用吸光度来描述样品的吸收特性,可以减少样本厚度不均匀对光谱分析产生的影响。吸光度A(ω)的计算公式如下所示[18]:
(1)
2 模型构建
2.1 粒子群算法的改进
粒子群算法[19]作为一种群智能优化算法,因其优良的寻优特性,被应用在各种工程实践中。PSO的数学原理为[20]:假设存在一个n维搜索空间,由m个粒子组成的种群X={x1,x2,…,xm},其中第i个粒子的位置xi和速度vi表示为:
(2)
假设第i个粒子搜索到的最优位置为pi=(pi1,pi2,…,pin)T,种群的全局最优位置为pg=(pg1,pg2,…,pgn)T,那么第d维的粒子xi的速率和位置更新公式如下所示:
vid(t+1)=wvid(t)+c1r1(pid(t)-xid(t))+
c2r2(pgd(t)-xid(t))
(3)
xid(t+1)=xid(t)+xid(t+1)
(4)
式中,d=1,2,…,n,表示粒子维数;i=1,2,…,m,表示第i个粒子;t表示当前迭代次数,t+1表示下一代迭代数;w表示惯性权重,c1和c2表示学习因子;r1和r2表示[0,1]上服从均匀分布的伪随机数。
面对PSO算法容易出现陷入局部极值或者过早停止收敛的现象,将随机权重策略和异步学习因子加入到PSO算法中。随机权重策略的引入有两个优点:首先,如果在进化初期接近最好点,随机权重策略可能产生相对较小的w值,加快算法的收敛速度。另外,w的随机生成可以有效避免迭代初期最优值的错失,提高寻优的准确率。w的描述如下式所示:
(5)
式中,N(0,1)表示标准正太分布的随机数,r(0,1)表示0~1之间的随机数,μ表示均值,μmin和μmax分别表示均值μ可以取到的最小值和最大值,σ表示均方差。
面对PSO算法固定学习因子带来的收敛速度慢、寻优范围窄的权限,将随着迭代而变化的学习因子(异步学习因子)引入到PSO中可以增强了迭代初始阶段的全局搜索能力,有利于收敛到全局最优。异步学习因子的变化公式为:
(6)
(7)
式中,c1,begin和c2,begin表示学习因子初值,c1,end和c2,end表示学习因子终值,tmax表示最大迭代次数。
通过MPSO与SVM的结合,提出改进的粒子群优化支持向量机(MPSO-SVM)分类模型。以分类准确率作为适应度函数对SVM的惩罚参量C和径向基核函数参量σREF进行迭代寻优,从而提高SVM模型的分类正确率。MPSO-SVM的基本流程如图1所示。
Fig.1 Basic process of MPSO-SVM
迭代开始前对基本参量进行初始化:学习因子初值设置为2.5,学习因子终值设置为0.5,均值μmax取为0.8,均值μmin取为0.5,方差σ取为0.2,tmax取为100,种群数量设置为20,惩罚因子C和核函数参量σREF的初值范围设置为[10-2,102];
2.2 评价指标
混淆矩阵作为一种机器学习中经典的可视化指标,可以较直观地衡量一个分类器分类的准确程度。混淆矩阵行对应的类别表示样本的真实类别,每一行的实验样本总数为该行对应的类别的真实样本数;各列类别为预测类别,每一列的实验样本总数为预测为该类的样本总数[21]。其中,基于混淆矩阵的查全率(recall ratio)R和查准率(precision ratio)P是两个比较常用的指标,其计算公式如下所示:
(8)
(9)
式中,查全率Rh表示被模型正确预测为第h类的实验样本数与第h类实验样本真实数量之比,衡量分类模型识别相关种类能力的尺度;查准率Ph表示被模型正确预测为第h类的实验样本数与被模型预测为第h类的实验样本总数之比,表示模型识别某个种类的精确度;Nhh,Nhj,Njh分别表示混淆矩阵中第h行第h列、第h行第j列、第j行第h列所对应的数值。
3 实验结果分析
3.1 光谱分析
本研究中利用太赫兹时域光谱系统分别对NBR,CR,IIR和SBR 4种硫化橡胶,以及MBT,DTDM和TMTM 3种硫化促进剂进行多次测量取平均后,分别得到7种物质的纯净物吸光度图谱,如图2a和图2b所示。
Fig.2 Absorbance spectrum of different substancesa—four kinds of vulcanized rubber b—three kinds of vulcanization accelerators
由于不同物质分子振动模式的不同,各物质在太赫兹频段显示出特有的“指纹”特性,使得不同物质在不同频率点具有特定的吸收峰。从图2a可以看出,在0.3THz~1.6THz频段内,4种硫化橡胶具有各自独特的特征吸收峰:丁腈橡胶(NBR)在0.92THz,1.22THz和1.39THz处有3个的特征吸收峰;氯丁橡胶(CR)在1.24THz和1.39THz处具有两个明显的特征吸收峰;丁基橡胶(IIR)在1.08THz和1.48THz处存在两个特征吸收峰;丁苯橡胶(SBR)在1.09THz和1.52THz处有明显特征吸收峰。从图2b可以看出,3种硫化促进剂的特征吸收峰较明显,DTDM在1.51THz处有明显的特征吸收峰,MBT在0.92THz和1.40THz处存在特征吸收峰,TMTM在1.48THz处存在一个明显的特征吸收峰。
可以看出,4种硫化橡胶的特征吸收峰位置较接近,如果受噪声或者误差的影响,吸收峰存在偏移而发生重叠,则很难对4种橡胶做出准确判断;3种硫化促进剂中,MBT的吸收峰较独特,可以明显区分,但是DTDM和TMTM的吸收峰位置接近,难以直观地准确区分。所以针对4种硫化橡胶和3种硫化促进剂,需要借用一定的分类算法来进行建模区分。
3.2 分类识别
为了更加准确地对4种硫化橡胶和3种硫化促进剂进行分类,采用MPSO-SVM来进行精确分类识别。如表1所示,4种硫化橡胶144个样本数据中,96个样本数据进行模型训练,48个样本数据进行测试;3种硫化促进剂108个样本数据中,72个样本数据进行模型训练,48个样本数据进行测试。针对以上数据集,利用SVM、PSO-SVM和MPSO-SVM 3种模型进行分类识别。首先,以分类正确率作为适应度,通过算法对支持向量机的参量进行寻优,结果如表2所示。
Table 2 Selection results of SVM model parameters based on three algorithm
基于表2中的参量,3种模型分类结果的混淆矩阵如图3和图4所示。
Fig.3 Confusion matrix of classification results for four kinds of vulcanized rubbera—classification results of SVM b—classification results of PSO-SVM c—classification results of MPSO-SVM
Fig.4 Confusion matrix of classification results of three kinds of vulcanization acceleratorsa—classification results of SVM b—classification results of PSO-SVM c—classification results of MPSO-SVM
图3是3种算法针对4类硫化橡胶分类得到的混淆矩阵。图中,1,2,3,4依次对应NBR,CR,IIR和SBR 4种硫化橡胶。从图3a中可以看出,SVM算法的误判集中在第1类橡胶和第4类橡胶上,其中7个第1类橡胶被错分到第2类,1个第1类橡胶被误判为第3类橡胶,以及3个第4类橡胶被误判为第3类橡胶;从图3b中可以看出,PSO-SVM算法的分类结果较好,误判主要集中在第1类上,将8个第1类橡胶分到了第2类和1个第1类橡胶分到了第4类,将1个第3类错分为第4类;从图3c中可以看出,误判率主要集中在第1类上,将8个第1类分到了第2类和1个第1类分到了第4类。整体而言,误判率主要集中在第1类橡胶上,主要原因是第1类橡胶和第2类橡胶的特征吸收峰位置很接近,其中1.39THz处的吸收峰发生重叠是主要影响误判的原因。
图4是3种算法针对3类硫化促进剂分类得到的混淆矩阵。图中,1,2,3依次对应DTDM,MBT和TMTM3种硫化促进剂。从图4中可以看出,相较于4类硫化橡胶,3类硫化促进剂的分类结果更好。从图4a中可以看出,SVM算法的误判主要集中在第1类和第3类,其中1个第1类和1个第3类互相误判;从图4b中可以看出,PSO-SVM的分类结果比较好,仅将1个第3类误判为第2类;从图4c中可以看出,MPSO-SVM的误判率为零,3类硫化促进剂可以全部正确分类,效果最好。
进一步定量评判分类结果,由混淆矩阵计算出set 1和set 2数据集分类结果的查全率和查准率,如表3所示。从表中可以看出,针对set 1数据集,MPSO-SVM识别CR,IIR和SBR的查全率均为100%,在NBR橡胶的查全率仅为25%,低于SVM;对于查准率,MPSO-SVM针对NBR和SBR可以精确分类,在CR的分类精准度上略低于SVM。针对set 2数据集,MPSO-SVM的查全率和查准率均为100%,效果最佳。
Table 3 The recall and precision of the classification results for the three algorithms
保持set 1和set 2训练集和测试集的样本不变,将SVM,PSO-SVM和MPSO-SVM 3种方法分别运行20次,得到训练集和测试集的平均准确率如表4所示。从表中可以看出,3种方法针对两个不同的数据集的结果中,MPSO-SVM算法的综合正确率更高;本文中的算法在Intel(R) Core(TM) i5-4210U CPU 1.70GHz、内存为4GB的电脑配置环境下运行,相比PSO-SVM算法,该算法的分类识别时间更短,效率更高。
Table 4 Comprehensive evaluation of three algorithms after running 20 times
4 结 论
本研究中以4类常见的硫化橡胶和3类常用橡胶硫化促进剂为实验对象,通过改进的粒子群算法与支持向量回归机相结合,建立分类识别模型。研究结果表明,粒子群算法与随机权重策略和异步学习因子的结合可以较好地对支持向量机的惩罚参量和核函数参量进行寻优,从而有效提高分类模型的识别准确率,相比于SVM和PSO-SVM算法,MPSO-SVM算法的识别准确率更高,为基于太赫兹时域光谱技术的物质检测分析提供了新的参考方法,具有重要的参考价值。