APP下载

基于拉曼光谱技术的海水微塑料快速识别技术研究

2021-08-17杨思节冯巍巍蔡宗岐

光谱学与光谱分析 2021年8期
关键词:曼光谱决策树交叉

杨思节,冯巍巍,蔡宗岐,王 清

1. 哈尔滨工业大学(威海),山东 威海 264200 2. 中国科学院海岸带环境过程与生态修复重点实验室(烟台海岸带研究所),山东 烟台 264003 3.中国科学院海洋大科学研究中心, 山东 青岛 266071 4.中国科学院大学, 北京 100049

引 言

自从发现微塑料在海洋和海洋生物中无处不在,全球对微塑料的关注已大大增加[1-3]。2015年第二届联合国环境大会上,微塑料污染被列为与全球气候变化、 臭氧耗竭和海洋酸化并列的重大全球环境问题[4]。研究表明微塑料已经大量存在于各个大洋、 海湾中,例如在北冰洋中发现了高浓度的微塑料[5],天津近岸海域微塑料污染严重[4],山东桑沟湾微塑料丰度很高[6]。但是目前国内还没提出成熟的快速智能识别海水中微塑料的方法。

微塑料是指粒径小于5 mm的塑料颗粒,由于其粒径较小,微塑料的识别鉴定仍然是一个挑战[2]。目前研究表明,光谱分析法(FTIR、 Raman)和热分析法(Py-GC-MS、 TED-GC-MS)应用于微塑料的识别检测频率最高。热分析法容易破坏微塑料的属性,红外光谱分辨率较低且容易受海水的干扰,而拉曼光谱作为红外互补光谱,近年来受到越来越多的关注。通过拉曼光谱的基团频率振动峰对微塑料进行分类鉴别,指纹峰明确易于识别,而且不需要制样、 为非破坏性,避免了样品制备过程中可能造成的污染和保持样品的完整性[7]。因此本文基于拉曼光谱探测技术,提出了一种结合小波处理、 随机森林算法实现海水中微塑料快速识别的智能分类方法。

1 实验部分

激光拉曼系统可实现对微塑料的直接测量,不需要对样品进行预处理,并且检测速度快,可以很好地实现微塑料的快速识别。图1为激光拉曼探测系统完成微塑料光谱数据收集的过程。有光源控制电路、 探测单元和信号处理传输单元,其中探测单元包括激发光源、 入射光纤、 探头、 接收光纤、 光谱采集模块,信号处理传输单元包括光谱处理模块、 光电转换模块、 数据处理模块和数据传输接口。采用785 nm的激发光源。

1.1 原始拉曼数据获取

选取环境中比较常见的六种微塑料: 丙烯腈(A)-丁二烯(B)-苯乙烯(S)的三元共聚物(ABS)、 聚酰胺(PA)、 聚对苯二甲酸乙二醇酯(PET)、 聚丙烯(PP)、 聚苯乙烯(PS)、 聚氯乙烯(PVC)。选取激发波长为785 nm的激光探测器固定在距离标准样品2 cm处进行测量,光谱采集模块的光谱范围为768~1 190 nm,拉曼光谱的积分时间为500 ms。

1.2 数据预处理

1.2.1 标准差归一化处理

标准差归一化是对拉曼光谱数据进行中心平移变换和无量纲压缩处理,可以用来消除拉曼光谱中激光光源功率变化、 光强衰减等影响。分别取波数在0~4 000 cm-1共1 745个光谱数据进行标准差归一化运算。

1.2.2 小波分析处理

拉曼采集微塑料光谱数据时存在的噪声和荧光背景是影响分析拉曼光谱的主要问题。本文利用小波分析来降低采集的微塑料拉曼光谱的噪声。小波变换(wavelet transform, WT)通过伸缩平移运算对信号(函数)逐步进行多尺度细化,可以局部化分析非平稳信号[8]。根据常用去噪小波函数选取了Daubechies(DBN)小波。实验发现用DB7小波基,分解次数选择3次分析微塑料的拉曼光谱最合适。图2分别是聚丙烯(PP)原始光谱和经过标准差归一化、 DB7小波分析后的拉曼光谱图。

1.2.3 数据压缩预处理

原始拉曼光谱具有1 745个数据点,不同的属性对光谱分析具有不同的重要程度,为了提高模型识别速度需要对原始光谱进行数据压缩。利用随机森林算法能评估各个属性在分类问题上的重要性程度,选出重要性重要程度高的属性,达到数据压缩的目的。

图2 聚丙烯原始拉曼光谱和经预处理后的拉曼光谱

1.3 构建分类识别算法

选择机器学习中的决策树算法和随机森林算法分别构建识别模型,他们都比较适合小样本集的分类识别。决策树(decision tree,DT)算法实现分类的原理[9-10]: 构造一种模型,使模型能够从样本数据的特征属性中,通过学习简单的决策规则,从而预测目标变量的值。随机森林(random forest,RF)算法是建立了多个决策树,并将它们合并在一起,最终叶节点是分类问题的多数类。

利用训练数据根据损失函数最小化的原则建立决策树模型。把输入数据集划分成训练集(train)和测试集(test)两部分,模型通过fit方法从训练数据集中学习,然后调用score方法在测试集上进行评估,打分; 从分数上我们可以知道模型当前的训练水平如何。用精度(accuracy)来判断分类(classification)模型的好坏。其中决策树分割算法选择ID3。

随机森林算法中树的个数需要事先指定,这种需要人工选择的参数称为超参数。超参数选择不恰当,就会出现欠拟合或者过拟合的问题。使用网格搜索(GridSearchCV)来找到一个合适的树个数。最终用GridSearchCV确定随机森林算法中树的个数为100个。为了调整超参数,测试集的数据会“泄漏”给模型。选择交叉验证(cross-validation,CV)作为精度测试方法,可以很好的解决这些问题。常用k折交叉验证,即数据集被划分成k个子集,每次训练的时候,用其中k-1份作为训练数据,剩下的1份作为测试,重复k次,然后取k次精度的平均值。交叉验证通过多次划分,大大降低了这种由一次随机划分带来的偶然性,同时通过多次训练,模型也能遇到各种各样的数据,从而提高其泛化能力。

数据处理模块流程图如图3所示。

图3 数据处理模块流程图Fig.3 Flow chart of data processing module

2 结果与讨论

采用精度(accuracy)、 交叉验证精度(CV accuracy)、 均方误差(MSE)作为判定决策树算法、 随机森林算法识别模型的指标,模型的普通精度、 交叉验证精度越接近1,均方误差越接近0,表明模型具有越好的识别精度和性能。

2.1 数据压缩结果与讨论

利用随机森林算法中的属性重要性排列(feature_importances)返回特征的重要性,feature_importances越高代表特征越重要,然后保留重要程度高的属性,去掉重要程度低的属性,达到数据压缩的目的。

利用拉曼光谱1 745个光谱点中的排名前64,128,256,512和1 024的光谱点分别形成的数据作为决策树算法和随机森林算法的训练数据集,结果如图4所示,可以为实际工程应用中选择数据压缩点数提供参考。

图4 不同光谱点个数决策树(DT)算法和随机森林(RF)算法的交叉验证精度

由图4可以看出光谱点个数在512之前,随着光谱点个数的增多交叉验证精度增加幅度较大,而在512个光谱点之后随着点个数的增加,决策树算法和随机森林算法的交叉验证精度都基本维持不变。最终选取512个光谱点,此时的光谱点个数较少,既能提高计算速度且又能保证微塑料识别的交叉验证精度,有利于实际工程应用。

图5 不同k值时决策树(DT)算法模型和随机森林(RF)算法模型交叉验证精度

2.2 折次(参数k)对模型精度影响分析

k折交叉验证中数据集被划分成k个子集,每次训练的时候,用其中k-1份作为训练数据,剩下的1份作为测试,重复k次,然后取k次精度的平均值。不同模型具有不同的最优k值。实验分别取k=4,7,10,15,20,25对比交叉验证精度,如图5,来选取识别微塑料模型的最优k值。

由图5可以看出,不论决策树算法模型还是随机森林算法模型,并不是k值越高精度越高,而是随着k值的增加精度都会出现拐点,具体模型出现拐点的k值可能会有差异。实验结果表明,针对微塑料拉曼光谱识别决策树算法模型智能识别的最优k值是10,此时交叉验证精度可以达到93.55%。随机森林算法模型智能识别塑料拉曼光谱的最优k值是20,此时交叉验证精度可以达到97.24%。

2.3 决策树、 随机森林算法比较分析

表1是选取5个不同的拉曼光谱数据集时,决策树(DT)和随机森林(RF)算法对同一数据集训练后的普通精度、 交叉验证精度和均方误差结果对比。

表1 决策树(DT)和随机森林(RF)算法运行结果对比Table 1 Comparison of operation results between decision tree (DT) and random forest (RF) algorithm

图6 决策树(DT)和随机森林(RF)算法的运行结果Fig.6 Operation results of decision tree (DT) and random forest (RF)

由表1和图6可以看出,在同等条件下,随机森林算法的普通精度和交叉验证精度始终都高于决策树算法,且随机森林算法的均方误差低于决策树算法。所以在基于拉曼光谱识别分类微塑料时,选取随机森林算法来建立快速识别模型。这是由于随机森林算法采用自举随机采样技术,而且通过交叉验证避免随机采样结果的偶然性,对非平衡数据具有较好的模型预测性能。

3 结 论

利用激光拉曼检测系统对海水中常见的六种微塑料样品进行了分析,利用DB7小波分析方法,标准差预处理对拉曼光谱数据集进行了预处理,为了提高识别速度,同时对光谱数据进行了数据压缩,分别进行了数据压缩点为64,128,256,512和1 024点的数据压缩比较,它们的决策树算法识别精度分别为91.51%,91.67,92.35%,93.17%和93.21%,随机森林算法识别精度分别为93.12%,93.92%,94.83%,96.81%和96.81%。基于精度和效率考虑,最终光谱数据压缩点数选择512个点。研究了参数k对识别精度的影响。分别比较了决策树、 随机森林两种算法识别微塑料。研究结果表明,针对海水中典型的微塑料样品,当k值为20,随机森林算法可以达到97.24%。可以为实际海水中微塑料的快速识别提供技术参考。

猜你喜欢

曼光谱决策树交叉
一种针对不均衡数据集的SVM决策树算法
“六法”巧解分式方程
决策树和随机森林方法在管理决策中的应用
连数
连一连
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
双线性时频分布交叉项提取及损伤识别应用
BMSCs分化为NCs的拉曼光谱研究
便携式薄层色谱-拉曼光谱联用仪重大专项获批