基于塑料近红外光谱的判别分类研究
2024-05-18吴泳微袁琨王坚张洋王洋
吴泳微,袁琨,*,王坚,张洋,王洋
基于塑料近红外光谱的判别分类研究
吴泳微1,袁琨1,2*,王坚2,张洋1,王洋1
(1. 中国计量大学 光学与电子科技学院,杭州 310018; 2. 彩谱科技(浙江)有限公司,浙江 台州 318000)
为了回收可用于不同物品包装的塑料,对不同塑料种类进行识别分类。首先采集PP、PET、HDPE、TPE、PLA、PBT、TPU、POM-M90、PPO-GF20NC、TPB、PPS、ABS、PPO(natural)、SAN、POM-F20、PPO(white)16种塑料的近红外光谱数据,其次针对光谱数据采集时存在的噪声问题,使用SG平滑滤波进行了光谱数据预处理,之后利用主成分分析算法进行光谱数据降维,减少待处理数据量,最后分别运用无监督聚类K-means算法和监督聚类极大似然估计、Fisher判别式以及光谱角算法建立4类分类模型。K-means算法可以将PPO-GF20N、PLA和PPO(本色)与其他塑料粒子区分开,准确率分别是100%、100%以及80%;Fisher判别式和极大似然估计法对POM-M90和POM-F20的识别准确率为93%,其他塑料粒子识别准确率均为100%;光谱角算法对PET的识别准确率为80%,POM-F20的识别准确率为47%,其余粒子的识别准确率均大于90%。上述机器学习算法结合近红外光谱成像技术建立分类模型可为常见塑料的鉴别研究提供参考。
塑料分类;近红外;高光谱成像;主成分分析;聚类分析
塑料包装在日常生活中被广泛使用,回收包装塑料再加工,制造新的再生塑料包装,有助于减少环境污染、资源浪费和能源消耗。近红外光谱分析技术[1-2]可以按照光谱特征的差异,进行定性判别和定量剖析[3-4],并以其特征性好、对样品颜色不敏感、测样速度快,可以对固体样品直接进行快速无损测量等特点,故用于回收包装塑料再加工之前的塑料分类工序[5-7]。
1 实验
1.1 样品与光谱采集
样本为16种呈不同透明程度的乳白色塑料粒子,包括PP、PET、HDPE、TPE、PLA、PBT、TPU、POM-M90、PPO-GF20NC、TPB、PPS、ABS、PPO(natural)、SAN、PPO(white)、POM-F20。光谱仪选用近红外成像光谱仪FS-25,采用8台200 W卤钨灯作为光源,光谱范围为900~1 700 nm,光谱分辨优于10 nm,图像分辨优于320像素×256像素。
根据聚类算法的需求,采集了16种塑料粒子的混合高光谱图像,其中一张图中每种粒子有15粒,如图1a所示;另一张图每种粒子有5粒,如图1b所示,共2张;不同种类塑料粒子单独的高光谱图像共16张,每一张图中有5粒塑料粒子,如图2所示。粒子不重复使用。
所有图像测量完毕后,在18张近红外高光谱图像中,选择一块能够代表样本典型特征的感兴趣区域(Region of Interest,ROI)内的光谱数据,即为选定区域内所有像素点反射率数据的平均值,ROI区域的大小为5×5个像素点。
实验发现,972.86 nm之前和1 678.49 nm之后的信号量较低,存在噪声干扰,因此提取972.86~1 678.49 nm波段的光谱数据作为实验数据,共219个维度的高光谱数据。
图1 16种塑料粒子混合的近红外高光谱图像
图2 16种粒子单独的近红外高光谱图像
1.2 光谱数据预处理
在将样本的光谱图像数据用于聚类算法之前,使用SG滤波算法对所有近红外高光谱图像的光谱数据进行预处理,滤波时窗口大小为5,采用3阶多项式拟合。未进行光谱预处理的16种塑料粒子中心点的光谱曲线如图3a所示;使用SG平滑处理后,16种塑料粒子中心点的光谱曲线如图3b所示。
1.3 光谱数据降维处理
由于所提取的光谱波段较多,而且含有大量的冗余信息,不利于下一步的数据分析,因此需要对采集到的光谱数据进行主成分分析(Principal Component Analysis,PCA)[8-9]降维处理。表1展示了各个主成分的得分,其中列4表示的是主成分累计得分,通过列4可得前9个主成分,即可显示原始图像数据中99.9%的信息,从而认定全光谱数据主成分分析的主成分数为9个。在选取了主成分后,图像数据维度从219个降到了9个。
表1 各主成分得分
Tab.1 Scores of each principal component
2 实验验证
2.1 无监督聚类算法分类实验
K-means算法需要在计算前预先告知样本中的类别个数[10],其算法思想如图4所示,根据给定的类别个数在数据中随机设置初始聚类中心,之后计算每一个点与各个初始坐标值之间的欧氏距离,并将其归入与其最近的簇中心所在的分类中。在一次计算后,聚类中心的位置不在该类别所有样本点的中心,针对该类别的所有样本点重新计算一个聚类中心,并运用迭代提升K-means聚类的准确度。
将16种塑料粒子的2幅近红外高光谱图像,分别使用K-means算法进行无监督聚类。初始聚类中心设置为8个,迭代次数设置为15次,可视化算法分析软件显示分类结果如图5所示。可知无监督聚类算法不能将16种塑料区分。按颜色分类,塑料粒子大致可以分为紫色、黑色和黄色3组。3组都包含多种塑料粒子,其余的塑料粒子无法区分。
图4 K-means算法思想
图5 第1次K-means聚类结果
分别对3组塑料粒子进行采样,再次应用K-means算法进行聚类,结果如图6所示。PPO-GF20N、PLA和PPO(本色)可以被识别。
2.2 监督聚类算法分类实验
监督聚类的思想是通过找出样本中被标记部分的规律,然后将剩余的样本进行分类。
极大似然估计是通过对已知的样本数据进行反演,从而得到最有可能得到该样本数据的参数[11]。从直观的角度来看,最大似然估计方法使用了训练集数据和分类标记,计算每一个类别的最大似然判别函数,将每个像素值带入判别函数进行计算,哪一个函数计算的结果最大,说明该数据(像素点)属于这个类别的概率最大。
Fisher判别式的基本思想是数据投影[12-14],它把组元数据投影到一定的方向上,目标是让在投影之后,不同种类之间的距离越大越好,同类之间的距离越小越好,利用方差对类间的距离进行分析,得出判别函数,从而对样本进行判别分类[15]。
光谱角分类的基本原则是,将每一个象元的光谱看成一个高维向量,用计算向量之间的cos值来对相似性进行评估,cos值越接近1,2个光谱就越接近,属于同一类型的可能性就越大,以此来辨别未知样本[16]。
图6 第2次K-means聚类分析
使用采集了16种塑料粒子各5粒的近红外高光谱图像作为监督数据,并使用ENVI软件制作类别标签图像,如图7所示。另一张采集了16种塑料粒子各15粒的近红外高光谱图像作为未知粒子的图像样本,分别采用3种监督聚类算法进行分析,各类粒子的判别结果如图8所示。
使用标签图像对16张单个塑料粒子的图像进行监督聚类,Fisher判别式算法的分类结果如图9所示。所有塑料粒子均能从背景中分离识别出来。
大部分塑料样品在1 200、1 400和1 650 nm附近都有吸收峰,但不同塑料样品在900~1 700 nm的光谱范围上的吸收峰数量有所不同,如PP有2个吸收峰,POM-M90、HDPE、TPE、POM-F20、PP和PLA有3个吸收峰,其余塑料样品有4个吸收峰。不同塑料样品的特征波长也有所区别,因此在分类效果中都有良好的表现。
其中在光谱角算法下的POM-F20分类效果仅有47%,通过图8的光谱角分类结果图可见,一部分POM-F20与POM-M90混淆,POM-F20与POM-M90原材料都属于聚甲醛,但是通过不同工艺和配方制成。由图3可知,其光谱曲线非常相似,仅在特征波长上有略微差异,因此在混合分类中结果较差。
2.3 分类评价
图7 16种塑料粒子的标签图像
图8 3种监督聚类算法的分类结果
图9 16种塑料粒子单独分类识别结果
统计结果如表2所示。通过表2中数据可知,无监督聚类的K-means算法在无人为判别信息的前提下,通过2次重复聚类可以将PPO-GF20N、PLA和PPO(本色)与其他塑料粒子区分开,准确率分别为100%、100%和80%。极大似然估计和Fisher判别式算法对14种塑料粒子的识别准确率达到了100%,其中POM-M90和POM-F20的识别准确率为93%。光谱角算法对12种塑料粒子的识别准确率达到了100%,其中PPS和SAN的识别准确率为93%,PET的识别准确率为80%,对POM-F20的识别准确率为47%。
表2 3种聚类算法的分类准确率
Tab.2 Classification accuracy of 3 clustering algorithms %
3 结语
本文基于近红外光谱分析成像技术,使用无监督聚类和监督聚类2种方法,对16种塑料颗粒进行了分类和鉴别,并通过可视化算法分析软件来显示分类结果图。K-means算法采用2个重复的聚类方法,可以从16种塑料中筛选出PPO-GF20N、PLA和PPO(natural)3种粒子。无监督聚类算法的方式使用较为方便,但是无法对所选的16种塑料都进行准确的分类,在塑料种类上存在局限性。监督聚类算法通过少量16种已知的塑料粒子的类别标签数据对应的光谱信息,获取了光谱特征和塑料种类之间的对应关系,实现了对未知塑料粒子的分类识别。在混合塑料粒子的分类实验中,极大似然估计和Fisher判别式算法对14种塑料粒子的识别准确率达到了100%,光谱角算法对12种塑料粒子的识别准确率达到了100%。在单种塑料粒子的判断实验中,Fisher判别式可以将所有塑料粒子均能从背景中分离识别出来。本实验对推动近红外光谱技术在塑料回收分类应用于塑料包装领域起到了积极的作用。
[1] 叶静. 应用近红外光谱分析技术检测茶叶成分的研究[D]. 镇江: 江苏大学, 2008.
YE J. Study on Detection of Tea Components by near Infrared Spectroscopy[D]. Zhenjiang: Jiangsu University, 2008.
[2] 褚小立. 化学计量学方法与分子光谱分析技术[M]. 北京: 化学工业出版社, 2011: 259-261.
CHU X L. Molecular Spectroscopy Analytical Technology Combined with Chemometrics and Its Applications[M]. Beijing: Chemical Industry Press, 2011: 259-261.
[3] 杜婧. 基于NIR技术的PET/PVC废旧塑料分离系统设计[D]. 杭州: 浙江大学, 2011.
DU J. Design of PET/PVC Waste Plastic Separation System Based on NIR Technology[D]. Hangzhou: Zhejiang University, 2011.
[4] 张毅民, 王鹏, 白家瑞, 等. 基于近红外光谱建立PE、PP和PET的识别分类模型[J]. 现代化工, 2016, 36(3): 182-186.
ZHANG Y M, WANG P, BAI J R, et al. Establishment of Identification and Classification Model of PE, PP and PET Based on near Infrared Spectroscopy[J]. Modern Chemical Industry, 2016, 36(3): 182-186.
[5] 尹凤福, 闫磊, 韩清新, 等. 近红外光谱(NIR)分选技术在塑料分选领域的应用[J]. 环境工程, 2017, 35(12): 134-138.
YIN F F, YAN L, HAN Q X, et al. Review on Application of near Infrared Spectroscopy Technology (Nir) in Plastic Sorting[J]. Environmental Engineering, 2017, 35(12): 134-138.
[6] 赵清华. 基于主成分分析报废车用塑料近红外识别技术研究[D]. 上海: 上海交通大学, 2014.
ZHAO Q H. Research on Near-Infrared Identification Technology of Plastics Used in Scrap Cars Based on Principal Component Analysis[D]. Shanghai: Shanghai Jiao Tong University, 2014.
[7] 张文杰, 焦安然, 田静, 等. 卷积神经网络和支持向量机算法在塑料近红外光谱分类中的模型应用[J]. 分析测试学报, 2021, 40(7): 1062-1067.
ZHANG W J, JIAO A R, TIAN J, et al. Convolutional Neural Network and Support Vector Machine Models for Plastic Classification by Near-Infrared Spectroscopy[J]. Journal of Instrumental Analysis, 2021, 40(7): 1062-1067.
[8] JIN J, TANG L, HRUSKA Z, et al. Classification of Toxigenic and Atoxi-Genic Strains of Aspergillus Flavus with Hyperspectral Imaging[J]. Computers and Electronics in Agriculture, 2009, 69(2): 158-164.
[9] CONDE O, AMADO M, GARCIA-ALLENDE P, et al. Evaluation of PCA Dimensionality Reduction Techniques in Imaging Spectroscopy for For-Eign Object Detection Algorithms and Technologies for Multispectral[C]// Defense and Security Symposium. Orlando, Florida, 2007: 6565.
[10] BARNALI B, SWARNAJYOTI P. Variable Precision Rough Set Based Unsupervised Band Selection Technique for Hyperspectral Image Classification[J]. Journal of Robotics & Machine Learning, 2020, 10(5): 414-416.
[11] 张愉, 何和平, 田叶. 基于同伦分析法的威布尔分布极大似然估计[J]. 数学的实践与认识, 2022, 52(11): 150-158.
ZHANG Y, HE H P, TIAN Y. Maximum Likelihood Estimation of Weibull Distribution Based on Homotopy Analysis Method[J]. Journal of Mathematics in Practice and Theory, 2022, 52(11): 150-158.
[12] 王潇, 徐秋月, 黄本林, 等. Logistic回归和Fisher判别分析模型在冠心病鉴别诊断中的临床价值[J]. 临床检验杂志, 2022, 40(9): 662-666.
WANG X, XU Q Y, HUANG B L, et al. Differential Diagnosis of Coronary Heart Disease by Logistic Regression and Fisher Discriminant Analysis Model[J]. Chinese Journal of Clinical Laboratory Science, 2022, 40(9): 662-666.
[13] ALEXANDRAVERONICA L, MELINDA S, NORBERTBOTOND M, et al. Fault Type Diagnosis of the WWTP Dissolved Oxygen Sensor Based on Fisher Discriminant Analysis and Assessment of Associated Environmental and Economic Impact[J]. Applied Sciences, 2023, 13(4): 45-46.
[14] SHISIR M, HASAN M T, MOTIUR M R. Robust Despeckling: Robust Speckle Noise Reduction Method Using Multi-Scale and Kernel Fisher Discriminant Analysis[J]. Biomedical Engineering Advances, 2023, 5(1): 52-54.
[15] ASHWINI M. Potential Use of Sentinel-2 Data for Discrimination of Tectona Grandis L. Healthy and Non- Healthy Tree Species Using Spectral Angle Mapper[J]. Environmental Sciences Proceedings, 2022,22(1): 120-123.
[16] 邱琳, 刘敏, 王磊. 基于多尺度光谱角制图的遥感影像单木树冠提取方法[J]. 安徽农业科学, 2022, 50(21): 119-125.
QIU L, LIU M, WANG L. Multi-Scale Spectral Angle Mapper Method for Individual Tree Crown Delineation from Remote Sensing Image[J]. Journal of Anhui Agricultural Sciences, 2022, 50(21): 119-125.
Discriminative Classification of Plastics Based on Near-infrared Spectra
WU Yongwei1, YUAN Kun1,2*, WANG Jian2, ZHANG Yang1, WANG Yang1
(1. College of Optical and Electronic Technology, China Jiliang University, Hangzhou 310018, China; 2. Caipu Technology (Zhejiang) Co., Ltd., Zhejiang Taizhou 318000, China)
The work aims to identify and classify different types of plastics, in order to recover plastics that can be used to pack different items. Firstly, the near-infrared spectral data of 16 kinds of plastics including PP, PET, HDPE, TPE, PLA, PBT, TPU, POM-M90, PPO-GF20NC, TPB, PPS, ABS, PPO (natural colour), SAN, POM-F20 and PPO (white colour) were collected. Then, for the problem of noise in spectral data collection, the spectral data were pre-processed by the SG smoothing filtering, followed by dimensionality reduction of the spectral data with the principal component analysis algorithm to reduce the amount of data to be processed, and finally the four-class classification model was established by the K-means algorithm for unsupervised clustering and the great likelihood estimation for supervised clustering, the Fisher discriminant, and the spectral angle algorithm, respectively. The K-means algorithm could distinguish PPO-GF20N, PLA and PPO (native colour) from other plastic particles with an accuracy of 100%, 100%, and 80%, respectively. Fisher's discriminant and great likelihood estimation had an accuracy of 93% for the recognition of POM-M90 and POM-F20, and 100% for the recognition of all other plastic particles. Spectral angle algorithm had a recognition accuracy of 80% for PET, 47% for POM-F20, and an accuracy greater than 90% for the rest of the particles. The above machine learning algorithm combined with near-infrared spectral imaging technology can be used to establish a classification model, providing a reference for the identification research of common plastics.
classification of plastics; NIR; hyperspectral imaging; PCA; cluster analysis
O433.4
A
1001-3563(2024)09-0171-07
10.19554/j.cnki.1001-3563.2024.09.022
2023-09-05
中国浙江省重点研发计划项目(2020C03095);浙江省高校基础研究运行专项资金(2020YW22)