矿区土壤重金属Pb、Cd污染状况高光谱分类建模
2019-10-12郭云开
钱 佳,郭云开,章 琼,蒋 明
(1. 长沙理工大学交通运输工程学院,湖南 长沙 410014; 2. 长沙理工大学测绘遥感应用技术研究所,湖南 长沙 410076)
土壤在农业生产、全球气候变化、生物多样性和环境保护等方面发挥着重要作用[1-2]。近几十年来,由于矿区开采和工业污染加剧了土壤重金属的聚集,农田土壤重金属污染不仅对我国生态环境建设造成极大影响,更是直接危害到人体的健康,因此,在不同时间和空间尺度上监测和评估土壤污染程度的必要性有所增加[3-4]。
传统土壤重金属污染状况监测方法较为昂贵且用时较久,不利于区域性快速监测和评价。近年来,近红外光谱技术依靠光谱信息精细且光谱分辨率高的优势,被广泛应用于土壤重金属相关研究中。如文献[5]利用土壤近红外光谱结合逐步多元线性回归分析对Cu含量进行反演;文献[6]采用偏最小二乘对土壤重金属Pb含量进行了估算;文献[7]运用人工神经网络实现了土壤重金属铜的反演;文献[8]对矿区土壤重金属Pb、Zn进行了定性和定量模型迁移分析,表明定性分类适用于矿区土壤重金属污染大面积快速监测。
目前土壤重金属相关研究均在有限样本量且重金属含量均衡条件下进行试验分析。由于矿区土壤重金属含量高度变异性,具有各污染等级样本不均衡问题。因此,本文在现有研究基础上[9-10],将文献[11]提出的SMOTE(synthetic minority over-sampling technique)算法应用于土壤重金属高光谱反演中,其基本思想是生成少数类样本使得各污染等级的样本趋于均衡,构建应用较为广泛的随机森林模型进行定性与定量试验[12-13],并进行精度分析。
1 数据获取与预处理
1.1 土样及光谱采集
本次研究以湖南省浏阳市某硫铁矿区为例。该矿区属亚热带湿润季风气候,四季分明,地势相对平坦,土壤类型主要以黄泥田为主,主要作物有水稻和油菜籽。由于矿产开采所附带的矿渣及废液流入土壤,严重影响当地的水稻健康,迫切需要研究土壤受重金属污染程度。本次试验研究于2017年6月实地采用网格法采集矿区土壤样品,共采集37个样本。土壤样品采集后密封、标记并带回实验室。在实验室中,去除土壤样品中的一些杂物,如碎石、根系等。在实验室风干后,研磨后过100目筛制样供测试使用。每个样本分别通过化学方法测定土壤重金属Pb、Cd含量和采用Field-SpecAvaField-3波谱仪进行土壤高光谱采集。
1.2 光谱数据预处理
对高光谱数据进行重采样和光谱变换能分别降低信息冗余和提高相关性[11]。在高光谱数据5 nm重采样基础上进行5种常用的光谱数据变换,包括一阶微分(FD)、二阶微分(SD)、倒数一阶微分(REC-FD)、倒数二阶微分(REC-SD)和倒数对数变换(LOG-REC)。将上述6种光谱指标与土壤重金属Pb、Cd含量在SPSS软件中作相关性分析。土壤重金属Pb、Cd最大相关性分别在REC-SD和FD取得,分别为0.558和0.470。通过数学变换,显著提升了土壤重金属含量与光谱之间的相关性。本文选取REC-SD和FD光谱指标进行后续试验分析。由于篇幅有限,仅展示Pb原始光谱与REC_SD的相关性图,如图1所示。
1.3 污染评价等级指标
本文采用单因子指数法作为土壤重金属污染状况评价方法,计算公式为
(1)
式中,ci为土壤重金属i的实测值;si为土壤重金属i的湖南省土壤背景值。
本次试验中依据污染指数Pi的大小共分为4个等级,结果见表1。依据土壤重金属污染等级划分为训练集26个和测试集11个,保持了整个数据集的土壤类别分布。
表1 土壤重金属Pb、Cd单因子污染评价结果
2 SMOTE算法
SMOTE算法的基本思想是在相距较近的少数类样本进行线性插值生成虚拟样本,达到扩充少数类别的样本及各等级样本量均衡的目的,其关键步骤可表示如下:
(1) 随机选取少数类别中样本x,首先找到距其最近的K个少数类样本,记为y1,y2,…,yk。
(2) 根据样本均衡条件设置上采样倍率参数N。
(3)x分别和K个少数类样本进行随机线性插值,生成N个新的少数类样本,记为Xnew1,Xnew2,…,XnewN,基本生成公式为
Xnewj=x+rand(0,1)×(yj-x),j=1,2,…,N
(2)
式中,rand(0,1)是指区间(0,1)内的一个随机数。
3 试验与分析
本文使用Python语言实现随机森林和SMOTE算法。对于定量分析采用模型均方根误差(root mean square error,RMSE)和验证集决定系数(R2)对含量预测结果进行综合评估。对于定性分析采用混淆矩阵中总体精度O及Kappa系数对分类结果精度进行评价。
3.1 定量反演结果
本文对PCA降维前后光谱样本构建随机森林定量反演模型,预测结果见表2,Pb、Cd含量反演精度均较低,且重金属Cd含量预测R2为负,这也是由于高含量样本过少导致预测值偏低,误差较大。PCA改变光谱的数值并降低光谱与重金属含量间的相关性[14-15],相较于原始光谱,应用PCA降维后光谱构建的反演模型预测精度低。
表2 重金属Pb、Cd定量反演结果
注:RF表示使用全波段参与回归建模,PCA_RF表示使用PCA提取的特征波段参与回归建模。
3.2 定性分类结果
对光谱降维前后训练样本应用SMOTE算法,重金属Pb、Cd各等级样本量均达到平衡,对4种不同处理方法下光谱样本构建随机森林分类模型,并与定量反演结果计算得到的污染指数作对比分析,结果见表3。定量反演结果计算得到的污染指数与直接分类精度均较低。土壤重金属含量高度变异性及样本不均衡问题导致结果较差。相较于原始样本,应用SMOTE算法均衡各等级样本后,Pb、Cd分类精度均得到提升,在原始光谱组合SMOTE算法分类反演精度最优,Pb、Cd总体精度均达到92%,Kappa系数均为0.87。相较于原始样本,Pb、Cd直接分类总体精度均提高28%,Kappa系数分别提高0.46和0.39。
表3 重金属Pb、Cd分类精度
注:PCA表示主成分分析,RF表示随机森林模型,Regre表示依据定量反演结果计算所得的污染状况类别,Class表示随机森林分类结果,_表示组合。
本文进一步分析了RF_Class和SMOTE_RF_Class预测结果中多数类与少数类误判率,见表4。SMOTE_RF_Class模型中土壤重金属Pb、Cd污染状况多数类样本及少数类样本误判率均大幅度下降,说明SMOTE均衡各污染等级样本的有效性,避免分类结果偏向样本量多的类别。SMOTE组合随机森林模型对矿区土壤重金属进行污染状况分类结果较优。
表4 PCA降维前Pb、Cd类别误判率 (%)
4 结 语
针对矿区土壤重金属含量高度变异性导致定性分类精度低的问题,本文应用SMOTE算法生成虚拟样本均衡重金属Pb、Cd各污染等级样本,并构建随机森林模型进行定性与定量试验,结论如下:①在重金属含量高度变异性时,定量反演时预测精度较差。②在定性分析中,重金属Pb、Cd污染状况分类精度在SMOTE_RF_Class组合处理方式精度最高,总体精度均为92%,相较于原始样本分类结果均提升28%,说明该方法具有一定的适用性。③定性分类结果精度优于定量反演结果计算所得的污染指数,并能从整体上判断研究区的重金属污染状况,为大面积应用遥感影像监测矿区土壤重金属污染状况提供了一种有效、精确的方法。