基于高光谱数据的高寒草甸主要毒草分类技术研究
2022-01-24董瑞周睿唐庄生周建伟叶国辉楚彬花立民
董瑞,周睿,唐庄生,周建伟,叶国辉,楚彬,花立民
(甘肃农业大学草业学院,草业生态系统教育部重点实验室,甘肃省草业工程实验室,中-美草地畜牧业可持续发展研究中心,甘肃 兰州 730070)
草地毒草化是天然草地典型的草地退化现象[1],不仅加剧了草畜矛盾,而且严重威胁草地生物多样性[2-3]。近年来,由于全球气候变暖、过度放牧等因素的多重影响,我国天然草地毒草化日益严重。据统计,目前我国毒草化天然草地面积约4.504×107hm2,约占天然草地总面积的11.3%[4],仅青藏高原毒草分布面积就占毒草总面积的77%[5]。2007-2009年,全国每年因毒草中毒的牲畜为2.109×106头(只)、死亡8.404×105头(只),经济损失6.723×108元[1]。因此,积极开展天然草原毒草防治是提高草地生产力、维护畜牧业经济健康发展的重要任务之一。
快速、准确地获取毒草种类、分布及面积是毒草防治的前提和关键。目前天然草地毒草调查方法常采用人工实地调查。人工调查具有较高的准确率,但是存在调查点少,代表性差,以及需要较多的人力投入等问题[6-7]。与地面调查技术相比,卫星遥感技术具有覆盖范围广、速度快和时效高等特点,特别是高光谱技术的出现和快速发展,为地物识别、植被类型划分乃至植物物种识别提供了一种高效快速和大面积应用的新途径[8-9]。尽管高光谱具有分辨率高、信息丰富、图谱合一等特点[10],但是,卫星高光谱遥感由于传感器分辨率低、空间位置高、解译困难等因素,很难实现复杂背景下植物识别与分类。近年来,利用实地近距离获取植物高光谱数据并分析植物高光谱反射特征,不但可以为无人机低空遥感识别植物物种提供技术支撑,也可为卫星遥感监测毒草种类、分布等提供基础数据。因此,实地近距离高光谱植物物种识别技术是当前遥感学、生态学等研究的热点之一。
基于高光谱的植物识别与分类模型建立主要有两个关键的步骤,1)高光谱数据的降维,即光谱特征参数的筛选;2)分类识别算法的选择。高光谱数据降维的方法主要有主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)、局部线性嵌入(Locally linear embedding,LLE)等。相比其他方法,PCA具有缓解维度灾难、压缩数据、降低数据结构等特点[11],是目前常用的降维方法。筛选适宜的分类算法对于物种识别的准确性、效率具有重要意义。目前,分类识别算法很多,在农田杂草、森林树种和湿地植物等方面各具特色和优点[12-14]。祖琴等[15]采用簇类的独立软模式(SIMCA)方法对甘蓝与杂草进行分类,识别率高达98.6%。臧卓等[16]运用3种数学变换方法对原始数据预处理,选择基于径向基核函数(SVM-RBF)和线性核函数的支持向量机(SVM-Linear)、BP神经网络、Fisher分类法等4种算法对乔木树种进行分类,识别精度能够达到98.33%。但是目前利用高光谱成像技术,针对高寒草甸毒草的分类识别方法研究相对较少。
本研究以高寒草甸主要毒草为研究对象,野外采集青藏高原高寒草甸主要毒草光谱数据,利用机器学习方法建模分类,筛选适用于高寒草甸主要毒草识别分类的模型,以期快速、准确了解草地植物群落中各物种组成变化,为实现草地健康状况评价、监测草地退化与防治恢复提供一种新的研究方法[17]。
1 材料和方法
1.1 研究区概况
本研究选择祁连山东缘天祝藏族自治县抓喜秀龙乡和青藏高原东部玛曲县为研究区。天祝藏族自治县抓喜秀龙乡地理位置为E 102°07′~103°46′,N 36°31′~37°55′ N,海拔2 878~3 425 m,年均温-0.1 ℃,降水量416 mm。植被类型为高寒草甸,以莎草科、禾本科植物为优势种,伴生种以阔叶类杂草与毒草为主,主要植物有垂穗披碱草(Elymusnutans)、冷地早熟禾(Poacrymophlia)、矮嵩草(Kobresiahumilis)、珠芽蓼(Polygonumviviparum)、鹅绒委陵菜(Potentillaanserina)、黄花棘豆(Oxytropisochrocephala)、露蕊乌头(Aconitumgymnandrum)、瑞香狼毒(Stellerachamaejasme)、碎米蕨叶马先蒿(Pedicularischeilanrthifolia)等。玛曲县地理位置为E 104°45′45″~102°29′00″,N 33°06′30″~34°30′15″,年均温1.2 ℃,无霜期20 d,年均日照时数2 631.9 h。同样以莎草科、禾本科植物为优势种,伴生种以阔叶类杂类草与毒草为主,主要植物有垂穗披碱草、紫花针茅(Stipapurpurea)、早熟禾(P.annua)、鹅绒委陵菜、黄帚橐吾(Ligulariavirgaurea)、长毛凤毛菊(Saussureahieracioides)等。
1.2 光谱图像采集
光谱数据采集使用高光谱成像光谱仪SOC710VP(美国SOC公司),光谱在400~1 000 nm,分辨率4.68 nm,采样间隔为1.4 nm,波段数为128个。高光谱数据野外采集时间为2020年7月10-12日11∶00-14∶00(太阳高度角>45°)。选择晴朗无云、无风或者少风(风力<4级)时进行数据采集。每隔20 min进行一次白板优化校正。测量时镜头垂直向下,距离植物冠层垂直高度为0.5 m。为保证采集植物数据的准确性,每种植物采集不少于20幅影像,共获取11种毒草光谱数据。野外调查毒草信息详见表1,毒草选择主要依据《中国西部天然草地毒害草的主要种类及分布》[1]。
表1 主要有毒草植物类型
1.3 原始光谱反射值提取
使用仪器自带软件SRAnal710进行反射率转换。从每张光谱图像中分别提取3个植物纯净像元光谱数据作为原始数据(图1)。
图1 11种毒草原始平均光谱反射曲线
1.4 数据处理方法
1.4.1 预处理 为寻找光谱数据分类11种毒草的最佳数学变换方法,本研究采用多项式卷积平滑法[Savitzky-Golay Smoothing,SG(R)]滤波对原始数据进行平滑降噪处理[18],后进行一阶微分导数[First order differential reflectance,FDR(dr1)]变换、二阶微分导数[Second order differential reflectance,SDR(dr2)]变换、归一化[Normalized,Nr(R)]变换、均值中心化[Mean centralization,MC(R)]变换、对数log(R)变换对样本数据进行预处理[14]。为比较不同预处理方法的光谱特征变化情况,对11种毒草原始光谱数据取其平均值进行分析。
1.4.2 降维 采用PCA对6种数学变换光谱数据降维[19]。主成分是原始数据的多个变量经线性组合得到。由于各个主成分之间是正交,需要根据方差大小进行排序,即方差最大的为第一主成分(PC1),次之的为第二主成分(PC2),以此类推[20]。
1.4.3 机器学习分类 以主成分个数为自变量,分类精度为因变量。选择5种统计分类方法随机森林(Random Forest,RF)、支持向量机-径向基核函数(Support Vector Machine-Radial Basis Function,SVM-RBF)、K临近分类(K-nearest neighbor,Knn)、朴素贝叶斯(Naive Bayesian,NB)和决策树(Decision Tree,DT)进行分类识别效果对比研究[21-23]。样本数据按照2/3和1/3的比例划分为建模集和预测集,其中建模数据和预测数据随机从样本数据中抽取,数据划分情况详见表2。
表2 分类数据集划分
1.4.4 精度评价方法 使用混淆矩阵对分类精度计算,对角线上的元素值为正确分类数,值越大表示分类结果的可靠性越高,反之则分类错误的现象严重[24]。基于混淆矩阵构建中的总体精度定义如下:
(1)
式中:n为总的预测数据个数;xii为i类别正确分类物种个数。
1.4.5 分析软件 数据数学变换在Matlab R2018b中完成,使用R进行PCA降维及模型训练与精度评价,以Graphpad软件完成数据分析。
2 结果与分析
2.1 原始光谱数据不同数学方法变换
对原始光谱数据进行平滑处理后,发现对数变换在400~650 nm波段11种毒草光谱特征区分度最大(图2),其中在400~490 nm波段,只有3种毒草(葵花大蓟,露蕊乌头和乳白香青)反射值差异较大。而在660 nm波段附近,11种毒草光谱反射值在波谷区分度较大。归一化变换处理的曲线与平滑光谱曲线走势基本一致,但归一化变换处理在540、745 nm波段附近,毒草光谱反射值区分度较平滑光谱反射值大,而在780~1 000 nm波段,平滑反射值比归一化变换反射值大。一阶微分和二阶微分变换11种毒草光谱反射值区分度较小,但波峰、波谷个数增加。均值中心化变换虽然增大了光谱反射值区分度,但反射曲线变得无规律。
图2 数学变换处理后的11种毒草平均光谱反射曲线
2.2 PCA降维
经数学变换处理后对数据进行主成分降维处理。选取前36个主成分进行分析(第36个主成分的累计方差贡献率接近于100%),以主成分累计方差贡献率(图3)作为降维效果。log(R)、SG(R)、Nr(R)、dr1(R)、dr2(R)、MC(R)PC1和PC2累计方差贡献率分别为92.61%、91.81%、75.67%、52.52%、40.74%、88.39%,其中log(R)、SG(R)、MC(R)PC1和PC2累计方差贡献率大于85%,包含11种植物主要分类特征信息。
图3 PCA降维后的累计方差贡献率
2.3 基于机器学习方法的5种分类模型的植物分类精度比较
经PCA降维后使用5种机器学习分类算法进行精度评价,以混淆矩阵计算主成分叠加总体精度绘制分类精度曲线(图4)。对数变换处理5种分类模型分类精度最高,总体分类精度SVM-RBF>RF>NB>Knn>DT,SVM-RBF最高分类精度达到99.35%。主成分个数累积到8个时,分类精度基本达到最大,说明使用前8个主成分对所研究11种植物具有较好的分类效果。二阶微分变换5种模型分类精度最低,其他3种数学变换分类精度为一阶微分>归一化>均值中心化。其中,在所有数学变换处理中,DT分类模型精度最低,Knn分类模型稳定性最差。
图4 主成分个数与分类精度关系
3 讨论
3.1 数学变换对植物光谱曲线的影响
高寒草甸是青藏高原最主要的草地类型,其草地物种多样性、生产力波动都极大地受到毒草种类和数量的影响[5,25]。理论上讲,可利用植物光谱的不同反射值进行毒草物种分类。但是,绿色植物光谱反射曲线走势、高低基本一致[26]。因此必须对原始光谱数据进行预处理。本研究对原始光谱数据进行数学变换,一方面可消除外界因素的影响,另一方面可增大植物反射光谱曲线间的差异[27]。使用便携式野外高光谱成像仪,在图像采集时因外界噪声影响导致光谱曲线出现抖动现象,而SG(R)可以明显减少抖动现象[17],保留了11种毒草原始光谱曲线特征。光谱图像采集的准确性受到光照强度、土壤背景、大气和植物生长环境影响。本文采样区位于高海拔地区,因采样不是同时完成,光照强度、大气环境导致光谱数据产生差异,而dr1(R)处理可消除部分光照、土壤背景和大气的影响,使得光谱曲线最大、最小位置特征凸显出来[28]。拍摄毒草生长在草地中和裸地上,因复杂的生长环境,导致图像采集过程中,受到附近植物光线遮挡和裸地背景的影响,光谱图像出现过暗、过亮问题。安如等[29]采用log(R)、dr2(R)处理消除了这些影响,同时增加了光谱曲线间峰谷特征差异,使得植物光谱反射曲线在log(R)处理下可进行分类[30]。另外,高海拔地区可能空气中存在气溶胶,光透过会产生不均匀现象,造成同一地物反射率产生差异,通过Nr(R)可减少光谱不均匀造成的影响。植物叶片生长方向导致光照下亮度不均匀,出现同向亮度较亮反向较暗的情况,造成同一植物器官在同一幅图像中光谱反射值存在差异,MC(R)处理可对整幅图像亮度进行均匀化,使得同一植物器官光谱反射值一致。
3.2 数学变换对PCA降维后累计方差贡献率的影响
高光谱数据是实现植物识别与分类的有效数据源之一,其特征提取是植物识别与分类的关键一步[31]。在植物识别与分类过程中,PCA降维能够有效提取植物光谱特征,使得数据从高维空间映射到低维空间,减少数据冗余[32]。本研究中对原始光谱数据进行了6种数学变换及PCA降维,累计方差贡献率受到原始数据的影响,其中log(R)、SG(R)和MC(R)的PC1与PC2累计方差贡献率大于85%,是上述3种变换处理后,各样本之间数据差异增大,在协方差矩阵运算过程中,提取的特征值较大所致。dr1(R)、dr2(R)、Nr(R)在数学变换后各样本光谱值之间差异较小,这是因为变换处理后数据较为集中,故PC1与PC2累计方差贡献率较小。不同数学变换方法影响了各样本光谱数据间反射值差异性大小。因而PCA降维后,原始数据样本离散大小对PC1与PC2累计方差贡献率有非常重要的作用。
3.3 机器学习分类模型精度与数学变换的关系
通过光谱反射率预测毒草种类是高光谱技术的重要应用,在构建模型时,对原始数据进行各种数学变换以及选取合适的建模方法是研究此类问题的关键。目前,相关研究表明,进行相应的数学变换可以提高模型的精度[14,16]。李世波等[33]将log(R)应用到湿地植被分类建模中时分类精度达到最高。本研究选取了相同数学变换,发现结果一致。由此可见,在利用植物光谱数据分类时,log(R)处理具有一定的普适性。但结合分类结果来看,SG(R)处理保留了更多原始光谱信息,在多种模型中的建模精度相比于其他数学变换方法都高,更适合预测高寒草甸毒草种类。从建模的方法来看,SVM-RBF、RF和NB模型效果都较好,其中SVM-RBF算法在所有变换处理中分类精度最高,这是因为SVM算法使用了RBF函数,通过设定损失函数cost与gamma值后使用tune函数自动从数据集中选取得分值最优组合进行建模预测[34]。本研究设定cost值为10~102,gamma值为10-1~10-6。RF模型是以树模型为基评估器的集成评估器,有着能够处理高维数据、抗过拟合和泛化能力较强的优点[35]。NB模型是以数据集属性独立特点进行概率预测,在属性关系独立时有较好的分类效果[36]。DT和Knn模型是分类精度及稳定性最差的模型,Knn模型是以预测点与所用样本点进行距离预测,K值的设定是模型精度高低与稳定的关键。本研究中,K值逐渐增大时错误率会先降低后逐渐增大,这与路郭利等[37]的研究结果一致。同时,分类精度与累计方差贡献率大小存在一定关系。本研究中是以主成分累计方差贡献率为自变量进行模型训练和预测分类,在log(R)处理中,PCs达到8个时5种分类算法分类精度基本达到最大值,而累计方差贡献率接近100%,包含了11种毒草全部特征信息,说明在高寒草甸主要毒草分类中使用8个PCs基本可以使分类精度达到最大。
本研究的不足之处在于样本各毒草光谱数据存在不均衡问题。但在实际采集过程中很难保证样本绝对均衡性和代表性。因此,为提高建模精度,可以发掘更好的数学变换方法,使用更好的模型,如当前最热门的深度学习模型,同时还可以考虑其他降维方法结合分类模型分类,这些也是今后需要进一步深入研究的方向。
4 结论
通过对研究区高寒草甸主要毒草光谱数据先进行数学变换,再使用主成分分析降维,利用机器学习算法进行了不同处理下分类方法的研究,结果发现,log(R)-PCA降维与SVM-RBF分类算法是高寒草甸主要毒草分类识别的最优组合方式,且模型稳定性较好,最高分类精度达到99.92%。