APP下载

空谱协同多尺度顶点成分分析的高光谱影像端元提取

2022-04-25孙伟伟常明会孟祥超

测绘学报 2022年4期
关键词:光谱聚类噪声

孙伟伟,常明会,孟祥超,杨 刚,任 凯

1.宁波大学地理与空间信息技术系, 浙江 宁波 315211; 2.宁波大学信息科学与工程学院, 浙江 宁波 315211

高光谱影像具有较高的光谱分辨率,在地物精细识别中具有巨大的应用潜力[1]。然而,由于传感器设计无法同时兼顾高空间分辨率、高光谱分辨率和高信噪比指标,高光谱影像通常具有较低空间分辨率[2]。这导致了影像单个像元中存在两种及以上地物即混合像元[3],进而严重影响了高光谱遥感技术的应用效果。光谱解混算法将混合像元分解为端元光谱和相应的丰度比例,从而为解决这一问题提供了重要的技术支撑。其中端元提取在整个解混过程中占据重要地位,对于确保解混结果的准确性具有重要的意义[4]。

端元提取是从高光谱影像中提取纯净的地物光谱曲线。目前高光谱端元提取算法主要分为以下5大类[5]:几何单形体体积法、统计误差法、空间投影法、融合空间信息的端元提取算法、稀疏回归算法。

几何单形体体积法基于图面几何体理论,利用高光谱点云数据在特征空间中呈现的凸面单形体结构,寻找顶点作为高光谱影像中的端元,典型方法包括内部最大体积分析(N-FINDR)[6]、迭代误差法(iterative error analysis,IEA)[7]、顶点成分分析(vertex component analysis,VCA)[8]等。统计误差法通过引入几何约束,利用统计分析的最小误差来提取端元,典型方法包括非负矩阵分解(non-negative matrix factorization,NMF)[9]、稳健性协同非负矩阵分解(robust collaborative non-negative matrix factorization,RC-NMF)等。空间投影法根据单形体向量投影进行端元提取,典型方法包括纯净像元指数(pixel purity index,PPI)[10]、子空间投影(orthogonal subspace projection,OSP)[11]、支持向量机(support vector machine,SVM)[12]等。融合空间信息法将高光谱影像中的空间信息约束引入求解过程目标函数中实现端元提取,典型方法包括自动形态学端元提取(automated morphological endmember extraction,AMEE)[13]、空间预处理算法(spatial preprocessing,SPP)[14]等。稀疏回归算法假设影像中的光谱信息由几种纯净像元的光谱曲线组合而成,从光谱库中寻找与影像中每一个混合像元的光谱最接近的光谱子集,可同时得到端元矩阵和丰度矩阵,代表性方法包括L1/2稀疏约束非负矩阵分解算法(L1/2-NMF)等。当前方法取得了较好的效果,但是并未考虑端元光谱的空间变异和地物分布的复杂特性,较难实现复杂空间格局下地物的纯净端元提取。

VCA算法具有较高的计算效率,对于相对简单的地物可进行精确的端元提取,是当前端元提取算法中较优的一种。然而,当高光谱影像噪声较大,地物分布较复杂时,VCA会出现严重的端元估计误差。为此,本文提出一种空谱协同的多尺度VCA(collaborative vertex component analysis,CVCA)端元提取方法。首先,对高光谱影像进行预处理;其次,对影像进行多特征提取,利用多特征对影像进行聚类分割,通过对分割图进行降采样,利用VCA对低分辨率分割图进行端元提取;然后,将该端元的坐标信息映射到高分辨率影像,计算两个端元间的光谱角,确定该端元是否为纯净端元;最后,采用上述步骤对所有分割图进行操作以得到最终的端元集合。该方法充分利用地物分布的空间异质性信息,并考虑噪声对端元提取的影响,进而提升端元提取的精度。

本文的创新之处在于充分利用原始高光谱影像与降质影像的分割图块中提取VCA端元的一致关系来优化选取纯净端元,可以推广应用到其他方法。

1 VCA算法原理

VCA算法的基础为线性混合模型[8]。基于凸面几何学对高光谱影像进行单形分析,该算法认为单形体的顶点与端元相一致,在无先验条件的情况下提取端元。因此,利用线性混合模型对像元矢量进行如下描述

p=αEz+n

(1)

式中,p为B×1维的像元矢量,B为高光谱影像的波段数;Ε=[e1,e2,…,em]代表B×m的端元矩阵,m为端元数量;α是数学形态学比例因子;z=[z1,z2,…,zm]T代表m×1维的系数向量,该向量表示各个端元在任一像素中所占的成分比例;n为高斯白噪声。

基于以上模型,观测向量集合可形成一个凸锥,Dp={p∈RB:p=aEz,1Tz=1,z≥0,a≥0}。其中RB表示B维像元集合,当α=1时,凸锥可形成简单的单形体Vy={y∈RB,y=Ez,1Tz=1,z≥0},单形体的顶点即为端元向量。

凸锥Dp投影到超平面pTv=1形成单形体Vm={γ∈RB:γ=p/(pTv),p∈Dp}。当Vm确定后,VCA算法将数据反复正交投影到已知端元构成的子空间上,其中最大投影向量为端元。VCA将数据首先投影于第一个方向f1得到第一个端元,之后将数据投影于与第一个端元正交的方向f2得到下一个端元,重复以上过程,直到满足所需端元数。

2 CVCA方法

目前,大多数算法仅利用光谱信息来进行端元提取,忽略了地物光谱的空间联系,导致端元提取不准确,对后续的丰度估计影响较大。例如,受周围地理环境如湿度、光照和地物分布等综合因素的影响,同一地物可能表现出不同的光谱响应特性,从而对常规的VCA方法提取端元造成了较大的困难。因此,本文基于传统的VCA方法,提出了一种空谱协同的多尺度顶点成分分析方法(CVCA),拓展VCA方法的应用范围,实现复杂地表高光谱影像的端元提取(图1),具体如下。

图1 CVCA用于端元提取的技术流程

输入:高光谱影像数据,端元数量。

步骤1:预处理。主要包括正射校正、辐射定标、大气校正及坏波段剔除,此外,基于低秩分解去噪方法对高光谱影像进行噪声去除,消除噪声对端元提取的影响。

步骤2:影像聚类分割。提取影像的光谱特征(PCA)、纹理特征(LBP)、形状特征(Canny算子),并通过K-means方法对影像多特征进行聚类分割。

输出:提取的纯净端元。

2.1 影像预处理

首先对高光谱影像进行空间预处理,主要包括正射校正、辐射校正、大气校正、去除坏波段。此外,考虑噪声对端元提取的影响,利用低秩矩阵分解[15]对高光谱影像进行去噪,消除噪声对后续端元提取的影响。

高光谱遥感的噪声模型为

Y=X+S

(2)

式中,Y为高光谱图像;X为低秩的清晰图像;S为噪声,具有稀疏性。低秩矩阵分解表示为

(3)

2.2 影像聚类分割

现实地理空间包含复杂的地物类型,通过影像分割可将空间异构区域进行区分,提升端元提取的精度。同时,为了获得更好的聚类结果并提升计算效率,提取影像的光谱、形状和纹理特征,并采用多特征融合进行聚类分割。

通过对影像进行主成分变换,提取变换后包含99.5%光谱信息的前5个主成分分量作为光谱特征[16];利用Canny算子提取影像的形状特征[17];采用性能较好的局部二值模式(local binary pattern,LBP)算法对影像的纹理特征进行提取[18]。将提取得到的光谱、形状、纹理特征进行叠加,可以较好地提升地物聚类分割的精度,然后采用K-means算法对影像进行聚类分割。通过对分割图像进行端元提取,一方面在同质区域进行端元提取,较大程度上提升了端元提取的精度,另一方面可以较好地避免场景中出现的“同物异谱”和“异物同谱”的问题。

2.3 端元提取和优化

不同空间分辨率下的遥感影像存在不同程度的光谱混合现象,本文认为通过原始高光谱影像空间降采样,如在降采样后的影像上选取到的端元与原始影像的端元一致,则说明选取的端元足够纯净以至于在更低分辨率下依旧能够被提取。

x′=r×x-1

(4)

y′=r×y-1

(5)

式中,(x′,y′)为高分辨率影像端元的空间坐标。(x,y)为端元对应的降采样后低分辨率尺度影像的空间坐标。

然后,采用SAM计算降分辨率影像提取端元与原始影像提取端元间的误差,通过对降采样后提取的端元与原始地物光谱迭代计算光谱角,将提取到的每一类端元中最接近真实地物的SAM取平均值作为端元提取的阈值来优化选取端元

(6)

(7)

式中,ε为阈值;SAM取值区间为[0,1]。

最后,通过SAM、SID、CC这3个指标来评定端元提取结果

(8)

(9)

式中,CC的取值区间为[-1,1]。

3 试验与结果分析

3.1 试验数据集

试验使用两个模拟数据集(图2)和一个真实数据集(图3),其参数见表1。模拟高光谱数据使用分形生成来模拟自然界中的真实地物分布情况。从USGS光谱库中随机选取8种地物端元,包括绿泥石、斜绿石、白云石、阳起石、鼠尾草、白杨、松树和冷杉,然后构造不同端元的线性混合以形成合成图像。使用K-means方法将初始分形图像划分为多个簇分区,其中聚类数大于图像的端元数量。然后,使用高斯滤波器生成每个簇分区中像素的丰度比例,确保靠近分区边界的像素高度混合。每个像素的丰度满足非负和为1约束,确保所有像素满足完全限制线性混合模型。最后,将零均值高斯噪声以30∶1至90∶1的不同信噪比(SNR)添加到合成图像中。

图2 模拟数据

图3 真实数据集

表1 试验数据集的参数一览表

真实数据为高分五号卫星高光谱传感器于2019年11月14日获取的黄河口区域影像,空间分辨率为30 m,波长范围为400~2500 nm,通过剔除水汽吸收严重的22个波段,共308波段用于试验。黄河口地区12种地物端元:海洋、河流、养殖池、坑塘、芦苇、互花米草、柽柳、旱地、水田、滩涂、盐沼、建筑,参考端元光谱曲线来源于实地采样,获取每类地物的10个样本的均值作为真实光谱。

3.2 模拟数据集结果

试验采用7种对比方法,包括AMEE、VCA、EEBQ(endmember extraction using band quality)[19]、ECSO(entropy-based convex set optimization)[20]、SPP、IEA和N-FINDR。采用光谱角(SAM)、光谱散度指标(SID)和相关系数(CC)对端元进行定量评估。SID与SAM、CC在数值相差一个量级,模拟数据集结果图中对SID增加了一个量级来凸显不同方法的指标差异。

图4、图5展示了模拟数据集1的端元评估结果。所有方法在绿泥石、白云石、鼠尾草和冷杉的端元提取中取得了较好的结果,但对于斜绿石、阳起石、白杨和松树的端元识别存在明显差异。AMEE、EEBQ、N-FINDR和VCA结果较好,IEA、SPP和ECSO的端元识别结果较差。CVCA在所有地物都与参考端元光谱曲线最接近,效果最优。

图4 模拟数据集1端元对比结果

图5 模拟数据集1端元精度定量评估结果

图6、图7展示了模拟数据集2的端元对比结果。提取的8种地物端元为方解石、石灰石、融雪、冰水、尼龙纤维、玻璃纤维、橡树、苔藓。所有方法在方解石、融雪、尼龙纤维、玻璃纤维的端元提取中取得了很好的结果,但是石灰石、冰水、橡树、苔藓的端元识别结果存在较大差异,多数方法都取得了较差的结果,尤其是N-FINDR和ECSO。相比而言,CVCA仍然在所有地物的端元提取中取得了最好的结果。

图6 模拟数据集2端元结果

3.3 真实数据集结果

为了探究不同尺度降采样对端元提取的影响,在真实数据集中将降采样系数分别设置为:3、5、7、9,对不同系数下CVCA提取的12类端元的SAM、SID、CC及计算时间计算平均值,结果见表2,降采样系数为3的情况下,端元提取的各项评价指标结果最优。

表2 不同尺度降采样的定量评估结果

为了验证CVCA在真实数据集中的应用性能,采用高分五号黄河口高光谱数据进行验证。以黄河口真实采样数据与实测的地物光谱信息作为先验知识,对黄河口进行聚类,为了探究最适合的聚类类别,对真实数据集中聚类分别设置为:1、2(水体、其他地物)、3(水体、植被、其他地物)、4(水体、植被、土地、建筑4类)、5(水体、植被、耕地、建筑、未利用地)、6(天然水体、人工水体、植被、耕地、建筑、未利用地),计算对应聚类情况下提取得到的12类端元的SAM、CC与SID计算平均值,定量结果见表3,聚类类别设置为4的情况下稳健性最好。

表3 不同聚类类别下的定量评估结果

试验中,CVCA方法将真实数据聚类为水体、植被、土地、建筑4类。结合先验知识,对各分割图进行端元提取,在分割图中共提取得到12类端元,分别为:海洋、河流、养殖池、坑塘(水体分割图);芦苇、互花米草、柽柳(植被分割图);水田、旱地、滩涂和盐沼(土地分割图);建筑(建筑分割图)。

图8和表4展示出了8种方法的端元提取结果。可以看出,由于真实地物的复杂性,所有方法所提取的端元与真实端元存在一定差异。N-FINDR、IEA和ECSO取得了较差的结果,AMEE、SPP、EEBQ和VCA次之,CVCA方法在提取的所有地物的端元中取得了最好结果。综上所述,CVCA方法端元提取精度总体优于其他方法,并且能较好地用于复杂场景中。

表4 真实数据集的端元定量评估结果

图8 不同方法与真实数据集的端元对比结果

在解混的过程中,端元提取产生的误差会传递到丰度反演中。因此,本文通过丰度估计方法SUNSAL(sparse unmixing by variable splitting and augmented Lagrangian)[21]对各种方法的端元实现影像重构以验证端元。图9展示了重组结果与原始影像的SAM图。AMEE和IEA、ECSO在与不同的丰度估计方法组合时得到了最差的重构结果,SPP、N-FINDR、EEBQ和VCA次之,CVCA方法的重构误差最小,同样证明了本方法的有效性。

图9 SUNSAL重组影像光谱角评估结果

3.4 噪声的影响分析

为了进一步探究噪声对端元提取的影响,本文进行了去噪前后端元提取的对比试验,如图10所示,通过CVCA方法对真实数据集提取了8个端元。同时在未经去噪处理的CVCA方法上进行端元提取,通过表5中的SAM、SID、CC指标对去噪前后提取的端元精度进行评估。可以看到,噪声存在的情况下同样的方法提取的端元有较大差异,因此,噪声在端元提取过程中的影响不应该被忽视。

图10 去噪前后的端元对比结果

表5 真实数据集去噪前后的端元定量评估结果

4 结论与展望

本文针对当前VCA端元提取方法较难对复杂地物环境的端元进行精确提取的问题,提出了一种基于空-谱协同的多尺度CVCA端元提取方法。该方法充分利用地物分布的空间异质性信息,并考虑噪声对端元提取的影响,提升端元提取的精度。通过模拟数据和真实数据,利用定量分析和重构分析的试验表明,该方法比其他7种主流方法的提取结果更加准确,并且端元光谱更接近真实地物光谱。在后续的研究中,笔者将用星空一体的真实高光谱影像数据来进行正向有监督验证,同时将利用后续发射的国产高光谱卫星,采用更多研究试验区来综合验证本文方法。

猜你喜欢

光谱聚类噪声
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
基于K-means聚类的车-地无线通信场强研究
汽车制造企业噪声综合治理实践
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
星载近红外高光谱CO2遥感进展
一种基于白噪声响应的随机载荷谱识别方法
苦味酸与牛血清蛋白相互作用的光谱研究