APP下载

基于距离度量的高光谱遥感图像空间聚类方法

2022-04-13吴亚楠李西灿董士伟潘瑜春王怡蓉

现代电子技术 2022年8期
关键词:高维光谱聚类

吴亚楠,李西灿,董士伟,潘瑜春,王怡蓉,牛 冲

(1.山东农业大学 信息科学与工程学院,山东 泰安 271018;2.北京农业信息技术研究中心,北京 100097;3.国家农业信息化工程技术研究中心,北京 100097;4.山东省地质测绘院,山东 济南 250014)

0 引言

高光谱遥感通过搭载在不同平台上的高光谱图像传感器(成像光谱仪),获取地物的光谱信息和位置信息等数据来识别地物,其获得的高光谱图像具有光谱连续性、图谱合一、高维、波段间相关性较高等特点。空间聚类方法因其简单快速、不需要训练样本和先验信息,在高光谱遥感图像特征提取或分类研究中具有重要的应用潜力。

高光谱遥感图像分类主要包括监督分类和非监督分类两种方式。监督分类主要包括神经网络、支持向量机等,非监督分类主要包括K⁃means 聚类、DBSCAN 聚类等。在高光谱图像监督分类过程中,数据计算量大,时间效率低,且需要先验信息及训练样本数据,但获取大量的监督信息费时费力,当分类所需的训练样本数目较少时,较难获取遥感数据统计分布信息,使得获得的分类器分类表现结果欠佳,因此研究者将目光转移到大量的未标识样本上。聚类属于非监督分类,不需要训练样本,不需要获取大量的先验知识,简单快速,因此本文研究聚类算法在高光谱遥感图像分类中的应用。空间聚类过程中,可通过数据之间的距离来衡量数据之间的相似性,从而将其划分成若干个簇,使得簇内数据相似,而簇间数据相异。常用的距离计算方法有欧氏距离、夹角余弦、相关距离、曼哈顿距离、马氏距离等。在高光谱遥感图像数据中,每种地物都与其他地物的内在特性有显著差异,利用聚类分析方法通过距离度量可将地物区分识别。但由于高光谱遥感图像高维、图谱合一、数据量大等特点及空间聚类算法本身的性质,聚类算法类别不同且存在不少图像聚类质量限制因素,影响了图像聚类精度,因此如何选择合适的空间聚类算法及寻找相应的聚类质量解决措施对于提高高光谱图像聚类精度非常重要。

基于此,本研究构建高光谱遥感图像空间聚类分析技术框架,从距离度量相似性方面进行空间聚类的类别划分,并分析不同图像聚类质量限制因素及解决措施,旨在为高光谱遥感图像空间聚类的相关工作提供理论基础和技术支撑。

1 高光谱遥感图像空间聚类分析技术框架

图1 为高光谱遥感图像空间聚类分析技术框架,可分为两个层面:空间聚类层和质量分析层。空间聚类层是对高光谱遥感图像数据进行特征选择和特征提取,提取光谱特征信息,利用距离度量数据间的相似性,选择相应的聚类算法对图像进行处理;质量分析层是指分析影响高光谱遥感图像聚类质量限制因素,并提出相应的解决措施。该技术框架可服务于高光谱遥感图像空间聚类研究,并为其提供技术方法和理论指导。

图1 高光谱遥感图像空间聚类分析技术框架

2 高光谱遥感图像空间聚类的类别划分

空间聚类的类别划分为两大类:直接利用距离度量相似性,如划分聚类、层次聚类,通过计算样本点与样本中心间的距离进行数据分类;间接利用距离度量相似性,如网格聚类、模糊聚类、密度聚类和谱聚类,利用距离构造矩阵或目标函数进行数据分类。考虑高光谱遥感图像高维、图谱合一、数据量大等特点及各聚类算法的性能,适合高光谱遥感图像聚类的主要有划分聚类、模糊聚类、密度聚类和谱聚类。

2.1 直接利用距离度量相似性的聚类算法

划分聚类的原理是针对一组数据指定聚类数目和初始化聚类中心,利用距离度量数据对象与聚类中心之间的相似性对数据进行反复迭代运算,使得类内数据相似,类间数据远离。常见的划分聚类算法有K⁃means算法、CLARANS 算法、扩展算法K⁃Modes 算法、K⁃Prototype 算法、K⁃Medoids 算法、改进的K⁃means 算法等。K⁃means 算法属于非监督学习,其原理简单,实现较为容易,运算速度快,结果可解释性较好,处理大规模数据集具有较好的伸缩性,适合近似球状的数据集。目前很多学者将K⁃means 算法与频带相关聚类、神经网络、蚁群优化算法、支持向量机等算法相结合,利用光谱信息和空间信息有效提高高光谱遥感图像的聚类精度。虽然K⁃means 算法简单快速、无需先验信息,但需预设簇的数目,对初始点、离群点敏感,容易陷入局部最优解,且同等看待各波段特征,特征利用困难,导致分类效果差。可使用改进的K⁃Medoids 算法、“粗”聚类等解决离群点、初始点敏感问题;为避免出现局部最优解,可融合智能优化算法、更换距离度量等;可在K⁃means算法中使用特征加权,对各特征赋予不同的权重来解决K⁃means 算法同等看待各波段特征问题。

2.2 间接利用距离度量相似性的聚类算法

2.2.1 模糊聚类

模糊聚类是通过优化目标函数得到每个样本点对所有聚类中心的隶属度,根据隶属度的大小将样本归类,适合于近似球状的数据集。最常用的是模糊C 均值聚类算法。

在高光谱遥感图像中,模糊C 均值聚类相比“硬”分类的K⁃means 聚类而言,具有更高的分类精度。针对高光谱遥感图像提出的半监督模糊C 均值算法,模糊C均值与RBF 神经网络结合,将模糊C 均值算法引入到混合粒子群优化算法等都获得了良好的分类精度。

模糊C 均值算法对聚类效果的质量好坏与稳定性很大程度上取决于参数初值的选取,而初始化不当会使算法陷入局部极小值,影响聚类结果。针对以上模糊聚类问题,可采用基于交叉熵的模糊聚类算法、蝙蝠算法、遗传算法、基于密度和距离的混合度量与自适应调整类簇数的粗糙模糊K⁃means 聚类算法等来解决。

2.2.2 密度聚类

密度聚类,即只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去,此方法可以对任何形状的数据集进行聚类,但聚类结果与参数的设定有很大关系。常见的有密度峰值聚类算法、DBSCAN 算法、OPTICS 算法、DENCLUE 算法等。

基于密度的聚类算法原理简单,适应于任何形状的数据集聚类,可识别出不属于任何类的离群点,因此常用于异常检测。密度峰值聚类不仅在异常像元检测方面突出,而且还在形状不规则、密度不均的高维数据面前,聚类效果表现良好,分类精度较好。但密度峰值聚类大多只考虑到像元的光谱信息,忽略了空间信息,分类精度受限,因此结合空间信息改进的密度聚类算法相继提出。另外,基于密度和网格聚类的算法具有发现任意形状的数据簇,对噪声不敏感,适用于大型、高维的数据集等良好特性。

密度聚类对参数设置非常敏感,如常见的DBSCAN聚类算法,其参数的设置依赖于用户的经验,主观性较强,在高维数据集中极难判断合适的参数值,适合于簇密度均匀的数据集。OPTICS 聚类算法不再使用DBSCAN 中的全局参数,而是基于数据的密度计算簇的排序,从参数设置中获得基于密度的聚类,适合于不同簇密度的任意形状的数据集。DENCLUE 聚类算法使用网格单元保存相应数据对象的信息,同时基于树状模型管理这些网格单元,因此使得该算法可以高效地处理高维数据和含有大量噪声点的数据。

2.2.3 谱聚类

谱聚类算法是一种基于图论的聚类算法,即将图内数据点根据相似度分割为若干子图,使得分割后的子图内部相似度最高。其基本思想是利用数据点形成的相似矩阵,计算其特征值和特征向量来进行聚类。谱聚类算法简单易行且收敛于全局最优解,适用于任何形状的数据集。

高光谱遥感图像数据维度高、数据量大,处理起来较为困难,而谱聚类非常适合于高维、稀疏的非凸数据集。目前在高光谱遥感图像谱聚类研究中,可采用联合稀疏表示、稀疏子空间聚类和深度学习、半监督分类、支持向量机等方法提高高光谱图像聚类精度。

谱聚类的降维效果相对有限,在超大规模且复杂的数据面前,其空间复杂度和时间复杂度高。可采用以下方法进行快速谱聚类研究:一是利用K⁃means 算法等对大数据进行预处理;二是进行矩阵低秩近似。

3 高光谱遥感图像聚类质量限制因素与解决措施

3.1 图像聚类质量限制因素

1)初始点敏感

划分聚类和模糊聚类对初始聚类中心的随机选择使得聚类结果不稳定,易收敛于局部最优解,影响聚类结果质量。

2)参数设置敏感

划分聚类、模糊聚类和谱聚类需预设初始聚类数目,在大规模数据中,初始聚类数目可能与实际分类数目不符,导致聚类结果出现偏差。密度聚类的聚类结果依赖于参数设置,在大规模复杂数据面前,数据量大且数据簇密度不均匀,参数值难以确定,全局参数难以满足需求。谱聚类结果依赖于相似矩阵的构建,而相似矩阵对尺度参数敏感,不同的尺度参数可得到不同的聚类结果。

3)时间/空间复杂度大

谱聚类虽本身具有一定的降维效果,但是在超大规模高维数据集面前,运算速度慢、时间和空间复杂度高。

3.2 图像聚类质量限制因素的解决措施

1)改变初始聚类中心的选择方式

粗聚类。利用层次聚类或者Canopy 算法等进行粗聚类,将获取的类簇中心点或代表点作为初始聚类中心。

智能优化算法。如萤火虫算法、遗传算法等,从不同角度或策略上进行改进,寻找全局最优,优化初始聚类中心的选择。但是在运算过程中可能出现过早收敛或易陷入局部最优现象。可将不同优化算法融合,取长补短,提高其全局搜索能力,如粒子群融合遗传算法、遗传算法融合模拟退火算法、神经网络等。

基于数据分布密度方法。利用数据的方差、方差、均值等数学统计数据,采用近邻优化算法获取样本局部密度,选择距离较远的点作为初始聚类中心等解决。

2)寻找自适应参数确定方法

针对聚类数目需手动设定,存在聚类效果差等问题,可采用以下两种方法:一是研究专门的聚类数目确定方法,如本征间隙等;二是在聚类中自动确定聚类数目,如采用聚类有效性度量指标、“肘点”法等解决措施。

针对密度聚类对参数敏感问题,可寻找自适应参数或不使用参数进行聚类等。

谱聚类的结果依赖于相似矩阵。对于相似矩阵的改进,可改变相似矩阵的度量方法、使用加权K 近邻距离或个样本点的平均距离等作为尺度参数、利用自然最近邻或共享近邻方式自适应调整参数、利用密度信息调整相似度等。虽然以上方法提高了相似度及精度,但面对复杂的大规模数据,运算时间长、代价高、复杂度大的问题仍然存在。

3)矩阵低秩近似

快速谱聚类方法主要是矩阵低秩近似,如采用Nystrom 算法、Lanczos 算法等。但在超大规模数据集上,其处理代价仍非常昂贵,运算时间长。

影响图像聚类质量的限制因素及其解决措施如表1 所示。

表1 图像聚类质量限制因素和解决措施

4 讨 论

不同的聚类算法具有不同的特点,解决的功能需求不同,面对高光谱图像聚类可根据不同功能需求选择合适的聚类算法。针对运算速度需求,划分聚类原理简单,在运算速度上具有一定优势,对高维数据进行降维处理后,可考虑将划分聚类与其他优化算法融合提高分类精度;针对数据“软”划分需求,传统聚类一般属于“硬”划分聚类,将数据严格划分到某类中,但是大多数据相互交叉、界限模糊,模糊聚类采用模糊数学理论属于“软”划分聚类,可解决不确定性因素带来的影响;针对图像异常检测需求,密度聚类更适合高光谱图像分类的异常像元检测;针对高维数据需求,谱聚类相比划分聚类、模糊聚类、密度聚类等具有一定的降维效果,且子空间聚类算法可将高维特征空间转化成低维特征空间进行聚类。

现有的聚类算法大多是以传统聚类算法为基础,耦合相关智能优化算法或改变算法内部构件的构造方式,结合功能需求而发展的,旨在克服聚类算法缺陷及提高聚类结果精度,但其仍存在面对大规模复杂数据集时间复杂度高、代价昂贵等不足。现有的聚类算法处理高维数据仍不理想,流行学习是处理高维数据的有效手段,目前已应用在聚类算法的改进上。

运算速度和分类精度难以兼得,综合多源遥感数据、多维特征提高分类精度,研究运算速度快、分类精度高、时间和空间复杂度低的聚类算法是进一步研究方向。此外,还存在划分聚类和模糊聚类不能识别非球形的簇,密度聚类中类簇边界交叉降低聚类划分质量,谱聚类中标准化和非标准化的拉普拉斯矩阵如何选取等问题,仍需进一步研究解决。可相应通过与能识别任意形状的聚类算法融合,建立一种新的边密度参数,建议从标准化的基于随机游走的拉普拉斯矩阵等角度出发寻找解决措施。

5 结论

1)研发的高光谱遥感图像空间聚类分析技术框架分为空间聚类层和质量分析层两层。高光谱遥感图像空间聚类的类别划分为直接利用距离度量相似性的划分聚类和间接利用距离度量相似性的模糊聚类、密度聚类和谱聚类。

2)高光谱遥感图像聚类存在初始点敏感、参数设置敏感、时间/空间复杂度大等聚类质量限制因素,针对性地提出了改变初始聚类中心的选择方式、寻找自适应参数确定方法、矩阵低秩近似等解决措施。

3)该研究可为高光谱图像空间聚类相关工作提供理论基础和技术支撑。未来将深入研究解决运算速度和分类精度如何平衡、划分聚类和模糊聚类不能识别非球形的簇、密度聚类中类簇边界交叉降低聚类划分质量、谱聚类中标准化和非标准化的拉普拉斯矩阵如何选取等。

猜你喜欢

高维光谱聚类
基于三维Saab变换的高光谱图像压缩方法
一种改进的GP-CLIQUE自适应高维子空间聚类算法
基于DBSACN聚类算法的XML文档聚类
基于加权自学习散列的高维数据最近邻查询算法
基于高斯混合聚类的阵列干涉SAR三维成像
星载近红外高光谱CO2遥感进展
一般非齐次非线性扩散方程的等价变换和高维不变子空间
一种层次初始的聚类个数自适应的聚类方法研究
高维Kramers系统离出点的分布问题
苦味酸与牛血清蛋白相互作用的光谱研究