基于深度学习的遥感影像地物分割研究
2024-10-23冯勇冯明
[摘 要]地物分析在村镇建设中扮演着至关重要的角色,其为规划、管理和监测提供了决策支持的关键信息。随着深度学习技术的发展,基于深度学习的语义分割方法在地物分析领域展现出了强大的潜力。文章针对这一问题进行了研究,调研了当前7 种基于深度学习的语义分割方法,并在实际数据集上对这些方法进行了广泛的试验与验证。试验结果表明,各个模型在地物分割任务中表现出了不同的优势。同时,为了进一步提高地物分析的准确性和鲁棒性,文章提出了一种集成学习的方法,将多个模型的预测结果进行加权融合。该方法使得模型性能取得了显著的提升,其中像素分类准确率高达89.64%。这表明集成学习在地物分析中的应用潜力,为村镇建设提供了更可靠的技术支持。本研究可为深度学习在地物分析领域的应用提供有益的实践经验,并为未来相关研究和应用提供重要参考。
[关键词]地物分析;人工智能;城乡规划;语义分割
[中图分类号]TG333 [文献标志码]A [文章编号]2095–6487(2024)05–0147–03
随着城镇化进程的不断推进,城乡规划在国家发展战略中占据着重要位置[1]。地物识别作为村镇建设中的关键环节,对于规划、管理和监测等方面具有重要的意义。通过对地物进行准确的识别和分类,可为决策者提供精准的空间信息支持,有助于合理利用土地资源、优化城镇布局、改善环境质量等。然而,人工标注遥感图像中的地物类型存在着识别准确度低、工作量大、成本高等难点。传统的基于规则和特征工程的方法通常难以应对遥感图像中地物的复杂多变性,因此亟需一种高效且准确的地物识别方法。
近年来,深度学习技术的发展给地物识别带来了新的机遇。深度学习通过建立复杂的神经网络模型,能够从大规模数据中学习地物的特征表示,具有较强的自动学习能力和泛化能力。这种基于数据驱动的方法不仅能够克服传统方法中人工设计特征的局限性,而且能够有效处理遥感图像中的高维信息,从而提高地物识别的准确性和效率。在村镇建设领域,深度学习技术的应用具有可行性。通过利用深度学习模型对遥感图像进行地物识别,可快速准确地提取出建筑、道路、植被等地物信息,为村镇规划、土地利用管理、环境监测等工作提供重要的支持和参考。
1 技术背景
1.1 卷积神经网络
卷积神经网络是一种深度学习模型,其可自动学习图像特征表示,无需人工干预,因而在图像识别、目标检测和图像分割等复杂任务中高效运用。随着深度学习技术的发展,卷积神经网络在图像处理中的应用越来越广泛,成为解决复杂地物识别和分割问题的主流方法之一。
1.2 语义分割
语义分割是计算机视觉中的重要任务,目的是对图像中的每个像素进行语义类别的分类,从而实现对物体的精细识别和分割。传统方法受限于特征表达和算法复杂性,难以处理复杂场景和多样地物类别。随着深度学习技术的发展,特别是卷积神经网络的广泛应用,语义分割迎来了新的机遇。深度学习模型通过端到端的训练,自动学习图像中的特征表示,提高了地物分割的准确性和效率。
1.3 集成学习
集成学习是一种机器学习技术,通过组合多个学习器提高整体模型的性能和鲁棒性。其在传统机器学习中已被广泛应用,核心思想是结合多个弱学习器的预测结果,产生更强大的整体模型。近年来,随着深度学习技术的发展,集成学习在深度学习领域也备受关注。通过结合多个深度学习模型的预测结果,降低模型方差,提高整体泛化能力,集成学习在地物语义分割任务中也具有重要意义。
2 方法
为了进一步提高地物语义分割的准确性和鲁棒性,本研究提出了一种简单而有效的集成(Ensemble)方法。该方法基于7 个语义分割模型实施, 包括UNet、UNet++、DeepLabV3、DeepLabV3+、MANet、PSPNet 以及LinkNet。这些模型具有不同的网络结构和特征提取方式,因此在地物分割任务中可表现出各自的优势和局限性。
集成模型采用了一种非常简单但有效的实现方式,即直接对7 个模型在每个像素上的预测概率进行加权平均。具体地,根据每个基础模型在验证集上的分类准确率来确定其在集成模型中的权重,即基础模型准确率越高,其对集成模型的影响越大。通过这种方式,既考虑了各个基础模型的表现能力,又使得在集成过程中性能较好的模型起到更大的作用,从而进一步提高了集成模型的性能。
单一模型存在的主要缺陷包括但不限于:①局限性。单一模型通常难以覆盖所有地物类别的复杂特征,易受数据分布的不均衡和噪声的干扰。②泛化能力不足。某些模型在特定场景下可能表现出较好的性能,但在其他场景下泛化能力较差。相比之下,集成模型具有以下优势:①综合多个模型的优势。通过集成多个模型的预测结果,能够有效地弥补单一模型的局限性,提高地物分割的准确性和鲁棒性。②减少模型的风险。通过加权平均的方式融合多个模型,能够降低单一模型的风险和误差,提高整体模型的稳定性。③简单易行。集成方法采用了简单直接的加权平均方式,易于实现和部署。因此,相信提出的集成方法能够为地物语义分割任务带来显著的性能提升和应用价值。
3 试验
3.1 数据集
试验使用Satellite dataset I( global cities)数据集进行性能验证。Satellite dataset I( global cities)是一个收集自全球各大城市的数据集,来源于多种遥感资源,包括QuickBird、Worldview系列、IKONOS、ZY-3等卫星。除了卫星传感器的差异外,数据集中还存在大气条件、全色和多光谱融合算法、大气和辐射校正以及季节等因素的变化,这些因素使得数据集具有挑战性。数据集包含204张图像,每张图像分辨率为512×512像素,分辨率范围为0.3~2.5 m。该数据集仅包含两个分类类别:背景与建筑。将该数据随机划分为训练集、验证集和测试集,样本比例为:60%、20%、20%。
3.2 评估指标
为了全面评估地物语义分割模型的性能,采用了多种评估指标。准确率(Accuracy)衡量了模型正确预测的像素数量与总像素数量之比,精确率(Precision)评估了模型预测为正类别的像素中,真正为正类别的比例,召回率(Recall)衡量了真正为正类别的像素中,模型成功预测出的比例。F1 分数综合考虑了精确率和召回率,表示模型在准确性和全面性之间的平衡。IoU(Intersection over Union)指标反映了模型预测结果与实际标签的重叠程度,而Dice系数衡量了预测结果与实际标签的重叠程度。通过综合考虑这些评估指标,能够更全面地评价地物语义分割模型的性能表现,从而指导模型的优化和改进。模型性能评估结果见表1。
3.3 超参数设置
本研究使用 PyTorch Lightning 2.1.2 框架进行试验,并采用 Adam 优化器作为训练优化算法。批大小设置为 8,学习率为 1e-4。针对模型的训练过程,设置了一个早停策略,即如果在十个周期内验证集准确率没有提升,则停止训练,以避免过度拟合和节省训练时间。所有的试验都在单张3090Ti 英伟达显卡上完成。
3.4 结果分析
通过对现有7 种语义分割模型的试验分析,测试集样本预测结果如图1 所示。发现其在不同的评估指标上表现各有特点。UNet 和UNet++ 在准确率上表现较好,但在其他指标上稍有不足;DeepLabV3和DeepLabV3+ 在召回率上较为突出,MANet 和PSPNet 在整体性能上表现均衡,而LinkNet 则在召回率上达到最佳水平。这些试验结果反映了各个模型在捕捉目标区域、分割精度等方面的优势和局限性。然而,集成算法通过综合利用现有模型的预测结果,显著提高了语义分割任务的执行效果。在准确率、精确率、F1 分数、IoU 和Dice 指标等方面,集成算法都取得了最佳结果,表现出优异的性能。这说明集成算法能够充分发挥各个模型的优势,弥补单一模型的不足,提高了预测结果的鲁棒性,为语义分割任务提供了更可靠的解决方案。
值得注意的是,尽管试验结果展示了各种模型的性能差异和集成方法的优越性,但也必须认识到研究的一些缺陷:①试验数据与真实的乡镇数据存在差异。这意味着在进行模型训练和评估时所使用的数据集可能无法完全反映真实应用场景中的复杂情况。因此,需要采集更真实的乡镇数据,并结合实际应用场景中的地物标注,以更准确地评估模型的性能。②试验数据中仅包含建筑物的分割标注,而无法涵盖到所有可能的应用场景。在实际应用中,语义分割模型可能需要处理更多类型的地物,如道路、植被、水体等。因此,为了更全面地评估模型的性能,需要补充包含更多地物类别的数据集,并进行相应的标注工作。
4 结束语
通过本研究的试验验证发现,现有的深度学习模型在村镇建设地物识别任务中具有较好的效果,显示出了较高的应用价值。试验结果表明,现有深度学习模型在多种评估指标上取得了较好的效果。同时,提出的集成方法相对于单一模型取得了进一步的性能提升,在各项评估指标上均取得了最佳结果。这表明集成方法在提升模型性能和稳定性方面具有重要意义。这对于提高村镇建设地物识别任务的自动化程度、准确性和效率具有重要意义,对于推动智慧村镇建设和地理信息系统应用具有积极的促进作用。
参考文献
[1] 王阳,郭开明,苏练练. 关于国土空间规划中城乡建设用地统筹的思考[J]. 西安建筑科技大学学报(自然科学版),2023,55(5):729-738.