基于多源数据融合的城市建成区提取方法

2023-10-11江丽钧

地理空间信息 2023年9期

王恒，江丽钧

（1.丽水市建设技术管理中心，浙江丽水 323000）

城市建成区是指城市行政区内实质已成片开发建设、市政公用设备和公共设备基本具备的地区[1]，其范围是衡量城市化发展水平的重要指标。我国城市建成区的提取和划分主要依据政府统计年鉴和规划文件，而城市建成区是动态变化的，研究城市扩张需要持续监测建成区的变化，但无法从《中国城市统计年鉴》中获得城市建成区的准确时间序列[2]。虽然近年来卫星遥感、兴趣点（POI）等社会大数据开放程度大大提高，但由于城市建成区的复杂性，准确获取动态建成区仍是一项具有挑战性的工作。

城市建成区提取方法主要包括两种：①基于单一数据源的提取，如参考文献[3]～[6]根据城市建成区灯光亮度值明显高于其他地区这一特征，利用夜光遥感数据提取城市建成区范围，但城市中心夜光遥感数据存在明显的光饱和[3]，导致提取区域大于实际范围，且存在开花效应，影响提取精度，参考文献[7]、[8]利用POI在城市与农村边界处的密度突然变化这一特征提取城市建成区，但受限于本身数据质量和阈值选择，城市建成区提取精度不高；②多源数据融合提取，如参考文献[9]～[14]通过融合POI 与灯光数据，利用阈值法提取城市建成区，该方法能在一定程度上实现数据互补，但仍存在边界溢出、阈值选取受人为主观因素影响等问题，参考文献[15]通过融合POI 与不透水面指数来提取建成区，在局部可获得较好效果。上述方法在提取建成区方面都具有合理性，但也有自身缺陷，参考文献[16]～[18]利用深度神经网络来解决遥感数据提取道路、土地覆盖分类等问题，结果优于传统方法。目前尚无研究利用多源数据融合结合深度学习提取建成区，因此本文提出一种融合夜光、POI 数据并结合深度学习的城市建成区提取方法，以弥补传统方法的不足，提高城市建成区提取的准确性。

1 数据来源与处理方法

1.1 数据来源

夜光数据采用2018年7月珞珈一号影像，空间分辨率为130 m，幅宽为260 km。POI数据来源于2018年高德地图数据，包括餐饮、购物、文化、生活、公园等。由于Sentinel-2 的B2、B4、B6、B11 和B12 波段对建筑用地提取有积极影响[19]，因此本文采用这5 个波段数据的合成影像，空间分辨率为10 m。《2018 年城乡建设统计年鉴》数据来源于住房和城乡建设部。

1.2 数据处理方法

1.2.1 夜光数据处理方法

为减少光饱和的影响，对珞珈夜光遥感数据进行辐射校正，采用数据分发网站提供的公式：

式中，L为绝对辐射较正后的辐射亮度值，单位为W/(m2∙sr∙μm)；DN为图像灰度值。

为消除珞珈数据的地理参考误差，本文参照遥感影像进行几何校正，通过阈值分割获取目标数据。

1.2.2 POI数据处理方法

本文采用核密度估计分析POI 数据，通过阈值分割获取目标数据。估算公式为：

式中，n为样本数量；h为带宽；K为核函数；x为计算函数的向量；Xj为样本向量。

本文使用的核函数基于四次核函数，即

1.2.3 ResUNet深度学习方法

参考文献[19]利用深度残差ResUNet，基于遥感影像提取道路网，并取得了良好效果。本文利用ResUNet方法对哨兵2号卫星遥感影像进行深度学习提取建设用地数据。具体训练步骤为：①首先下载目标区域哨兵2号遥感影像，利用ENVI软件合成目标波段，裁剪兴趣区域，形成训练影像数据，再通过ArcGIS软件提取Esri Land Cover 2020 10 m土地覆盖数据中的建设用地作为训练标签数据；②由于深度学习框架不能直接使用现有的样本数据，因此采用滑动窗口方法将样本数据制作成256×256 大小的图片，步长为128 像素，对图像进行90°、180°、270°旋转增强处理，对切片数据在0～1 范围内进行归一化处理；③随机选取90%样本数据作为训练集，10%样本数据作为验证集；④采用Keras框架进行ResUNet学习模型的数据训练，网络迭代次数为50，以二分类交叉熵作为损失函数来评估训练性能，采用Adam 优化器调整学习率，初始学习率为0.000 1，训练损失值连续5个迭代次数不降低时，学习率衰减一半，保存基于验证损失的最优模型；⑤对目标区域遥感影像进行预测。

1.2.4 数据归一化处理方法

由于各因子核密度的数量级不同，因此本文对夜光遥感数据、POI 数据、深度学习提取数据进行归一化处理。根据数据标准化原理，本文采用最小—最大值归一化方法进行标准化，消除因子大小差异对精度的影响。

式中，xi为第i个因子的值；minxi、maxxi分别为xi的最小、最大值。

1.2.5 数据融合方法

几何平均可在图像融合中有效消除图像极值的影响，保留图像的原始信息，因此得到了广泛应用[20]，融合后的数据可消除密度分析值过大造成的数量级差异，且在一定程度上消除了夜光图像的背景噪声，减少了光线溢出的影响。本文采用几何平均数融合ResUnet学习数据、夜光数据和POI数据，计算公式为：

式中，IUrban 为综合指数；Pi为POI 核密度灰度值；Ri为ResUNet 学习数据灰度值；Ni为夜光数据灰度值。

1.2.6 精确度评估

本文以实际建成区为参考进行精确度评估，通过统计分类评价指标[21]精确率（precision）、召回率（recall）、F1分数进行定量评估。

式中，TP为模型提取结果为建成区，实际也是建成区的面积；FP为模型提取结果为建成区，实际不是建成区的面积；FN为模型提取结果不是建成区，实际是建成区的面积。

1.3 多源数据融合处理流程

数据处理流程包括夜光数据提取建成区、POI数据提取建成区、遥感影像提取建成区和多源数据融合提取建成区等内容，具体工作流程见图1。

图1 数据处理流程图

2 实验与结果分析

本文选取浙江省杭州市和丽水市数据进行城市建成区提取研究，分别利用夜光数据、POI 数据以及本文提出的多源数据融合方法提取建成区，并对3 种方法的提取结果进行比较分析。

2.1 基于POI数据提取建成区

杭州市采用2018 年高德POI 数据（23 大类，约84 万个点）进行核密度分析，采用阈值分割法提取建成区边界；丽水市采用2018 年天地图POI 数据（10大类，约18万个点）进行核密度分析，采用阈值分割法提取建成区边界；对公园POI数据进行单独处理，提取范围后再融合到最后的成果中，提取结果见图2，可以看出，POI 数据提取城市建成区边界较平滑，周围小图斑较少，采用合适的阈值可有效去除周边的村庄、集镇，但POI数据进行核密度分析后边界数据溢出问题较突出（图中红色框部分）。

图2 POI数据提取建成区结果

2.2 基于夜光数据提取建成区

利用夜光数据对杭州市和丽水市进行了建成区提取，并对提取结果进行图斑综合，结果见图3，可以看出，夜光遥感影像提取建成区范围能反映城市的轮廓、边界清晰，但周边存在很多分散的小区域，且建成区范围线内存在不少面积较大的空洞，图中标记1、2、3、5位于学校附近，由于影像获取时间正是学校暑假时间，因此夜光暗淡，使城市建成区提取产生较大偏差；标记6、7 为建成区内公园，公园夜光较暗，容易因阈值选取而被剔除；标记8 为河面，部分区域夜光明亮，存在光溢现象。

图3 夜光遥感影像建成区提取

2.3 基于深度学习提取建设用地

本文选取2020 年12 月南京市区及其周边范围的哨兵2 号影像以及Esri Land Cover 2020 10 m 土地覆盖中的建设用地（Built Area）数据作为训练的输入数据，按照数据处理流程进行深度学习，训练曲线见图4，曲线网络的训练损失（TrainLoss）和验证损失（ValLoss）随训练次数的增加而减小并收敛；训练精度（TrainAccuracy）和验证精度（ValAccuracy）随训练次数的增加而提高并收敛。模型选取验证损失最小值时的模型用于后续数据的预测。

图4 ResUNet网络训练

利用训练好的模型对目标遥感影像进行预测提取，并对图斑进行综合处理获取建设用地范围，提取数据为地面上有建筑物的地块，结果见图5，可以看出，提取范围中包括很多分散的小区块，主要为城市周边的村庄、小镇，其中丽水城区遥感影像部分区域存在云层（图中a、b区域），影响建设用地提取。

图5 深度学习建设用地提取

2.4 多源数据融合提取建成区

本文按照数据处理流程和方法进行数据融合，提取杭州市和丽水市的建成区，并对图斑数据进行综合，结果见图6，可以看出，标记1、3 为学校区域，在采用夜光数据提取时被剔除；利用POI或夜光数据提取城市建成区时存在数据溢出现象（标记2、4），导致边界范围不准确，但采用数据融合后能有效弥补单一数据源的不足。

图6 杭州、丽水市区融合后建成区成果

以丽水市为例，本文分别比较了3 种方法的提取精度，计算结果见表1，可以看出，多源数据融合方法的整体精度最优。以2018年杭州市地理国情公报数据和丽水市住房和城乡建设厅2018 年城乡建设统计年鉴为检查数据，与融合后的数据进行比较，结果见表2，其中杭州市统计数据不包含临安区、富阳区数据，可以看出，基于多源数据融合提取建成区与实际数值基本一致。

表1 多源数据融合提取建成区精度评定

表2 提取建成区面积与实际建成区面积比较

从3 种提取方法结果来看，多源数据融合方法能更准确地反映城市建成区的实际范围，充分实现多源数据的互补，集中表现在：①城乡分界明显，采用POI 和夜光数据提取的建成区范围，在城市和非城市区域界限非常明显，该方法充分利用这一优势，消除了城市周边的噪声，减少了人工判读工作量，提高了提取效率；②融合互补，多源数据融方法能实现数据互补，图6的实际提取结果说明了这一点。

3 结语

本文分别采用POI 数据、夜光数据、多源数据融合提取建成区，并与已知的建成区数据进行比较，以评价各方法的提取精度。结果表明，多源数据融合方法的提取精度最高，能克服单一数据提取方法建成区内部数据空洞、溢出效应问题，所用遥感影像获取周期短、POI 数据获取便捷、方法操作相对简单，可保证城市建成区提取的时效性。在未来研究中将继续朝多源数据融合方向发展，充分利用深度学习工具进一步简化提取流程，提高自动化提取程度。