高分辨率遥感影像城中村提取的景观语义指数方法

2021-01-18丁乐乐史芙蓉

测绘学报 2021年1期

张涛，丁乐乐，史芙蓉

1. 天津市勘察设计院集团有限公司，天津 300191; 2. 武汉大学测绘遥感信息工程国家重点实验室，武汉 430079

中国在快速的城市化进程中，大量农村土地被政府部门征收用于城市建设与发展，而他们的聚居地由于拆迁安置成本较高，大多被完整地保留下来，并且逐渐被扩张的城市区域所包围。这些居民区被形象地称为“城中村”(urban villages,UVs)[1]。如今，城中村广泛分布于中国的各大城市，如广州、深圳、武汉等城市，在城市化进程中，为众多的外来务工人员提供了廉价的住房，然而城中村也给城市的可持续发展带来诸多问题[2]。城中村内部建筑分布拥挤，缺乏公共基础设施，人口混杂，容易引发环境卫生问题。因此，及时有效的城中村制图信息对城市管理非常必要，能帮助城市管理人员制定合理的城市规划方案。然而，许多中国城市依然缺乏细致的城中村信息，传统的数据获取方法主要是实地测绘与调研，耗费巨大的人力与时间[3]。

随着遥感技术的发展，高分辨率遥感影像已经广泛应用于城市基本地物要素的监测[4]，比如城市功能区(urban functional zone)的分类[5]，建筑与道路等不透水面的提取[6-8]。但是，国内利用遥感影像进行城中村的研究还相对较少，现有的城中村研究主要集中在社会科学领域，且多是局部案例分析，缺乏大范围、连续的城中村空间分布信息[9]。同时，笔者也注意到，国外有一些针对贫民窟(slum)或者非正式居民区(informal settlements)提取的相关研究，而贫民窟与城中村在物理外观上具有一定的相似之处。文献[10—11]采用面向对象的影像分析方法分别从IKONOS和QuickBird影像上进行贫民窟的提取，文献[12]采用边缘检测和基于间隙度(lacunarity-based)的方法进行贫民窟的识别，文献[13]采用机器学习的方法并联合SAR影像的极化和纹理特征，提取了印度孟买的贫民窟。目前大部分方法主要依赖于影像的光谱和纹理等底层特征信息，比如常用的灰度共生矩阵测度(gray-level co-occurrence matrix,GLCM)[14-15]，但是这些底层特征依然难以描述大范围复杂的城中村场景。

遥感影像中地理要素的空间分布与排列所形成的具有可区分性的模式称之为景观。与现代城市景观相比，城中村具有显著而独特的物理特点，主要表现为建筑覆盖率高、建筑个数多、建筑尺寸小、建筑间距近等。因此，可以通过这些典型的景观特征来推断该场景的语义功能。并且，景观特征具有明确的物理意义，该物理意义不依赖于影像的光谱和纹理属性，只与基本地理要素的实际分布模式有关。因此，景观特征可以看成是一种高层次的语义信息，具有较强的场景特征表达能力。建筑景观特征的计算依赖于准确的建筑覆盖信息，本文采用形态学建筑指数(morphological building index,MBI)来进行建筑特征提取[16]。MBI旨在建立基本的形态学运算与建筑属性之间的关联，是一种较为有效的自动化建筑提取指数，已经成功应用于建筑提取和变化检测等领域[17-18]。本文中，只要MBI在城中村区域内能够表征更密集分布的建筑，相对于非城中村能表现出明显可区分的空间排列模式，那么基于MBI提取的建筑计算的景观指数就有望描述城中村的场景特点，从而进行城中村的提取。

另外，在大范围的遥感制图实践中，为了提升制图产品的精度，需要修正制图过程中存在的一些错误，以满足后续应用的需求。本文将根据机器学习的输出结果评估分类置信度，对不同置信度的分类结果分别进行精度评价，以城中村制图应用为导向，对其中的低置信度分类结果进行检查修正。该“分类置信度-反馈”机制能够参考机器学习输出的概率，以有限的人工干预提升最后的制图精度，在大规模的遥感应用中是一种实际可操作的人机交互策略。

1 研究区与试验数据

本文的研究区是中国的超大城市广州。在快速的城市化进程中，广州的城区内留下了众多的城中村，而且有些城中村位于城市的中心地带，引发了严重的环境和土地利用问题。从图1可以看出城中村内部虽然光谱特征复杂，但是它们拥有一些共性特点：城中村的建筑分布拥挤而密集，居住环境较差，这种建筑分布模式是城中村比较普遍的特点。这为城中村的场景语义推断提供了线索。

本文从天地图(http:∥www.tianditu.cn/)上获取高分辨率卫星影像，影像包含可见光3个波段，分辨率为2 m, 覆盖广州核心城区约300 km2。该影像的光谱和分辨率信息能够较好地支撑单个建筑物的提取，从而进行城中村场景的推断。此外，本文获取了开放地图OpenStreetMap (OSM)[19]的道路矢量数据作为辅助数据用于城市的街区分割。最后，卫星影像和OSM数据都投影到WGS-84 UTM Zone 49坐标带，且两种数据源能够很好地叠加贴合。

2 城中村提取方法

本文的关键在于针对城中村这个特定分类任务，如何设计有效的特征来描述复杂的城中村场景。在深入了解城中村的物理特点后(建筑覆盖率高、个数多、尺寸小、间距近等)，本文采用几个典型的景观语义指数来描述建筑的空间分布特征，实现城中村的提取(图2)。首先，采用道路矢量将影像分割成不同的街区作为基本的制图单元，然后采用形态学建筑指数从影像上提取建筑特征，并在街区层计算典型的景观指数来表征建筑物的空间分布模式；接着采集训练样本输入分类器进行模型训练和分类，根据机器学习输出的分类概率得到高、低置信度结果，并有针对性地对低置信度分类结果进行检查修正，得到更准确的城中村制图信息；最后基于该制图产品进行相关的土地政策分析，服务于城市管理与规划。

2.1 基本制图单元

城中村的识别可以看成是一个场景分类或者土地功能制图的任务[20]。目前，已经有一些研究采用道路矢量数据将影像划分成不规则的多边形区域(即街区)用于土地功能的制图[21]。街区是现代城市管理的基本单元，一般被多条道路包围形成，没有固定大小，但是内部的土地利用和功能属性相对一致，因此，与规则的格网相比，街区具有天然的语义信息。街区划分的道路矢量数据一般来源于现有的道路GIS数据，比如OpenStreetMap(OSM)。OSM是一个开源的地图[19]，能够提供矢量格式的道路数据。本文采用道路矢量数据划分城市街区并作为城中村识别和制图的基本单元(图3)。在实际应用中，GIS道路数据可能会有所缺失，一般需要参考卫星影像进行检查，对不一致的地方进行必要的修正。

2.2 城中村场景表达

一般而言，城中村内部的建筑分布表现为：覆盖率高、个数多、尺寸小、间距近。根据这些特点，能够推断建筑的空间排列信息是区分城中村与其他场景(如现代居民区和自然场景)的关键要素。因此，本文采用几个典型的景观语义指数，包括建筑斑块覆盖率(PLAND)、建筑斑块个数密度(PD)、平均建筑斑块面积(MPA)以及平均建筑斑块最邻近距离(MNND)来描述建筑物的空间分布特点(表1)。这些典型的景观语义指数具有明确的物理意义，易于理解，能够较好地区分城中村与非城中村场景。在每个街区内，计算以上地物的景观指数，作为该街区场景的特征表达。

表1 本文用于城中村提取的景观语义指数

在定量计算建筑的景观语义指数之前，需要获取影像上的建筑覆盖信息。本文采用形态学建筑指数[16](morphological building index,MBI)进行建筑提取。MBI的主要思想是通过基本的形态学运算(如白顶帽变换，形态学差分)描述建筑物的内在属性(如亮度、对比度、方向和尺寸等)。MBI的构建主要包含以下3个步骤：①计算亮度影像作为后续处理的基影像，由于建筑的材质在可见光波段范围内一般表现为较高的反射率，因此亮度影像定义为每个像素在可见光波段的最大值。②采用多尺度和多方向的线性结构元素对亮度影像进行白顶帽变换(WTH)，并生成差分形态学特征(DMP)来表征不同尺度和方向上的建筑分布。③对DMP-WTH形态学谱进行均值聚合凸显建筑的存在，这是考虑到建筑相对于狭长的道路显得更加各向同性。MBI定义如下

(1)

式中，DMP-WTH是基于WTH的DMP特征；s和d分别表示WTH变换中线性结构元素的尺寸和方向；Ns和Nd分别表示尺寸和方向的总数。

图1 本文高分辨率遥感影像Fig.1 High-resolution remote sensing image used in this study

图2 本文方法流程Fig.2 Framework of this study

图4展示了城中村与非城中村场景的MBI特征，可以看到MBI特征影像能够较好地反映建筑信息。同时，也注意到MBI主要适用于具有较高局部对比度的建筑，对一些较暗的建筑提取效果不佳。虽然MBI无法精确提取城中村内的每个建筑，但是相对于城市其他景观，在城中村内，MBI还是能够表征更密集分布的建筑。从MBI的特征图中依然可以看到城中村内的建筑分布具有明显可区分的模式，主要表现为建筑覆盖率较高、建筑个数较多、建筑尺寸较小、建筑间距较近等特点。

更进一步，本文分别选择了40个城中村和非城中村街区，计算了它们的景观特征分布(图5)。可以看出来，基于MBI计算的景观语义指数在城中村与非城中村场景下具有比较明显的差异，尤其是城中村的建筑斑块覆盖率(PLAND)，建筑斑块个数密度(PD)显著高于非城中村，而城中村的平均建筑斑块最邻近距离(MNND)显著低于非城中村，这与城中村的物理特点是相符的。此外，平均建筑斑块面积(MPA)的差别较小，这可能是因为一些非城中村区域包含了一些没有建筑的自然区域，如绿地、公园等。但是从特征的可解释性出发，本文也保留这个基本的语义指数。因此，采用MBI指数以及景观特征能够定量衡量建筑的空间排布模式，较好地描述城中村的场景语义信息。

图3 道路矢量街区分割Fig.3 Local example for city blocks enclosed by road networks

图4 城中村与非城中村的局部景观Fig.4 Local examples of UVs and non-UVs

2.3 “分类置信度-反馈”机制

本文采用随机森林(random forest,RF)作为城中村场景识别的分类器。RF是一个著名的集成学习分类器，它通过多棵决策树的众数投票结果决定最后的类别输出[23]。RF由于其较好的稳健性，特征重要性计算方便等优势，已经广泛应用于遥感影像的土地覆盖分类[5,24]。RF不仅能够输出硬分类结果(类别标签)，它还能通过考虑每棵决策树的投票结果得到每个类别的分类置信度，可以表示如下

(2)

式中，R(x)指街区x分类结果的置信度；TreeNumber指决策树的棵数，本文试验中设为100棵；votek指第k个类别的投票数，也就是本文试验中识别成城中村(k=1)或非城中村(k=2)的投票数。根据R(x)的数值，将所有街区的分类结果置信度分成高置信度(R(x)>0.9)和低置信度(0.5

图5 样本景观特征分布Fig.5 Landscape feature distribution of training samples

在高分辨率影像与电子地图的辅助下，分别随机选择了40个城中村和非城中村街区作为训练样本，这些样本均匀地分布在整个研究区，并且空间分离，确保其空间独立性。随后，将训练样本与街区景观特征联合输入到RF分类器中进行城中村的识别。

2.4 精度评价

所有街区的分类结果都会根据式(2)标记为高置信度结果或者低置信度结果。根据分类置信度采用分层随机抽样方法(stratified random sampling)选取了一定数量的样本进行精度评价，选择的测试样本(街区)与训练样本保持独立。对于高/低置信度的分类结果，随机选择40个城中村和40个非城中村街区进行精度验证。城中村街区正确分类的个数越多，表示城中村探测的错分误差越小，即正确性越高。同时，在非城中村类别中，正确分类的个数越多，表明城中村探测的漏分误差越小，即完整性越高。

3 试验与分析

3.1 城中村提取精度

本文研究区内，大部分街区都以高置信度被划分成城中村或非城中村。在城中村类别中，高置信度分类结果的比例为79.5%，同时，在非城中村类别中，高置信度分类结果的比例为94.9%。表2展示了不同分类置信度下的城中村与非城中村的分类精度。可以看出来，高置信度的分类结果表现出较高的精度，其中城中村类别的正确率为92.5%，非城中村类别的正确率为100%。这表明，本文方法在城中村探测任务中，主要存在的是错分误差，而漏分误差相对非常小。一些与城中村比较类似的区域相对容易识别错误，而一旦分类器认为某个街区不是城中村，则该结果具有较高的可信度。而对于低置信度的分类结果，精度则相对较低，其中城中村类别的正确率为65%，非城中村类别的正确率为85%。

表2 不同分类置信度下的城中村与非城中村探测精度

此外，文献[13,15]都采用了GLCM的方法分别从雷达影像和光学影像上提取了贫民窟(slum)区域。因此，本文也采用GLCM纹理特征提取城中村作为对比方法。GLCM的纹理测度包括常用的均值(mean)，方差(variance)，同质性(homogeneity)，对比度(contrast)，不相似性(dissimilarity)，熵(entropy)，二阶矩(second moment)和相关性(correlation)。纹理特征以街区为单元，计算4个方向上(0°,45°，90°,135°)的特征，然后求取平均值，消除GLCM特征的方向性。一般而言，城中村内的建筑分布杂乱，建筑材质多样，城中村的纹理异质性较高。

采用上述相同的160个测试样本街区进行评定，结果表明本文方法的城中村提取精度更优。对于采用景观指数检测到的非城中村样本，对比方法在这些区域表现的错误较多。这些非城中村区域内部一般包含多种地物类型(如建筑、植被、裸地与广场)，光谱丰富多变，纹理异质性较高，容易与城中村的纹理特征混淆。对比结果说明相对于光谱、纹理等底层影像特征，本文采用的景观指数物理意义明确，具有较高的语义信息，并且特征维度相对更低，能够更好地描述城中村的根本形态特点。

最后，综合考虑分类结果的高低置信度比例及其精度，为了生产更加精确的制图产品，针对低置信度分类结果进行检查和修正。由于低置信度的分类结果只占探测结果中很少的一部分，只需要少量的人工干预，就能够提升整体的制图精度。通过这种“分类置信度-反馈”机制，一些错误标记的城中村能够被去除，与此同时，一些遗漏的城中村可以得到补充。在大范围的遥感应用中，这种机制考虑了机器学习输出的分类概率，是一种有效的人机交互方式。

3.2 特征重要性

RF中每颗决策树的构造实际上只用到了部分的训练样本，而没有用到的样本称之为袋外数据(out-of-bag samples)[7]，可用于验证该决策树的分类精度。当对某个属性进行随机重新排列(randomly permuted)，此时RF中所有决策树分类精度的平均减少量可以衡量该特征的分类重要性。如果对某个特征的随机数值重排使得分类精度减少较多，则认为该特征对分类的贡献度较大。特征重要性详细计算步骤可参见文献[25]。图6展示了本文选取的景观语义指数在城中村识别中的重要性。可以看出来，建筑斑块个数密度(PD)表现出最高的贡献度，其次是平均建筑斑块最邻近距离(MNND)，建筑斑块覆盖率(PLAND)。实际上，城中村最主要的物理特点就是建筑分布密集，建筑覆盖率高，建筑间距小。而平均建筑斑块面积(MPA)对于城中村的识别作用相对较小，这可能是由于其他的城市功能区也分布着较小尺寸的房屋，比如高档住宅区。总之，从城中村的物理特点以及特征的可解释性出发，本文选取的典型景观语义指数直观且物理意义明确，较好地描述了城中村的形态，特征重要性的定量排序结果与城中村的物理特点是相符的。

图6 城中村提取中的特征重要性Fig.6 Feature importance in UVs detection

3.3 城中村现状与土地政策分析

图7展示了研究区内城中村的制图结果，在研究区范围内共检测出330个城中村街区，占地面积2525公顷。城中村的存在给城市的可持续发展带来诸多问题。首先，城中村居住环境恶劣，严重影响城市景观。另外，城中村内土地价值没有完全开发。在城市建设中，政府经常面临城市用地短缺的问题[26]，而一些城中村占据了城市中优越的地理位置，但是土地利用非常低效[2]。为了促进土地的高效利用，城中村的改造不可避免。然而，城中村的改造进度却比较缓慢。一方面，城中村为大量外来务工人员提供了廉价的住房，在城市化进程中也发挥了一定程度上的积极作用[3]。据报道，广州的城中村容纳了超过600万的外来人口。另一方面，城中村拆迁过程中的利益冲突也会严重影响城中村的拆迁进度。广州是中国的一线城市之一，城中村改造成本昂贵。因此，广州的城中村改造相对缓慢，尽管如此，广州2016年发布的“十三五”规划中仍然提到要将城中村改造作为城市更新的重点行动。

3.4 精细尺度城中村提取探讨

上文在街区层进行了城中村的提取，街区层的城中村制图结果比较适用于实际的城市规划与管理，但是街区分割受制于预先提供的道路矢量数据。本节在格网层继续探讨更细粒尺度的城中村提取。格网划分不依赖于外部矢量数据，但是需要注意格网的尺寸设置。一般而言，格网大小需要覆盖一个完整的场景区域，其内部应当具有比较明显的场景模式。在城中村提取任务中，考虑到城中村内建筑的大小与空间分布，本文探索了不同格网尺度下的城中村提取结果。格网边长分别设为80、100、120、140、160 m，对应影像上的像素个数分别为：40、50、60、70、80。采用半重叠格网来进行城中村场景特征的提取(景观语义指数)，以减少格网划分带来的边缘效应，重叠区域对分类概率采用均值操作。对于每个尺度，随机标记了80个城中村和80个非城中村格网场景作为参考数据，其中40个城中村和40个非城中村场景作为训练数据，其余为测试数据。格网尺度的城中村检测精度如图8所示。

图7 广州城中村制图结果Fig.7 UVs mapping in Guangzhou

图8 不同格网尺度下的城中村提取精度Fig.8 Accuracy of UVs detection at grid level with different spatial scales

可以看到，当格网尺度为80 m时，精度相对较低，这说明该空间尺度不能充分表征城中村的场景特点，而格网尺度较大时，精度相对较高。但是，也要认识到，大的格网尺度会导致明显的边缘效应，使得城中村提取结果不够精细。因此，格网层的城中村提取需要考虑精度与精细度之间的平衡。在试验中，格网尺度在120 m左右时，能够覆盖具有一定空间模式的城市基本地物，从而能够较好地表征城中村的场景特点。图9展示了120 m格网尺度下的城中村提取结果，与街区层提取结果叠加显示，表现出了较高的一致性。

4 总结

城中村的空间分布信息对城市管理非常必要。本文从城中村的物理特点出发，设计采用景观语义指数描述高分辨率遥感影像上复杂的城中村场景(主要是建筑的空间排列模式)，并采用“分类置信度-反馈”机制，进行了大范围的城中村提取与制图。结果表明，景观指数物理意义明确，具有高层次的语义信息，能够成功地进行城中村场景表达，而且“分类置信度-反馈”机制能够引导参考机器学习输出的分类概率专门针对低置信度分类结果进行检查修正，以有限的人工干预生产更加准确的城中村制图产品，为后续的应用提供基础。结果表明，本文方法能够应用于大范围的城中村提取与制图，未来可以将其拓展到多时序影像，探究城中村的时空演变。