基于机器学习和图像形态学的彩色近代地图数字化
——以近代上海地区地表水体信息提取为例
2022-09-11柴宝惠
柴宝惠
(复旦大学历史地理研究中心,上海 200433)
近代以来,我国产生了大量利用科学测绘技术绘制的彩色地图,是了解当时地表覆盖情况的宝贵资料,数字化则是提取相关信息的重要过程和方法。地图数字化的本质是图像数字化,通过计算机图形和图像技术,将照片等模拟图像转化为数字图像,并对图像中的目标加以提取与识别。(1)Maria Petrou, Costas Petrou, Image Processing: the Fundamentals, Hoboken, New Jersey: John Wiley & Sons, 2010.地图的数字化通常还包括地图的定位和配准。(2)潘威、满志敏: 《大河三角洲历史河网密度格网化重建方法——以上海市青浦区1918—1978年为研究范围》,《中国历史地理论丛》2010年第2辑。目前已有很多图像数字化的方法,现代地图数字化也有了一定研究。(3)郭玲、王晓兰、周献中: 《彩色地图线状要素识别系统的设计与实现》,《系统仿真学报》2004年第5期;陈铭灏: 《彩色栅格地图前景要素提取方法研究》,重庆大学硕士学位论文,2006年。但是近代地图与现代地图具有不同特点,例如: 部分近代地图缺乏测绘信息;图面质量通常较差,存在不同程度的缺失、磨损、泛黄和褪色情况;地图符号形态各异,缺乏规范和标准。针对彩色近代地图的数字化方法,国内仍少有研究。在历史地理学研究实践中,采用手动数字化的方式仍是主流,不仅效率较低,而且主观性较强,其准确性和可比性都难以保证。
上海地区原本河网密布,与其他江南水乡并无二致。地表水体资源利用于交通、农业、生活用水等方面,同水乡的生产生活方式紧密联结在一起。(4)吴俊范: 《从水乡到都市: 近代上海城市道路系统演变与环境(1843—1949)》,复旦大学博士学位论文,2008年;潘威: 《上海地区地表水系空间结构特征重建及相关问题研究(1827—1978)》,复旦大学博士学位论文,2009年。近代开埠以来,出于填浜筑路等都市基础建设需要,上海市区地表水体形态不断经受大规模改造(5)满志敏: 《上海地区城市、聚落和水网空间结构演变》,上海辞书出版社2013年版;王建革: 《水乡生态与江南社会: 9—20世纪》,北京大学出版社2013年版。;在郊区,由于农业发展和基本建设需求,水网形态也有显著改变(6)闫芳芳、满志敏、潘威: 《从小圩到园田: 近百年来上海地区河网密度变化》,《地球环境学报》2014年第6期。。随之而来的,是区域生态环境的整体嬗变,乃至与地表水体关系密切的社会经济活动的深刻转型。上海地区近代地图资料丰富,地表水体是其展示的重要地物之一,因此,提取上海近代地图上地表水体并分析其变化有重要意义,也有很强可行性。已有学者利用近代地图,通过人工数字化提取水体变化信息,就城市化对水网变迁的影响及水系变化的驱动机制等问题进行研究(7)程江、杨凯、赵军等: 《上海中心城区河流水系百年变化及影响因素分析》,《地理科学》2007年第1期;潘威、满志敏: 《大河三角洲历史河网密度格网化重建方法——以上海市青浦区1918—1978年为研究范围》,《中国历史地理论丛》2010年第2辑;Wenwei Ren, Yang Zhong, John Meligrana, et al., Urbanization, land use, and water quality in Shanghai: 1947-1996, Environment International, 2003, Vol.29, No.5, pp.649-659.,然而,运用人工数字化方式提取水体结果多为矢量类型数据,河流大多被抽象为线类型要素,其定位和形态有一定模糊性和主观性,也不利于数据的展示(8)闫芳芳、满志敏、潘威: 《从小圩到园田: 近百年来上海地区河网密度变化》,《地球环境学报》2014年第6期。;更重要的是,人工数字化方式工作效率较低,特别是在处理较多地图时,需要投入大量时间成本。
在彩色近代地图的自动或半自动数字化研究方面,已有不少研究实现了对地名信息的提取(9)潘威、张光伟、夏翠娟、孙涛: 《古旧地图的信息化》,《图书馆论坛》2021年第11期;Beatrice Alex, Claire Grover, Richard Tobin, et al., Geoparsing historical and contemporary literary text set in the city of Edinburgh, Language Resources and Evaluation, 2019, Vol.53, No. 4, pp.651-675.,但对于地理要素的提取往往主要利用地图中的颜色信息,对地图符号的空间形态信息挖掘得不够充分。(10)Johannes H. Uhl, Stefan Leyk, Zekun Li, et al., Combining remote-sensing-derived data and historical maps for long-term back-casting of urban extents, Remote Sensing, 2021, Vol.13, No. 18, p.3672;Yao-Yi Chiang, Stefan Leyk, and Craig A. Knoblock, Integrating Color Image Segmentation and User Labeling for Efficient and Robust Graphics Recognition from Historical Maps, The Ninth IAPR International Workshop on Graphics Recognition, 2011, pp.1-4.近几年来,有研究利用深度学习算法进行彩色近代地图地理要素的数字化并取得了较好的提取效果(11)Sidi Wu, Magnus Heitzler, Lorenz Hurni, Leveraging uncertainty estimation and spatial pyramid pooling for extracting hydrological features from scanned historical topographic maps, GIScience & Remote Sensing, 2022, pp.1-15; Johannes H. Uhl, Stefan Leyk, Yao-Yi Chiang, et al., Automated extraction of human settlement patterns from historical topographic map series using weakly supervised convolutional neural networks, IEEE Access, 2020, Vol.8, pp.6978-6996.,但深度学习方法模型复杂,可解释性较弱(12)Maya Krishnan, Against interpretability: a critical examination of the interpretability problem in machine learning, Philosophy & Technology, 2020, Vol.33, No.3, pp.487-502.,往往需要大量的训练样本和运行时间(13)Athanasios Voulodimos, Nikolaos Doulamis, Anastasios Doulamis, et al., Deep learning for computer vision: a brief review. Computational Intelligence and Neuroscience, 2018; Yanming Guo, Yu Liu, Ard Oerlemans, et al., Deep learning for visual understanding: a review, Neurocomputing, 2016, Vol.187, pp.27-48.,对计算机算力也要求较高,需要更高的硬件支持(14)Neil C. Thompson, Kristjan Greenewald, Keeheon Lee, et al., The computational limits of deep learning, ArXiv, 2020, 2007.05558.,在现阶段历史地理研究中的实用性和可推广性仍然较为有限。
有鉴于此,本文提出一种基于机器学习和图像形态学的彩色近代地图数字化方法,该方法可充分挖掘地图中的颜色信息和地图符号的形态结构信息,能够以半自动的方式快速准确地将彩色近代地图中的地表水体信息提取出来,以“华东·上海”地图为例说明具体实现方式,并验证其有效性。该方法可为彩色近代地图中具有颜色特征的地理要素的数字化提取提供借鉴,有望为精准复原近代以来地表覆盖变迁、深入理解城市化进程中的人地关系变化提供数据和方法基础。
一、 《华东·上海》地图
(一) 《华东·上海》地图简介
《华东·上海》(EasternChina,Shanghai)地图(下文简称“上海图”),为栅格图像格式(图1)。(15)Ordnance Survey, Great Britain, Eastern China, Shanghai, 1927, Library of Congrass[2021-06-24], https://www.loc.gov/item/2012594283/, Geographical Section, General Staff, War Office, Great Britain, Eastern China 1∶50 000, Shanghai, 1926, Trove[2022-02-16], http://nla.gov.au/nla.obj-1647473952.该图于1927年由英国地形测量局南安普敦办公室(Ordnance Survey Office Southampton)绘制、制版并印刷。英国人从19世纪初开始在中国从事测绘活动,从19世纪前10年末起,英国一些主要的测绘机构,包括军事测量局(Directorate of Military Survey)、印度测量局(Survey of India)、殖民测量局(Directorate of Colonial Surveys),对中国的大片地区进行了测绘,其中,印度测量局最早派出大批勘探和测绘考察队前往中国西部和西南地区,军事测量局也在中国其他地区进行了长达50余年的测绘活动,特别是在与英国空军部和地形测量局的合作之下,为华东地区绘制了一系列不同比例尺的地图,“上海图”就是其中之一。(16)Jack F. Williams, China in Maps 1890-1960: a Selective and Annotated Cartobibliography, East Asia Series Occasional Paper No. 4, Michigan: Asian Studies Center, Michigan State University, 1974.
“上海图”比例尺为1∶50 000,原图装裱于亚麻布上,为蓝色与黑色双色套印,尺寸为70厘米×60厘米,分成上下两个部分以便折叠。图上文字为英文,四个顶角标有经纬度,西北顶点坐标为(31°26′32.99″N, 121°18′55.24″E),东南顶点坐标为(31°7′14.76″N, 121°37′19.40″E),采用多圆锥投影(17)Geographical Section, General Staff, War Office, Great Britain, Eastern China 1∶50 000, Shanghai, 1926, Trove[2022-02-16], http://nla.gov.au/nla.obj-1647473952.,图面绘有宽度为1千米的军用坐标方格网(military grid)。地图标题右下方标有“仅供官方使用”,指出其不是商业用途的地图。左下角绘有居民点边界、省界、区界、铁路、电车轨道、主路、其他道路、堡垒、电报线路等要素的图例;右下角绘有矿藏、塔、教堂、历史遗迹、寺庙、石灰窑或砖窑、墓地、湿地、时令河、林地、沙地和水利工程等要素的图例,未绘制时令河之外的地表水体的图例。
图1 《华东·上海》地图(1927年,英国地形测量局绘制)
英国在近代绘制的中国地区地图被普遍认为质量较高。(18)Jack F. Williams, China in Maps 1890-1960: a Selective and Annotated Cartobibliography, East Asia Series Occasional Paper No. 4, Michigan: Asian Studies Center, Michigan State University, 1974.“上海图”的数字图像清晰,比例尺较大,双色套印,采用现代测绘技术方法,地理信息精细完备,因此以该图为例,验证本文所提出的基于机器学习和图像形态学的彩色近代地图数字化方法的有效性。
(二) 《华东·上海》地图中地表水体符号的基本特征
在《华东·上海》中,地表水体是用蓝色符号标示的。该图中的河流主要根据宽度差异采用三类不同的符号——蓝色轮廓线包围蓝色横线或斜线、蓝色双线和蓝色单线。长江、黄浦江、苏州河和蕰藻浜等主要河流采用第一类符号标示(图2a),次级宽度的河流采用第二类符号(图2b),较窄的河浜采用第三类(如图2c和图2d中河流)。小型湖泊和池塘等封闭水域则用蓝色实心或空心封闭图形符号标示(图2c,图2d)。由于地表水体的符号主要由线状符号组成,绝大多数并非实心色块,所以地表水体大多并未被蓝色符号完全覆盖,其中存在大量背景色空隙。
图2 《华东·上海》地图(1927)中几种地表水体标示符号示例
同时,图中蓝色部分并不全是地表水体,部分文字注记也用蓝色标示,包括河流名(如图3中实线椭圆所示)和方里网序号(如图3中虚线椭圆所示)。此外,地表水体符号存在不完整的情形,方里网格以及部分黑色文字注记、房屋和桥梁等黑色地图符号将完整的地表水体符号遮盖或分隔开来(如图3中①—③所示位置),特别是由于地图似用套版印刷术制作,不同颜色符号之间的微小错位也会导致部分蓝色地表水体符号被压盖。因此,这些蓝色非水体符号和黑色噪声对地表水体的自动提取造成了一定程度的干扰。而由于地图时代久远,地图上的蓝色色调深浅不一,甚至因泛黄、褪色而在某些部分呈现出偏绿或偏灰的颜色。
图3 《华东·上海》地图(1927)中蓝色文字注记(实线圈)以及黑色 地图符号(虚线圈)对地表水体符号的分隔和遮挡示例
二、 彩色近代地图中地表水体信息的提取方法
彩色地图通过在颜色和形状等方面不同的地图符号表示不同地表覆盖类型或地理要素,使读图者能够加以区分。然而,近代地图由于年代长远,磨损、泛黄、褪色等老化现象使地图符号的颜色发生改变。此外,近代地图中,地图符号缺乏统一规范,形态各异,且有时出于节省油墨等方面考虑,面状地理要素往往不像现当代地图能将多边形内部用颜色填满,而是仅用线状或点状符号填充,未将地物完全覆盖。
彩色近代地图出现泛黄、褪色,地图符号覆盖不完全或符号间互相遮挡的情况对肉眼识别地物类型及其范围影响不大。如何能够使计算机充分学习、挖掘、利用彩色近代地图符号的颜色和空间结构这两类信息,排除各类干扰信息,准确快速地将地表水体信息提取出来,完全或部分取代人工数字化工作,大幅度提高数字化的精度和效率,是本文的研究目标。
针对这一目标,本文提出结合机器学习和图像形态学的彩色近代地图数字化方法,并以“上海图”为例说明具体实现方式。其中,机器学习部分利用统计学习的方法,深入挖掘地表水体符号的颜色信息,将地表水体初步识别出来;图像形态学方法则根据地图符号的空间结构信息,得到更加准确完整的地表水体范围。该方法是一种地表水体半自动提取方法,所谓“半自动”是指在应用该算法的过程中,需要少量简单的人工干预。具体来说,该方法包括四个步骤: (1) 地图定位与配准; (2) 基于机器学习的地表水体初步提取; (3) 基于图像形态学的地表水体提取结果优化; (4) 结果比较与精度检验。
(一) 地图定位与配准
本研究所用“上海图”系纸质版地图扫描而得,为图像文件。要将“上海图”与现实世界以及其他地图和遥感影像等多源数据中的地表覆盖信息进行对比的前提,是要对其进行定位和配准。
首先,根据图面上四个角点处标示的经纬度,进行整体初步定位。其次,将“上海图”与近年云量较少的遥感影像进行对比。本研究使用了Landsat OLI Level-2影像作为参照,因其已经过正射校正和几何校正,并具有投影信息。在图面范围内选择一定数量未发生变化的标志性地物作为控制点,如房屋角点和道路交叉点等,保证这些控制点在图面范围内大致均匀分布,再将“上海图”与Landsat遥感影像进行配准。最后,在偏差较大的区域增加控制点数量,如此进行反复调整,确保地图定位精度。本研究采用二次多项式进行配准,共选取17个控制点,配准的均方根误差(RMS)在0.78个像元以内。配准后,“上海图”每个像元对应的实际面积约为16平方米。
(二) 基于机器学习的地表水体的初步提取
蓝色调是“上海图”中地表水体符号最主要的共性特征。简单找出图中所有呈现蓝色的部分虽然对很多现代地图完全可行,但对近代地图来说则可能遗漏掉大量原本是蓝色却因年代久远发生颜色改变的部分。针对彩色近代地图的这一特征,就需要使计算机能够充分学习“上海图”中的颜色信息,准确将地图中所有地表水体符号的覆盖范围提取出来。这也是本文提出的方法与现代彩色地图数字化方法的一大区别。
本研究采用机器学习的方法,思路是通过向计算机输入少量地表水体符号颜色特征作为训练样本,利用高等数学的理论方法,使计算机能够在全图范围内实现对所有具有类似颜色特征像元的自动识别。在机器学习算法中,本文选择支持向量机(Support Vector Machine, SVM)算法(19)柴宝惠、李培军、张瑞洁等: 《基于Landsat数据和DMSP/OLS夜间灯光数据的城市扩展提取: 以天津市为例》,《北京大学学报(自然科学版)》2016年第3期。,该算法利用统计学习的方式,不需要大量训练样本即可有效识别目标,而且能够获得比最大似然法和决策树等传统机器学习方法更高的精度(20)Chengquan Huang, L. S. Davis, J. R. G. Townshend, An assessment of support vector machines for land cover classification, International Journal of Remote Sensing, 2002, Vol.23, No.4, pp.725-749.。
为了更准确地识别蓝色部分,减小图像泛黄、褪色的影响,在支持向量机分类器的输入特征除了RGB颜色空间的红、绿、蓝三个分量,还加入蓝版图,以增加蓝色信息的重要性,利用这四个特征一起进行支持向量机分类。蓝版图是指所有蓝色调的像元组成的波段,即每个像元的RGB(红、绿、蓝)三分量中,B分量为最大值的像元。(21)郭玲、王晓兰、周献中: 《彩色地图线状要素识别系统的设计与实现》,《系统仿真学报》2004年第5期。由于“上海图”原图包含蓝、白、黑三种颜色,故而利用支持向量机生成包含这三类颜色的分类结果。将蓝色类别作为目标类别,进行二值化处理,对蓝色类别赋值为1,其余赋值为0,进而得到地表水体初步提取结果,具体流程如图4所示。
(三) 基于图像形态学的地表水体提取的优化
任何利用计算机进行数字图像分类和目标识别的方法,所得结果均存在错分和漏分两类误差,更何况近代地图较为复杂,存在部分文字注记错为蓝色、地表水体符号覆盖不完全、黑色符号遮挡地物等各类干扰,因此,仅根据颜色信息得到的地表水体初步提取结果存在一定误差。故利用图像空间结构特征和图像形态学的方法,辅以人工修正,将地表水体初步提取结果进行优化,减少噪声干扰,排除非水体信息(降低错分误差),增强地表水体的完整性和连通性(降低漏分误差),进而整体提高地表水体提取精度。具体来说,本节包括非水体信息去除和水体完整性增强两个部分,如图5所示。
图4 基于机器学习的地表水体初步提取流程图注: 蓝版图、支持向量机分类结果以及地表水体初步提取结果中,蓝色部分表示地表水体区域。
图5 基于图像形态学的地表水体提取优化流程图注: 地表水体初步提取结果和优化后的地表水体提取结果中,蓝色部分表示地表水体区域,白色部分表示非水体区域。
1. 非水体信息去除
如前文所述,蓝色调像元中,除地表水体符号外,还包含蓝色文字注记(河流名和方里网序号)。因此,需要将地表水体初步提取结果中的这些非水体信息去除。
二值化后,初步提取结果中仅有地表水体和非水体两个类别,故而直接在蓝色文字注记处,圈出其大致范围进行标选,标选过程中稍加注意,避免包含真正的地表水体,即可得到方里网序号和河流名的二值图像。由于很多蓝色文字注记并未与地表水体部分交叠在一起,这一过程并不十分费时。将二者从初步提取结果中减去,就可以得到去除非水体信息后的结果。
2. 水体完整性增强
地表水体表示符号中的蓝色斜线、蓝色双线和空心图形导致地表水体初步提取结果不完整,或是轮廓加上内部斜线,或是仅有轮廓。此外,受黑色地图符号分隔和遮挡影响,部分河流的连通性和完整性存在问题。
因此,利用图像形态学方法,提取图像中的形状特征,改善地表水体的完整性和连通性。图像形态学的基本原理是利用一种特殊的结构元来测量或提取图像中相应的形状或特征,以便后续图像分析和目标识别。(22)Georges Matheron, Jean Serra, The Birth of Mathematical Morphology, Proc. 6th Intl. Symp. Mathematical Morphology, Sydney, Australia, 2002, pp.1-16.图像形态学运算以膨胀和腐蚀两种运算为基础,在数字图像处理中可根据需要由这两种运算组成各种复合运算,典型的复合运算有开运算和闭运算。根据图像形态学闭运算可填充物体内细小空洞、连接邻近物体、平滑其边界的同时并不明显改变其面积的特性,以水体为前景,对上一步去除非水体信息后的结果进行处理,填充遗漏部分,连接断裂部分,使水体提取结果更加完整。经试验,闭运算结构元设为3×3像元、闭运算处理递归两次时,填补间隙的效果最好。
由于长江的表示符号中,斜线之间存在较大空隙(图2a),在长江边界被提取出来的情况下,进行图像形态学闭运算后,边界内仍存在一定数量的地表水体像元未能被提取出来。但这些像元大多与长江边界有一定距离,因此,无需再仔细沿着边界勾勒,只需简单地圈出一些区域,即可将这些遗漏区域基本囊括在内(即使稍有遗漏亦可在最后一步中过滤去除),加入地表水体类别中即可。
经过上述步骤处理后,提取得到的地表水体中仍然存在少量小型孤立非水体区域(岛)。由于“上海图”覆盖区域内实际上几乎不存在这种情况,所以这些区域基本都可以被认定为地表水体提取的遗漏区域。因此,通过直接对非水体区域面积设定阈值,过滤面积低于阈值的部分,进一步增强地表水体的完整性。经试验,阈值设定为在8邻域内300个像元(约4 800平方米,不到一个足球场的面积)的大小时,过滤效果最好。
(四) 结果比较与精度检验
经上述步骤所获结果的准确性可从两个方面评估,即与原地图进行直观的目视对比,以及定量化的精度检验。在目视对比中,重点比较未进行人工标选的区域(图中长江以外地区)。精度检验用统计方法评估地表水体提取结果的准确程度。为了验证方法的有效性,分别评估机器学习和图像形态学在地表水体准确提取中的作用,将本文方法所得结果与另外三种相关方法,即蓝版图(下称方法A)、只利用RGB三分量的支持向量机分类(下称方法B),以及利用RGB三分量和蓝版图共四个特征的支持向量机分类(即地表水体初步提取,下称方法C)结果相互对比。其中,对比本文与方法A用于判断对现代地图往往可行的数字化方法处理近代地图的适用性;对比方法A与方法B可验证机器学习方法在近代地图数字化中的作用;对比方法B与方法C可验证充分利用图中颜色信息对准确提取近代地图中地表覆盖信息的意义;对比方法C与本文方法可评估基于图像形态学的地表水体提取的优化过程所起的作用。如果认为在不考虑时间因素等限制条件的理想情况下,地图的人工数字化精度为100%,那么通过精度检验便可得知本文所提出的半自动方法对比人工数字化方式的准确程度了。
由于检验样本的选取方法和质量直接影响结果精度评价的可靠程度,因此,参考现有研究中广泛采用的检验样本生成方法(23)Baohui Chai, Peijun Li, Annual urban expansion extraction and spatio-temporal analysis using Landsat Time Series Data: a case study of Tianjin, China, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11, 8, pp.2644-2656; Xuecao Li, Peng Gong, Lu Liang, A 30-year (1984-2013) Record of annual urban dynamics of Beijing City derived from Landsat Data, Remote Sensing of Environment, 2015, 166, pp.78-90.,本研究选用等量随机采样法,可以有效避免目标类别地物(本文中为地表水体)比例过低,进而导致该类检验样本过少的情况。在“上海图”呈现的地表水体中,长江和黄浦江面积占比很大,如果在全图范围内随机生成检验样本,则大部分水体检验样本都将落在长江和黄浦江中,而其他区域的地表水体提取效果,特别是空间尺度较小的细节之处,其准确性将难以得到客观评价。因此,除计算全图范围的精度之外,还单独评价了长江和黄浦江范围之外的精度。在此区域随机生成400个检验样本,包括地表水体和非水体类别各200个,以更好地验证空间尺度较小的地表水体的提取精度。在全图范围随机生成的检验样本数量也是200×2=400个检验样本。将检验样本位置处由各个方法所得的地表水体提取结果一一与“上海图”原图像加以对照,确定其正确与否,进而通过计算混淆矩阵,计算总体精度、地表水体的制图精度和用户精度。其中,总体精度评价是提取完全正确的概率;地表水体的制图精度和用户精度则分别评估地表水体漏分和错分误差——制图精度越高,漏分误差越低;用户精度越高,错分误差越低。
上述方法中,地图的定位与配准在ArcGIS 10.8平台上完成,基于机器学习的地表水体初步提取、基于图像形态学的地表水体提取优化,以及结果比较与精度检验则全部在ENVI 5.3平台上完成。
三、 地表水体提取结果
(一) 地表水体提取结果的目视对比
上文四种方法结果对比如图6和图7所示。可以看到,因为地图存在泛黄、褪色的情况,且绝大多数地表水体地图符号未将地表水体完全覆盖,所以,只利用RGB三分量最大值为B分量,也即“呈现蓝色调”这个单一的颜色特征,对现代地图可能简单有效,但是对于近代地图却并非如此——所得结果中,大量地表水体部分被遗漏掉,如图6a和图7a所示。
在利用RGB三分量的支持向量机分类结果中(图6b,图7b),地表水体符号被提取得更加完整,一定程度上改善了蓝版图中大量地表水体没能被提取出来的现象,这说明机器学习方法可以通过更充分挖掘颜色信息,有效弥补因泛黄、褪色等地图变色情况而导致的地表水体遗漏区域。与此同时,对比图7的a、b两图中虚线框区域可以发现,机器学习方法与蓝版图相比,虽然减少了漏分误差,但也增加了错分误差,出现椒盐噪声(salt and pepper noise)。
图6 利用本文方法与其他方法得到的《华东·上海》地图全图地表水体提取结果对比
图7 利用本文方法与其他方法得到的《华东·上海》地图局部地表水体提取结果对比注: 方法A、B、C间差异明显的区域用虚线框突出表示;本文方法较方法C改进明显之处用实线框突出表示。
对比图7b、图7c中虚线框区域的差异可见,增加颜色特征的数量,将蓝版图与RGB三分量通过机器学习方法都利用起来,不仅保持了机器学习方法减少漏分误差的优势,也比只利用RGB三分量更能避免错分误差,全方位提高地表水体提取的准确性。然而,观察图7c中实线所示区域可以发现,机器学习方法即使深入挖掘了颜色信息,也只能修正地图泛黄、褪色现象对地表水体提取的影响,并不能修正大多非实心地表水体符号未将水体完全覆盖以及被方里网等被黑色符号遮挡而导致的地表水体提取不完整问题。
而本文方法所得结果中,不仅长江被完整地提取出来,蓝色文字注记也被全部去除,这是人工标选的结果(图6d)。对比图7c和图7d中实线框所示区域,明显发现图像形态学方法(闭运算)以及小型遗漏区域的自动过滤步骤在并未显著改变地表水体形态的情况下,填补了大量地图符号中的空隙,修正了上述由地表水体符号覆盖不完全、黑色符号和文字注记遮挡等原因导致的地表水体提取不完整的错误。由此可见,对于近代地图数字化来说,不仅要充分挖掘地图中的颜色信息,空间结构信息的有效利用也是不可或缺的。
(二) 地表水体提取结果精度分析
利用四种方法所得结果的总体精度、地表水体制图精度和用户精度对比如图8所示。图中可见,仅利用“呈现蓝色调”这一信息得到的蓝版图结果,在长江和黄浦江之外区域的总体精度仅为84.3%,而对比地表水体的制图精度和用户精度,可以发现初始提取结果用户精度很低,不及81%,即存在大量错分误差,这主要是蓝色文字注记未被去除所致。地表水体制图精度也只有93.1%,因为地图泛黄、褪色,地表水体符号的某些部分并非呈现蓝色调,且一些地表水体符号中存在间隙,所以一些地表水体区域没有被提取出来,这一精度从定量的角度验证了上一节中对蓝版图结果的分析。
利用RGB三分量的支持向量机分类结果较蓝版图结果而言,三个精度指标都有大幅提升,在长江和黄浦江之外区域总体精度达到94.0%。用RGB三分量和蓝版图共四个特征的支持向量机分类(地表水体初始提取),则进一步提高了地表水体提取精度,特别是在地表水体的制图精度方面,由97.8%提高至99.5%,换言之,地表水体的漏分误差已经被降到极低;而用户精度也提高了一个百分点,这说明增加支持向量机的颜色特征输入,可以减少错分误差,对应图7b和图7c,就是椒盐噪声被有效去除。
本文方法无疑是四种方法中精度最高的。在长江和黄浦江之外区域总体精度高达98.8%,地表水体制图精度为100%,用户精度亦达到97.3%,在所有精度指标上都高于未使用图像形态学的方法。特别是用户精度方面,因为蓝色文字注被标选去除,用户精度比未利用图像形态学方法处理的方法C结果高出6.3%。在制图精度方面,虽然实际上仍有部分遗漏之处因为其空间尺度超过图像形态学结构元的空间尺度而难以被弥合(图6,图7),然而,这些漏分误差并未在地表水体制图精度中体现出来,也就是说,在随机生成的400个检验样本中,没有检测到地表水体遗漏的现象,反映出漏分错误的像元相对于所有地表水体像元来说,仍是极少数。
在全图范围内,本文方法所得结果的总体精度更是达到99.8%,地表水体的制图精度为100%,用户精度为99.5%(未在图8中显示)。全图范围内,地表水体的遗漏部分被提取出来,不仅与图像形态学有关,也与主要遗漏区域标选步骤有直接联系。但是对于长江与黄浦江之外区域来说,遗漏区域没有经过手动处理,制图精度的提高完全是图像形态学所起的作用,可见闭运算可以有效填补蓝色斜线、蓝色双线和空心封闭图形符号等地表水体符号中的间隙,并且改善因地图泛黄、褪色,黑色地图符号和文字注记遮挡而导致地表水体不完整的情况,这些都是只利用颜色信息处理完全无法做到的。
图8 四种方法所得地表水体提取结果在长江和黄浦江之外区域三种精度对比
四、 讨 论 与 结 论
针对彩色近代地图的特点,将其数字化的问题抽象为数字图像的颜色信息和空间结构信息提取问题,采用机器学习方法,针对颜色信息进行了初步提取,然后运用图像形态学方法对空间结构信息进行进一步提取。与人工数字化技术相比,本文方法有着诸多特点和优势。
(一) 与人工数字化技术的对比
1. 时间成本
本文所提出的方法可以大大提高近代地图数字化的效率。对于本文选取的水网密布的“上海图”来说,用人工数字化的方式提取地表水体,粗略描画至少需要一两天,精细描绘则需要数日。然而,本文所提出的方法是半自动化的,只需要少量简单的人为干预即可,其余步骤全部交由电脑完成。
对本文方法中地表水体提取过程所需时间进行具体量化: 在基于机器学习的地表水体初步提取部分中,生成蓝版图仅需要1分钟,利用RGB三分量和蓝版图共4个特征的支持向量机分类及二值化步骤需要5分钟左右;在基于图像形态学的地表水体提取优化部分中,蓝色文字注记标选需要半小时左右,初步提取结果减去文字注记结果只需半分钟,图像形态学闭运算的参数调节及运行需要5分钟左右,主要遗漏区域标选需要10分钟,小型遗漏区域自动过滤的参数调节及运行需要5分钟左右。整个流程仅需要1小时左右。
2. 提取精度
如果认为时间完全充裕,数字化工作人员完全专业、认真、客观的理想情况下,地图的人工数字化精度是100%,那么本研究所提出的方法,全图范围内总体精度达到99.8%,可以媲美人工数字化准确程度的水平,更何况人工数字化的精度本身也不可能达到100%。地表水体被漏分和错分的错误率都低于1%,在节约大量时间和人力的情况下,这个错误率是完全可以接受的。
在长江和黄浦江之外区域的提取精度,更验证了本文方法提取细小的目标地物(地表水体)、排除干扰因素的能力。其中,机器学习方法充分挖掘了地图中的颜色信息,而图像形态学方法的利用更是地表水体准确提取的关键所在,它有效减少了因地图褪色泛黄、地表水体符号不能完全覆盖地表水体、黑色地图符号和文字注记遮挡地表水体等多种因素导致的漏分错误,在增强地表水体完整性和连通性的同时,又没有显著改变地表水体原有的形态,大大提高了地表水体的提取精度。
3. 数据格式
对近代地图进行人工数字化,所得地表水体信息通常为线和面类型的矢量数据。③ 闫芳芳、满志敏、潘威: 《从小圩到园田: 近百年来上海地区河网密度变化》,《地球环境学报》2014年第5期。与之不同,本文通过对栅格格式的地图扫描图像进行半自动数字化后,得到的还是与原图投影、尺寸、分辨率等各个方面完全一致的栅格类型数据。
矢量与栅格类型的地表水体数据各有优劣。矢量类型数据结构紧凑,具有空间拓扑关系信息,有利于进行网络分析;然而,将河浜抽象为线要素,其定位和形态有一定的模糊性和主观性。栅格类型数据结构简单,定位容易,方便评价地表水体提取精度,也易于展示,但在分析河流长度和多个地表水体间的拓扑关系时,具有一定难度。
值得注意的是,满志敏曾对格网体系在历史地理学中的应用做过探讨,肯定其在历史数据管理和成果展示方面的优势。(24)满志敏: 《小区域研究的信息化: 数据架构及模型》,《中国历史地理论丛》2008年第2辑。其研究虽然将旧地图中的地表水体数字化为矢量数据,却也为了比较两个时间断面的地表水体参数变化又进行了格网化处理,从本质上来讲,就是将矢量数据转化成了栅格数据。③由此可见,栅格数据在地表水体及其演变的时空分析中具有独特优势。
矢栅互转技术已经十分成熟,但在转化过程中,必然存在一定的信息丢失,因此,可根据研究需要,尽量从原始地图数据直接将目标地理要素提取为合适的数据类型。本研究提出的方法直接得到栅格类型数据,较为适合时间序列分析,包括多个时相的近代地图信息对比,以及与遥感影像进行古今对比,这也是该方法的一大特色。
4. 方法的适应性
本文的数字化方法无需编写程序实现,利用现有的软件平台(如本研究使用的ENVI 5.3)即可运行,具有较强的实用性、适应性和可迁移能力,对类似的彩色近代地图数字化具有相当的参考价值。即使在某些地图中,一个颜色被对应多个地表覆盖类型,如在某些民国地图中,常令湖河以及稻田、盐田等季节性水体用不同形状的蓝色符号表示,图像形态学也可以充分发挥作用,根据不同符号之间形态结构特征的差异,进行不同地表覆盖类型之间的区分。
相比之下,人工数字化需要对每张地图单独进行,毫无可迁移性。在处理大量地图的情况时,繁重的数字化工作仅仅是研究的准备阶段,耗费大量时间后,正式研究却仍未及开展,大大拖慢了工作进度。即使交由专业人士处理,不仅成果质量难以全面把控,所需的数字化费用也是不容忽略的。
需要指出,本文方法对泛黄、褪色或磨损范围较小(空间尺度小于图像形态学结构元)的彩色近代地图适用性较好,对于存在较大范围折叠、污损、霉烂等情况的近代彩色地图,可根据数字地图的实际状况把存在问题部分进行适当的预处理,再应用本文方法进行数字化分析。分析时需注意机器学习中训练样本的选择,例如,在折叠褶皱处增加训练样本,以更准确地识别因褶皱而颜色发生变化的地理要素;对于污损霉烂的地图,可以考虑将污损霉烂处根据颜色分类进行单独识别以避免混淆;还应根据问题区域的空间尺度,注意图像形态学结构元大小的调整,必要时可将地图图面进行分区,对不同区域分别采用不同尺度的结构元和不同的图像形态学运算递归次数。
(二) 结论
本文提出一种基于机器学习和图像形态学的彩色近代地图数字化方法,该方法通过充分利用颜色特征和地图符号的形态结构特征,能够以半自动的方式准确地将彩色近代地图中的地表水体信息提取出来。
以1927年英国《华东·上海》地图为例,验证了所提出方法的有效性。结果显示,利用本文方法得到的结果总体精度达到99.8%,提取的地表水体漏分和错分错误率均低于1%,可以有效去除地图中的文字注记干扰,并填补地图符号中的空隙,提高地表水体的完整性和连通性。在几乎没有牺牲精度的情况下,地图数字化的效率却大大提高,数字化所需时间从数日缩短为1个小时左右。
我国近代以来留存的彩色近代地图数量可观,本文方法对其他彩色近代地图数字化亦具有较高的参考价值,并且该方法可以直接得到栅格类型数据,适合多源数据时间序列分析,包括多个时相的近代地图信息对比,以及与遥感影像进行古今对比,为突破研究时段和研究技术手段等制约相关研究进展的瓶颈奠定了方法基础,有助于对近代以来人地关系变化进行更深入的定量研究。