空间数据研究的发展及对策
2015-03-28陈换新刘雅彬吕东儒
陈换新,孙 群,刘雅彬,吕东儒,冯 毅
(1.信息工程大学 地理空间信息学院,河南 郑州 450000;2.96633部队,北京 100096;3.61287部队,四川 成都 610036;4.65014部队,辽宁 沈阳110000)
空间数据是地理信息系统的血液,是数字化、信息化建设的基础和平台。有统计显示,在地理信息类项目中,空间数据的开销占总投入的80%。因此,空间数据的相关研究一直以来都是生产者和用户共同关心的问题。本文在追溯空间数据研究发展历程的基础上,深入分析现有研究间的联系和区别,并对未来的研究进行探究。
1 空间数据研究的发展
从空间数据的生产及使用的角度而言,其相关研究大体经历4个阶段,如图1所示。第一阶段(20世纪60年代):地理信息系统(GIS)的出现需要空间数据维持运转,大量的人力物力投入到空间数据生产及相关研究中;第二阶段(20世纪70年代):为保证GIS处理分析结果的可靠性,空间数据的质量与精度研究开始受到关注;第三阶段(20世纪80年代):在继续从误差的角度研究数据质量的同时,向含义更为广泛的空间数据不确定性研究发展;第四阶段(20世纪90年代以来):一方面越来越多的专家和学者引入新技术深化空间数据的不确定性研究,另一方面空间数据的可用性研究开始兴起。
图1 空间数据生产及使用研究的发展历程
1.1 空间数据生产的研究
空间数据生产是孕育空间数据出现的阶段,相关研究致力于解决生产中的问题,提高生产效率。空间数据生产获取手段主要包括:手工数字化和扫描矢量化采集、数字测量、遥感与摄影测量、局域和广域差分GPS等。已有系列比例尺地形图是对客观世界较为完整的表示,所以利用纸质地图进行数字化采集是空间数据生产的主要方式。
最早的数字化是基于手工跟踪的数字化仪采集,后来发展为将纸质地图扫描成栅格图像,再采用具有一定智能化人机交互与自动跟踪相结合的扫描矢量化方式[1-2]。由于各种地图符号的几何形状和结构特征不同,因此需要开发不同的提取算法:数字注记识别可采用基于径向基函数神经网络的方法;汉字识别可采用统计模式识别的方法;点状符号的识别可采用数学形态学方法,基于数学形态学多角度并行运算的地图要素分割还可以进行方里网、地类界和长线的分割;线划跟踪是线状符号提取的有效方法,基于后台区域细化的透镜跟踪法可以实现全要素彩色地图中线状要素的提取[3]。在基础数据生产的同时,面向各行业的专题数据也在相应的系统平台中展开生产[4-5]。
随着遥感技术的发展,利用遥感影像进行信息提取和数据更新成为研究的热点。目前影像与地图自动配准、基于高分辨率影像的特征提取、目标检测、数字测图自动化等方面的研究取得一定成果,水域、道路、建筑物等部分要素实现自动或半自动提取。由于现有研究方法的普适性不够好,所以一定的目视判读、手工编辑等人工方式在数据更新及处理工作中还必不可少。
在广大测绘工作者的辛勤努力下,目前我国已经建立1∶100万、1∶25万、1∶5万比例尺的国家基础地理设施数据库,个别省份建立了1∶1万的空间数据库,某些城市还建立了1∶500、1∶2 000等比例尺的空间数据库,生产了包括数字正射影像、数字高程模型、数字线划图、数字栅格图、地名录、土地利用图在内的一系列数字产品。
1.2 空间数据质量研究
伴随着空间数据生产的开展,对数据质量进行检验和评价日趋紧迫。早期数据质量研究大都从误差入手,在探究误差来源的基础上利用数理统计学的原理建立空间数据的误差模型,对误差传播和质量控制进行研究[6]。由于空间数据大都通过现有纸质地图的数字化采集得到,针对地图数字化误差的分布及检验是当时研究的热点,包括误差来源、手工数字化误差统计分布、数字化数据误差的处理等方面。随着大批量数据产品的问世,建立空间数据质量评价体系并开发相应的软件工具对其进行质量检查验收开始出现。
国内外许多机构针对空间数据质量的检验评价都开展专题研究并颁布一系列的标准规范,详见表1。
表1 不同组织针对空间数据质量开展的研究及颁布的标准规范
1.3 空间数据的不确定性研究
20世纪80年代以来,空间数据的质量研究发展为空间数据的不确定性研究,内容除矢量数据,还包括遥感影像分类和判读的误差分析。由于空间数据对客观世界的描述主要分为目标模型和域模型两大类,下面对二者的不确定性研究分别加以介绍:
在目标模型中,几何位置的不确定性是最早的研究内容,随后为属性数据的不确定性,在此基础上同时考虑二者的研究开始出现。几何位置不确定性的研究大都以点为基础,然后依据误差传播定律、统计学和几何学等理论推导线和面的误差模型,如图2所示。点的不确定性用误差椭圆描述,线用误差带描述,面用误差环描述。其中线的不确定性又是研究的重点:1982年Chrisman引入著名的“ε-误差带”模型,在此基础上又发展了由点位总误差定义的误差曲线带“E-带”[7]和由误差圆定义的误差圆带“e-带”指标[8]。在属性不确定性的研究方面,史文中在一般抽样原理的基础上采用缺陷率统计模型对GIS属性数据精度进行度量。此外还有同时结合位置、属性的不确定性研究:张景雄借助场的概念和模型对位置、属性不确定性进行统一的描述和分析;史文中[9]在模糊边界内将位置、属性不确定性及其关系相结合提出了“S-带”模型来描述物体的不确定性;史玉峰将随机性与模糊性综合考虑建立空间数据不确定性的混合熵模型。
图2 位置不确定性中点的误差椭圆、线的误差带、面的误差环
在域模型中,地表覆盖分类精度评估一般通过与参考地图对比的方法,Congalto和 Mead利用kappa系数评判航空、卫星影像的解译结果并验证数据是否一致。史文中将模糊隶属度应用于遥感影像不确定相邻边界象素类别的表达,TONG Yue将粗集理论应用于遥感数据的评价,提出解决离散和连续属性的粗集理论的统一框架。对于数字高程模型而言,一般采用将指定数据和参考数据相比较的方式测试误差,PAPASAIKA从高质量的稳健模型出发,提出不同数字高程模型的融合方法,消除原始数据的误差。
1.4 空间数据的可用性研究
当产品越过质量的门槛之后,用户的需求开始转变。随着空间数据生产的持续开展和数据质量控制研究的不断深入,满足相关质量要求、可供选择的空间数据产品越来越多,但现实中用户却经常对得到的空间数据不尽满意。20世纪末,人们开始结合用户的使用需求,考虑空间数据的可用性问题。
虽然可用性的概念早期并没有明确的提法,但是许多组织机构都意识到已有数据的使用问题并采取了一系列举措:决策层面,OGC、W3C和ISO等组织着手制定空间数据的通用标准规范,颁布一系列支持数据互操作的协议(见表2),希望从根本上铲除引发空间数据差异的原因,将所有空间数据统一到大家共同认可并遵守采用的标准中来;技术应用层面,许多国际、国家级组织建立了全球、国家和区域级的“空间数据基础设施”(SDI),并开发以空间数据融合为代表的技术手段,在接受现有数据差异的基础上综合使用多源、异构数据。
2001年捷克举办的第四届AGILE大会成立了空间数据可用性研究工作组,同年11月在荷兰召开空间数据可用性的工作组会议,此后空间数据可用性逐渐成为研究的热点:Monica Wachowicz[10]在阐述可用性内涵及发展的基础上,讨论了空间数据可用性的概念、构成因子及研究问题;D.Josselin[11]论述空间数据可用性概念及关系,介绍探索式空间数据分析及其基本原则并开发了稳健分析软件包(ARPEGE);Gar y J.Hunter[12]阐述了可用性的概念及在空间数据背景下的构成因子;李志林详细列举了空间数据可用性的度量指标[13],研究地图可用性中的表达合适性并论述网络地图服务系统的可用性。
表2 不同组织颁布的标准规范
2 空间数据研究的联系、区别及对策
2.1 空间数据现有研究间的联系及区别
长期以来,纸质地图是人类认识、描述客观世界的主要媒介,信息时代的到来和地理信息系统的出现催生了对空间数据的需求,相关的生产研究应运而生。生产中受各种人员、机器的限制,误差很容易出现,严重影响空间数据的可靠性和使用价值,于是空间数据的质量控制研究开始兴起。
2.1.1 空间数据质量和不确定性研究的联系与区别
空间数据质量研究的主要内容是误差,误差是观测值与其真值间的差异,具有统计意义,就理论层面而言该定义隐含着真值的存在,但实际上真值的获取并不容易,甚至对于某些要素来说,严格或绝对意义上的真值并不存在,即使可以估算出真值会落在某个置信区间,但这也仅代表真值只有近似或相对的意义。除了数值方面的限制,误差在概念描述层面也不够准确:首先,就客观世界自身而言,复杂的地理现象并非全都是空间匀质分布的,且不同实体间相互混杂,甚至很少界限分明,例如不同类型的土壤很难找到明确的界限;其次就人类认知过程而言,采用一定的数据模型来描述客观世界的方式本身就存在着局限性,因为纯几何意义上的点、线、面在现实世界中并不存在,仅是对现实世界的一种近似描述。
不确定性是指被测量对象知识缺乏的程度,是关于空间过程和特性不能被准确确定的程度,是自然界各种空间现象自身固有的属性,通常表现为空间数据所具有的误差、不精确性、随机性和模糊性,且受尺度、分辨率、抽样等因素的影响[14]。考虑数值、自然、人工等方面的因素,使用“不确定”比“误差”更为科学,因为不确定既能体现与真值间的相对性,还能包含概念上的模糊含义。其实空间数据的不确定性是传统误差概念的延拓和丰富,是一个比误差更广义、更抽象的概念,它可以看作是一种广义的误差,既包含随机误差,也包含系统误差和粗差;还包含可度量和不可度量的误差,以及数值上和概念上的误差[15]。
本质上空间数据质量和不确定性研究是一脉相承的:首先,空间数据的不确定性研究包含传统的误差,且不确定性早期的研究对象也是数值上的误差;其次,在不确定度的指标选择上,国际计量组织和学术团体经讨论认为:不论是正态分布还是非正态分布,均应选用标准差σ为基本尺度,目的是使不确定度与测量误差指标体系一致[16];再次,就研究目的而言,二者都是为了保证数据质量,提高数据使用可靠程度,以获得正确的分析结果。所以在某种程度上不确定性理论与测量误差理论没有根本区别,甚至有学者认为两者是一致的,且在叫法上统称为空间数据不确定性与质量控制研究[17]。
2.1.2 空间数据可用性与空间数据质量、不确定性研究的联系与区别
空间数据可用性是指用户在使用某种方法工具实现特定目标的过程中,空间数据所具备的有用程度。虽然质量是数据的重要因素,但仅是空间数据可用性的一个方面,因为在不同目标的驱使下,空间数据即便达到相关标准也未必能满足用户的需求。
关于空间数据的质量和可用性的关系,李志林[13]用买鞋的例子做了生动的比喻:鞋子具有不同的尺码、功能(休闲、运动等)、款式,空间数据也有尺度、用途和专题的概念。在买鞋时,消费者会根据尺码和自身的使用需求、审美喜好进行挑选,不会一味追求鞋子的质量而削足适履。同样在空间数据的使用上,不同的用户也不会仅关注数据质量,而是在综合考虑需求、用途等因素的基础上进行选择,例如:城建部门需要全要素的基础数据,且对数据精度要求较高;使用车载导航的司机对道路的关注较多,且较为讲求时效性;基于位置服务的移动终端用户对数据精度要求不高,只要相对位置及关系正确即可,但希望手机终端上能加载更多的服务信息,……上述用户对空间数据的要求分别体现在准不准,新不新,多不多,并没有一味的要求数据质量,可见高质量的空间数据不一定意味着较高的可用性,因此空间数据的可用性研究要考虑用户的因素。
空间数据质量及不确定性研究从本质上讲都是针对数据本身进行的研究,而空间数据的可用性研究则突破了空间数据本身,增加了用户角色,从用户需求出发考虑数据是否可用、可用程度如何。从研究的层次阶段来说,不确定性是传统数据质量研究的发展,而空间数据可用性则是在各种数据产品极大丰富、且经过质量门槛后,考虑用户因素解决数据选择和使用方面的问题,属于空间数据应用领域的研究,是对传统研究的一种延拓。所以空间数据可用性研究是空间数据本身及其相关研究发展到一定阶段的产物,离不开空间数据相关研究的支撑。
2.2 空间数据研究的对策
2.2.1 空间数据研究整体上要符合GIS和地理信息科学的发展趋势
GIS经历从无到有、从少到多、从粗放到集约、从封闭到共享的发展历程,空间数据本身及相关研究的发展也是GIS发展的一个缩影,而且从某种程度上可以说二者相互影响,密不可分:GIS的出现拉动了空间数据的生产,为了保证GIS分析结果的可靠性,空间数据的质量及不确定性研究开始受到关注,随着GIS网络化、大众化的发展用户逐渐增多,迫切需要辅助数据使用方面的研究,空间数据可用性研究应运而生。可见GIS和地理信息科学的发展驱动着空间数据的发展,所以空间数据的研究方向整体上要与GIS和地理信息科学的发展相一致。
2.2.2 加强空间数据可用性理论基础、概念模型及方法应用各个层面的研究
随着大数据时代的到来,与空间数据获取手段进步、数据量爆炸式增长形成鲜明对比的是空间数据使用研究的严重滞后和相应方法工具的匮乏。因此,迫切需要帮助用户结合自身的需求在认识空间数据可用程度的基础上,制定科学合理的数据使用方案,从而规避或减少数据选择及使用不当所带来的风险。空间数据可用性就是辅助用户决策的研究,但由于刚刚起步,现有研究大都属于理论层面且不够全面成熟,所以要深化概念模型的研究,丰富可用性的研究方法,特别是要开发相应的辅助决策工具并增强实践应用。例如,目前揭示多源空间数据内在特质并以合理方式展现给用户的研究仍停留在人工参与下的专家决策阶段,自动化、智能化程度低,可以开发相应的度量模型通过软件程序加以实现。
2.2.3 空间数据可用性研究会对空间数据已有研究产生一定影响
就空间数据的生产而言,在基础空间数据持续生产更新的同时,还会出现考虑数据可用性的生产模式,例如瑞士现在只生产Landscape model,不再像以前一样按比例尺生产地形图,而是按照用户的需求提供某层要素数据或参考底图,开始追求可用性;就空间数据的质量和不确定性研究而言,一方面要继续深化空间数据本身的研究,保证空间数据产品的质量,另一方面要加强误差及不确定性的传播及控制的研究,即能够对特定类型空间分析、功能操作的误差或不确定性做出风险评估,让用户在预知数据使用效果的基础上制定最佳的使用策略。可见空间数据的可用性研究不是对空间数据已有研究的颠覆,而是促进、深化的作用,提出更高的要求。
3 结束语
信息化的浪潮推动着地理信息科学的发展,而地理信息科学的发展又有空间数据相伴左右,二者相互依存,密不可分。随着获取手段的进步和数据质量研究的深入,满足质量可供选择的空间数据与日俱增,在地理信息科学面向网络、面向大众发展的历史背景下,研究空间数据的可用性问题,辅助用户结合自身的用途选择使用空间数据,对于满足用户的个性化需求和自适应服务、增强知识发现的效果、提高海量空间数据的科学使用等方面具有深远的现实意义。
[1] 陈换新,孙群,严薇.基于多源数据(资料)的地理空间信息提取及更新系统的设计[J].测绘通报,2010(2):17-21.
[2] 陈换新,肖强,李明,等.国外空间数据的语义差异及转换方法研究[J].测绘科学,2014,39(7):83-86.
[3] 陈换新,孙群,刘新贵,等.彩色扫描地图中有背景色区域的等高(等深)线矢量化研究[J].武汉大学学报:信息科学版,2013,38(5):622-625.
[4] 许国安,朱旭红,季超伦.基于Auto CAD地下管线前端数据采集系统的开发[J].测绘工程,2011,20(3):70-73.
[5] 刘琼,赵荣,孙立坚.Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J].测绘科学,2014,39(5):49-53.
[6] 刘大杰,刘春.GIS空间数据不确定性与质量控制的研究现状[J].测绘工程,2001,10(1):6-10.
[7] CASPARY W.Positional Accuracy in Spatial Databases[J].Co mput,Envir on and Ur ban System.1993(2):103-110.
[8] 史文中,刘文宝.GIS中线元位置不确定性的误差圆带[J].测绘信息与工程,1998(2):6-8.
[9] 史文中.空间误差处理的理论和方法[M].北京:科学出版社,1998.
[10]WACHOWICZ M,HUNTER G.Spatial Data Usability[J].Data Science Jour nal(Spatial Data Usability Special Section),2003,2(26):75-78.
[11]JOSSELIN D.Spatial data explorator y analysis and usability[J].Data Science Jour nal(Spatial Data Usability Special Section),2003,2:100-116.
[12]HUNTER G,WACHOWICZ M,BREGT A.Understanding Spatial Data Usability[J].Data Science Journal(Spatial Data Usability Special Section),2003,2:79-89.
[13]李志林.空间数据的关注问题—从质量到可用性[J].地理信息世界,2006(3):14-17.
[14]刘文宝,邓敏,夏宗国.矢量GIS中属性数据的不确定性分析[J].测绘学报,2000,29(1):76-81.
[15]童小华.时空数据质量与模型[J].地理信息世界,2009(4):28-33.
[16]陶本藻.GIS质量控制中不确定度理论[J].测绘学院学报,2000,17(4):235-238.
[17]胡圣武,潘正风,王新洲,等.地理信息系统不确定性的研究[J].测绘通报,2004(9):13-16.