测绘地理信息大数据生产的质量控制研究
2021-12-27张桂英
张桂英
(辽宁省检验检测认证中心,辽宁沈阳 110034)
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
一、大数据地理信息数据质量控制的目的和意义
基础性地理信息数据是大数据地理信息数据生产的基石,通过计算机技术,自动识别、筛选、归类,形成专题性、针对性的新型测绘地理信息成果服务于各行各业。
当前,基础性测绘地理信息数据中具有基础性、现势性、可靠性的国家基本比例尺的3D(DLG, DEM,DOM)成果基本已经建成,省级负责的1:1万比例尺3D成果在各行各业得到了广泛的应用,其得天独厚资源是生产大数据地理信息数据的基础性数据。
挖掘、综合信息,使信息更真实,决策符合预期或是趋势的同时,地理信息数据演变得体量越来越大,承载信息越来越丰富,质量控制随之面临挑战。
控制大数据地理信息数据质量,充分发挥基础性地理信息数据的优势,是将优质数据质量延伸至数据行业应用,从而为更加彰显利用基础测绘数据生产大数据地理信息数据质量控制的重要性。以坡度图生产和质量控制为例,思考测绘地理信息大数据质量控制所面临的问题及解决方案。
1.坡度图
坡度图是表示地面倾斜率的地图。用图上某点的切平面与水平地面的夹角表示某点的倾斜程度即为坡度。用坡度值表示地势的变化,坡度值低就表示地势平坦,坡度值高就意味地势陡峭。
坡度图生产是第三次全国国土调查的子项目,所用的数据源是各省基础测绘成果DEM栅格数据和县域界线矢量数据。坡度图为计算耕地坡度,精准丈量国土起到重要作用。
2.坡度图生产
“坡度图生产是使用ArcGIS软件,利用符合要求的最新1:10000 DEM数据,经数据预处理、DEM拼接、坡度计算、生成栅格坡度图,对栅格坡度图进行分级后,将数据转为坡度分级矢量数据,再对坡度分级矢量数据按照设计要求进行图斑综合、拓扑检查、数据裁切,最终形成以县级为单位的坡度分级图。
3.坡度图由栅格数据转换到矢量数据其核心的内容
(1)坡度计算采用三阶反距离平方权差分(Horn 算法)。
(2)坡度分为5级:1级≤2°,2级为2°~6°,3级为6°~15°,4级 为15°~25°,5级 为>25°,范围值上含下不含。
(3)利用ArcGIS软件对坡度分级栅格数据进行矢量化处理,建立数据结构。
(4)对矢量化数据进行图斑综合、界线平滑、拓扑重建、数据裁切等处理:将图上面积小于30平方毫米的坡度分级图斑按坡度级就低不就高原则并入邻近图斑;将宽度小于或等于1个格网尺寸的线状坡度图斑按平均配赋原则合并至相邻图斑中;坡度分级矢量数据的图斑界线与坡度分级栅格数据空间位置偏移一般不超过1个格网,最大偏移量不得超过2个格网;分县、分区处理的坡度分级矢量数据,须进行接边处理,接边限差不得超过2个格网;对综合后的图斑进行平滑处理,最后进行拓扑重建,使之属性结构同标准一致;用外扩1千米后的县界对光滑后的矢量数据进行裁剪,生成以县为基本单位的坡度分级矢量数据图。
二、大数据地理信息数据坡度图质量控制
大数据地理信息应用成果与常规的测绘成果质量检查是有区别的,首先大数据生产中允许不精确,接受混杂性,包容同类性。精确对于大数据地理信息数据来说是不存在的,当前测绘地理信息的生产模式没有绝对精确的数据,在成果质量检查实践中,追求和所关注的是数据成果质量整体性上移的可靠性,通过检查动作更多的是对数据成果的符合性判断,如坡度分级矢量化中任意一条技术处理都没有一个具体固定的答案,只是要求在一定的“动作 ”范围内就可以判断为符合要求。现阶段测绘成果质量控制手段为自查、互查、小组查、院级检查、检查验收,检查实践中每一道检查,甚至到了“检查验收”数据仍然存在有问题,所谓“撒网千层,网网有鱼”,但数据整体质量在一定的限差或范围内呈上升趋势,成果质量的可靠性便可得到保证。
有效判定大数据地理信息数据成果的质量,是大数据数据成果应用的要求,因此质量控制要围绕项目成果的需求进行开展。
1.数据源质量控制
数据源(Data Source)顾名思义,数据的来源,尽可能采用1:1万DEM数据更新省级坡度图。1:1万比例尺数字高程模型(Digital Elevation Model),简称DEM,是省级基础性测绘地理信息数字成果之一,具有统一的空间参考、均匀的位置精度,具有相同的裁切原则和一致的格网尺寸,且具有生产“三调”所要求的时间精度,数据成果为栅格数据,只有具备逻辑上一致特点,才能符合坡度图数据加工要求。
覆盖完整的DEM数据成果是数据源质量控制的另一个方面,只有区域DEM成果覆盖完整性得到保障,才不至于形成“无米之炊”现象发生。
2.生产实施方案质量控制
“三调”项目成果所要求的“坡度图”为计算耕地坡度,精准丈量国土所用,项目要求坡度图应为矢量数据,充分挖掘数据源栅格数据(GRID)与成果数据(GDB)的矢量数据之间内在联系,选择适合的生产的平台,流程化地实现数据的转换。其生产实施方案质量是衡量数据质量依据的前提条件。任何大数据地理信息数据成果生产前,必须经过充分论证实施方案,包括:项目概况、数据源、主要技术指标、总体技术流程、项目成果、组织实施、质量管理、安全与保密等,形成生产技术流,为能够高效、批量生产乃至符合要求的成果质量做好充分的理论基础。
3.生产工艺流程质量控制
大数据地理信息数据生产要实行全流程质量控制。坡度图生产的每个节点由前至后呈递进关系,前一节点是后一节点的前提,后一节点可以成为前一节点的质量检查,节点之间形成大数据生产的技术流,对于数据成果来说,每个节点都至关重要,质量控制要贯穿于数据生产的始终。
4.利用首件成果验证生产工艺流程质量控制
(1)首件成果验证
大数据测绘地理信息数据成果在概念上早已不再称为测绘产品了。为了验证数据生产的流程是否符合项目成果的要求,以便能够展开批量生产,选取区域内以县区为单位的坡度图成果进行的验证工作称为首件成果验证。质量验证主要采取符合性验证,必要时需要通过三方软件验证,如坡度图生产“坡度计算”和“坡度分级”便采用了Excel软件验证了技术的正确性。
坡度图主要关注的是根据设计要求,依据图上高程不同而进行的分级、图斑合并、区域间接边等,因此首件成果选取相邻两个县区成果作为首件成果。验证后对不符合要求的生产工艺、成果形式提出修正意见,为后期批量生产打牢基础,最终要编写首件成果验证报告。
(2)首件成果验证主要内容
选择合适的数据源、生产平台后,首件成果主要是从坡度图数据成果验证工艺、流程的适应性、合理性。适应性是指坡度图的生产工艺流程是否符合大数据地理信息数据生产的要求;合理性是指生产过程中经人工在软件平台下,对数据整理如图斑合并、县区接边等,处理后数据表达是否合理。
(3)大数据地理信息数据成果质量评价
大数据地理信息数据成果质量评价的指标,要根据项目要求达到普遍性的预期或趋势,因此利用“差异率”来评价成果质量是一项重要指标。
差异率:当坡度图坡度与DEM计算坡度不一致,综合考虑坡度图进行了图斑综合、以及不同坡度级管理重要性不同等因素,依据坡度图坡度与DEM计算坡度的相应情况进行加权计算,统计出问题图斑总面积和面积占比,以面积占比作为差异率。对差异率低于3%的,认定为成果合格,否则认定为不合格。
加权系数和计算公式为:
问题图斑总面积=(图斑面积×加权系数)的总和
差异率=(问题图斑总面积/全部图斑总面积)×100%
三、问题处理
对首件成果检查发现,技术性要求中“对综合后的图斑进行平滑处理,最后进行拓扑重建,使之属性结构同标准一致”,通过首件成果验证,发现DEM栅格数据转为矢量数据后,经历“平滑处理”,造成了数据单条曲线数据量呈几何数量级增大,县域面积在平方千米,计算实践太长且人工处理“小图斑”时,计算机运行每一个动作,都存在“卡顿”现象,无法想象6000平方千米的县域如何操作;且经过“平滑处理”后,每一点都不在栅格数据的角点,成果数据无法进行“差异率”计算。
1.图斑合并问题
(1)提高人工合并图斑的准确性,避免图斑合并错误。如将1级平坦地势的大图斑合并到5级陡峭小图斑,造成地势表达错误,如果错误面积过大,也可能“差异率”超过3%,数据成果质量不能合格。
(2)将宽度小于或等于1个格网尺寸的线状坡度图斑合并至相邻图斑中。
(3)线状坡度图斑处理时由原设计的按平均配赋原则与相邻图斑合并,变更为与相邻图斑合并。
2.调整和优化生产工艺流程
依据实际情况调整和优化生产工艺流程:
(1)删除“坡度分级矢量数据的图斑界线与坡度分级栅格数据空间位置偏移一般不超过1个格网,最大偏移量不得超过2个格网。”
(2)“对综合后的图斑进行平滑处理,最后进行拓扑重建,使之属性结构同标准一致。”中“平滑处理”,不符合大数据地理信息数据成果质量要求,因此调整了生产工艺为“对综合后的图斑后拓扑重建,使之属性结构同标准一致。”,除图斑合并外不再进行“平滑处理”。
四、结束语
尽管坡度图是地图其中的一种,对于“三调”项目坡度图却不能完全套用传统方式制成地图,这是大数据地理系信息数据的需要。实践中要从需求的实际出发合理制定质量控制实施方案。
为提高大数据地理信息数据整体质量,优化计算机法,提高自动化程度,尽量减少人工干预,应是大数据地理信息数据生产的趋势。