水利普查数据质量控制的研究
2012-04-30程益联
程益联 ,郭 悦
(1.水利部水利信息中心,北京 100053;2.水利部发展研究中心,北京 100038)
0 引言
国务院第一次全国水利普查,在全国范围内发动近百万的水利普查人员,按照统一的标准和操作规范,开展水利普查对象指标数据的采集与处理,形成水利普查数据。如何让近百万的水利普查人员在执行标准和操作规范上协调一致,形成全面、完整、一致和准确的水利普查数据,是水利普查必须解决的问题,也是保障水利普查数据质量所需。研究影响水利普查数据质量的因素,提出相应的解决办法或对策,对提高水利普查数据质量至关重要。
水利普查数据主要通过以下 2 种方式获得:1)利用 1∶50000 DEM,DLG,DOM 数据,和分辨率为 2.5 m 的影像数据分析,提取河流湖泊及其相关参数数据,主要由少数专业人员在内业完成;2)按“在地原则”, 对普查对象及其指标进行采集、填表、录入和逐级汇总审核,主要由广大水利普查员完成。本文主要针对后者获得水利普查数据的质量控制进行研究。
1 水利普查数据组成
国务院第一次全国水利普查按照专业门类涉及河湖、水利工程基本情况,经济社会用水、河湖开发治理保护、水土保持、水利行业能力建设等情况,以及灌区和地下水取水井专项。按自然与非自然、管理与被管理单元、社会和非社会组织等特性,水利普查对象可分为自然类、管理类、水利单位类、独立工程类和用水户类,共 5 大类,32 个小类,318 项水利普查或调查指标,2258 个数据项[1]。水利普查对象指标数据项的数据类型主要有位置型、时间型、数值型、枚举型和字符串型。
2 水利普查数据处理阶段与方法
水利普查数据处理广义上讲,包括从数据采集至最终形成水利普查成果数据的全过程。主要分为数据采集、表格填写、表格电子化、汇总分析 4 个阶段,每个阶段的数据处理因工作内容不同,工作方法也不相同。
2.1 基础数据采集方法
根据《第一次全国水利普查实施方案》和《第一次全国水利普查空间数据采集处理实施方案》,因水利普查对象及其指标特点不同,基础数据采集技术路线分为外业和内业 2 大类,主要有现场查勘、档案查阅、DEM 提取、遥感分析和估算推算等[2]。采集的基础数据一部分将填写到水利普查表中,另一部分空间数据将采用相应系统直接形成电子数据,两者之间通过水利普查对象编码建立联系,保障两种数据的关联性和一致性。
2.2 表格填写方法
各类水利普查对象的普查表中,指标多样,涉及多个专业门类,对填写和审核表格的人员要求较高,最好具有一定专业背景。表格填写应由经过水利普查专业培训的普查员,根据基础采集数据和相关填写要求,据实填写水利普查表。以县级行政区为基本工作单元,按照不同专业门类,分类整理成册,再对其审核归档。
2.3 表格电子化方法
水利普查对象繁多、指标复杂,指标描述形式多样,加上首次开展水利专业性普查,很难在短时间内实现标准化,采用卡片式机读方法,完成表格数据的电子化,因此,表格电子化只能通过人工录入方式完成。
2.4 汇总分析方法
各级水利普查机构,根据逐级汇总表(县级、地级、省级和国家(流域)分别按照乡级,县级,地级和省级等水利普查区划为单元汇总),纵向与本水利普查区既往统计数据进行对比分析,对于发生较大差异的水利普查区应找出发生该情况的原因,并给出合理解释;横向对下级水利普查区之间结合自然和社会情况进行对比分析,对于自然和社会类似或相近水利普查区之间发生较大差异的,应找出发生该情况的原因,并给出合理解释。
3 水利普查质量控制对策分析
水利普查中不可调和的矛盾,即少数掌握标准的人无法在短时间内完成任务,大量的可在短时间内参与开展普查工作的人员对标准掌握达到完全一致存在困难。解决这一矛盾的最好办法是尽量简化执行标准和操作规范,让大多数人能够方便掌握和执行,这也是水利普查数据质量保障的重要措施,应该说是最重要的对策。
3.1 质量控制模型
水利普查数据质量控制是从采集、填表、电子化直至逐级汇总分析的递进的质量控制过程,决定这一过程的关键因素是人,以及需要人遵照执行的一系列行为规范和技术指标。从某种意义上讲,虽然可以通过培训解决人的问题,但是受时间、经费和人员素质的限制,通过培训所能改变的人的特质很有限,因此决定性的因素是需要人遵照执行的一系列行为规范和技术指标。由此,得到的质量控制模型如图 1 所示。
图1 水利普查数据质量控制模型
从图 1 可知,水利普查数据要经过采集、填表、录入和汇总(逐级)才能最终形成水利普查成果,每个阶段需要普查员、录入员和分析员等,分层次和范围,遵照不同方法、规定、要求和策略等控制数据质量。
3.2 基础数据采集阶段
水利普查涉及 6 个专业和 2 个专项,需采集的数据的复杂程度是可以想象的。根据《第一次全国水利普查实施方案》,水利普查对象指标数据项数据的获得因对象及其指标不同,需采用不同方法进行采集。该阶段最大问题是指标复杂,涉及多个专业领域,参与本阶段工作的人员最好具备一定的专业知识。工作的关键是对指标采集方法的把握,否则除了具体指标采集发生误差外,还有可能因规模等相关指标把握不准,造成大范围系统性误差,使得不同普查员普查的结果没有可比性。
本阶段影响水利普查数据质量的主要因素有数据采集方法、参与人员素质和技术手段,三者相互作用,最终决定整个水利普查数据质量。一般来讲,采集方法越简单、参与人员素质越高(良好的智商和一丝不苟的工作作风)、技术手段越先进(尽量避免人为因素,能客观反映调查对象指标信息),预期水利普查数据质量就越好。受水利普查工作范围大,时点和工作时间的限制,甚至受到所处历史时期的限制,只能就地、就时取材,使用现有的人力资源,在一定范围内,尽量使用有较高素质的人员,但选择的余地不大。就水利普查数据采集技术手段来讲,一方面采集指标多样,对于不同指标只能采用不同的技术手段和方法;另一方面,受到目前所处历史时期的限制,水利普查对象指标的采集方法不能超越该历史时期科学技术所能达到的水平。总而言之,水利普查对象指标数据的采集技术手段,不可能因为需要水利普查而有所改变。通常情况下,1 个水利普查对象指标的采集可能有几种不同方法,为了便于参与人员掌握和应用,减少因人的能力和技术手段问题,造成个体、系统误差。在选择水利普查对象指标采集方法时,应充分考虑相关影响因素,尽量选择简单的数据采集方法,保障普查员采集得来的水利普查数据具有个体的准确性和系统的可比性,从而保障水利普查数据质量。该阶段数据质量是基础中的基础。
3.3 表格填写阶段
需要填写的表格主要是清查表、台账表和普查表。填写的各种表格,除了对水利普查对象各种采集指标进行规范登记外,更重要的是数据录入人员将利用该表形成水利普查电子数据,该阶段影响数据质量的主要因素有表格形式、指标描述和填写方式等。3 种水利普查表格中,普查表是最复杂和具有代表性的表格,理清普查表中影响数据质量的因素是解决该阶段数据质量问题的关键。
水利普查对象所填普查表的指标可分为标识、关系和核心等 3 部分指标。理论上讲,唯一确定1 个水利普查对象的是该对象的所有维度信息,但在一定范围内,实际上只要个别维度信息即可。水利普查对象的标识也是如此,标识指标仅仅用来在第一次全国水利普查范围内,唯一标识该水利普查对象,因此标识指标越少越好,同时还应通过对各类对象的分析和抽象,选取部分相同指标,用来标识所有水利普查对象,该部分指标也应是清查表所要的指标项。关系指标是指用来描述水利普查对象内外关系,在水利普查期间用于汇总分析保障水利普查数据质量;在水利普查结束后,用于对水利普查数据的开发利用,发挥水利普查效益。核心指标是在各类水利普查对象众多描述维度中,选择最重要的指标,通过对这些指标的汇总和分析,试图对该领域的情况进行较客观的描述。为此将水利普查所有对象类的调查和普查表格抽象设计成 3 段式(调查内容统一设计成标识、关系和核心 3 个指标段),2 个部分(除调查内容外,再加上表格填写有关信息,如:填表人、审核人 2 个部分),这将给填表人员带来极大认知方便,做到知其一、明所有,无需逐类逐个地了解和熟悉水利普查表格。
指标描述是决定数据质量的重要因素。首先,水利普查对象每个指标名称是否简单明了,符合通常概念所认知的内涵和外延,将直接影响填表质量。如果使用的仅仅是少数专业人员所了解的名词,将来填写的准确性将大打折扣。其次,指标描述方式可以是文字,也可以是数字,若使用文字描述,受填写人员书写能力和工整性影响,将给未来的数据录入带来困难,最好将指标数字化,便于填写和录入,总体而言,除对象名称和所在地外,其余指标都应该数字化。
表格填写方式是影响水利普查质量又一重要因素。在指标数字化基础上,表格填写位置应相对固定,所有指标的编写应该在表格中相对统一位置,如:一律在表格的右侧,方便检查指标填写的完整性和全面性。为了方便开展填写表格的审核和具有一定校验能力,建议选择和数字化填写同时进行,用于进行填写校验,每个指标选择和填写数字一致,是表格通过验收的必要条件。
3.4 表格电子化阶段
目前,普查表格电子化通常有 2 种方式,一种是通过格式化的表格,采用卡片式阅读设备,自动将按照一定方式填写的表格电子化,这种方式需要对一系列事情规范化,如:纸张规格、表格形式、填写方法等,对水利普查而言,短期内很难做到;另一种是利用专用软件,由录入员将填好的表格录入计算机,对水利普查而言是可行的方案。
针对采用人工录入的表格电子化方式,影响数据质量的主要因素有表格形式、指标描述、填写方式、录入软件等。表格形式、指标描述和填写方式除了影响填表质量,同样也影响表格电子化录入数据的质量。录入软件功能和性能将是保障水利普查数据质量的突出问题。一般来讲,软件录入功能对过程的控制是明确和严格的,如果所有录入人员能够严格按照功能要求完成数据录入,数据录入质量应该是最高的,并不是软件功能和过程管理做得越灵活越好。可往往是,由于具体方案本身缺陷和大范围多样性问题交织在一起,要是严格按照功能和过程管理进行处理,软件一定不能胜任工作。为此,软件录入功能,应该做到功能适用,过程管理除必需管理外,适当放开对过程的管理,由录入人员根据需要灵活开展相应水利普查对象数据的录入。但是,要对必要的值域范围和相互关系进行检查和分析,提醒录入人员注意可能发生的错误。
3.5 汇总分析阶段
经过采集、填表和录入 3 个阶段,水利普查数据总体质量应该已经确定,汇总分析阶段是对前 3 个阶段的数据质量进行进一步的控制。因为水利普查对象指标多样,所以可以据此进行纵向和横向对比分析。影响该阶段数据处理质量的主要因素有基础资料及相应的汇总分析方法等。仅从各种指标的简单汇总,可以说有多少指标就有多少种汇总,如果盲目对所有指标进行所谓的汇总,不但不能起到质量控制作用,还会适得其反。
汇总分析在一定范围内主要用来发现某一指标的奇异值,并对其进行再确认和修订,同时对一定范围水利普查汇总数据与历年统计数据进行纵向对比分析,并给出发生偏离的合理解释;在一定范围之间主要用来进行横向单元之间水利普查汇总数据的对比分析,同样要给出发生偏离的合理解释。
由此可见,需要在历年统计项中开展汇总分析,如果历年没有进行统计或水利普查汇总单元与历年统计单元没有可比性,也是没有办法进行汇总分析的。对于横向各水利普查汇总单元之间,汇总数据应该与其他和水利普查有一定内在联系的社会统计指标项进行汇总分析,例如:某指标与人口、GDP、地貌、气象等具有一定关系,2 个类似水利普查汇总区可以利用已经掌握的人口、GDP、地貌和气象等资料对 2 个水利普查汇总区的数据进行比较。
为了达到事半功倍的作用,首先应该对水利普查对象历年统计内容进行分析,并据此设计水利普查汇总表指导县级、地级、省级和国家级开展汇总分析;另外,分析水利普查对象指标与其存在一定联系的指标,编制相应的汇总表,开展不同水利普查汇总区之间的对比分析;再在不同水利普查汇总表中选择具有代表性的汇总表,按照汇总区分类,对部分主要指标的极值、均值、累加值进行汇总和计数,作为逐级汇总审核的重要依据。
4 结语
决定水利普查数据质量的因素和环节很多,但是主要环节是采集、填表、录入和逐级汇总。总体来讲,所有的方法、规定、要求和策略,应力求简单明了,便于广大水利普查人员理解和掌握,并容易实施,以减少可能产生错误的机会,这是水利普查数据质量保障的根本。为此,应对复杂方法、规定、要求和策略,进行分析、抽象,并给出主要和关键的方法、规定、要求和策略,降低相关软件系统的复杂度,提高系统的可用性,全方位提供质量保证。文中所有概念是在许多正反两方面经验和教训的启示下,逐步形成的,对于水利普查数据质量控制还要在水利普查实践中不断总结和检验。
[1]程益联. 水利普查对象关系研究[J]. 水利信息化,2012(1):23-27.
[2]中华人民共和国水利部. 第一次全国水利普查实施方案(水规计〔2010〕498 号)[R]. 北京:中华人民共和国水利部,2010: 7-8.