水利普查清查数据质量控制方法探讨
2012-10-25主讲人方业源
主讲人:方业源
第一次全国水利普查分为四个阶段:前期准备阶段、清查登记阶段、填表上报阶段、成果发布阶段,其中清查登记阶段是水利普查的最基本阶段,目的是摸清全国水利的基本情况。水利普查主要包括河湖基本情况普查、水利工程基本情况普查、经济社会用水情况调查、河湖开发治理保护情况普查、水土保持情况普查、水利行业能力建设情况等6项普查和灌区、地下水2个专项普查。除河湖基本情况普查和水土保持情况普查委托由专业的机构完成外,其余普查内容均由县级水利部门获取普查数据并录入到本次水利普查的专用软件“水利普查基层登记台账管理系统”中,逐级上报到国务院水利普查办公室。因此,在整个普查过程中,清查数据质量控制十分关键。
一 清查数据质量控制要求
清查数据是对普查对象清查后形成的各专业的完整名录数据,是后期开展普查工作和填写普查表的基础。
普查数据质量是水利普查工作的生命线,是检验水利普查成功与否的根本标准,普查数据要求不重不漏、真实可靠,能全面和完整地体现目前的水利现状,质量控制是贯穿于整个普查工作的一条主线。
清查数据质量要求主要包括数据的规范性、全面性和完整性、有效性、一致性、真实性以及相关性。水利普查应做到应查尽查,避免错报、漏报、重报,要求填写的名称、型号、代码、数据类型、计量单位、数据精度等必须符合相关的技术规定要求,获得的数据应来之有据、客观真实。
二 数据质量控制方法
数据审核是控制数据质量最主要和最有效的方法。以市级为例,数据审核主要分为内业审核和现场复核。
内业审核方法主要包括计算机审核和人工审核。计算机审核是指利用水利普查基层登记台账管理系统自带的的审核功能对海量的数据进行计算机自动审核,人工审核是对于一些难以标准化和归纳为审核公式或者不能普遍适用审核关系的需要人工审核,其难点是海量数据的跨表间数据审核。由于水利普查软件自带的审核功能相当弱,对于表内数据关系和表间关系审核基本无能为力,只能依靠人工审核。由于市级清查名录多以万计,数据项达数十万,如果单纯依靠人工审核,完全无法适应国家对进度和质量的要求。实际工作中,市级的审核若结合EXCEL的强大功能,可以大大提高数据审核的效率和质量。
现场复核是根据县级上报的数据,抽取乡镇、村作为样区,到实地复核数据的真实性和准确性。
三 数据的内业审核
1.数据的准备
首先使用水利普查基层登记台账管理系统菜单中的“对象清查清查浏览”功能,点击业务分类的每一项,通过“导出EXCEL”功能,分别形成与Q201~Q803内容对应的24张浏览表,如表Q201(水库工程)导出名为“VIEW_Q201_0.XLS”。为了避免数据的无序性和方便后面的操作,应在软件中先按水利普查自动生成的编码排序后再导出数据。
其次各表导出后所有的数据项单元格格式均被自动设置为“常规”,为了能正确使用EXCEL的排序功能,应对导出的数字列先设置为“数值”格式,否则在EXCEL里排序时将无法显示正确的结果。
2.普遍性问题的审核
(1)电话号码规范性审核
清查表中每项数据中都需要填写联系电话,按规定固定电话在区号和号码之间使用连字符“-”,手机号码位11位数字,数据量很大,常出现漏区号、位数错、非数字的情况,在这些列的后面增加一列并填上公式“=LEN(SUBSTITUTE(M2,“-”,“”))”,如图 1,同时为此整列设置条件格式,可以明显判断左侧的电话号码是否有输入错误。
(2)管理单位不一致的审核
通常在水库工程、水电站工程、泵站工程、水闸工程、引调水工程、堤防工程、农村供水工程(Q201~Q207)等的表中都需要填写管理单位的单位名称,这些管理单位除了村级机关外一般都是管理所、管理处等,该单位名称都会出现在单位清查表Q601的单位名称列中,如果Q201~Q207的这些管理单位的名称在Q601表中找不到,就说明名称存在错误。分别在表Q201~Q207的“管理单位单位名称”列后增加一列,单元格中输入 “=VLOOKUP(L2,[VIEW_Q601_0.xls]VIEW_Q601_0_1!$C:$C,1,0)”,如图 2,如果该单元格显示的结果显示为“#N/A”,即表示需要复核该管理单位的名称是否正确。
(3)数值越界审核
本次水利普查的范围并非现有的全部水利设施,各类清查表均有调查范围界限设定,比如水闸流量≥1 m3/s、灌区面积≥50亩(3.33hm2)才需要清查。对于各清查表中涉及规模的数值,可以通过对数值排序,检查最大、最小值等比较容易发现数值越界的错误,若再配合设定条件格式效果更好。
3.各专业表主要问题的审核
(1)水利工程清查数据的审核
水库工程清查表Q201浏览导出后的C列为水库名称,按一般情况,每个水库都应有取水口并且均应反映在Q401表的“河湖(水库)名称”列中,否则可以判断,在表Q401中遗漏了水库的取水口。在C列后增加D列,并输入“=VLOOKUP(C2,[VIEW_Q401_0.xls]VIEW_Q401_0_1!$C:$C,1,0)”,如果显示“#N/A”,即表示在表 Q401中未找到该水库的取水口。
泵站工程表Q204中水泵的装机、流量两项数据与扬程存在以下关系:“扬程=装机/(10×流量)×0.75”, 可以运用此关系式利用EXCEL的函数并结合当地地形高差实现自动判断清查表中的装机、流量是否匹配。
表Q207(农村供水工程)中在有“设计供水规模”和“设计供水人口”两项数据,在单元格中利用简单计算可以求出每人每天平均供水量,再按该值排序,该值一般应在30~300之间,如果超过此数值,初步判定需要复核。同样表Q304也存在类似关系,也可以按相同方法判定。
(2)经济社会用水清查数据的审核
按照本次水利普查的范围定义,灌区调查对象名录表Q302表中的灌区名称除非为单纯的地下水灌区,灌区的名称应该出现在表Q701(灌区)中,并且灌溉面积应相同。利用VLOOKUP函数表以Q302的灌区名称为参数在Q701表中查找“灌区有效灌溉面积”,如果结果显示为“#N/A”即表示该灌区在表Q701中找不到或者名称不一致,需要复核两表的一致性。
公共供水企业(表Q304)的水源一般是地表水或者地下水,其取水口一般都应反映在表Q401(河湖取水口)和Q402(地表水水源地)或者Q803(地下水水源地)中。在表Q304的“供水企业名称”列后增加3列,用VLOOKUP函数以供水企业名称为查找参数分别在表Q401、表Q402、表Q803查找,如果三列的显示结果均出现错误值“#N/A”表示,取水口或者水源地或者企业名称不一致,需要重新复核数据。
工业企业用水户(表Q305)的类型分为典型用水户和用水大户两类,用水量级别从大到小分为1~6级,具体到南宁市各县(区)来说,从统计资料看,1~5级的工业用水户均不会超过50户,因此在表中用水大户的用水量级别就不可能为6级,相应的典型用水户的用水量级别不应为1~5级。在EXCEL中首先通过类型筛选和用水量级别排序,如果不符合上述标准应判定为有错误。另外,该表中的企业特别是用水大户,一般都应有排污口,并且应出现在表Q405中,用VLOOKUP函数以Q305表的 “单位名称”为查找参数在Q405中查找,如果单元格结果显示“#N/A”则表示该企业的排污口未列入表Q405中或者企业名称不一致,应该复核数据。类似方法也适用于表Q306(建筑业和第三产业对象名录)的审核。
(3)河湖开发治理清查数据的审核
表 Q401(河湖取水口)中包含“取水流量(m3/s)”“最大年取水量(万m3)”两列,据此公式“最大年取水量/取水流量/24/3600×10000”可以推求出大致的取水天数,如果该数值大于或者接近365,说明数据可能错误,因为对于多数的农业取水口来说,都是季节性取水口,取水天数应远小于365,只有极少数的大城市供水工程才可能一年365天24小时不间断取水。
四 数据现场复核
1.资料的准备
①水利普查资料。包括手工填写的水利普查清查表、录入数据包、国普办下发的纸质底图。
②公共资料。行政区划地图、交通图、年鉴、县志等。
③水利部门资料。包括县水利志、水利年鉴、水利规划书、工程设计文件、防汛资料等。
④其他部门资料。包括第二次经济普查资料、第二次农业普查资料、第二次全国土地调查资料、全国水文地质资料、环保资料等。
前三类是必须准备的资料,其他部门的资料由于难以获取,只要求尽可能收集。
2.现场复核的程序
由于市辖的县(区)数量并不多,因此对所有县(区)的数据均进行现场复核。由市级水利普查办成立数个复核小组,每个小组负责3~4个县(区)的复核。
由县(区)水利普查办召集县级现场复核会,所有县级普查员、普查指导员参加会议,会上由复核小组说明现场复核的程序。
图1 电话号码位数判断
图2 管理单位一致性判断
先由县(区)普查办汇报本县的水普情况,主要包括水利普查的人员情况、设备情况、各种对象的清查分区划分、清查的方法、清查的结果、数据的汇总情况、数据录入情况、数据自检情况等。
然后,复核组抽取一定数量的手工清查表对照录入数据包,复核录入的差错率。
最后根据县(区)行政底图上分别确定1个乡镇、1个村、1个自然村作为不同复核对象的样本区,并请县水普办提前通知当地水管单位、普查员和填表人做好待检准备。
3.在底图上复核数据质量
从水利普查底图上识别以下类型对象(Q201~Q803的所有可能种类):堤防、引调水工程、水源地、治理保护河湖、2000 亩(133.33 hm2)以上及跨乡灌区、水库、水电站、水闸、泵站和农村供水工程等。在选取的乡样本区内,由复核组每种类型随机抽出1~2个对象,要求县普查员查找出相应的手工清查表,如果无法找出清查表则说明该对象漏报,如果能找出清查表则可以复核地理位置等指标,检查每种对象是否有漏报、错报,并做好记录,统计漏报、错报情况。如果时间充裕,可以用如此方法在全县识别所有上述的对象,但由于全县范围的检查不是严格按照样本区进行,因此检查结果不用于计算漏报率、错报率,但仍可以用于清查的质量评价。
4.县级样本区数据现场复核
在县城所在地(最近的乡镇)抽取2户城乡居民典型用水户、1家公共供水企业、1家工业企业、1家第三产业单位,建筑业规模以上用水户及规模以下典型用水户的手填清查表,通过入户询问居民和企业填表人员核实家庭和企业的有关信息。以县河道为中心,在县城内选取排污口、堤防、引调水工程、水源地、治理保护河湖的清查表,通过询问管理人员和现场观察、查证以检查表中数据是否有错、漏,并按照《第一次全国水利普查质量控制工作细则》的要求计算数据的漏报、错报率。
5.乡级样本区数据现场复核
为节约时间,乡级样本区一般选择县城附近的乡镇。检查时从手工清查表中抽出一个乡(镇)的表,到当地水管所后,首先调出水管单位及任选1家规模化畜禽养殖场的清查表数据进行核实。以乡(镇)里的一座水库为中心,检查水库及与水库有关的水电站、水闸、泵站和农村供水工程、取水口、水利单位、2000亩(133.33 hm2)以下非跨乡灌区的清查表的数据,核实相关的清查表的数据的准确性和真实性并检查表中数据是否有错、漏,最后计算错报、漏报率。
6.村级样本区数据现场复核
从抽中的乡(镇)中选择一个村委,选在该村委附近的自然村相关的清查表,通过村主任或村民了解村屯的情况,核实地下水取水井数量、每个井的规模和位置,调查村内塘坝、窖池等数量,如果存在规模以上的地下水取水井还应核实井径、装机等,以核实清查数据是否准确真实,对象是否有错、漏报,同样按规定计算错报、漏报率。
五 结 语
水利普查清查数据内业审核和现场复核是质量控制的两个方面,两者互相补充,缺一不可。内业审核工作应在普查软件自动审核的基础上进行,辅以EXCEL审核作为人工审核的补充,可以提高审核的效率,从完整性、规范性、一致性和相关性检查数据的质量,并通过现场复核来检查数据的有效性、真实性。