水利普查对象编码方案分析论证
2011-07-16王位鑫陈德清
王位鑫,陈德清
(水利部水利信息中心,北京 100053)
0 引言
水利普查编码的目的是以数字和字母代表水利普查对象及指标,准确地识别和管理水利普查对象及指标,通过编码简化对象之间关系的描述,方便基层普查工作的开展及人工和计算机处理,提高数据处理工作效率,保障审核与汇总分析的顺利开展和最终普查数据的质量。
通过编码方案制定,梳理普查对象之间的关系,提高普查工作的科学性及可操作性;通过编码对各环节的联系,增强普查资料的正确性;通过编码的简约化处理,方便资料录入及计算机管理,提高水利普查工作效率;通过编码在不同对象之间的联系,加强信息共享与综合分析。
1 既有标准
目前水利行业现有的编码标准有:SL213-1998《水利工程基础信息代码编制规定》、SL249-1999《中国河流名称代码》、SL259-2000《中国水库名称代码》、SL263-2000《中国蓄滞洪区名称代码》、SL261-1998《中国湖泊名称代码》、SL262-2000《中国水闸名称代码》、SL452-2009《水土保持监测点代码》。
已有编码标准经过这些年的使用和完善在适应性及普及方面存在很大的优势,部分业务熟悉的专家甚至只通过水利工程的编码,就能判断出该工程所在的流域及工程相关的特征值。但是本次普查涉及的范围广,包涵 8 大专题共 30 类对象,如果仍然沿用原有标准会遇到如下问题:
1)SL213-98《水利工程基础信息代码编制规定》[1]仅涉及 19 种水利工程及相关设施的编码原则,分类工程的编码分册目前正式颁布的仅有 9 个,有部分设施类编码工作虽已列入修订计划,但仍在进行之中,如堤防、海堤编码标准启动多年,但仍难以收敛,还有一些设施类编码工作目前尚未启动,何时能将《水利工程基础信息代码编制规定》涉及的 19 种水利工程类别的编码全部完成,目前还难以估计。
2)目前在用的河流、湖泊、水工设施编码标准与本次普查涉及的 30 个对象类的类别重合率仅有16.67 %,在正式普查工作开始之前设想采用编制并补齐行业标准的方式,完成普查所需的 25 类其它对象类编码标准的现实可行性不大。
3)由于设施对象编码中涉及河湖所在流域、干支流层级关系,不同设施类型的编码隐含继承关系要求。
例如水闸编码(水闸编码中包含着所属流域信息)必须在河湖普查全部完成之后,方能顺序组织开展其它设施类对象的清查登记和编码工作,编码如图1 所示[2]。既有编码规则中规定的部分字段包含工程特征参数,而在本次普查工作中是将其作为普查阶段的工作进行填报的,如果严格遵照行业标准开展普查,势必在对象清查登记阶段,就会因编码问题把清查和普查 2 个阶段的工作界限混淆。既有编码规则要求在掌握全部对象个体的基础上,由上级主管部门集中安排编码方能保持其顺序关系。而本次普查在预先不能确定对象个数的情况下,按(6+2)个普查主题、2860 个县级基层普查单位并行作业的组织模式[3],如在清查登记工作执行过程中因编码问题过多地牵扯时间和精力,用于各级普查单位之间的编码协调问题,势必增加各级普查层级按时完成普查汇总分析工作的困难。
图1 水闸编码
从普查的实情考虑,旧的标准不能完全满足本次普查的需要,因此重新定制 1 套新的、能满足本次普查需求的编码标准是必要的。
重新定制 1 套编码标准不意味着完全抛弃旧的标准,新的编码标准只是为了服务于本次普查,在普查数据收集汇总后,可以通过基层填报的指标属性将对象按原有的编码规则重新编码,不会对已有标准的使用习惯造成影响。
2 拟采用对象编码标准
2.1 对象编码标准
拟采用对象编码分为对象和指标 2 种编码。对象编码用来标识水利普查对象,作为水利普查对象指标数据的管理唯一代码,在整个水利普查数据库中,所有对象编码唯一,根据不同对象特点和管理需要,对象编码采用数字串,可采用定长或变长编码,除河流湖泊对象编码外,其他对象编码采用行政区划代码加行政区内同类对象顺序号组成对象编码。对象编码体系如表1 所示。指标编码也适用于水利普查 7 种对象类别,指标编码类型归纳为位置、时间、数值、枚举和文字型 5 种,数值型根据指标特点确定数位和取值范围;枚举型使用自然数顺序编码,在枚举型中,除明确无其他项目外,确有其他项目的编码均采用 9 或 99;文字型属性编码应尽量少用,确有需要时,应限制其文本长度并遵从 GB18030-2000《信息交换用汉字编码字符集基本集的扩充》。
表1 水利普查对象编码体系
水利普查对象编码仅限于信息系统内部对象标识,除位置视角以外不捆绑其它任何属性信息。
赋码过程根据不同主题普查技术方案,分别采用内业集中统一编码或各级水利普查机构并行赋码 2 种方式,其成果在全国范围内唯一标识水利普查对象。
对象在域内顺序编码,因各种原因造成对象修改、调整时,顺序赋予新号,使用过的域内顺序码不允许重复使用。
对象跨行政区的,其行政区划代码使用上一级行政机构的区划代码,跨省级行政区的全国行政区划代码约定使用 888888。
2.2 对象编码方案特点
2.2.1 降低初始编码难度
在普查实施过程中,充分考虑多主题、多个工作单元并行作业,各级普查人员技术水平、能力不尽一致的现实,从便于基层普查员尽可能独立完成对象登记工作出发,在对象清查初始登记阶段简化编码所必需遵从的依赖关系,优先解决对象不重、不漏、不错问题,在普查填报阶段着重解决属性完整问题,借助数据库对象个体和关系管理的双重功能,适度分解对象清查、属性普查填报工作的关联度,最大限度地降低普查数据采集和数据库建库的工作实施难度。
2.2.2 分离普查实施与成果应用
在完成普查任务的基础上,考虑把业务应用部门既关心对象个体,又关心其关联关系和其它特征属性的综合编码应用问题,放在普查成果的应用阶段进行,可通过在普查成果内部管理代码与业务编码映射关系的方式实现[4]。
2.2.3 分阶段解决综合问题
在数据处理流程的设计过程中,根据数据处理流程的阶段划分,分别选择了不同的优先策略:在数据采集阶段优先解决数据准确填报、数据质量的把控(完整性、准确性),在数据库建库阶段通盘考虑适宜的数据粒度和关系的建立(严密性、可管理性、可持续性),数据成果应用阶段尽可能地兼顾多目标(乃至目前还不能确定的目标)应用需求(灵活性、适应性)问题,而不是仅通过编码试图解决所有应用环节的不同问题。
2.2.4 符合当前 IT 主流设计理念和发展趋势
本次普查数据处理过程试图借鉴国外同类工作中长期摸索总结形成的基本准则,在数据处理流程中采用面向对象的 IT 设计理念,严格区分调查、数据建模、数据实体建库、成果应用 4 种不同的视角,采用:调查(6+2)主题:数据模型:数据库实体(含元数据):普查专题成果,逐一建立映射关系的办法予以保证,通过数据与应用保持相对独立的设计,支持成果应用多样性目标的有效实现(流域分区数据组织示例)。
3 结语
拟采用对象编码标准设计立足当前,着眼未来,不仅可以有效降低本次普查技术数据处理技术工作的组织难度,满足本次普查数据汇集、处理全过程的工作需要,还可以兼顾未来普查成果综合应用共性需求(综合库的形式)和专项业务应用个性化需求(专题库的形式);通过普查成果的汇集,为各专业在其基础上开展专业应用分析和编码试验验证工作,提供必要的数据基础。
[1]国家防汛抗旱总指挥部办公室,河海大学. SL213-98 水利工程基础信息代码编制规定[S]. 北京:中国水利水电出版社,1998: 1-12.
[2]国家防汛抗旱总指挥部办公室. SL262-2000 中国水闸名称代码[S]. 北京:国家防汛抗旱总指挥部办公室,2001: 1-20.
[3]中华人民共和国水利部,国务院第一次全国水利普查领导小组办公室. 第一次全国水利普查实施方案综述[R].北京:中华人民共和国水利部,2010:1-20.
[4]程益联. 第一次全国水利普查编码方案[M]. 北京:中华人民共和国水利部,2010: 2-3.