杭州市环境信息数据字典的构建及应用研究
2013-07-20黄澄宁
潘 腾 黄澄宁
(杭州市环境信息中心,杭州 310003)
随着我国环境行业信息化的推进,特别是环境信息系统在我国环保部门的运行已经表明,信息在提高环境管理工作的质量和效率放慢存在着巨大潜力。然而在环境行业信息系统的具体运行过程中,出现了制约信息化发展的问题——数据标准化建设工作严重滞后。由于缺乏统一的部署和组织,尤其是没有统一权威的数据标准而造成系统初始化、维护、分析、利用上的混乱,表现为数据质量差、统计分析工作和管理指挥工作发射管偏差,严重阻碍环境信息化建设的持续高速发展。因此,对数据进行规范化管理的数据标准化已成为信息化建设的当务之急。
近十年来,一些新的环境管理工作,都带来了大量崭新的环境信息,大量的数据和高度的处理复杂性,使得计算机进行辅助数据管理和数据分析成为必然,但与其他行业不同,环境信息数据缺乏规范,各地环保部门通常按照方便自己的方法来组织和管理自己的数据资料,开发相应的软件进行辅助管理和分析,使得不同数据库的数据组织方式有很大的差异,各个环境信息系统的数据输入输出格式要求不一,这种信息描述的不统一性给数据库之间、信息系统之间以及数据库与信息系统之间的数据交流带来很大不便,使得环境数据的计算机自动处理和整合难以实现。对于结构化的环境信息资源来说,解决信息资源在语义、表达、数据类型及格式、值域的一致性是实现数据共享一个极为重要的方向。因此,建立通用的数据字典可以为环境数据库的设计和数据采集、加工和处理提供标准支撑,为有效促进环境信息共享提供依据。
1 研究现状
我国在环境信息数据的研究与收集方面开展得比国际稍晚,水平也存在一定的差距。但近年来也取得了比较大的进步,环境保护部先后出台了《HJ/T 417-2007环境信息分类与代码》和《HJ/T 419-2007 环境数据库设计与运行管理规范》,这些对环境信息数据字典的研究和编制提供了理论指导和研究框架。2009年以后,环境信息化建设和数据标准研究力度加大,在环境保护部出台的《国家环境信息化2009-2015年规划》中,国家环境信息标准规范体系建设被作为基础保障体系建设的重点项目之一。此外,2009年国家环境信息与统计能力建设项目全面开展技术标准规范编制工作,该项目提出了《环境数据集说明文档格式标准》、 《环境数据集加工、汇交流程》、 《污染源在线监控数据元技术规定》、《环境统计数据元技术规定》、《污染源监督性监测数据元技术规定》、《环境信息数据字典规范》、《污染源编码》等27 项标准规范。其中,《环境信息数据字典规范》是国家层面上的环境行业内的数据规范,该规范规定了环境信息数据字典的组成、内容等基本框架,提出了环境管理信息集及其分类结构,并提供了常见字典样式和环境信息数据字典样表。该规范为各级环境保护部门环境信息数据库的数据字典的编制设计提供了参考框架,并可作为环境信息数据库系统设计验收的参考依据。
2 基本概念
数据元(Data Element)和元数据(Mata Data)是数据标准化的对象。
数据元是指用一组属性描述定义、标志、表示和允许值的数据单元,起到对系统中实体及其属性进行唯一标志的作用,是不可再分的最小数据单元。如环境信息中常见的测站代码、测站名称、监测频次等。
元数据是关于描述数据的数据。它用于描述数据元属性信息,如描述环境信息数据元的中文名称、数据类型、长度、经度、单位、值域、是否可为空等属性的数据。元数据通过汇总存储形成数据字典。
数据字典(Data Dictionary)是指涉及其他数据应用和结构的数据的数据库,即用于存储元数据的数据库。它通过对规范化的元数据的管理,可以有效实现用户跨系统和跨环境的数据共享。
3 环境信息数据字典的建立和构建过程
3.1 环境信息数据字典的定义
环境信息数据字典是描述环境信息系统功能层次的术语、数据元素,是构建环境信息系统数据集数据元素最小单元的集合,存储对环境信息数据库体系结构的描述,记录环境数据的来源、说明、与其他数据的关系、用途和格式等信息。环境信息数据字典是一种结构化的数据模型,也是实现部门间信息共享和开发环境信息系统的基础,数据字典是在分析环境管理系统功能需求的基础上,按照系统功能层之间一定的逻辑数据流关系来确定其所包含的数据元素,并以国际标准规定的格式进行描述的一种数据存储、传递与管理的技术。
3.2 环境信息数据字典的构建过程
环境信息数据字典的数据元素是构成信息的最小单元,其构建类似于人类语言关于拼写和字词的环境信息系统的“数据元素”统一的术语名称、定义和格式。
3.2.1 确定环境数据集分类方法
目前多数环境数据分散于各部门,而且不同业务部门所管理的对象存在不同程度的重叠,环境数据纷繁复杂,建立环境信息数据字典就是要对分散于各部门的环境数据进行分类,形成具有一定逻辑关系的环境数据集,再在环境数据集基础上,进行分类,形成具有一定逻辑关系的数据表,针对各数据表,发掘其所涵盖的数据元。
(1)形成环境数据集
环境数据集是对各项环境管理业务领域涉及的环境信息的集合,数据集有助于现有数据元的定位。查找与某项环境管理业务相关的数据元信息使得数据集成为一个很有用处的工具,它能够提供各项环境管理业务涉及到的所有数据元。
(2)建立分类论和本体论
环境数据集的分类至少可以通过两种途径实现,较为理想但非常麻烦的方法是,首先形成一个包括所有可能数据元的完备分类,然后将数据元放入事先定义好的数据集中。然而,最为实用的方法是,先形成一个基本的而相对较为简单的分类,数据元根据分类放入事先定义好的数据集中,对于新加的数据元,允许其在使用严格规则的情况下主键完善。
在环境数据集分类中,每个节点是一个上位类的一个下位类。无论一个数据元被定义地如何好,分类对于其中的节点含义的确定描述具有极大的帮助。分类的另一个主要的作用在于有助于一个具体数据元的查找。分类通过大量的数据元描述支持导航查询。一个基本的分类结构能有助于数据元的查询、分析和应用。
3.2.2 确定元数据表达格式
根据已发布的有关元数据的国际标准、行业标准,结合杭州市环境信息数据化的特点,定义和描述元数据时采用中文名称、最大出现次数、数据类型、值域、约束/条件、备注几个属性来描述。
第一,中文名称
描述元数据元素的中文名称。
第二,最大出现次数
元数据元素可以具有的最大实例数据。只出现一次的用“1”表示,重复出现的用“N”表示。不为1 的固定出现次数用相应的数字表示,如“2”、“3”、“4”。
第三,数据类型
说明元数据元素的数据类型,对元数据元素的有效值域及允许的有效操作进行了规定。元数据元素的数据类型如表1 所示。
表1 元数据元素的数据类型
第四,值域
说明元数据元素可以取值的范围。
第五,约束/条件
说明元数据元素是否必须选取的属性,包括必选(M)、可选(O)和条件必选(C)。
(1)必选M
标明该元数据元素必须选择
(2)可选O
根据实际应用可以选择也可以不选的元数据元素。已经定义的可选元数据元素,可指导各业务数据元数据规范制定人员充分说明其业务信息资源。
(3)条件必选C
当满足约束条件中所定义的条件时必须选择。条件必选用于以下三种可能性之一:
·当在多个选项中进行选择时,至少一个选项必选,且必须使用;
·当另一个元数据元素已经使用时,选用一个元数据元素。
·当另一个元数据元素已经选择了一个特定值时,选用一个元数据元素。
第六,备注
对元数据元素的含义的进一步解释,包括该元数据元素的约束/必选(必选、可选或条件必选)、最大出现次数、值域等方面内容。当该元数据元素为条件必选时,应注明其约束条件。
3.2.3 确定环境信息数据字典格式
环境信息数据字典包括数据字典管理信息、数据表信息、数据项(数据元)信息等。环境信息数据字典需对上述内容进行规范化,以便以统一的表达形式完成环境信息数据字典的描述。根据元数据表达格式,对数据字典管理信息、数据表信息、数据项(数据元)信息,选择合适的元数据元素来描述,形成规范化的环境信息数据字典。
一是,编制数据字典管理信息
环境信息数据字典管理信息的元数据元素如下:
数据字典编写人、数据字典编写日期、数据字典最后修改日期、数据字典的状态、数据字典审核单位、数据字典审核人、审核日期。
对于数据字典管理信息的元数据元素,采用元数据表达格式的6 个属性,即中文名称、最大出现次数、数据类型、值域、约束/条件、备注进行描述。
二是,编制数据集信息
数据集信息的格式规范化主要包括数据集的元数据元素的描述规范化以及数据集的命名规范化两方面。
(1)数据集的元数据格式
环境信息数据字典数据集信息的元数据元素如下:
数据集名称、中文名称、描述、监管机构、联系人、联系电话、联系Email、联系地址及邮编、更新单位、最近更新日期、记录数、容量(MB)。
对于数据集信息的元数据元素,采用元数据表达格式的6 个属性,即中文名称、最大出现次数、数据类型、值域、约束/条件、备注进行描述。
(2)数据集命名格式
在环境信息数据字典中,环境数据集的管理还需要对环境数据集的分类和命名进行规范,以便于定义新增的数据集。
环境数据集命名规则为:分类信息名称+ “数据集”。
三是,编制数据表信息
数据表信息的格式规范化主要包括数据表的元数据元素的描述规范化以及数据表的命名规范化两方面。
(1)数据表的元数据格式
数据表信息的元数据元素如下:
数据表名称、中文名称、描述、监管机构、联系人、联系电话、联系Email、联系地址及邮编、更新单位、最近更新日期、记录数、容量(MB)。
对于数据表信息的元数据元素,采用元数据表达格式的6 个属性,即中文名称、最大出现次数、数据类型、值域、约束/条件、备注进行描述。
(2)数据表命名格式
在环境信息数据字典中,数据表的管理还需要对数据表的分类和命名进行规范,以便于定义新增的数据表。
数据表通常包括对象基本信息目录和管理信息目录,命名规则:
·分类信息名称+ “对象基本信息”·分类信息名称+ “管理信息”
四是,编制数据项信息
数据项信息的元数据元素如下:
中文名称、数据类型、长度、精度、单位、值域、是否可为空、备注。
对于数据项信息的元数据元素,采用元数据表达格式的6 个属性,即中文名称、最大出现次数、数据类型、值域、约束/条件、备注进行描述。
3.2.4 建立环境信息数据字典
通过对环境信息化发展要求、杭州环境发展要求的分析,结合杭州市环境信息化建设的实际情况,按照环境信息数据字典构建过程和环境数据集分类方法、元数据表达格式、环境信息数据字典格式,建立了符合杭州市实际情况的环境信息数据字典。
4 环境信息数据字典内容
杭州市环境信息数据字典内容包括数据字典管理信息、环境数据集信息、环境数据表信息和数据项信息。
4.1 数据字典管理信息
环境信息数据字典管理信息包括数据字典编写人、数据字典编写日期、数据字典最后修改日期、数据字典的状态、数据字典审核单位、数据字典审核人、审核日期。
4.2 环境数据集信息
根据杭州市环境数据的实际情况,结合国家环境信息分类与代码[1],形成环境数据集,包括环境质量信息数据集、生态环境信息数据集、污染源信息数据集、环境管理业务信息数据集、环境科技信息数据集、环保产业信息数据集、环境政务管理信息数据集、环境政策法规标准数据集、环境保护相关信息数据集。
4.3 环境数据表信息
环境数据表是环境数据集的子集,每个环境数据集包含一个或多个环境数据表。以自然生态数据集为例,共包括自然生态基本信息、土壤生态、森林生态、水域生态、海洋生态、湿地生态、生物多样性、生物安全性共8 张数据表。
4.4 数据项信息
数据项信息是根据环境业务数据情况制定的环境业务数据项,通过对环保业务调研、资料分析,提取数据项,根据已分类的环境数据集,将数据项归入适当的数据集中,并采用数据项信息的元数据表达格式进行描述,形成环境数据项信息。
例如,对于数据项“装机容量”,可划分到污染源数据集中,其元数据描述如下:
中文名称:装机容量
数据类型:DECIMAL(16,3)
长度:16
精度:3
单位:万千瓦
值域:
是否可为空:是
备注:
5 结论与展望
环境信息数据字典的编制在信息化发展中的重要作用和支撑地位,在业内已达成广泛共识。杭州市环境信息数据字典,按照向上积极采用适宜的国际标准或国家标准,向下突出环境管理与业务工作特点和需求原则,参考了包括GB/T 18391 《数据元的规范与标准化》在内的大量国家标准,并围绕元数据、数据元的基本概念、规范表达、命名、值域等数据元标准化内容进行了规范化系统化阐述,目的是指导和规范环境信息数据字典的研究工作。
[1]国家环境保护总局HJ/T 417-2007.环境信息分类与代码.
[2]环境绩效评估指标体系研究——以云南省为例[J].生态经济,2006,1.
[3]中国环境绩效评估指标体系和评估方法研究[J].环境管理,2008,14.
[4]基于PSR 模型的可持续发展研究[J].软科学,2002,16(05).
[5]潘腾,等.杭州市环境绩效考核指标体系的构建及应用研究[J].环境与可持续发展,2013,38(1):71-74.