广西土地质量地球化学评价数据库建设的探索与思考
2024-03-14廖江南林崇献
◎ 廖江南,林崇献
2013—2020 年,广西完成了 99 个县(市、区)的土地质量地球化学评价工作,完成的调查面积、评价介质、分析测试数据居全国首位。广西从土壤、岩石、水、大气、植物、肥料等方面进行了立体调查和系统评价,并取得了丰硕的成果。这些调查评价成果可为国土空间规划、生态环境评价、土地质量等级评定、基本农田保护、土地整治、生态修复、富硒特色农业开发等工作提供基础数据支撑,具有重要的经济价值和社会意义。
为了充分利用这些调查评价成果,顺利实现调查评价成果的转化应用,自2019 年开始,广西开展了土地质量地球化学调查评价成果应用系统建设,工作内容包括数据库建设和信息系统开发。研究小组对数据库标准的研究情况和编制经验进行介绍,对于完善该项工作进行初探。
一、广西土地质量地球化学评价成果概况
广西所完成的99 个县(市、区)的1 ∶5 万土地质量地球化学调查评价成果是数据库建设的数据源。各县(市、区)的调查评价成果资料数据包括成果报告、成果附图、调查记录卡、分析结果报告、野外照片、航迹数据、质量监控记录文档等内容。经统计,调查评价成果资料数据量达6.8 TB。
调查评价成果数据具有多源、异构、海量等特性,按数据异构性特点,数据类型可划分为不包括几何特征的结构化属性数据、基于要素几何特征的空间数据和非结构化数据3 种。
二、现有数据库建设存在的问题
数据库建设必须依据一定的标准来开展工作。对于土地质量地球化学数据库建设,目前国内最新、可用的数据库建设标准为中国地质调查局发展研究中心编制的《土地质量地球化学调查评价数据库标准(申报稿,DD2018-XX)》(以下简称申报版《数据库标准》)。在数据库建设前期,数据库工作组收集与整理了横州市、宾阳县以及巴马瑶族自治县3 个市(县)的调查评价成果资料数据,按照申报版《数据库标准》进行数据标准化工作,但在此过程中发现,该标准未能完全适用,主要存在以下问题。
(一)部分数据库内容没有细化,不利于实际建库操作
申报版《数据库标准》中指出,数据库提交内容包括评价数据、原始图、成果图、元数据库、报告及质量监控文档、其他等,但部分内容没有具体化,如没有详述评价数据、其他项包括哪些具体内容,这给建库工作带来不确定性,不利于数据库建设的实际操作。
(二)结构化属性数据的数据项不全
1.采样介质类别划分不够详细,造成部分介质数据无法入库
广西土地质量地球化学评价区的采样介质涉及土壤、湖积物、土壤垂向剖面、灌溉水、饮用水、大气干(湿)沉降物、农作物、根系土、肥料、岩石、岩石表层土壤、成土母质等12 类。但在申报版《数据库标准》中没有列出湖积物、饮用水、岩石、岩石表层土壤、成土母质等采样介质的内容,仅以其他介质代替,这导致湖积物等采样介质的数据难以录入数据库并提供服务。
2.采样分析属性表规定的数据项内容不全面
广西土地质量地球化学评价工作有一套规范的野外采样记录卡,各类介质的野外采样记录卡均规定了野外采样记录的信息项目。经与申报版《数据库标准》对比发现,广西野外采样记录卡记录的一些内容无法在申报版《数据库标准》的对应采样信息表中反映,如表层土壤采样信息表,在广西野外采样记录卡中有反映重复样的标识字段,并且有原始样GPS 点号、作物种类、照片数量、样点数、详细描述、标记位置、记录人等数据项内容,但在申报版《数据库标准》的采样信息表中却缺少这些数据项内容。
广西土地质量地球化学评价工作在采样介质的分析项目方面也作了规定。经对比分析发现,申报版《数据库标准》的分析数据表未能涵盖广西实际的样品分析项目,如农作物元素分析数据表中缺少Ge、Zn、无机As 等元素的分析项目数据。
(三)评价结果要素类划分太细,导致数据库建设与系统应用难度增加
在申报版《数据库标准》中,土壤、灌溉水、大气干(湿)沉降物的评价结果要素类划分较多,如土壤养分单指标地球化学等级评价要素类按养分元素划分为多个要素类,土壤环境单指标地球化学等级评价要素类按环境指标元素划分为多个要素类,此外,还有土壤养分地球化学综合等级评价、土壤环境地球化学综合等级评价、土壤质量地球化学综合等级评价等要素类的划分。在实际等级评价成果图的制作中,这些要素类均源自同一个土壤评价结果要素类,在该要素类属性中挂接有多个营养元素和多个环境元素的含量值、单指标等级值,以及养分综合等级值、环境综合等级值、土壤质量综合等级值。因此,申报版《数据库标准》的评价结果要素类存在数据冗余的问题,这给数据库建设与系统应用增加了难度。
(四)数据库部分内容的命名与编码存在表达不清楚、不完整的问题
在申报版《数据库标准》中,工作区的数据集以“工作区名称首字母缩写”来反映其所属的工作区,该方式不能很好地表达数据集所属的工作区。广西以县级行政区为单位开展调查评价工作,若以“县(区)的行政区划代码+县(区)名称首字母”进行表达,能更好地识别、区分工作区数据集。此外,申报版《数据库标准》中野外照片的命名方式不符合实际操作,缺少航迹数据的命名规则,应补充完整。
(五)调查分析数据间的逻辑关系描述不够详细,影响数据的质量管理
在调查评价工作中,存在一个调查点采集多个、多类样品,以及一个样品分析获得多类数据(如部分土壤样品进行了元素全量和有效态两类分析)的情况,因此,需要建立和详细描述采样信息表与分析数据表之间的对应关系,否则将出现采样信息与分析数据之间的错位对应或无对应。而申报版《数据库标准》中缺少这方面逻辑关系的详细描述,影响了数据的质量管理与正确应用。
三、建 议
(一)充分参考和利用相关标准
可参考利用的土地质量地球化学相关标准主要有:《土地质量地球化学调查评价数据库标准(申报稿,DD 2018-XX)》《多目标区域地球化学数据库标准(DD 2010-04)》《土地质量地球化学评价规范(DZ/T 0295-2016)》等。
编制广西土地质量地球化学评价成果数据库建设标准时,建议充分利用申报版《数据库标准》的工作成果,再参考《多目标区域地球化学数据库标准(DD 2010-04)》等相关标准规范,并按照《地质数据库建设规范的结构与编写(DZ/T 0274-2015)》的要求进行编制。
(二)明确数据库架构与组成内容
广西土地质量地球化学评价工作以县级行政区为单位开展调查评价工作,建议将广西土地质量地球化学评价成果数据库分为2 级,一级为全区级数据库,二级为县(区)级数据库,全区级数据库由99 个县(区)级数据库集合而成。
根据评价成果服务与应用需求,入库数据应涵盖调查分析与评价成果,建议每个县(区)级数据库的组成内容应包含成果报告及相关文档、成果图、基础评价数据、评价结果数据、元数据、其他、建库说明七大项内容,并详细描述各项所包含的具体内容。
(三)根据调查分析数据的实际情况,建立实体类数据表及其数据项内容
(1)根据广西调查介质情况,设置每类介质的采样信息表、送样信息表和分析数据表,保证各类介质数据完整入库,并根据项目质量管理需要,增加采样弃点信息表,以说明弃采的原因。
(2)根据广西野外采样记录卡的数据项设计情况和样品的实际分析项目情况,设置各类介质采样信息表和分析数据表的数据项,以满足全面、完整地反映实际调查分析工作中所获取的信息和数据。
(四)按评价成果图的图层数据情况,建立要素类及其属性数据项内容
(1)根据实际需要,建立工作区、土地质量地球化学评价图斑、土地利用现状等符合广西需求的基础要素类。
(2)根据实际工作中的土地质量地球化学评价模型(见图1)及分类统计需求,确定土地质量地球化学等级评价结果要素类及其属性数据项内容。建议将等级评价结果要素类划分为土壤质量地球化学等级评价要素类、土壤质量地球化学元素有效态等级评价要素类、灌溉水环境地球化学等级评价要素类、大气干(湿)沉降物环境地球化学等级评价要素类和土地质量地球化学等级评价要素类5 类。
图1 土地质量地球化学评价模型图
(3)对于土壤单元素含量地球化学分布要素类,除设置常规分析元素含量地球化学分布要素类外,应根据实际工作成果图的情况,增加土壤元素有效态含量地球化学分布要素类,实事求是地反映部分县(区)的元素有效态调查评价成果。
(五)根据评价成果数据特征和管理需要,规范数据库的命名与编码
1.充分利用申报版《数据库标准》的数据命名与编码规则
申报版《数据库标准》的数据命名与编码规则符合国家相关标准,设置的数据名称直观、简练、突出主题,编制的数据代码结构合理、可区分、易识别,应充分利用。如数据库、实体类数据表、要素类的命名与编码规则应参照申报版《数据库标准》,数据项的代码、数据类型、长度/小数位、约束条件、数据单位、值域范围等应参考申报版《数据库标准》进行设置,并根据数据项内容的实际情况进行补充完善。
2.修改工作区数据集命名规则
申报版《数据库标准》的工作区数据集[即县(区)级数据库]的命名规则为:数据库主体要素类代码+省代码+比例尺代码+数据库覆盖范围类型代码+工作区名称首字母缩写。建议用“覆盖范围代码+工作区名称首字母缩写”代替申报版《数据库标准》中的“工作区名称首字母缩写”,覆盖范围代码采用6 位县级行政区划代码,以便快速识别数据集所属的县级行政区。
3.规范野外照片、航迹数据的命名规则
(1)野外照片存在大量重名现象,为减少工作量,在数据库建设期间,建议不对具体照片进行重新命名,而是将照片按调查点分类存放,存放照片的文件夹名称按采样点号命名。将照片数据导入管理系统时,再按“样点号+下划线+照片原文件名”的规则对照片进行命名,实现照片数据的区分与识别。
(2)建议航迹数据GPX 文件的命名规则为:航迹首字母缩写+介质类型代码+覆盖范围代码+采样小组识别号+采样日期,其中覆盖范围代码用6 位县级行政区划代码。使用该命名规则的GPX 文件可直观地反映航迹数据于何年何月何日、由谁、在哪个行政区、采集何种介质样品获取的。
(六)明确调查分析数据的逻辑关系,加强数据质量控制
1.明确调查分析数据的逻辑关系
为了在应用系统中实现采样信息、分析数据、野外照片以及航迹数据的一体化展示和有效利用,建议按以下要求反映调查分析数据之间的逻辑关系。
(1)所有采样信息表的样点号和每个分析数据表的样品袋号(即样品号)必须唯一。
(2)分析数据表中的样点号、样品袋号在对应介质的采样信息表中必须存在。
(3)野外照片通过存放照片的文件夹名称(以样点号命名)与采样信息表的样点号建立关联。
(4)航迹数据通过GPX 文件名称与采样信息表的航迹索引(该数据项填写对应的GPX 文件名称)建立关系。
2.建立数据质量控制文档
实施全面数据质量管理,针对数据库的各类数据特点,以及数据之间的逻辑对应关系,应建立适合本数据库检查验收的一套数据质量监控表,除工作日志表、数据自检表、数据互检表、数据抽检表外,建议新建分析数据检查表、工作区数据库检查表等,加强对重要数据以及数据间逻辑关系的检查。