APP下载

地质勘查中地质与地球物理数据分类与组织研究

2020-12-09程世秀

世界有色金属 2020年14期
关键词:勘测数据库分类

程世秀

(1.山东省第四地质矿产勘查院,山东 潍坊 261021;2.山东省地矿局海岸带地质环境保护重点实验室,山东 潍坊 261021)

进入新世纪后,国际上主要的经济体均已信息技术为抓手,开始了新一轮的技术革命,力图掌握发展的主动权和新的技术制高点。我国大数据技术起步较晚,但是发展迅速,数字强国和数据治国战略已经成为了国家发展和治理的主要战略之一。在此背景下,信息行业迎来了发展的黄金机遇期,但是在具体应用层面,还有诸多需要解决的问题。实施信息化的基础是数据,数据的高效整合和利用是信息化发展的必然要求。以信息化和数字化为标志的高新技术极大地促进了地球物理技术的发展。

1 地质与地球物理数据分类

随着地质调查工作和调查技术的发展,分析测试手段逐渐增多,积累的数据要素和格式也随之增加。高效处理和利用来源广泛、时间跨度大、格式不一的数据技术,为资源的开发提供数据支撑,是解决数据快速积累与充分挖掘之间矛盾的最佳手段。调研中发现,现阶段制约地质与地球物理数据分析的主要问题包括数据分类不统一、数据来源复杂、异构性突出、组织方式多样等。在开展地质与地球物理数据分类与组织研究时,需要建立数据体系,最终实现海量数据的有序化存储与处理。地质与地球物理数据涉及现场采集、室内测试分析、处理解释和研究等环节。数据分类一般先根据流转和加工程度划分,然后再根据数据类型进行细分。以地质与地球物理数据加工程度和数据流转为依据,可分为以下几类:

(1)任务文档类:主要包括任务合同、实施方案等,以pdf或word格式存储;任务文档属于调查和勘测之前的文档,可为后续的数据处理提供依据。

(2)原始数据类:包括勘测仪器数据和现场原位测试数据,储存格式各异;数据多数是未经处理的。

(3)整编数据类:按照规范要求整理的分析测试数据和勘测仪器数据,质量评估报告等,以txt/excel格式存储;整编数据集是根据《地球物理资料整编技术规程》有关要求,对地质采样样品分析测试数据和地球物理后处理成果数据进行整理分析形成。一般样品室内分析测试整编数据以excel形式存储,仪器获取处理成果数据以文本文件形式存储。地质与地球物理数据按样品类型又可分为岩石、沉积物等类型。岩石测试数据包括物性测试、成分测试和化学测试等;沉积物数据包括古生物、沉积矿物、沉积物粒度及工程力学数据等是多种细分类型。整编数据类也可以按照调查手段进行分类,分为磁力调查数据、地震勘测数据、重力勘测数据、地层剖面、电磁探测数据等。

(4)标准数据集:标准数据集指的是按照规范的转码格式和质量控制手段,重新排列后的文件集合,处理后的数据格式相对统一,可直接导入数据库中使用。在这一过程中,标准化发挥着重要的作用,标准数据集是地质与地球物理数据库建设的基础工作。

(5)项目成果。报告专著类:课题研究报告、发表的专著、专利和论文,以pdf或word格式存储;图片图像类:专业拍摄设备获取的视频及图像,jpg、MP4、wmv、img等,可直观表示地质地球成果,主要有重力分布图、沉积物类型图等;软件类:软件及相应说明,软件是进行数据处理和管理的主要工具,属于技术支撑范畴。

2 数据标准化

由于地质与地球物理数据来源、时期和单位各不相同,导致数据的组织结构和表现方式不统一,在部分特殊地质与地球物理数据中,数据的处理参数和处理方法也各不相同。这在一定程度上影响了同一地区地质与地球物理数据的综合分析和应用,数据的价值无法体现。从这一角度分析,实现数据的标准化是挖掘数据价值的重要前提。

在数据标准化的处理过程中,需要保证数据的真实性、一致性和完整性。与此同时,为处理海量的地质与地球物理数据,需借助于相应的处理软件开展工作。按照数据的获取方式不同,地质与地球物理数据可分为室内测试数据和仪器直接获取数据两类,其中仪器直接获取数据包括重力/磁场/电场分布、地震及浅层剖面数据等,室内分析测试数据包括矿物成分、岩石粒度和微量元素含量等。

(1)文件命名标准化。在统一的命名规则下,地质与地球物理数据名称通常包括项目编号、区块编号和数据类型三部分。对于同一个区块开展多次勘测时,不同时期数据可在一个区块下进行合并。地质与地球物理数据的文件划分以测线为依据,文件名称中可直接反映测线。区块编码和项目编码信息可在文件夹名称中体现。

(2)数据完整性检查。数据完整性检查主要针对数据是否存在缺失及缺失的程度,对于数据不完整的数据文件,应在第一时间通过对比原始数据和资料处理报告,确定数据缺失的部分,并进行补充。尤其应注意,地质与地球物理数据中的经纬度等关键数据及字段信息必须完整,关键数据缺失将导致整体无法应用。

(3)数据代码统一。在地质与地球物理数据标准化过程中,经常会涉及公共字段的编码,主要是区块、项目和勘测时间信息等。不同的项目或者勘测时间产生的数据在编码上可能存在差异,这就需要在数据代码统一环节中进行统一编码和规范管理。

(4)格式转换。地质与地球物理数据由于来源不同、采集人员不同、处理单位不同,导致数据格式不同意。对异构数据进行格式转化,能够为后续数据的利用奠定基础,促进数据的共享。格式转化的过程,需要解析源文件,将格式不同的源文件转化为统一格式的数据。磁力、重力数据的标准格式为文本格式,关键字段和数据的位置相对固定,为后续查找和处理提供了便利条件。浅层剖面和地震剖面数据处理后转化为标准格式的数据,便于通过测线进行数据调用。

(5)数据质量控制。数据质量控制可结合人工和计算机管理实现,为保证地质与地球物理数据标准化的可靠性,在预处理阶段和处理后数据的抽检阶段,主要采用人工抽检的方式。对于标准数据集等大型文件,则需要专业化的计算机软件进行,常用的质量控制方法包括以下几种:①站位一致性检查:将站位表中的字段与数据中的站位信息核对,并做到一一对应;②数值范围检查:确定范围检查的经验值,并与数据中的要素对比;③着陆点检查等:核对数据的空间分布是否与调查区块对应;④逻辑一致性检查:判断数据之间的逻辑关系;⑤统计数据检查:依据统计学基本规则,检查统计数据的合理性,如百分比含量之和是否为100%。

3 数据组织

按照一定的规则或者方式,对采集或者处理的数据进行分类,存储,管理就是数据组织。高效的数据组织形式能够在数据的管理应用过程中起到积极作用。在数据组织架构的确定中,应结合数据本身特点和需求,建立分层次、成体系的管理框架。

3.1 基于文件的数据组织

基于文件的数据组织形式是地质与地球物理数据最常用的形式之一,在各种数据类型的备份存档和组织管理中都可应用。依据管理目的的不同和管理需求的各异,可使用不同的逻辑关系,建立分层次的文件组织形式。现实中地质与地球物理勘探通常以项目为主线,建议在资源汇集过程中按照项目进行分类并建立组织管理,实现数据对象的分类和抽象。对于同一个项目,可按照不同的勘测时间或者是区块进行分类。在同一行次范畴内,可依据数据的种类进行再次划分。在此基础上,根据每次任务取得的成果不同,可在文件组织架构下进行相应的扩充,通常情况下文件放置于专门的服务器中,并建立相应的索引表,便于后期文件调阅。总体来看,基于文件的组织形式管理较为便捷,后期扩充较为快捷,但是这种方式只针对于规范文件,并且对于组织结构和分类体系要求较高,否则将会导致后期检索和应用非常繁琐。

3.2 基于数据库的数据组织

3.2.1 基础数据库

使用事务型数据库管理系统,对地质与地球物理数据进行分类和管理,可按照方法和勘测专业的不同,建立地球物理基础数据库和海底地质基础数据库。在数据库的建立过程中,应深入对象之间的逻辑关系和映射关系,建立关联规则。在数据库中又包含很多个数据库表,每个数据库表中包含若干信息。对于日常数据管理和目录发布等基础应用,可建立结构化的事务性数据库。

3.2.2 综合数据库

以要素管理为主体,依托于分布式并行数据库集群储存技术,可建立数据库综合管理系统。在综合数据库中可进行数据抽取、清洗等复杂操作,同时综合数据库中的最小组成单元是列。以可视化展示和统计分析为基础的超大规模数据库,可为各类数据的分析研究提供助力。

3.2.3 成果数据库

成果数据库主要存储非结构化的数据,现阶段最主要的框架使用的是Hadoop,Hadoop是一个开源的分布式计算框架,可在大量廉价硬件基础上组成集群,构建一个易扩展、高可用的并行分布系统,该系统既可以从非结构化数据文件,也可以存储半结构化的数据文件。其中非结构化数据库具有高灵活、易扩展、高读写优势,可快速建立数据之间的关联,并结合深度分析进行趋势预测,满足数据深度挖掘的应用需求。

4 结语

借助于国家重大专项的研究和应用推广,我国在近海、大陆架和远洋深海等不同区域开展了大量的地质及地球物理勘测工作,积累了大量的地质地球物理数据。数据是管理的基础,也是应用的根本条件,良好的数据分类与组织架构能够为数据应用提供便捷条件。本文在深入分析地质与地球物理数据特性的基础上介绍了数据分类的基础知识,并结合质量控制和标准化处理,确定了数据存储策略,在此基础上探讨了非结构化数据和结构化数据的组织架构,对于地质,地球物理数据管理和应用具有重要意义。

猜你喜欢

勘测数据库分类
《城市勘测》理事单位名录
RTK技术在土地勘测定界中的应用研究
基于Android+Web的工程勘测数字化采集系统
小型无人机在水利工程勘测中的应用研究
按需分类
教你一招:数的分类
说说分类那些事
数据库
数据库
数据库