数字地质资料馆元数据编目与服务研究
2020-05-22高学正孔昭煜李晓蕾贾丽琼
高学正,孔昭煜,李晓蕾,贾丽琼
(1.中国地质调查局发展研究中心,北京 100037; 2.全国地质资料馆,北京 100037)
地质资料是地质工作的真实记录与成果结晶,兼具专业性与档案性,对于现势性地质工作具有指导和参考意义[1-2]。地质资料的管理与服务是开展地质工作的重要基础环节,为我国能源保障与资源安全做出了重要贡献[3]。随着信息时代的到来,服务需求日益多元化[4],科学管理、快速提供、精准服务已成为我国地质资料馆藏机构面临的重要命题。元数据作为数据管理与服务的基础,在地质数字化服务方面发挥着核心作用[5],也成为了地质资料馆藏机构持续提供权威、高效服务的助推器。
1 数字地质资料馆概况及组成
1.1 数字地质资料馆概况
数字地质资料馆是以数字资源为核心的资料馆,面向数字资源管理、面向新技术环境下社会化服务需求,以现代信息技术改造传统工作流程,汇聚全国地质数字资源,集合了各地质学科和各专业的地质数据[6],能够向社会提供公益权威、开放稳定、持续发展的地质信息服务的国家级地质信息资源基础设施[7]。简而言之,数字地质资料馆是用数字技术处理、存储、发布数字形式的地质工作记录与地质工作成果的分布式信息系统。
1.2 数字地质资料馆技术系统组成
数字资料馆是一个不断建设持续运行的系统,从建设与运行的角度,其技术系统包括一站式门户与关联网站系统、应用服务系统与支撑系统、元数据、框架数据和地质专题数据构成的数据库体系、标准规范与政策、技术平台等六大部分[8]。
地质资料元数据与数据目录是数字地质资料馆的核心内容,包括馆藏资料数据目录、案卷级和文件级元数据信息、各类地质数据的衍生产品元数据(数据产品元数据、地质专题与应用元数据、地质文献元数据、在线服务元数据、地质图库元数据等)。标准规范与政策是系统各部分建设的准则和指导,系统各构件建设和运行,要根据建设内容,按照相应的标准和规范进行,是保证系统各部分能够有效互联互通的基础;技术平台包括计算机网络系统、安全保障系统。前者为数字资料馆各个构件的信息交换提供互连互通的基础,使之形成一个整体。后者用于在各个层面保障计算机网络系统、数字信息库系统、各类应用与支撑系统的运行安全;信息体系由实体资料、电子文档与数据库构成,是数据服务提供基础,同时信息体系也是其余构件的主要工作对象;应用服务系统与支撑系统是各类终端用户和应用系统类用户获得系统服务能力的平台,同时也是数字地质资料馆内部运转,开展数据组织管理和整合处理的平台。资料数据成果包括馆藏资料成果、研发的地质数据产品以及其他渠道获取的数据信息。
2 地质资料元数据建设
地质资料的内容与组织结构较为复杂,具有工作周期长、涉及专业多、数据量大、格式多样、难以重复获取等特点。成果地质资料以档为基本单元,内容十分丰富,不仅有多格式的文档资料,还包括有附图、附表、附件等内容。地质资料具有现代信息数据的属性,同时具有极强的现势性服务价值,因此,能够对其所承载的信息内容进行准确地描述至关重要。
2.1 地质资料元数据编目系统建设
为加快地质资料元数据的编目速度,尤其是文件级地质资料元数据的建设,实现地质资料的精细化管理和高质量服务,全国地质资料馆开发建设了地质资料元数据编目系统,并利用这套系统开展了馆藏地质资料元数据的采集生产。系统以自动化采集的方式完成主要是元数据项的快速建立,并在人工数据采集过程中使用了流程化模型实现数据质量控制,数据需要经过自检、互检和抽检三级质量检查方可入库。元数据与每件存档数据都进行了数据关联,并全部存储于数据库中,使百万件数据的检索与获取变得高效便捷,安全可靠。
图1 地质资料元数据编目系统功能结构
Fig.1 Functional structure of geological data metadata cataloging system
系统的功能包括用户管理、数据导入、信息提取、任务分配、案卷级和文件级编目、质量检查、元数据查询、数据统计以及成果导出,数据生产过程由系统自动完成和人机交互来共同完成,主要的流程包括提取案卷级元数据内容及文件级题名清单、自动生成默认项、人工编目、质量检查、数据入库和数据库备份等6个步骤。
2.2 地质元数据建设成果
地质服务,目录先行。近年来,随着数字地质资料馆的不断建设与发展,元数据编目工作也取得了显著的成就。经过多年的积累与实践,以馆藏数据目录为基础,以地质资料元数据编目系统为工作手段,全国地质资料馆取得了大量有价值的元数据成果,从而进一步明确了成果地质资料中“档”和“件”的关系,同时也建立了“档”和“库”的关联,促进馆藏机构全面掌握馆内数据内容,实现了数据的精细化、科学化管理。另一方面,元数据已经成为提高社会化服务水平的重要抓手。不同于实体数据,目录的处理相对简单,及时向用户公开进馆资料的基本信息,可以极大地满足地质资料的服务利用要求,为用户了解、跟踪和使用地质资料提供了便利。截至目前,全国地质资料馆地质资料元数据库包含文件级元数据5 203 080条,其中矢量数据共计2 454 669条,图文数字化数据共计27 848 411条,见表1。
表1 馆藏地质资料元数据分类别统计
2.3 元数据服务进展
数据目录和元数据是用户开展资源检索的基础,同时也是地质资料馆藏机构满足地质资料多元化需求的必要条件。随着网络服务的日益发达和地质资料数字化的完成,全国地质资料馆基于馆藏目录和元数据成果研发了多种地质资料数据产品,并通过数字地质资料馆进行了发布,公众可以方便的进行查询,取得了很好的实践效果。
1) 地质资料网络服务产品建设。作为由“纸”向“电”转换的代表性内容,地质资料网络服务产品受到了广大用户的欢迎,已经成为数字地质资料馆开展网络服务的重要组成内容,连同元数据成果一同发布,使用户实现了对地质资料的一站式查询,体现了网络服务的跨时空、交互式、不间断、范围广的特点。通过对用户点击行为和关注度的监督与统计,馆藏机构可以更好的追踪用户的使用习惯,更好地了解用户需求,并根据需求持续改进产品内容,更好的满足用户,形成了地质资料服务的良性循环。
2) 地质资料元数据互联互查平台实践。地质资料元数据互联互查平台是在开展元数据互联互查技术、国际标准、数据接口与数据语义[9]技术的研究基础上逐步建设完成的。基于此,全国地质资料馆实现了与我国测绘部门、地理信息部门,以及相关国际地质调查机构的元数据互联查询。平台很好地体现了跨越空间的语义检索,实现了不同网络环境、不同职责部门开展多层次、多类别用户的在线元数据服务,极大地促进了地质资料信息资源的共享,扩大了地质资料的影响范围,起到良好的宣传和传播效果。通过元数据互联互查技术的实践,对外实现了规范化化元数据服务的接入,向互查方提供了地质资料元数据的查询检索接口。对内依据互查要求完善了元数据编目系统功能,补充了数据采集内容,建立了数据的简单统计与导出机制。在内、外网络环境下提供的元数据互联互查服务,有效地支撑了地质资料数据管理与服务工作的开展。
3 馆藏机构元数据建设存在的问题
1) 元数据资源优势没有得到很好的发挥。我国地质资料馆藏机构建设程度不一,尤其是信息化水平和能力有较大差别,部分机构的信息系统和网络支撑受资金和人力因素限制建设效果不佳。大量地质信息数据内容没有整理或没有条件进行网络发布,用户获取资料还只能依赖到馆申请,没有体现出数字资源优势。
2) 元数据采编的标准不一。当前,地质资料馆藏机构的目录和元数据编目标准没有进行统一,元数据编目尤其是文件级元数据编目细粒度程度也存在不一致的情况,元数据字段内容和编目细则没有进行统一规范。各级馆藏机构所使用的编目系统以及系统的接口没有进行统一,甚至部分馆藏机构并没有开展文件级元数据的编目工作,对后期开展元数据开放与共享工作造成困难。
3) 馆藏机构间缺乏数据合作与共享。地质资料数字资源作为一种信息资源,利用信息技术实现其所蕴含的巨大价值至关重要。但截至目前,地质资料馆藏机构间信息资源集成汇聚程度不够、资源开放共享程度不高、合作创新能力不足。这些问题的存在,造成了资金资源浪费,重复工作现象的存在,拖慢元数据的编目速度与水平,不利于地质资料的管理和服务工作的开展。
4) 元数据采集与发布内容不全面。大多数地质资料馆藏机构发布内容仅仅为馆藏资料目录,缺乏元数据内部生产和管理机制,对于所研发的地质资料产品、灾害应急服务、公开版地质图产品没有开展元数据的采集与发布,用户若需要相关资料只能到馆获取,影响网络数据服务利用的开展。
4 地质资料管理和服务建议
在信息技术高速发展的当今,地质资料信息资源的管理、组织、发布与服务面临巨大的机遇与挑战。利用信息化技术,建立地质信息数字化管理与服务平台,将地质元数据成果最大范围的进行社会服务,让“数据多跑腿,群众少跑路”成为地质资料馆藏机构发展的方向和目标。
1) 统一元数据采编标准。无规矩不成方圆,元数据的规范化编目是开展元数据管理和进行元数据服务的基础,也可以为地质资料数字信息的管理提供基础。通过参考图书馆界与档案界的目录和元数据标准,结合地质资料的实际工作特点,确立符合地质资料工作规律与特点的各级馆藏机构可以统一执行的元数据编目标准。通过利用数字资源唯一标识符,为全国每一档、每一件地质资料进行唯一身份标识,解决馆藏机构间档号不一致的问题,同时提供网络环境下可解析的、持久的、可语义互操作的标识机制,为开展分布式环境下地质资料数字资源的集成、管理和服务提供有力支持。
2) 建立多元的元数据编目机制。在在线服务、数据产品大量涌现的情况下,地质资料的目录和元数据并不仅局限于馆藏资料一种,支持馆藏机构的各类数据库和相关数据产品的元数据和传统馆藏元数据也不完全一致,做好馆藏资料元数据的编目的同时,需建立更为多元的元数据采编机制,开展更大范围的地质元数据编目工作,从而丰富元数据内容提供用户进行快速索取。
3) 开展元数据合作创新。通过馆藏目录的对接,推进馆藏机构间元数据的共享与交换,建立数据共享交换系统,形成数据和目录的共享工作机制。加强各机构彼此联系与创新合作,分享的元数建设目成果,减少重复投资与建设。以点带面,促进信息资源编目的同时,提高馆藏机构的信息化能力和技术水平。通过联合编目工作的开展提高我国地质资料元数据的编目速度,使元数据管理与服务达到快速聚集、组织有序、分工明确、精准服务的目标,最大化的发挥地质资料的巨大价值。
4) 开展多维多层次的元数据服务。对国内外信息系统建设进行调研,借鉴其先进经验与做法,探索开展多维度、多样化、多展现形式的目录服务模式。提高实体数据与目录服务信息的集成整合程度,开展关联数据、数据挖掘、语义检索、知识发现、人工智能等数据发现应用的技术研究工作[9-10],为用户提供更为丰富和准确的信息。针对特定用户,在了解其需求的基础上,开展元数据定制化服务并定期更新,多措并举提高馆藏机构目录和元数据资源的利用效率。