浅谈原始地质资料数据集成工作面临的问题和建议
2022-01-17宿晓虹中国地质调查局西安地质调查中心
宿晓虹 中国地质调查局西安地质调查中心
原始地质资料有着保存地质调查工作信息的原始性、详实性和完整性等特点,原始地质资料数据集成是地质资料信息化工作的重要组成部分。文章介绍了原始地质资料管理所面临的必须从数字化到数据集成变革的原因。同时也进一步说明了原始地质资料数据化的重要性和数据集成进程的必然性,在原始地质资料数据集成实际过程中存在的现实问题及建议,以及做好原始地质资料电子化的重要意义。
伴随着信息化、大数据计算技术的迅猛发展,地质调查成果资料信息化也紧跟时代发展步伐,成为近年来地质资料管理关注的热点。为进一步满足社会对地质成果资料的需求,需要不断地发掘与整合相关地质资料信息资源,开展基于互联网的在线化地质资料社会化查询和下载服务。地质资料信息化是地质资料进一步扩大社会服务网络化的前提与基础。国家和省级各地质资料馆作为地质调查成果信息资源系统的重要组成部分,正面临着从传统地质资料档案线下查询和借阅服务转向互联网线上信息化服务的挑战。地质资料信息化成果对促进各类地质资料馆馆藏资料管理与便捷的利用,已逐渐被行业内广大用户所接受与重视。
伴随着地质资料信息化成果应用领域的不断拓展,国家和省级各地质资料馆馆藏海量原始地质资料数据集成,成为地质资料档案馆信息化建设工作所面对和迫切需要解决的巨大难题之一,也是地质工作“一张图”平台建设所需数据的重要来源之一,是地质资料管理事业适应信息化时代发展的必然趋势。原始地质资料数据信息化集成成果,对促进馆藏地质成果资料社会化利用率与潜在价值的提升将起到极大的推进作用。随着中国地质调查局“地质云3.0”平台在互联网上的大力应用和推广,行业内用户和社会大众对图文地质资料信息化成果工作的意义也有了全新的认识。但现有纸质和部分数字化的原始地质资料数量和有限的利用率,以及再次利用的复杂性,已远不能充分满足地质调查工作整体规划和部署的需要,由于地质成果资料数据集成程度的不足,对区域资源评价、形势分析和保障程度论证有较大的分歧,选区规划难以全面制定。
自1999年以来,伴随着20多年来地质调查工作的全面推进,地质勘查中最基础的第一手地质信息即原始地质资料,正在以惊人的数量和速度汇聚在国家和省级地质资料馆或是地质调查项目实施单位,归档的原始地质资料绝大多数是纸质和数字化档案,数据资料归档资源所占比例较低,这给原始地质资料数据集成工作带来了很大难度。
原始地质资料的重要性与数据集成的进程
地质科技档案主要分为原始地质资料、成果地质资料及地质科技资料三大类。原始地质资料具有保存信息原始性、系统性、完整性和保存长期性等特点。在有些原始资料中,所涉及到的地质、资源数据信息,鉴于当时的科学技术水平限制,未能正确地进行分析、解译,所得出的结论可能不够完整和准确。有些地质工作人员或研究人员由于当时观点认识的不同,忽略了一些重要的地质信息,这也可能造成信息遗漏。随着科学技术水平的发展和综合研究能力的提高,我们在重新查阅以往馆藏的原始地质资料时,需要提取数据信息重新进行综合分析或研究,可能会得到新的信息、新的认识,取得较大的地质调查或科研理论突破。所以,原始地质资料有着长远的、重要的备查和备考作用,它的再次可利用性越来越受到广大地质工作者的重视。
西安地质调查中心原地调部从地质项目设立初始阶段就制定了地质资料管理相关细则,其中对原始地质资料的归档内容进行了详细的规定。随着时代的变迁,地质资料管理的各项规章制度不断细化修订,但是原始地质资料一直是地质资料的重要组成部分。在以往的岁月里因为各类条件所限,原始地质资料归档的载体形式多样,规格大小不一,并且多以纸介质为主,少量数字化成果,同时地质资料本身分类繁多,虽然项目工作周期时间跨度大,数量繁多,但是地质成果资料归档管理工作一直延续从未间断。
随着地质详查工作在全国范围内的全面推进,已有地质成果资料已不能满足项目调查、研究的需求,许多项目需要查阅调查区的第一手原始地质资料,用以开展工作区综合分析,但翻阅归档的传统纸介质资料加大了项目工作人员进一步开展工作的繁杂性。另一方面大量的纸介质原始地质资料汇聚,对各馆藏单位的库房管理也造成了巨大的压力,原始地质资料的数字化呼声日益高涨。在此前提下,2008年-2013年中国地质调查局发展研究中心对重要原始地质资料开展数字化工作,陆续在天津地质调查中心、沈阳地质调查中心和西安地质调查中心等三家单位进行了试点,同时全国已有部分省级地质资料馆也开始了原始地质资料数字化,并于2014年制定了相关标准规范。但是,全国原有馆藏原始地质资料数字化工作因种种客观原因进展缓慢。
为了实现原始地质资料现代化、信息化管理,充分发挥其在国民经济建设中的作用,对其进行数据集成已是地质资料集群化、产业化大势所趋。2015年中国地质调查局发展研究中心就所属29家单位的成果地质资料、原始地质地质资料等馆藏资料进行文件级目录的摸底工作,为地质资料的数据集成、信息化工作的开展打下基础。随着2019年地质调查在线化工作全面开展,数据资料成为近两年来原始地质资料归档的主体,但是原有大量馆藏纸介质和数字化资料是原始资料数据集成工作面临的巨大瓶颈。由于原始地质资料载体的局限性和信息提取的难度较大,截止2018年地质信息产品和数据的研发多以成果地质资料数据集成为基础。本文结合西安地质调查中心馆藏的原始地质资料情况,借鉴西安地质调查中心原始地质资料数据集成前期的工作经验和认识,浅谈对原始地质资料数据集成工作面临的问题和建议。
原始地质资料数据集成存在问题
原始地质资料图文数字化程度较低
西安地质调查中心从上世纪60年代至今积累了海量的纸介质原始地质资料,从大量纸质资料中进行数据集成所要耗费的时间和人员在2-3年内都无法完成。因此原始地质资料的数字化资源是原始资料数据快速集成的基础。截止2015年底,西安地质调查中心完成了馆藏715档原始地质资料共计1578幅(也)地质图件的图文数字化,仅占馆藏纸介质原始地质资料的19%,资料图文数字化程度较低。
原始地质资料数据集成缺乏专业技术人员
基于传统观念地质资料管理部门在单位所处的地位和人员配置一直是地质资料数据集成工作的掣肘。资料管理人员不仅配置严重不足,结构也不甚合理,素质亟待提高。原始地质资料的数据集成是一个非常庞大的系统工程,它需要基础工作人员将纸介质资料数字化,专业人员根据上层地质信息产品和数据的设计进行信息提取、数据库建设以及开发多样化的利用形式。但是在地质信息产品和数据研发方面3-4人的团队配置是远远无法完成这些繁琐而大量的工作。受人员编制和其他原因所限,在引进人才方面与其他部门相比处于劣势。
原始地质资料数据集成缺乏专用的经费支撑
西安地质调查中心在2013-2015年连续三年开展的地质资料数字化工作,是在中国地质调查局发展研究中心下达了资料管理方向的地质调查项目经费支撑下开展的。彼时为了解放出专业技术人员用来梳理出需求量大的原始地质资料,返聘了四个有多年工作经验的资料员,还委托了符合资质的专业数字化团队才完成了715档原始地质资料的数字化工作。2016年后经费调整再未设立相关项目,资料管理经费由中心统筹支付,仅能维持资料的接收、验收、借阅、存储和库房管理等日常工作运行,资料数字化工作已全面停滞。
原始地质资料数据集成需要大量的时间和人力
现有馆藏的原始地质资料因当时接收人员的原因,部分归档文件存在一定的问题,如部分野外记录和图件着墨不规范,部分文字或图上的标识已经脱墨,模糊不清。部分图件因使用频繁,老化破损严重,需要抢救性修复等问题。这些原因都增加了原始地质资料图文数字化的困难,阻碍了进程。在2013年的试点工作中西安地质调查中心特意做了图文数字化的时间记录测试,选择2005年以后归档区域地质、矿产调查及水工环资料各1档共计9851张(页),资料中有部分文字和图件归档了电子版本,节约了不少时间。尽管如此仍然专人专事工作了27天,如下图所示:
原始地质资料数据集成过程中存在密级重新认定问题
随着社会的发展,地质资料定密等级的依据一直在修订完善,因此不同时期归档的原始地质资料中同一种资料确定的密级相差甚远。要将现有的馆藏原始地质资料数字化,首先就要根据新的制度重新认定密级,这是一项庞大的工作任务。
原始地质资料数据集成缺乏专业的顶层设计
原始资料数据集成的理想状态是根据自然资源部和中国地质调查局的区域规划,专业技术人员结合本单位所辖研究区和现有资料策划开发市场需求的集成成果。现在所面临困境是,上层负责的成果集成设计的人员不是数据集成团队的成员,策划的产品只考虑已有资料的拥有范围和市场的需求,不了解底层的资料数字化程度处于较低状态,有效数据信息提取程度有限,根本无法满足上层策划的数据集成要求。任务下达后底层的技术人员再向上反馈所面临无法完成任务的原因及可完成的部分内容,申请修改上层策划或部分完成成果集成。这样的事情时有发生,严重影响了地质资料信息服务的进程。
建议
加速馆藏原始地质资料图文数字化进程
原始地质资料的数据快速集成的第一步必然是图文资料的数字化,然而大部分的馆藏地质资料尚未实现数字化。应采取以下措施加快馆藏地质资料图文数字化工作。一是加大资金和人员投入。应设立专项资金,才可组织扩大专业团队,快速开展原始地质资料的图文数字化;二是要加强技术研究,如栅格图件矢量化技术研究,资料老、旧、破修复技术研究等,缩减图文数字化时间。
加强数据集成团队建设
人才在地质资料数据集成工作中始终处于主导地位。一是借助地质资料管理的信息化建设,引入更多的、高素质的专业技术人员,同时让数据集成人员有话语权,充分开发和利用已有原始地质资料数据信息资源结合上层规划,研发企业、科研人员和公众地质资料需求的服务产品,扩大数据集成的影响力,从而提升原始地质资料数据集成工作的重要性,为原始地质资料的数据化集成工作全面开展奠定基础。二是有了好的工作局面就可以集结更多方面的人才,原始地质资料各专业的数据集成才可分工明确,信息提取准确、可靠,区域面积自然资源数据的综合集成才可无障碍进行,原始地质资料中存储的宝贵知识财富才可充分利用。
开展定期跟踪服务
发挥原始地质资料资源的作用,针对热门资料借取需求,分课题、专业提供进行成果集成,定期跟踪服务。利用第一手资料的优势,多提供综述、述评、研究报告等深层次的二次文献。
原始地质资料是地质勘查,科学研究工作中取得的第一手数据资料,是研究地质科学,编写最终成果——地质报告的基础和依据,包含着整个项目的工作周期所有的调查成果。原始地质资料信息内容丰富,数据准确,极为宝贵。地质资料数据集成工作是一项复杂的系统工程,需要长期细致的工作,在数据集成过程中进一步提高认识,加快数据集成步伐已成为必然。原始地质资料数据集成是地质资料信息化工作的重要组成部分,把传统的档案信息管理与网络化数据化管理相结合,提高原始地质资料的利用率,是地质档案工作者今后一个时期的重点工作。把开展原始地质资料数据化服务,填补地质资料馆藏信息化内容方面的空白,拓宽地质资料服务渠道,为地质档案行业更好的的开展社会化服务提供数据支撑工作。