地质档案信息资源管理平台建设及研究
2019-07-15梁其华
梁其华
河北省环境地质勘查院在多年技术密集型发展的研究实践中,在水资源、水环境监测、地质灾害、矿山环境、地质环境等学科领域形成了独特技术专业优势。自1957年监测院建成至今已积累了大量科技地质资料档案,这些宝贵的地质档案信息资源对地质环境监测、地质灾害防治等相关调查、综合研究工作有着重要的支撑作用,因此,迫切需要建立地质资料档案信息管理平台,实现内部资源的保存和网络资源共建共享、查询、利用以更好地服务于国民经济建设。
一、地质档案的现状
河北省环境地质勘查院(2017年更名为:河北省地质环境监测院,以下简称:监测院)资料室以前对地质档案管理采用的是“河北省地质环境目录信息系统”管理平台,本系统的建设只是实现了监测院所有地质档案的目录、档号、作者、形成日期等简单查询。而对地质档案还未实现全文检索,电子资源规模化、规范化分类组织,统一调度与管理资源。目前监测院约有1万4千多份地质档案,分别保存在监测院以及6市监测分院,为盘活现有总院和各监测院地质资料档案信息资源,提高地质资料开发利用水平,避免重复投入,需建建立全院一体化数字资源管理系统“信息资源管理平台”来管理地质资料档案,解决现有的大量电子文件和纸质文件数字化后的管理难题,实现监测总院与监测分院信息中心资源信息共建共享,以便提供最新、全面、快捷的地质档案信息资源服务。
二、地质档案信息管理平台框架建设与研究
1.信息管理平台建设的内容分析
目前,地质档案管理工作模式与时代发展对地质档案的需求存在严重的脱节。仍以纸质档案为主的管理模式,不仅产生了大量纸电一致性检查等费时费力缺乏意义的工作,也影响了现代地质工作中多元化手段所产生的丰富的信息数据档案信息资源的记录、展现和利用。为适应信息化时代的发展和需求,信息管理平台建设需从资源规划、资源整合、数据流程、总体框架建设、功能建设和检索信息门户的建设等六个方面内容进行了分析与研究。
2.信息管理平台资源规划
河北省地质环境监测院针对三种数据进行分析、管理、规划。
(1)纸质资源管理:通过系统提供数字化加工系统进行批量纸质资源加工。
(2)内部电子文档(包括音视频资源):通过系统提供数据迁移模块对内部电子档案进行批量整合。
(3)技术信息管理:由于监测院技术信息数据资源多为非结构化数据,因此系统在处理过程中需借助优质的软硬件设备,以便得出准确的结果。
3.信息管理平台资源整合
河北省地质环境监测院就是要整合现有数据及纸质资源,主要有以下资源需要进行整合:
(1)电子文档:对现有的地质原始和成果档案电子文件,通过标引、分类、组织等工作,统一导入到资源平台,并保持实时更新。
(2)纸质文档:对现存在的大量纸质资料,需要通过数字化制作、分类、组织等工作,以统一格式导入到资源平台,并保持实时更新。
4.地质档案的分类
对现有的地质资料档案管理模式进行综合研究和科学分类,为平台框架建设打好基础工作。
(1)根据地质档案生产阶段监测院分为:原始地质档案和成果地质档案。
依据《原始地质资料立卷归档规则》规定原始地质资料档案分十个类别:底/D、测/C、观/G、探/T、样/Y、试/S、录/L、像/X、综/Z、文/W 。
依据《成果地质档案电子文件汇交格式要求》成果地质资料档案分为:正文类、审批类、附图类、附表类、附件类、数据库和软件类、多媒体类、其他类。
(2)根据地质资料档案的类型监测院分为:技术地质成果、地形图、国家标准规范、行业标准规范、年鉴、地质图书、地质期刊、参考资料等。
5.信息管理平台数据流程
系统的数据来源共有两种:电子资源、纸质文档和各种数据库。因此就其数据流程分述如下:
(1)电子资源:对经过审定的电子文档直接经过分类和标引后存储到数据库中,供用户查阅。
(2)纸质文档:对经过审定的纸质文档首先需经过扫描,形成电子文档,其次经OCR识别软件识别,提取出文字信息,再从文字信息中提取出目录信息,最后经过分类和标引后存储到数据库中。
6.信息管理平台总体框架建设
河北省环境地质监测院信息管理平台总体框架的建设根据地质档案类别要求总体上采用松散耦合的分层架构,以统一的标准体系和安全保障体系作为支撑,由基础设施层、数据资源层、平台支撑层、业务应用层四个层次组成。TPI信息资源建设与管理系统中的各个模块将这四个层次有机结合起来,使每层功能相对集中和独立,能够为上一层提供很好的支撑服务,层与层之间具有明确的边界划分,这种松散耦合的结构便于未来软硬件及应用服务的调整、扩展与升级,基于面向服务(SOA)的设计理念以基础设施为基础,以数据资源整合共享为核心,将各种信息功能快速整合,开发出组合式应用,实现监测总院及6市监测分院地质档案信息化资源整合共享的目標。(整个系统的架构见图1)
7.信息平台管理功能的建设
系统需要将分散无序、形式各异的地质档案采集、整理、加工、集成、整合,形成统一的数据信息服务体系,并存储到资源数据库中,由此发布到网站平台上,提供相应的服务功能需求如下。
纸质文档加工系统主要对文档进行电子化处理,包括:扫描仪、照拍仪驱动开发及与相关系统集成、图像处理、目录树智能识别、OCR文本识别,电子标准格式解析,电子浏览器开发等。将数字化的地质成果报告的正文类、审批类、附图类、附表类、附件类、数据库和软件类、多媒体类和其他类等资源通过数字化加工系统,建成科技信息数据库,最终实现科技信息的系统化管理。
整个系统以监测总院为中心,构建中心服务器,各个分院通过客户端上传总院内部的中心服务器。各分院使用扫描仪设备将成果报告以及所有纸质资料档案扫描成图像文件输入计算机,扫描成册的图像文件通过加工工具转换成pdf格式,并在该工具中实现生成图片双层pdf,目录加工,基本图像处理,pdf水印等操作。之后与各处电子资源一并通过分类标引工具进行文字的加工标引、校对等工作后,上传至中心服务器。数据经中心服务器或客户端发布形成监测院地质档案管理平台门户系统,从而为用户提供地质资料档案查询、借阅等服务。(见图2地质纸质档案数字化功能建设框架图)
8.检索与信息资源门户的建设
(1)用户授权管理
将数据进行扫描、导入、建库、分类、标引后,进入数据的发布流程。通过系统的发布后台对访问者的信息以及数据的分配等操作权限进行管理。管理员账户可对访问者账户进行增加、删除、修改等功能的操作。并给访问者账户分配不同等级的数据操作权限,包含:添加、修改、删除、分配任务、建庫、标引、分类、检查、文献检索、下载、在线浏览、打印、文件拷贝等权限。
数据库存储的密级管理,分为公开、内部、秘密、机密和绝密五个等级,可以根据自己需要设置。对本系统的使用操作用户进行管理,使得应用系统拥有合理、高效而灵活的统一用户管理安全机制,不同身份的用户拥有不同的操作权限,管理者还可以根据实际情况为用户动态添加权限。通过多层次的权限验证机制,确保没有相应权限的用户无法修改或访问相关的信息,充分保障关键数据的安全。
(2)信息资源门户
通过该系统的各个工具将数据资源按照一定的规则建立,并经过系统发布后台设置权限将数据统一发布后,可通过建立一个综合应用类门户,将各种应用系统、数据资源和网络资源集成到监测院地质档案信息管理平台上,实现单点登陆、内容聚合和个性化定制等。被授权账户可以通过单一的入口安全的访问信息资源全部和部分内容。门户系统的搭建,将所需要的各类数据资源目录按照设定好的分类体系进行有条理的展示和导航,从而达到一站式导航的共享应用目标。(见图3管理平台检索标准门户图)
三、功能缺陷及拓展方向
1.功能缺陷
(1)地质档案信息管理平台还未实现原始地质档案上传文件自动分类板块功能。
(2)还未实现与全国地质资料归档汇交信息系统DE-Maker2018软件对接功能。
2.拓展方向
地质档案信息管理系统建设目的就是实现地质档案多模式管理、汇交、利用与服务,实现与全国各省地质档案馆、地质档案室互联互通、信息集成、数据交换、信息共享,完成地质档案工作向以数据为主的服务模式全面转型,为社会提供系列化、标准化的地质档案数据信息产品。为此,需要对“地质档案信息管理平台建设”继续进行拓展与研究,完成与监测院现有地质档案信息目录系统对接,与全国地质资料归档汇交信息系统DE-Maker2018对接,形成对地质资料数据进行在线电子文档制作,自动接收、查验、入库管理、涉密清理、集成整合等处理模式,达到可以进行汇交地质资料的数字资源唯一标识符申请及著录、汇交等业务的在线办理和指导工作,形成支持原始地质档案分类和地质成果分类的标准化、规模化、可共享的地质资料档案数字资源信息,形成一个分散为集中的地质档案全国信息管理系统大数据中心,进一步提高地质档案的科学管理与社会化服务水平。
(作者单位:河北省地质环境监测院)