基于知识服务的地学数据库产品开发模式研究
2020-05-22齐钒宇李晓蕾孔昭煜阎海飞
齐钒宇,李晓蕾,孔昭煜,阎海飞,张 仲
(1.中国地质调查局发展研究中心,北京 100037; 2.全国地质资料馆,北京 100037; 3.江苏省有色金属华东地质勘查局地质信息中心,江苏 南京 210007; 4.山东元鸿勘测规划设计有限公司,山东 济南 250014)
地质资料的本质属性是提供社会化服务,为国家重大工程、基础设施规划与建设和地质调查工作等提供精准化的地质信息产品服务[1]。近些年,社会各界对地学数据库产品的需求持续上涨,传统以项目建设地学数据库的方式很难满足社会发展的需求,利用地质资料数字资源,从中挖掘出地学知识汇聚并形成数据库产品成为现今地质资料精准化服务的研究热点之一。
地质资料作为一种专业类科技档案,同时也是地学知识的集合体,其中蕴含着海量的地学知识信息,易于开展地质资料的深入分析和知识的提炼聚合,具有利用知识服务开展地学知识汇聚并建库的良好基础[2]。本研究基于地质资料数字资源,以提升地质资料精准服务质量为目标,贯彻社会各界用户对地学数据库产品的切实需求,融入知识建库核心过程,提出基于知识服务的地学数据库产品开发模式及发展建议,带动地学数据库产品开发与建设的发展。
1 基于知识服务的地学数据库产品开发理念与意义
1.1 理念
以往利用地质资料建设地学数据库,往往是利用分散在各个地质资料中一件资料,提取并集成整合建设地学数据库。例如国家地质图数据库,是从区域调查地质资料中提取出标准分幅的地质图,集成整合并汇聚,形成国家地质图数据库。随着大数据时代的来临,提取出地质资料中蕴含的地学知识,开发利用并建设地学数据库产品成为当今地质资料发展的重要方向。
地质资料是地学知识的集合体,地学知识往往蕴含在各种地质报告、附图、附表和附件中。目前,各级地质资料馆藏机构管理的基本单位是“件”,而一件地质资料中蕴含的地学知识很难被用户发现并利用[3],而用户需求的往往是地质资料中蕴含的这些地学知识。将海量地质资料作为数据源,从中提取相关地学知识,集成整合后汇聚形成地学数据库产品是当今地质资料重要的发展趋势。
1.2 意义
1) 提升地质资料开发利用价值。地质资料具有深度的开发利用价值,目前有大量利用地质资料深层开发找矿的成功案例[4-6]。从地质资料中提取地学知识,形成地学数据库产品是对地质资料的深层开发利用,可以提升地质资料开发利用价值。
2) 提升地质资料精准服务水平。地质资料的本质属性是服务利用,而大量用户的需求是赋存在地质资料中的地学知识。从地质资料中挖掘地学知识并建库,是地质资料产品开发的新形式,有助于提升地质资料精准服务的水平。
3) 有助于数据库持续更新维护。传统的地学数据库建设工作需要以项目的形式,项目结束后,不再有经费的支持下,地学数据库的更新维护面临极大的挑战。而地质资料具有持续汇交性,每年均有大量的地质资料汇交至馆藏机构,以全国地质资料馆为例,每年要接收地质资料近5 000档,30万件。这些新汇交的地质资料是地学数据库的重要更新数据源,因此利用地质资料建设地学数据库产品,有助于对地学数据库的持续更新与维护。
4) 缩短建库时间,节约建库成本。以往项目建设地学数据库的形式,投入大量的人力、物力和财力,汇集形成地学数据库。随着信息技术的发展,大量的地学数据库所需地学知识蕴含在地质资料中,通过技术手段提取地学知识,集成整合后汇聚并建库,将大大缩短地学数据库产品建设时间,节约建库成本。
2 基于知识服务的地学数据库产品开发模式
2.1 地学数据库产品开发策略
1) 以需求为导向的地学数据库产品构建。地学数据库产品建设的目的是开展精准化的地学知识服务,提升地质资料深层开发利用价值。因此,地学数据库产品开发时,需要结合社会各界用户需求,针对用户需求来设计地学数据库产品。
2) 注重前期数据源摸底与数据库试点建设工作。和地质资料一样,地学数据库涉及地质、水文、地球化学、地球物理等多个专业,每个专业形成的地质报告具有不同的特点,其蕴含的地学知识也不尽相同,因此,地学数据库产品研发前期需要对数据源进行详细的摸底调研。经过数据源摸底后需要开展数据库试点建设工作,根据试点建设过程中遇到的问题,及时修正技术路线。
3) 擅用技术手段,提升数据库建库效率。地质资料具有海量性[7-8],海量的地质资料数字资源蕴含着极为丰富的地学知识,这也导致了地学数据库建设的工作量巨大。擅用自动化手段,提升地学知识提取、汇聚等工作效率,是解决海量地学知识建库的重要手段方法。
2.2 地学数据库产品开发模式
1) 知识来源。地学数据库产品利用全国地质资料馆馆藏作为知识来源,其中包括有结构化地质资料数据、半结构化地质资料数据和非结构化地质资料数据。馆藏地质资料包含有矢量化的数据,栅格数据等,种类丰富,数据量大。地学数据库产品开发前需要对知识来源做充分的数据调研,才能保障后续工作。
2) 技术要素。从地质资料数据中心利用技术要素建设地学数据库产品,主要流程包括有知识提取、知识集成、知识汇聚、知识建库、知识分析和知识获取等,具体主要有智能提取、符号表示、规则抽取、统一编码、数据可视化等相关技术(图1)。
3) 领域应用。利用技术手段从地质资料数据中提取出地学知识并建库,从而达到地学数据库产品建设与服务的目的。地学数据库服务领域广泛,从国家重大工程规划部署、基础设施建设到矿产地质调查、水工环勘查等。
图1 基于知识服务的地学数据库产品开发模式
Fig.1 Product development mode of geosciences database base on knowledge service
3 开发实例
3.1 全国矿产地数据库
全国矿产地数据库完成于2003年,在矿产资源规划、管理、开发、评价工作中有着重要的意义[9-10],但却多年未进行系统的数据更新维护,致使库中矿产地数据现势性不足。2018年起,全国地质资料馆组织人员力量,从馆藏涉及矿产资源地质资料中的报告、附件和附表中挖掘矿产地数据,并经过集成整合后汇聚进新的全国矿产地数据库,形成了全国矿产地数据库2019版。全国地质资料馆作为国家级地质资料馆藏机构,每年约接收5 000档(约30万件)的地质资料汇交,其中60%左右是涉及矿产资源的地质资料,具有充足的矿产地数据更新数据源。全国矿产地数据库利用地质资料中蕴含的矿产地知识聚合形成,不仅包含近些年新发现的矿产地数据,还包括有已闭坑的矿产地数据,数据全面。基于知识服务的全国矿产地数据库的建设大大降低了建库成本,提升了矿产地数据库更新效率,全面提高矿产地数据的服务水平。
3.2 全国矿床岩石地球化学数据库
经过几十年的地质工作,对全国矿床岩石积累了大量的岩石地球化学数据,包括有岩石常量元素、微量元素和稀土元素数据等。目前,这些数据分散在地质资料成果报告、附件、附表和原始地质资料中,其数据量与日俱增,对这些数据进行提取、集成整合并建设全国矿床岩石地球化学数据库,可提升我国科研人员对矿床岩石进行系统研究,是一项十分重要的基础地质工作。
以往,每个项目组进行矿床学研究时均会采集大量的矿床岩石样品进行测试分析,所获得的岩石地球化学数据会以知识形式赋存于地质成果报告、附表、附件中。近些年,随着原始地质资料的汇交,越来越多的矿床岩石地球化学数据汇交至全国地质资料馆,为全国矿床岩石地球化学数据库的建设奠定数据基础。
全国矿产地数据库和全国矿床岩石地球化学数据库的建设是基于知识服务的地学数据库产品开发的典范,不仅节约了地学数据库建库成本,缩短了建库时间,提升了数据更新维护效率,还为其他地学数据库的建设提供了思路和方法。
4 建 议
4.1 强化用户需求调研,提升地质资料精准化服务
传统的地学数据库建库方式以项目为单位,往往是“自建自用”或“自建他用”的服务形式。利用地质资料开发地学数据库产品则是馆藏机构负责建设,用户使用的方式。因此只有不断强化用户的需求调研,才能更加精准的了解用户需求,设计出适用用户需求的地学数据库产品。
4.2 建立开放式建库与维护的新机制
在强化用户需求调研的基础上,建议开展和用户联合建库与维护的地学数据库建设新机制,不仅可以更加精准的根据用户需求开发产品,还可以以用户专业的角度更加完善产品建设。
4.3 丰富地学数据库产品体系
加紧基于地质资料的地学数据库产品规划设计,拓宽地学数据库产品范围是地质资料服务所必经之路。传统方式建设的地学数据库产品更新速度已很难满足现代社会对地学数据库产品的需求,丰富地学数据库产品体系,加强地学数据库产品的研发是地质资料需求者共同的夙愿。增加地学数据库产品建设能力,完善地学数据库产品体系,努力提升我国地质资料深层开发利用的水平。
4.4 加强数据库建库技术研究,提升地学数据库之间的关联性
地学数据之间的关联性很强,例如矿产地质调查工作,对以往地质调查、已有矿产地信息、测试分析数据、区域地质图件等等具有很强的需求性。将这些地学数据,甚至地学数据库相关联,利用先进的数据库建库技术,将这些数据(库)相关联,是地学数据库更新换代的发展趋势。将关联数据、知识图谱和数据仓库等数据库建库技术融入进地学数据库产品建设中,提升地学数据库间的关联关系,是下一代地学数据库的发展趋势。
5 结 语
随着技术的发展,地质资料开发利用面临重大变革。面对海量地质资料数字资源,通过对数据的摸底调研,基于用户需求,利用地质资料知识挖掘对结构化、半结构化和非结构化的地质资料数据进行知识挖掘、提取、集成、整合并汇聚建库,可以有效推动地学数据库的建设,缩短建库周期,提升数据更新维护效率,提供更加高效的地学数据库产品服务。知识服务时代的来临,地学数据库产品开发模式转型势在必行,提高地学数据库产品的建设效率与数据的现势性,针对用户需求实现知识化管理与建库,成为新时期地质资料开发利用重要的发展趋势。