地质知识图谱标准化模型研究
2021-04-22李盛锐刘小野
袁 满, 李盛锐, 刘小野
(1. 东北石油大学 计算机与信息技术学院, 黑龙江 大庆 163318; 2. 大庆油田有限责任公司 信息中心, 黑龙江 大庆 163002)
0 引 言
当今, 随着信息技术的飞速发展, 人们的生活和工作已经与信息紧密相关, 并且伴随着信息的爆炸性增多, 数据越来越多, 大数据已成为领域关注的重要主题。目前我国的地质数据存在重于保护而不是共享的问题, 并且没有统一的标准。对多数地质信息标准化的内容进行解析, 可以发现存在许多潜在的风险, 例如重复, 不一致, 非结构化和总体缺乏控制等问题。不同的领域和单位使用不同的名称, 这会阻碍数据交互并影响知识共享。总体而言, 我国地质专业领域之间仍然存在不一致和不规范的情况, 并且会频繁出现“信息孤岛”问题[1]。
地质学是一门涉及数据很多的学科, 获取地质数据既困难又昂贵, 而对大量深地、 深空和深海数据的获取更加困难, 并且地质数据具有多样、 时空、 相关和随机等特征。地质数据形式不仅包括文件、图片、 视频等各种类型数据[2], 同时还具有特殊数据的独特特征: 1) 多样性数据。从需要大规模存储和处理的宏观地球物理学和其他传统地质数据, 到微观地质同位素年龄数据。2) 时空特性。地质具有时空性, 地质研究的对象和收集的数据具有空间特性, 随着时间的推移, 地质数据更加具体, 所有地质数据都与地质年龄有关, 不同地质年龄和地区的岩石, 地层和矿床具有不同的分布特点和规律。目前, 地质工作面临着巨大的挑战, 数据的真实性, 完整性, 包容性和标准性是地质工作的基础, 数据是财富和创新的宝贵资源, 地质数据的标准化愈发迫在眉睫[3]。
对知识密集使用的组织, 例如石油公司或更广泛的油气勘探与地质勘探生产单位, 知识管理过程涉及到多种类型的信息和专业知识的复杂交互, 这些信息和专业知识被逐步处理和整合, 以产生价值结果[4]。
笔者将语义Web、 知识图谱技术的研究与地质知识相关标准的研究相结合, 对地质知识图谱进行构建, 目的是建立标准统一化的地质知识库, 最终为智能油田系统的建构提供基础。同时把分散的石油勘探、 地质地层与地质的知识, 通过知识图谱技术进行整合统一, 为石油勘探开发大数据分析、 知识发现与知识服务提供基础的技术与数据支撑。笔者首先评述了国内外地质标准的研究; 然后, 提出了地质知识标准体系模型和地质知识图谱构建流程; 最后, 对于地质知识图谱进行了构建与可视化展示[5]。
1 国内外地质标准研究现状
1.1 地质元数据标准
1.1.1 国外地质元数据标准
SPE-107152给出了地质模型概念, 地质面、 油藏、 地层结构模型、 地质关系等属性、 油气藏性质和分层地质岩性。地质模型概念是指可能与地质事件有关的地质过程, 因此, 地质模型可以对应于物质的形成/破坏(特别是沉积、 岩浆侵入、 侵蚀)或各种类型的物质变形(褶皱、 断层)或物质转化(成岩作用、 变质作用), 通过以上性质建立知识图谱, 并建立共享地球模型[6]。
1.1.1.1 石油地质元数据
在世界石油工业领域, 石油工业数据字典(PIDD: Petroleum Industry Data Dictionary)被称为标准化专业术语的中心知识库, 被各公司、 厂商和政府机构广泛采用, 21世纪, PIDD融入石油工业数据交换(PIDX: Petroleum Industry Data Exchange)作为电子数据交换(PIDX EDI: Electronic Data Interchange)首创工业数据建模成果的一部分, 同时也可应用于与其他相关领域。2002年初, PIDX下属标准委员会和POSC(Inc: Petrotechnical Open Standards Consortium)对该字典进行了修改, 增加了映射和译本功能。除了PIDD数据字典外, 国际石油领域还有一些字典, 如POSC Epincetre数据字典、 FINDER数据字典、 公共石油数据模型(PPDM: Public Petroleum Data Model)字典等[7]。实际收集数据的处理通常遵循3个基本步骤: 1) 保存所有检测数据; 2) 单独处理存储数据; 3) 提交处理后结果。因此, 所谓标准化处理的一般概念是针对数据处理中涉及的3个基本步骤提出一种标准化处理的特定方法[8]。
地质油藏数据标准化的研究步骤分为: 1) 初步研究。地质油藏数据信息化的初步研究分为3个阶段。预可行性阶段、 可行性阶段和ODP(Open Directory Project)研究阶段。2) ODP实施阶段。ODP实施阶段主要基于钻探时的数据, 以更深入地了解油藏数据。3) 生产阶段。生产阶段是与生产有关的数据信息的集合, 主要包括油藏分析信息和动态油藏信息等数据信息[9]。
1.1.1.2 地层地质元数据
地层学研究的主要内容是分层划分和分层相关的理论和应用, 并且划分和相关工作是物理层结构单元的科学名称。所以, 地层研究也需要标准化, 地质科学的发展和地质科学研究的正确组成、 地质教育和地质实践、 地层和地层的分类、 不同地层单位名称的结构和名称、 地层单位科学命名的生产和管理规定了一项综合技术标准, 就是地层标准化[10]。
地质年代表发展史:
1) GTS(Geologic Time Scale)地质年表;
2) NDS(Numerical Dating in Stratigraphy)地质年表(国际);
3) COSUNA(Correlation of Stratigraphic Units of North America, 北美地层单位对比研究课题)(美国石油地质学家协会);
4) CGR(The Chronology of the Geological Record)地质年表(国际地层委员会);
5) 中国同位素地质年表;
6) 地质时代表1989(英国剑桥大学);
7) IUGS1989全球地层表(国际地质科学联合会);
8) 中国地层时代表1990;
9) IUGS1998全球地层表;
10) IUGS2000国际地层表----当代全球标准年代地层(地质年代)表[11]。
1.1.2 国内地质元数据标准
我国学者正在对大数据在地质学中的应用进行研究, 中国科学院院士赵鹏大表示, 在大数据时代, 数字地质促进了地质勘探的新发展, 要看重数字地质和矿产评价的发展; 黄少芳表示, 在大数据的背景下收集和提炼大量地质数据更加困难, 地质数据信息化的发展将在大数据的开发和知识服务方面面临新的难关[12]。
当前与地质要素有关国内元数据标准主要包括《国土资源信息核心元数据标准》与在地质领域实施DD2006-05《地质信息元数据标准》。《地理信息元数据标准》是基于《国土资源信息核心元数据标准》创建的, 包括《国土资源信息核心元数据标准》与《地理信息元数据标准》的全部重要元数据[13]。
国际标准化组织(ISO: International Organization for Standardization)于2003年发布了ISO 19115《Geographic information----Metadata》, 并在2014年更新了版本。根据国际标准化组织(ISO)建立的ISO19115: 2003标准, 在国家基本地理信息中心、 国土资源部信息中心及其他相关部门编辑中国元数据标准TB/T19710-2005《地理信息元数据》。
国家元数据标准发表前, 国土资源部信息中心于2003年正式发布了TD/T1016-2003《国土资源信息核心元数据标准》。该标准基于国际标准化《Geographic information----Metadata》国土资源空间信息和非空间信息的特征和技术要求添加和删除内容, 构成国土资源标准, 为信息化服务增强了技术支撑。2006年, 中国地质调查局根据国家和国土资源部的地理信息元数据标准(国际元数据标准), 发布了更适合于地质行业的元数据标准DD2006-05《地质信息元数据标准》[14]。
1.2 地质领域知识图谱
Guarino根据本体的不同描述目标将本体分为4个阶段: 顶级本体、 领域本体、 任务本体和应用本体。顶级本体讲述了非常全面的思想, 例如空间、 时间、 对象、 事件和活动, 并且可以应用于各种信息社区而不受限于特定的问题或领域。领域本体和任务本体依次讲述了与每个领域有关的名称和工作, 并且是每个领域中顶级本体的术语。应用本体描述并关注领域本体和任务本体的概念, 这些概念通常对应于指定领域中本体的实例化部分, 并且是应用本体的关键。领域本体和任务本体的组成是以顶级本体的语义表达为基础, 但领域和任务的多元性确定了本体表现的多元性。顶级本体是确保重用各个领域和任务本体的基本。地质本体论主要体现地球科学领域本体和任务本体的建构方式。地质本体主要由两部分组成: 解释地球科学概念的地质本体论、 强调语义内容的地质本体论和强调地球科学空间特征的空间本体论。当前, 地质本体研究的两个方面正在共同发展, 语义和空间几何接近融合[15]。
吴永亮等[16]根据地质数据中矿床成因类型, 一般从岩浆条件、 构造条件、 地层条件、 地球化学、 地球物理、 遥感地质等分类分级, 和上下位关系、 等同关系、 交叉关系、 概念实例关系、 空间关系, 并基于网络本体语言(OWL: Web Ontology Language)文件格式建立了地质领域本体; 侯志伟等[17]根据地质年代时间属性及其特征和地层划分与对比、 古生物、 构造地质、 地球化学, 并根据性质和关系, 产生一系列OWL或资源描述框架(RDF: Resource Description Framework)文件, 以《中国地层表》和《国际年代地层表》及全球层型剖面和点(GSSP: Global Stratotype Section and Point)表作为地质年代本体的重要术语为来源, 建立了地质年代本; 闫东[18]基于《石油主题叙词表》的半自动化本地构建方法构建石油地质知识图谱, 进而实现石油地质领域知识服务。
通过上述对文献的综合分析研究得出, 这些研究成果的一个共性就是基本上对地质领域数据标准化的研究还处于基本的元数据标准阶段, 普遍缺乏完整的、 成体系的语义标准。
2 地质知识图谱参考模型与构建流程
2.1 地层领域知识体系参考模型
笔者通过对国内外地质领域知识图谱和地质元数据研究现状分析, 并以系统理论为依据, 建构了地质领域知识体系的参考模型, 地质知识分类的分层结构如图1所示。
图1 地层领域分类标准模型Fig.1 Standard model of stratigraphic field classification
整个参考模型的第1层, 即地层的整体分类层, 地层按照《中国地层指南及中国地层指南说明书》和《地层学基础与前沿》所定义标准分成层序地层、 年代地层、 生态地层、 生物地层、 岩石地层、 磁性地层和事件地层。
模型自顶向下第1层为层序地层(Sequence stratigraphy), 层序地层是一种分层、 比较与解析沉积地层的方式。和生物地层及构造沉降分析相结合时, 提出了一种更准确的地质年代比较、 古地理复原和在钻井前油气储集层、 烃源岩和盖层的方式。
第2层为年代地层(Chronostratigraphy), 年代地层是关键的分层领域, 主要研究岩体的相对时间关系。年代地层是指在特定地质时间间隔内形成的所有分层或非分层的合成岩体, 划分年代地层单位的目的是确定地层的时间关系。在时间层单位坡度系列中, 这些单位的坡度和相对大小与岩石中包含的时间间隔的长度匹配, 但与岩石的实际厚度不匹配。等时的面称为年代地层面(年代面)(chronohorizon)。
第3层为生态地层(Ecostratigraphy), 其用于基于生物群落分析研究地层内化石团簇的时空分布和传承, 对地层进行分割和对比, 并恢复古代环境以进行盆地分析、 演化和矿物预测。
第4层为生物地层(Biostratigraphy), 这是利用生物演化的不可逆性和阶段研究地层的方法。生物地层学主要是研究地层的化石记录, 并依据地层中包含的化石的特征, 将地层汇编成几个地层单元, 以确定地层的相对地质年龄。
第5层为岩石地层(Lithostratigraphy), 基于可以在野外观察到的岩石的岩性的分层或半层岩体, 可通过该属性定义。所有类型的地层单元都基于岩石并且具有岩石的特征, 但仅岩层单元被分为岩石, 砂岩、 砾岩、 黏土岩、 石灰岩、 碳酸岩和片麻岩等。通过识别和建立这些单位, 可以弄清地壳中岩石的时间顺序和物理性质, 确定岩石的起源, 发现和开采有用的矿产资源等。沉积、 喷发的火成岩和变质岩层由于其特殊的岩石特性, 清晰的原始床层, 清楚的分层关系以及易于认别而被认为是岩石地层单位。
第6层为磁性地层(Magnetostratigraphy), 根据岩石的磁特性对地层进行划分和比较。磁性地层是基于岩石的剩余磁化强度和磁化率的特性和改变。前者主要以极性反转和地球磁场的长期变化为基础, 后者则被气候突变或火山喷发以及陨石撞击造成的磁化率异常所影响。在磁性地层学中, 磁极性地层学是最广泛使用的方法, 这是因为地磁场反转在全球范围内是同步的, 因此极性磁层适用全球范围内的大规模地层比较, 即执行各种陆地和岩石以及海陆之间的地层比较。
第7层为事件地层(Event stratigraphy), 通常将其理解为基于灾难性变化或突发变化划分和比较地层。吴瑞堂等[19]认为, 地层关联是事件地层学的关键任务, 并且地层关联是基于地质事件及其地层记录, 而不是基于“估计地质事件”。实际上, 地质事件总是通过沉积特性、 地球化学特性或古生物学特性在地层中留下痕迹, 可以通过深入和详细的研究识别和确定这些事件。
地层划分的根据都是相互融合又相互独立的, 每个地区可能会有多种的地层划分方式的结合, 例如古新世/始新世极热事件(PETM: Paleocene-Eocene Thermal Maximum)中的藏南地区地层, 可以根据地层分类中生态标准叫做海相地层, 根据岩石地层分类也叫碳酸岩地层, 同时根据事件地层分类也叫做PETM事件地层, 所以地层划分标准就显得尤为重要。
2.2 地质知识图谱构建流程
知识图谱构建比较常用的几种方法包括TOVE法、 Methontology方法、 骨架法(Skeletal Methodology)、 IDEF-5(ICAM DEFinition Method)法和七步法等。笔者采取七步法为基础构建地质知识图谱, 主要分为以下7个步骤。
步骤1) 确定地质知识图谱中石油地质和地层地质的领域和范畴。
步骤2) 考察现有本体的可能性。
步骤3) 根据确定的领域范畴, 筛选出地质知识图谱中所需的重要领域专业术语, 采用自顶向下的方法明确概念、 概念之间的关系, 定义概念的属性, 建立类的属性。
步骤4) 定义类和类之间的层级关系, 可采用自顶向下法、 自底向上法和综合法。
步骤5) 定义类的属性, 把筛选出的专业术语进行整理, 整理出对类进行描述的数据, 形成类的属性。对对象类属性采取对象定义法, 对数据属性, 可以对数据的计量单位、 类型、 范围进行定义。
步骤6) 创建实例, 对确定的类添加相关的实例。
步骤7) 使用Protégé工具完成地质知识图谱的构建和可视化。
通过上述建立知识图谱的七步法, 实现地质知识图谱的构建[20]。
3 地层与石油地质知识图谱构建及可视化原型系统
3.1 地层知识图谱
依据文中给出的知识图谱构建流程, 并根据《中国地层指南及中国地层指南说明书》和《地层学基础与前沿》进行术语确定, 总结地层的重要术语, 同时将元数据规范的术语列表提取, 基于地层属性选择需要的数据元素, 扩展新的数据元素, 确定相应的词汇和分类方法, 最后建立实例, 并添加相应的数据属性或对象属性, 构建基于地层地质的元数据模型, 所构建的地层知识图谱如图2所示。
图2 地层知识图谱Fig.2 Stratigraphic knowledge graph
3.2 石油地质知识图谱
石油地质知识可采用资源描述框架(RDF)表示为三元组形式, 即〈s(主语), p(谓语), o(宾语)〉三元组, 形成由“点-边”组成的大规模有向图。点代表概念、 实体及属性值, 边表示概念与概念之间的关系、 概念与实例的关系、 实例与实例之间的关系、 实例与属性的关系、 属性与属性值的关系。
以《石油地质主题叙词表》中的术语作为标准, 构建石油地质知识图谱(见图3)。
图3 石油地质知识图谱Fig.3 Petroleum geology knowledge atlas
配置主要采用“自上而下”的配置方法, 分为模型层配置和数据层配置。模型层包括石油地质本体和概念, 地质本体概念分类系统的建构主要通过本体构建方法实现。数据层包含石油地质实例及其相对的属性, 并基于多源异构石油地质信息数据, 实现了石油地质知识的抽取、 知识融合和知识更新。
4 结 语
笔者对国内地质领域相关数据标准进行了较为全面的分析研究, 认为国内外地质数据标准的研究主要处于元数据标准研发阶段。目前, 尽管有些文献提出并强调了地质标准化的重要性, 但是还未见到成型体系的研究成果。随着大数据与人工智能技术在地质领域的深度应用, 人们越来越认识到地质知识共享的重要性。目前, 无论是国际还是国内都研究了大量的地质元数据标准, 随着近十多年本体技术在各个领域的应用, 国际与国内出现了一些事实或法律上的本体标准, 再加之近几年知识图谱技术的提出与应用的流行, 这些都为我国研究与建设标准化的地质领域知识图谱创造了前所未有的条件。因此, 为满足我国地质领域当下及未来的知识共享迫切需求, 研发我国地质领域的知识标准化迫在眉睫。在这种 背景下, 笔者将国内外地层领域标准以及石油地质领域相关的本体标准和知识图谱技术及可视化技术融合为一体, 提出了地质信息标准化模型。最后, 结合具体 项目构建了地质领域知识图谱, 实现了对它们的可视化功能。本研究为地质知识图谱标准化的研究提供了一种新标准, 同时也表明我国地质领域的标准化势在必行。没有融入标准而构建的地质知识图谱, 其生命周期不会很长, 只有融入标准的地质知识图谱才能为未来地质领域资源的融合、 集成、 共享及互操作奠定基础。