APP下载

基于关系数据库的油田领域数据质量本体构建

2016-08-08张晓冉

微型电脑应用 2016年7期
关键词:主键关系数据库本体

张晓冉,舒 昝



基于关系数据库的油田领域数据质量本体构建

张晓冉,舒昝

摘 要:为实现对油田数据质量全方位、规范的描述,以石油领域的相关专业的数据为研究背景,借助于现代先进的本体理论,基于已有的油田数据质量关系数据库资源,抽取出相关概念模型,再将概念模型转换成 OWL 本体,尝试构建出集数据质量管控于一体的规范的石油领域数据质量本体模型。

关键词:数据质量本体构建关系数据库;OWL

0 引言

随着企业对数据资源的重要性认识的提高,企业均将数据当作资产来看待,特别是近几年,随着大数据理念的提出与应用,对于数据质量的要求更是越来越高。油田领域信息化已经发展多年,但对于数据的管理仍然比较粗放,数据有采集,但不注重本身的质量,导致今天反过来再去补充修改数据,不能很好地管理利用数据。

目前,解决数据质量的核心问题之一就是要对数据进行各种业务规则的定义与描述,先进的做法就是采用元数据中的元建模技术进行定义与描述。但是,一方面,这些元模型与原数据模型紧紧耦合在一起,一旦模型变化,元模型必须同步变更;另一方面,元模型对数据模型的模式层上的一些规则定义相对较为容易,对于有些复杂的业务规则以及定义在实例层上的规则是无能为力的。本体却以它规范化、共享、灵活的表达能力以及对定义与描述各种复杂规则的的支持,再加之对深度推理的支持,可以很好的解决这些问题。因此,以本体理论与技术为重要的方法论,以石油领域的数据质量管控为实际应用背景、建立油田领域数据质量本体不仅具有理论价值,更具有重要的应用价值。

1 数据质量概念及规则

1.1 数据质量概念

数据质量现在没有一个精确的定义,文献[1]将其定义为数据的适用程度;文献[2]将数据质量定义为多大程度的实现了模式和实例的一致性;文献[3]分析得出数据质量评估包含完整性、唯一性、精确性、有效性、一致性、时效性等六个指标要素。

1.2 数据质量规则

数据质量规则,是对数据制定的语义限制,评价数据是否满足一般性指标就是检查数据是否满足评估指标对应的具体规则。

以油田采油厂数据质量控制系统为例,该系统在上述研究的基础上,按照完整性、一致性、准确性、冗余性等四个指标细化了数据质量规则。

2 本体理论与方法

2.1 本体与关系数据库

本体的概念源于哲学,本体是事物的抽象。1993 年Gruber提出”本体是概念模型的明确的规范说明[4]”这一定义被广泛接受。本体目的是捕获特定领域内公认的核心概念集,筛选出公认的概念术语,并且能通过不同的形式化模式定义术语以及术语间的关系。

目前,多数数据存在关系数据库中,应用程序不能随意访问这些数据,阻碍了语义网的发展[5],本体作为语义网的基础,可以用来描述数据的语义信息,如何将关系数据库和本体相互转换是解决问题的关键。由于本体比数据库的表达能力更强,因此不采用将本体转换成数据库这种方式。同样现阶段中间模型都乏通用的定义,不适合重用和共享,定义中间模型也是不现实的,因此本文按照通用的映射规则基于质量关系库来构建质量本体。实验证明了该方法的有效性。

2.2 抽象概念模型

Perez 通过分类法来组织本体。本体包括五个建模元语。据此给出如下几个定义:

定义1:本体为一个五元组 O =< C,R,F,A,I>,其中:C为classes即本体类,R为relations本体关系,F为functions本体函数,A为axioms本体公理,I为instances本体实例。

关系数据库也可以形式化定义如下:

定义2 :关系数据库同样定义为一个五元组RD =< T , COL, DT , R ,REC>,其中: T 为table 指数据表;COL 为column,指数据表中的列;DT为 data type,指数据的存储类型;R为restriction,指约束规则。REC 为record指表记录。

关系数据库向本体映射的抽象模型如图1所示:

图1 关系数据库向本体映射的抽象模型

3 数据质量本体构建

本文以油田采油厂数据质量控制系统关系数据库中的表为例进行分析,发现主要存在如下关系:

数据质量关系例表如表1所示:

表1 质量总系例表

FUNC_ID NO DQ_CLASSIFY(评估分类表) ASSESS_CODE, FUNC_ID ASSESS_CODE FUNC_ID(ASSESS_FUNCTION) RULE_CLASSIFY(规则分类表) CLASS_ID, CLASS_NAME, CLASS_ID ASSESS_CODE(DQ_CLASSIFY) ASSESS_CODE,FUNC_ID, FUNC_ID(ASSESS_FUNCTION) CLASS_CODE DQ_RULE_MAP(规则映射) ASSESS_CODE,CLASS_ID NO ASSESS_CODE(DQ_CLASSIFY) CLASS_ID (RULE_CLASSIFY) ASSESSINFO(评估信息表) TASK_ID,ASSESS_BEGIN, TASK_ID ASSESS_ENDTIME, ASSESS_USER _ID (USER) ASSESS_USER _ID USER(评估人信息表) ASSESS_USER _ID,AGE, ASSESS_USER _ID NO ASSESS_USER,SEX

数据质量本体构建规则如下:

规则1 数据表存在主键且唯一,将表映射成OWL Class类。

规则 2 数据表主键有多个,但至少有一个不是外键,将表映射成OWL Class类。

规则 3 数据表不存在主键,但至少有一个不是外键,将表映射成OWL Class类。

规则4 数据表不存在主键,并且不存在非外键的属性,将表映射成对象属性。

根据以上规则,数据质量表转化如下:

规则4:如果某个表满足规则1,且外键等于或多于一个,则可将该外键直接转换为该表对应的本体类的对象属性。并且定义域为该表本体类,值域是外键所属的本体类。

规则5:如果某个表满足规则1,并且存在属性既不是主键也不是外键,则将这些属性直接映射为该表对应的本体类的数据类型属性。

RULE_CLASSIFY的外键可以转换为对象属性ASSESS_CODE,FUNC_ID,数据类型属性有 CLASS_CODE,CLASS_NAME

规则6:如果某个表T满足规则3,则必然有两个表T1 和T2是通过该表连接的;将T1表和T2 表映射成概念C1和概念C2,T1表和T2 表的主键映射成对象属性OP1和OP2,其中OP1的定义域为C1,值域为C2,而OP2的定义域为C2,值域为C1,并且OP1和OP2互为反函数。

DQ_RULE_MAP可以转换为一对对象属性 Map和DQ_RULE_MAP

本体的属性性质可以被直接定义。若是属性存在唯一取值,则可用owl:Functionalporperty定义函数性。如果一个属性可以唯一标识一行,则用owl:InverseFunctionalproperty定义逆函数性。

主键转化规则如下:(1)主键存在且唯一,定义函数性和逆函数性;(2)主键包含多个属性,其中至少有一个是外键,则将非外键属性定义函数性。(3)主键的基数约束cardinality为1。

4 实验

4.1 生成的OWL文档

用 Java语言实现了油田领域数据质量本体的构建,部分OWL文档片段如下所示:

〈owl: ontology rdf: about = " file: /C: /Program%20Files/ Protege 4.3 / empty.owl" / 〉

〈owl: Class rdf: ID = "DATASOURCE" /〉

〈owl: Class rdf: ID = " TABLEINFO" /〉

〈owl: Class rdf: ID = "COLUMN_INFO" /〉

〈owl: Class rdf: ID = "DQ_CLASSIFY"〉

〈owl: Class rdf: ID = "ASSESS_FUNCTION"〉

〈owl: Class rdf: ID = " RULE_CLASSIFY"〉

〈owl: Class rdf: ID = "ASSESSINFO "〉

〈owl: Class rdf: ID = "USER"〉

4.2 有效性检验

将转换后的OWL文档 dataquality.OWL用Protege 4.3打开,清楚的看到数据质量数据库转换而来的本体类、属性及实例,符合语法规则,由此可知该方法建模的有效性。

5 总结

本文在已有的油田数据质量关系数据库中抽取出相关概念模型,实现了油田领域数据质量本体的构建,通过引入本体,为数据质量提供了共享的概念集和术语集,利用明确的语义信息增强了对数据质量问题的描述能力,有效的对数据进行管理。但是以长远的角度来看,数据质量还有许多的问题有待于进一步地研究与完善并应用,如数据质量的智能化研究是值得进一步探索的问题。如何更好地利用本体理论、数理统计、人工智能等技术实现数据质量评估的自动化和处理的智能化将是今后值得关注的一个方向。

参考文献

[1] Huang K T,Lee Y W,Wang R Y. Quality information and knowledge management [M].New Jersey: Prentice Hall,1998.

[2] 韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35( 2) : 1 -5.

[3] 高科,刁兴春,曹建军.基于简单规则的数据质量检查系统设计与应用[J].计算机技术与发展,2015.

[4] 苏依拉,王一云,谭艳梅.基于关系数据库的蒙文局部本体构建及整合[J].北京工业大学学报,2014.

[5] 蒋翠清,鲁佼.从关系数据库构建语义丰富本体的方法[J].计算机应用研究,2011.

中图分类号:TP393

文献标志码:A

文章编号:1007-757X(2016)07-0071-03

收稿日期:(2016.04.11)

作者简介:张晓冉(1992-),女,东北石油大学计算机与信息技术学院,硕士研究生,研究方向:本体构建,数据质量,大庆,163318 舒 昝(1991-),男,东北石油大学计算机与信息技术学院,硕士研究生,研究方向:大数据、数据挖掘,大庆,163318

Construction of Oilfield Data Quality Ontology Based on Relational Database

Zhang Xiaoran, Shu Zan
(College of Computer and Information Technology,Northeast Petroleum University, Daqing 163318, China)

Abstract:In order to carry out the overall and standard description of oilfield data quality, it takes the relevant oilfield data as the research background. With the help of advanced ontology theory ,extract relevant conceptual model based on the existing relational database resources. Then it makes the conceptual model into the OWL ontology, trying to construct standard data quality ontology model of oilfield with Data quality control.

Key words:Data Quality; Ontology Build; Relational Database; OWL

猜你喜欢

主键关系数据库本体
Abstracts and Key Words
基于Go 实现的分布式主键系统研究
关系数据库在高炉数据采集系统中的应用
对姜夔自度曲音乐本体的现代解读
基于外键的E-R图绘制方法研究
《我应该感到自豪才对》的本体性教学内容及启示
基于索引结构的关系数据库关键词检索
Care about the virtue moral education
数据库主键的设计方法探讨
一种基于数据图划分的关系数据库关键词检索方法