APP下载

基于数据元关键字的数据模型映射技术研究∗

2023-10-20高俊涛

计算机与数字工程 2023年7期
关键词:限定词数据项尾管

高俊涛 侯 宁

(东北石油大学计算机与信息技术学院 大庆 163318)

1 引言

现阶段,各个油田企业布署和运行了大量信息系统,各个系统之间独立开发与发布,形成众多的信息孤岛。由于缺少对数据资源的统一标准描述和信息服务,导致各系统间协同难、数据开发应用效率低,无法形成高效的公共数据服务产品[1]。

为屏蔽这些信息孤岛,各个油田开始进行数据集成,将各个独立开发的信息系统相互关联起来,使得用户可以透明的访问这些数据。而数据集成中数据映射是重要的一个步骤[2]。目前许多数据集成的方法用于解决数据结构上的异构,却没有较好的解决数据语义上的异构,这一直以来也都是一个难点[3]。

文献[4]提出了数据元在国内外标准化信息术语中的作用,说明了数据元在数据集成中的重要性。文献[5]为了表达数据元的语义,用了语义树,采取了数据元表达数据模型的语义。但是通过语义树的方式过于复杂,提高了前期工作的门槛。文献[6]以数据元为中介实现数据映射,采取数据元的方法对数据映射。

因此正文引出数据模型的映射,用数据元关键字的方式,用数据模型里的数据项与数据元与配对,然后对数据模型中数据项用数据元表达。通过关键字描述数据元的语义,避免构建语义树、本体等带来的麻烦,降低了前期工作的门槛和映射的复杂性。通过两个模型中的数据项所配对的数据元的联系,构建两个数据模型中的数据项的匹配,从而构建两个模型的映射,以更好地做数据服务。

2 数据元简介

基本的、不可分割的数据单元是数据元,它用属性表达其标识、定义、允许值和表示[7]。

数据元语义可以看作由以下三个部分组成[8]。

对象词:它具有清晰的概念,可以定义其属性和行为,是对现实世界事物的抽象描述,可以作为面向对象编程中的对象来理解,在数据模型中类似于实体名称。例如:尾管、生产井、水管、设备、管柱。

特性词:特性词表示对对象的一种性质描述,它在数据模型中类似于实体属性,例如:长度、深度、外径、内径、尺寸、压力、产量。

限定词:它主要包含对象词的限定词和特性词的限定词,它是用来修饰对象词和特性词的,它可以有零个。如:悬挂、回接、下入、年。

设数据元关键字表为K:

其中pty 为特性词,obj 为对象词,Qobj 为对象词的限定词集合,Qpty 为特性词的限定词集合,C 为约束条件中的常数值集合。

进一步简化:把C 中的常数值作为相应的限定词,划分到Qobj与Qpty中,得出:

通过以上三个部分实现对数据元语义的表达。表1展示了数据元语义的组成成分。

表1 数据元的组成成分

3 语义描述

数据特征的抽象表示是数据模型,包含数据结构、数据约束和数据操作[9],因为数据操作是在数据库上操作,所以这里不探讨它。结合它的特征,用数据模型里的表和数据项表达数据模型。模型里表的表达基于数据项的表达。根据上述的表述,数据元作为数据的规范,可以用来描述数据项。

这里先构建数据项与数据元的配对表达数据项的语义。

目前有许多相似度算法,广义上大体分成基于序列的相似度度量、基于集合的相似度度量[10]。编辑距离算法是基于序列的相似度度量,它具有可行性高效果好的优点[11],这里采用编辑距离算法度量数据项和数据元,它是基于字面进行相似度度量。

设编辑距离算法用dsim(x,y)表达,用来计算x转变到y 的最低成本。字符串转换通过以下方式实现,删去、插入和替换字符串。例如,将x=“累积油产量”变为字符串y=“累积地层油产量”的代价是dsim(x,y)=2,需要执行的操作依次是在“累积”后面插入一个字符“地”,在“累积地”后面插入一个字符“层”。

编辑距离直观上反映的是人们犯得一些编辑错误,比如插入了一个额外的字符(如“累积油产量”少写了一个“产”字,变成了“累积油量”),或者两个字符顺序反了(如“累积油产量”错写成了“积累油产量”)等。编辑距离dsim(x,y)可用以下公式转为相像度度量函数sim(x,y):

例如,“累积油产量”转换为“累积地层油产量”的相似度度量结果为

下面以一个数据项“尾管悬挂下深”为例,与数据元字典里的数据元进行相似度度量,表2 中得到相像度较高的数据元配对结果。

表2 数据项与数据元相像度结果[12]

从以上结果得知,匹配的数据元中“尾管悬挂下入深度”相似度较高,“下入深度”的缩写是“下深”,确实能表达数据项“尾管悬挂下深”的语义。因此,数据项“尾管悬挂下深”与数据元“尾管悬挂下入深度”匹配。

通过以上相似度度量方法,可以得出与数据模型中数据项匹配的数据元。当匹配数据元不唯一时,按相似度进行排序,并进行人工确认。由于表名、业务域、主键字段名中隐含数据项的上下文语义信息,这些信息可以作为数据元关键匹配的依据。

4 数据模型映射

在上文定义了模型之后,即通过数据元对源模型和目标模型都完成了数据项的语义表达后,就可以进行数据模型映射。在目标数据模型中指定一个目标数据表,从源数据模型找出与此表对应的多个源表,并建立从源表到目标表的各字段的对应关系。

不同的实体间的某属性可以使用同个数据元表达,同实体中的属性可以逐个与数据元配对,见图1。

图1 数据元与数据模型关系图

4.1 数据项与数据项相似计算

针对目标表的每个数据项匹配如下:

DE1(key11,key12,…key1m)DE2(key21,key22,…key2n),keyij 是数据元DEi 的关键字。当相似度SIM12=1时,两个数据项对应的数据元名称相等。如果数据元名称不相等,则按以下方法:

其中,DSIM(DE1,DE1)为双方数据元名称的编辑距离算法相像度。而KSIM是两个数据元的关键字集合之间的项集相像度:KSIM=交集项个数/并集项个数,得出的结果是杰卡德系数,它是双方集合A和B的交集元素在并集A和B中的比[13],用符号J(A,B)表示,用下面的公式表达:

通过不同的系数值选取和大量的实验,确定系数WD 和WK 的值,其中系数WD 和WK 的和为1。WD、WK 分别为两个相似度的权重,对系数WD 和WK 按照表的取值进行计算,发现表3 在A=0.3,b=0.7的时候效果最好。

表3 系数选取

为了构建两个模型的映射,用数据元作为中介,用双方数据元匹配。不能完全配对,但有较高相像度的,作为可能映射[14]。这里以数据元“尾管悬挂下入深度”为例,按照关键词分类,对象词是“尾管”,它的限定词是“悬挂”,特性词是“深度”,它的限定词是“下入”[15],在表4 中得出数据元字典中匹配到的前几个数据元以及相似度结果。

表4 数据元与数据元相像度结果

通过上表得出“试油”数据模型中数据元“尾管悬挂下入深度”与“试油试采”数据模型中数据元“尾管悬挂下入深度”相似度为1,直接匹配。因此,它们所对应的数据项“尾管悬挂下深”和“尾管悬挂下入深度”也能直接匹配。这两个数据项所对应的表“地质设计钻井及套管基础数据表”和“套管基础数据表”也匹配。

4.2 映射字典设计

通过数据元、数据项和实体对两个模型表达之后,为数据映射字典打下了基础,基于XML 的映射字典的设计,用于表达两个模型的映射联系[16]。

1)xml:表示xml文件版本号和编码。

2)MapDocument:表示映射字典的根节点,此节点有一个子节点Mapping表示映射关系[17]。

3)Mapping:表示映射关系节点,此节点有三个属性,user表示公司,name 表示映射名称,type 表示映射类型,主要根据平台使用者进行划分。此节点有三个子节点,DRDModel,RDLModel,Entities。

4)DRDModel:表示源数据模型。

5)RDLModel:表示目标数据模型。

6)Entities:表示实体,RDL_Entity 是它的一个子节点。

7)RDL_Entity:表示目标数据模型实体,name、code 是它的两个属性,分别表示实体名、实体代码。Source,Row是它的两个子节点。

8)Source:表示数据来源(源数据模型),此节点有一个子节点DM_Entity。

9)DM_Entity:表示源数据模型,有两个属性name表示实体名,code表示实体代码[18]。

10)Row:表示行,Attribute是它的一个子节点。

11)Attribute:表示属性,其中它有6 个属性,RDL_name 表示目标数据模型属性。RDL_code 表示目标数据模型属性代码,element_name 表示数据元名称,element_code 表示数据元代码,DM_name表示源数据模型属性,DM_code表示源数据模型属性代码[19]。

映射字典结构如下所示。

<?xml version=“”encoding=“”?>

5 结语

本文通过数据元来表达数据模型中的数据项,并通过关键词来表达数据元的语义。利用编辑距离算法和杰卡德算法的思想,对数据项与数据元进行配对,对数据元与数据元之间的相像性进行配对,间接定位数据项的语义映射联系,从而得出数据表的映射联系。最终为表达异构模型的映射引出一个映射文件。将中国石油企业的数据元为试验数据,对中石油数据模型中的数据项进行了标准化,以保证研究的实用性。

猜你喜欢

限定词数据项尾管
川西长裸眼水平井下尾管循环解阻关键技术
一种多功能抽签选择器软件系统设计与实现
超深井短轻尾管悬挂及丢手技术研究与应用
非完整数据库Skyline-join查询*
TAMBOCOCHA 43区块尾管固井难点及对策
基于Python的Asterix Cat 021数据格式解析分析与实现
限定词之功能视角研究
——以英汉为例
关系限定词which用法初探
法语中限定词的分析
英语限定词研究的两个维度