APP下载

基于本体的企业运营数据治理

2017-03-27陈渠凌卫青王坚

电脑知识与技术 2017年3期
关键词:数据治理

陈渠++凌卫青++王坚

摘要:数据是一种参与企业经济活动的经济资源,是企业无形、有价值的核心资产。但是企业高层管理人员并未充分利用这些资产,原因在于数据缺乏准确性、一致性、相关性。该文将本体应用于企业运营数据治理中,通过构建企业领域本体模型,来对企业信息资源进行统一的语义描述,并建立资源间的语义相关性,最后将信息系统产生的实例数据与本体模型进行映射,生成RDF数据,从而实现对企业运营数据的治理。该文主要以企业领域本体中的物料为例进行实现与展示。

关键词:数据治理;本体模型;RDF数据

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)03-0001-03

Enterprise Information Integration Based on Ontology

CHEN Qu, LING Wei-qing, WANG Jian

(CIMS Research Center, Tongji University, Shanghai 201804, China)

Abstract: Data is a kind of economic resources to participate in economic activities of enterprises, is the enterprise of intangible and valuable core assets. However, senior management did not make the best use of these assets because of the lack of accuracy, consistency, and relevance of the data. In this paper, the ontology is applied to enterprise operation data management, and the enterprise domain ontology model is constructed to describe the enterprise information resource semantically and establish semantic relevance among resources. Finally, the instance data generated by the information system is carried on with the ontology model Mapping, generate RDF data, in order to achieve business data management. In this paper, the enterprise domain ontology in the material as an example to achieve and display.

Key words: Data Governance; ontology model; RDF data

目前,随着互联网技术的飞速发展,我国大中型企业的信息化程度也逐步提高,企业开始广泛使用各种管理信息系统,使企业积累了大量的信息资源,然而由于各个信息系统缺乏对领域信息的统一规划和顶层设计,信息资源的数据类型具有多样性。同时各个信息系统产生的数据存在准确性、一致性、相关性等问题,这些因素已经成为企业在信息化与业务深度融合过程中的关键制约因素。本文将使用本体技术对企业运营数据进行治理。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念,并从不同层次的形式化模式上给出这些概念和概念间关系的明确定义。文中把本体理论引入企业建模领域,构建企业领域本体,从而有效解决数据的准确性、一致性、相关性等问题,实现对企业运营数据治理。

1 本体论

本体是共享概念模型的明确的形式化规范说明,能够澄清领域知识的结构,获得统一的术语和概念,使数据通过本体语言上升为知识,并使知识的共享成为可能。随着本体研究的发展,本体已逐渐应用于企业建模领域中,来对企业信息资源进行数据治理。目前,较为著名的研究有英国爱丁堡大学的Enterprise项目,加拿大多伦多大学的TOVE本体论等。另外,由于本体作为重要的知识组织系统,在知识管理、信息服务、人工智能等方面发挥着重要作用。

1.1 本体的定义

本体一词来源于哲学,在哲学中是对存在本质的研究。但是,目前本体成为计算机科学领域引进的许多单词之一,并且被赋予了一个与原始含义截然不同的具体技术含义。本体以从概念的角度描述客观领域世界为目的,目前已发展为六元组的形式:Ontology={C,AC,R,AR,H,X},其中C表示本体的有关概念集,是领域中的重要概念;表示基于各概念的属性集;R表示概念间的关联关系集合;表示各关联关系的属性集;H表示基于概念集C的层级关系,表示父类与子类关系;X表示公理集,其中的每一公理表示基于概念属性间、关联关系属性间和概念对象间的约束。

1.2 本体描述语言

RDFS是一种基本的本体语言,是一种词汇表描述语言,用来描述RDF资源的类和属性,以及类层次和属性层次的泛化语义以及属性定义域和值域的定义。OWL(Web Ontology Language)是W3C推荐的本体描述语言,作为RDFS的扩展,是一种描述属性和类的更丰富的词汇描述语言,例如类之间的关联关系(比如不相交性)、基数(比如恰好等于1)、相等、更丰富的属性类型定义等

1.3 本体构建方法

本体开发方法很多,目前具有代表性的本体构建方法包括骨架法 、TOVE法、IDEF5法、斯坦福七步法、五步循环、METHONTOLOGY法、KACTUS法、SENSUS法和循环获取法。骨架法、TOVE法和IDEF5法是用于描述和获取企业本体的方法,它们主要区别在于:骨架法是基于流程导向的构建方法,它只提供开发本体的指导方针;TOVE法是专用于構建关于企业建模过程中的知识本体;而IDEF5法可通过提供图表语言和细化说明来构建企业领域的本体。METHONTOLOGY法、KACTUS法、SENSUS法和斯坦福七步法,主要用于构建领域知识本体,它们不同之处是:METHONTOLOGY法是专用于构建化学知识本体;KACTUS法主要是对已有本体的提炼、扩展,主要用于解决知识复用的问题;SENSUS法遵循自上而下的层级结构,可操作性较强;斯坦福七步法是基于本体构建工具Protégé的本体构建方法,目前应用广泛。本文主要参考斯坦福七步法来构建本体模型,七步法构建流程如图1所示。

图1 斯坦福“七步法”流程图

2 关键技术研究

2.1 资源的统一语义描述

为了实现对资源的统一语义描述能力,本文采用RDF数据模型。RDF数据模型的基本构造为陈述,表述了一个主体-属性-客体的三元组。OWL是构建在RDF之上的本体语言,用于对资源及资源之间关系的精确语义描述,从而对数据资源实现语义的描述框架、数据的语义、数据之间关系的表达。

2.2 本体模型的构建

图2 本体模型构建流程

由于关系型数据库的概念模型都基于现实世界的实体、属性及其关系而构建,因而可以根据关系数据库中数据字典信息以及关系模型来提取语义实体。语义实体提取及实体相关性建立的主要实现策略为根据关系型数据库的数据字典信息和关系模型,获得领域关系数据库的模式信息,并从中抽取出候选的语义实体,再将抽取出的各种语义实体进行过滤和筛选,在过滤和筛选过程中需多次对已有的语义实体进行比较;语义实体筛选完毕后,最后根据企业领域知识对语义实体进行一致性检测,并建立实体间的关联关系,通过操作流程如图2所示。

2.3 本体模型与实例数据的映射

为了实现实例数据的语义、实例数据之间关系的表达,需要对本体模型与实例数据进行映射,即将实例数据绑定到本体模型,形成RDF数据。D2R是其中一个非常流行的工具,它的作用是一个将关系型数据库发布为RDF数据。使用D2RQ Mapping 语言手动编制映射文件,调用D2RQ Engine将本体模型与关系型数据库中实例数据进行映射,生成RDF数据,操作流程如图3所示。

图3 本体模型与实例数据映射流程

在以上的操作流程中,关键步骤是映射文件编制。D2RQ Mapping 语言通过核心要素ClassMap、PropertyBridge 及Property,来将本体模型中的类,属性,与数据表中的表名,列名进行映射。本体模型与关系模型的映射关系如表1所示。

表1 本体模型与关系模型的映射关系

[概念映射\&数据映射\&Ontology Model RDBMS\&Ontology Model RDBMS\&类\&实体\&主体,客体\&表\&数据属性\&实体属性\&谓词-文本值\&列-元组\&对象属性\&实体关系\&谓词-客体\&关系名-表\&]

3 企业本体实现与展示

图4 企业领域本体模型元实体

通过采用第二章节描述的语义实体提取及语义相关性建立技术,可以初步得到企业领域本体模型,该模型表达了企业领域中包含的实体及其相互关系,可通过开发工具Protégé 4.1来编辑实现企业领域本体模型的构建。在Protégé4.1本体开发环境下,依据企业领域本体模型中的元实体来定义相应的元类,其他子实体通过继承、扩展元实体,以其子类形式展示,如图4所示。

在领域本体中,我们将企业中的运营数据分为实体类与信息类,实体类下的子类有人员、资金、组织、设备、产品、物料、能源、环境、信息载体,信息类下的子类有人员信息、资金信息、组织信息、设备信息、产品信息、物料信息、能源信息、环境信息、信息载体信息,信息类是用来描述实体类的。下面以物料类展开,如图5所示,可以看到物料类与企业中的哪些实体类和信息类有关联。

图5 物料类关联图

对信息类下的物料信息类的子类物料描述信息类进行展开,可通过图6查看物料描述信息类的数据属性,有物料号,语言代码,物料描述。

图6 物料描述信息类的数据属性

通过采用本体模型与实例数据的映射技术,将本体模型与实例数据进行绑定,生成RDF数据。通过Protégé4.1查看RDF数据,如图7所示,可以看到物料信息类的数据属性所绑定的实例数据。

图7 物料描述信息类的实例数据

4 结束语

本文探讨了企业领域本体的构建方法和技术实现,利用企业领域本体对企业的信息资源进行统一规划,对建立关联的数据提供统一风格的数据展现能力,对企业运营数据进行治理,有效解决企业运营数据的准确性、一致性、相关性等问题,促进企业的信息化与业务深度融合。由于企业领域涵盖范围广,本文中构建的本体模型还需进一步细化和改进。另外,目前本体建立还没有形成一种工程性的活动,建立本体时缺乏本体建模标准、指导原则和可操作性的方法来影响本体的重用、共享和互操作。这些都还需要不断进行实践和探索。

参考文献:

[1] 王向前, 张宝隆, 李慧宗. 本体研究综述[J]. 情报杂志, 2016(6): 163-170.

[2] The Enterprise Ontology[EB/OL]. [2016-03-20]. http://www.aiai.ed.ac.uk/project/enterprise/.

[3] 李晓辉, 李志祥, 李江. 基于本体的信息集成研究[J]. 河北省科学院学报, 2011(3): 38-42.

[4] 白海燕, 梁冰. 利用D2R实现关系数据库与关联数据的语义模式映射[J]. 现代图书情报技术, 2011(Z1): 1-7.

[5] Bizer C.D2R MAP- A Database to RDF Mapping Language[EB/OL].[2011-06-12].http://www.wiwiss.fu-berlin.de/suhl/bizer/d2rmap/www2003-D2R-Map.pdf.

[6] 唐晓波, 田杰, 望俊成. 基于语义网技术的企业信息资源整合研究[J]. 情报理论与实践, 2012(10): 42-46.

[7] 黄烟波, 张红宇, 李建华, 等. 本体映射方法研究[J]. 计算机工程与应用, 2005(18):27-29,33.

[8] 向阳, 王敏, 马强. 基于Jena的本体构建方法研究[J]. 计算机工程, 2007(14):59-61.

猜你喜欢

数据治理
营配贯通台区线损异常数据治理分析
智慧城市建设项目风险挑战与解决经验
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理