APP下载

大数据环境下的领域数据体系设计方法研究

2015-05-12张婷夏宏雷

卷宗 2015年4期
关键词:服务化结构化编码

张婷 夏宏雷

1 引言

随着我国各类大型集团企业信息化改革的不断深入,各大型集团企业迫切要求提升企业管控水平。而企业管控能力的提升,需要对大量的业务数据进行综合处理与分析,为管控决策提供支撑。因此,对这类大型集团企业范围内的领域级数据进行深入整合、存储、发布和管理是进行高效数据利用的前提,也是提升企业管控水平的基础。同时,随着大数据、云计算等新技术的快速发展和应用,各类大型集团企业也需要制定自身的数据体系构建策略和数据标准。

2 大数据环境下的领域数据体系设计方法

大数据环境下的领域数据体系设计方法的主要思想是:在大数据环境下,以数据体系需求分析阶段得到的数据资源为基础,参考具体领域的数据标准(若有),利用已有系统的数据资源,分别对结构化数据和非结构化数据的数据关系进行梳理,获得数据分类和编码。然后根据数据模型定义数据存取格式,最后结合SOA技术和云计算技术,将数据资源服务化,建立领域统一的数据概念定义、分类体系、编码规则与数据模型,并进一步构建大数据环境下的数据服务资源集,实现数据的可视、可用、可管理和可信任。其技术方案如图1所示。

2.1 大数据环境下的数据关系梳理

针对领域数据类型多样性和异构性,分别对结构化数据和非结构化数据进行数据关系的梳理。对于结构化数据,首先进行基于形式化本体的领域数据概念分类,然后根据分类进行领域数据的层次编码与代码设计,接着分析数据关系,构建数据逻辑模型。对于非结构化数据,首先进行实体的识别,然后进行实体关系抽取。这个阶段主要在梳理数据关系的基础上产生数据分类和编码。

2.1.1 结构化数据的关系梳理

(1)基于形式化本体的数据分类

基于形式化本体的数据分类步骤如下:

步骤一:在概念分类的基础上构建数据概念库。

步骤二:建立数据概念库,根据汉语词语的特点,结合数据概念的特点,将数据信息概念分为元概念和复合概念两大类。

步骤三:领域数据概念的基本特性,引入数据元属性,主要包括抽象性、存在性、统一性、依赖性和拆分性。

步骤四:对元属性进行约束和假设。

步骤五:分析元属性之间的组合,不同的组合方案对应于数据分类中不同的分类层次,完成数据概念的形式化分类。

步骤六:设定复合概念约束条件,实现分类中数据复合概念的选取问题。

步骤七:确定概念之间的同义、上下位、整体部分、属性-宿主和实例等关系。

(2)数据的层次编码

层次码能反映编码对象间的隶属关系。层次码编码方法以编码对象集合中的层级分类为基础,将编码对象编码成为连续且递增的组(类)。位于较高层级上得每一个组(类)都包含并且只能包含它下面较低层级全部的组(类)。每个层级上特性必须互不相容。

2.1.2 非结构化数据的梳理

(1)实体的识别

实体识别技术在处理分析非结构化数据时,处理分析的实体主要有名称、地址、机构名、时间、数量词等五大类信息。但是对于结构比较随意、内容复杂多变、长度变幻不定的信息进行识别时,则要通过搜集大量的指示词和特征词,根据上下文进行初始判断。然后通过统计词出现的频率来进行最终的实体结果判定。

(2)关系抽取

关系抽取的目标是发现海量数据中实体间的语义关系。考虑针对不同形式的数据文件设计不同的实体关系抽取任务。同时也可根据领域的特点定义具体的关系模型。在定义关系模型之前,可以事先分析部分特定语料,由此定义了最有可能出现在这种语料中的基础关系类型,然后逐步完善使实体类型与关系类型的定义通用化。

2.2 大数据环境下的数据描述定义

针对大数据环境下领域数据类型多样性和异构性,分别对结构化数据和非结构化数据进行数据描述定义。对于结构化数据,依据数据分类和编码整理数据目录,构建数据字典、定义元数据。对于非结构化数据,依据实体和识别出的关系整理出非结构化数据的目录,并使用键值型数据、文档型数据、列式型数据或图形型数据模型对非结构化数据进行建模。

2.3 大数据环境下的数据存储格式定义

根据在大数据环境下的数据描述定义,先对数据的存储格式进行定义,然后基于结构化和非结构化数据的不同类型,分别选择不同的存储数据库。最后定义数据交换格式,用于规范不同的数据库之间数据的交换。

在对存储格式进行定义时主要使用分布式存储技术,将数据文件分块,然后分别存储在多台主机上,以提高数据访问速度和读写的效率。利用Hadoop框架中的HDFS文件系统中所使用的分布存储技术存储MB、GB甚至TB级别的超大文件;实现最高效的访问模式,即一次写入、多次读取。

完成数据存储格式定义后,进行存储数据库的选择。使用键值型数据库、文档型数据库、列式数据库或图形数据库以及XML对非结构化数据进行存储,使用关系型数据库(RDB)对结构化数据进行存储。

对于不同的数据存储形式,需要构建数据交换格式和规范,对领域数据中数据元素要制定相关规范,用于数据交换。

2.4 大数据环境下的数据资源服务化

在大数据环境下,梳理数据所需要的资源和服务,通过建立服务数据模型,对Web服务进行封装,然后对数据服务资源进行发布,基于SOA技术和云计算技术,设计面向大数据的数据资源的服务化方法和领域数据资源服务化的架构,将数据资源服务化,确保用户对领域数据使用的一致性。

(1)数据资源服务化方法

数据资源服务化是将各种数据资源构建形成一个服务系统。其核心是通过数据资源服务化封装将数据资源虚拟化,形成一个逻辑资源服务,并将服务注册到数据资源注册中心,数据资源用户可以通过服务发现/查找获得所需要的数据资源信息,绑定相关服务,通过服务调用实现对数据资源的访问。数据资源用户可以通过对不同的数据资源服务的组合、服务流程的编排实现复杂的数据集成。

(2)领域数据资源服务化的架构设计

领域数据资源服务化针对各种异构数据资源,统一了数据访问接口和数据表现形式,形成一个统一的、跨平台的数据访问模式,实现了异构数据资源的统一访问。而数据资源提供者可以将可共享的数据以服务接口的形式暴露出来,通过标准的服务描述语言WSDL加以描述,实现了数据资源集成的可扩展性以及数据资源的动态集成。

3 结语

在大数据时代来临的今天,如何使数据体系和标准设计能够满足业务发展和技术变革的要求,结合新技术的发展使积累的数据具有更高的价值,是大型集团企业信息管理部门所面临的挑战和机遇。本文从领域级数据体系设计方面对当前和未来信息资源管理和应用的技术架构进行了研究探讨。根据数据生命周期的规律和特点,提出了一种领域数据体系设计方法,希望该方法能给各集团企业数据资产的管理和应用提供一种可靠和行之有效的方法。

猜你喜欢

服务化结构化编码
制造企业服务化程度、服务化模式和服务化收益研究
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
促进知识结构化的主题式复习初探
《全元诗》未编码疑难字考辨十五则
结构化面试方法在研究生复试中的应用
子带编码在图像压缩编码中的应用
Genome and healthcare
制造业服务化发展战略研究
基于图模型的通用半结构化数据检索
制造服务化发展战略