面向大数据的数据管理架构分析
2018-02-21王军
王 军
(西安外事学院, 陕西 西安 710077)
引言
大多数数据管理方法会区分数据、信息和知识。数据具体是真理和事实在数学上的集合,是某种形式的陈述,而没有任何解释;信息是具有上下文的数据,显示某个特定实体的运动和操作,当数据传递明确的变化时,它就成为了信息;知识是第三种形式,本质上是有经验的分析者所掌握的信息,传达可能发生的事情。
一般来说,为了将数据转换为信息,必须指定一组明确的数据作为影响业务的数据,然后是收集相关数据的清晰和规则的方法,并加入某种形式的分析转换数据的能力。将信息变为知识是一个更为模糊的领域,主要受分析师的技能和公司需求的影响。一些商业知识直接来自信息,例如基于可靠制造数据的生产方法是直接从收集的信息中分支出来的一种知识类型,知识提供公司制定可靠政策的运营基础。数据管理系统是指要实现三种类型转换所涉及的结构、方法和策略。
1 数据概述
1.1 元数据
元数据最常被定义为“关于数据的数据”,并且对于创建数据管理方法至关重要,在其基本形式中,元数据是放置在数据上的标签和类别,以便于分析。在公司的数据治理系统中,元数据用于对可用数据进行分类和控制。分析师需要通过元数据收集的信息来选择并操作大型数据组,这些元数据包括文件类型、名称、时间戳、物理和电子位置、所有者以及访问权限,这些都是文件系统中常见的元数据类型[1]。
1.2 数据与信息
数据由原始事实构成,如客户姓名和地址,信息是以这样一种方式组织的事实集合,它具有超越事实本身的更多价值。例如,客户名称和购买数据库可能提供有关公司市场人口统计信息、销售趋势和客户忠诚度/营业额的信息,将数据转化为信息是一个过程或一组逻辑上相关的任务,以达到预定的结果。定义各种数据之间关系的过程需要知识,知识是用于选择,组织和操作数据以使其适用于特定任务的身体或规则、准则和程序,因此通过应用知识可以将信息视为更有用的数据。
2 数据处理
数据处理是指对一组数据或数据库执行特定操作的过程,数据库是事实和信息的有组织的集合,例如员工、库存、客户和潜在客户的记录,存在多种形式的数据处理,并为业务环境中的各种应用提供服务。
数据处理主要在信息系统上进行,这是一个涵盖计算机系统和相关设备的广泛概念,信息系统的核心是输入、处理和输出。另外,信息系统提供了从输出到输入的反馈,输入机制(例如键盘、扫描仪、麦克风或相机)收集并捕获原始数据,可以是手动或自动的,处理也可以手动或自动完成,涉及将数据转换为有用的输出,输出通常采用报告和文档的形式,利用反馈对信息系统的输入和处理阶段进行必要的调整[2]。
处理阶段管理层可以对数据施加最大的控制,管理层也可以从数据中获得最大的价值。基本活动包括用于管理的最常见的处理程序,例如将数字分组到相关组中、汇总、计算比率、绘制图表和制作表格,这些处理活动的目标是将大量事实转化为有意义的信息块,然后将其用于知情决策、公司战略和其他管理功能。
3 数据管理架构
一个优秀的数据管理系统应该具备这样几种能力,包括:1)自动监控来自所有办公室或数据中心的传入数据的能力;2)跟踪数据标准和组织随时间变化的能力,以更好地理解所提供数据的准确性和可用性;3)能够整合其他系统的数据,并处理数据或数据组织中的突然变化;4)提供一个稳定可靠的平台来进行数据决策的能力。
3.1 数据组织
数据组织对于最优使用数据至关重要,以反映业务运营和实践的方式组织数据非常重要,主要考虑内容、访问、逻辑结构和实体组织。内容是指将要收集的数据;访问是指适当时提供数据的用户;逻辑结构指的是如何排列数据;物理结构指的是数据的位置。映射或图表是数据库设计人员用来显示数据之间逻辑关系的一种工具,是数据模型,因此,数据建模需要了解商业实践以及需要什么样的数据和信息。
3.2 数据模型
大多数数据库中关系的结构遵循三种逻辑数据库模型之一:层次结构、网络和关系。层次数据库模型是将数据按照自顶向下或倒置树状结构进行组织的模型;网络模型是分层数据库模型的扩展网络模型,具有所有者成员关系,其中成员可以拥有多个所有者,而不是一对多关系;关系模型使用标准表格格式来描述数据,所有的数据元素被放置在称为“关系”的二维表格中,数据查询和操作可以通过给定特定标准的列或行进行。
3.3 数据库管理系统
数据库管理系统(DBMS)是一组用作数据库与应用程序之间接口的程序。DBMS根据它们支持的数据库模型的类型进行分类,例如,关系DBMS将遵循关系模型,DBMS的功能包括数据存储和检索、数据库修改、数据操作和报告生成[3]。
数据定义语言(DDL)是一组指令和命令,用于定义和描述特定数据库中的数据和数据关系。文件描述、区域描述、记录描述和设置描述是DDL定义和使用的术语。
数据字典对数据库管理也很重要,这是数据库中结构和预期内容的详细描述。例如,数据字典可能会指定每种类型字段中允许的最大字符数,以及字段内容是否可以包含数字、字母或特殊格式的内容(如日期或货币)。数据字典用于提供术语和数据元素的标准定义,帮助程序员设计和编写程序,简化数据库修改,减少数据冗余,提高数据可靠性并减少程序开发时间。
典型的DBMS的选择通常是几个考虑因素的函数。经济成本考虑因素包括软件购置成本、维护成本、硬件购置成本、数据库创建和转换成本、人员成本、培训成本和运营成本。大多数DBMS供应商正在将他们的产品与文本编辑器和浏览器、报告生成器、列表实用程序、通信软件、数据输入和显示功能以及图形设计工具相结合,因此,寻找整个设计系统的人有很多选择。
3.4 数据仓库
数据仓库涉及从主计算机获取数据进行分析,而不会减慢主计算机的速度。以这种方式,数据被存储在另一个数据库中,用于分析趋势和新的关系,因此,数据仓库不是实时的活动的系统,而是每天或每周更新一次。