数据仓库技术在广电检测数据中的应用
2015-07-02王红胜佘方毅
王红胜,王 涛,佘方毅
(国家新闻出版广电总局 广播科学研究院,北京 100866)
数据仓库技术在广电检测数据中的应用
王红胜,王 涛,佘方毅
(国家新闻出版广电总局 广播科学研究院,北京 100866)
检测工作是质量控制的关键环节,会根据测试对象的不同产生大量的数据,利用数据仓库技术来管理测试数据,将会对检测工作的长期发展产生巨大的作用。首先对数据仓库的关键技术和实施工具进行了介绍,接着在分析广电检测数据整体架构的基础上,进行了逻辑模型和物理模型的初步设计,为广电检测数据仓库的原型系统提供了框架和模型。
数据仓库;检测数据;模型
目前,被广泛接受的数据仓库的概念是由W.H.Inmon博士提出的,他对数据仓库的描述为:“A data warehouse is a subject-oriented,integrated,nonvolatile,and time-variant col⁃lection of data in support of management’s decisions”[1],赋予了数据仓库面向主题、集成、相对稳定和反应历史变化等特征。数据仓库不同于关系型数据库,其关键技术在于能够进行数据的抽取、存储和管理、表现以及数据仓库的设计。通过数据仓库整合异源数据,从而建立用于支持决策管理的统一数据源。首先利用UML工具进行数据仓库逻辑建模,然后对那些频繁访问的对象属性,应该利用数据库对其分配一定的区域[2],并将其运用在广电检测数据中,最终形成以数据仓库为平台,利用联机分析处理技术和数据挖掘技术,自动生成所需要的信息,并能够以PDF、Excel等格式呈现出来,实现为广电检测数据的决策支持,更好地为广电检测服务提供数据便利。
1 数据仓库技术及其工具介绍
1.1 数据仓库建模
数据模型是表征抽象实体和实体之间的关系,数据仓库模型可分为业务模型、领域概念模型、逻辑模型和物理模型。数据仓库的建模方式可分为两种,一种是多维模型,基于预先定义的关系来完成,基本结构包括星形模型和雪花模型;一种是关系模型,其结构特点能够为所有类型的数据集市提供数据源,反射用户的业务规则。
根据预先定义的关系来完成建模,逻辑建模方式在考虑业务概念和事件属性内容的同时,并将其实体化。首先要关注的是数据仓库的逻辑建模,按照文献[3]的分析,构建面向对象的数据仓库模型,系统流程如图1所示。
1.2 数据仓库关键技术
1)源系统,即外部数据源,可以为数据仓库提供各种类型的数据。
图1 构建面向对象的数据仓库模型的流程
2)元数据(Meta Data)用于定义和描述数据仓库的系统结构、操作和过程的信息[3]。可分为技术元数据、业务元数据和过程元数据。
3)ETL,即Extraction,Transformation,Loading的缩写,就是数据的提取、转换和加载,负责完成数据从数据源向目标数据仓库的转换。
4)数据集市,俗称“小数据仓库”,是数据仓库的一种面向主题的多维数据库或者商业视图。
1.3 OLAP技术
联机分析处理(On-Line Analytical Processing,OLAP)委员会对其定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业特性的信息进行快速、一致和交互的存取,从而获得对数据更深入了解的一类软件。按数据组织来说可分为3类:多维性OLAP、关系型OLAP和混合型OLAP。
1.4 数据仓库体系结构
标准的数据仓库系统通常包括数据源、ETL、数据存储、OLAP服务器和前端展示组成,如图2所示。
图2 数据仓库体系结构
2 广电检测数据体系结构分析与设计
广播电视作为宣传沟通的渠道,一直发挥着不可替代的作用。为了确保高质量的视听享受,需要对各类和广电相关的设备和系统在指定的检测机构进行检测。根据产品功能的不同进行分类,总体来说主要有无线广播电视、有线电视、电视中心、广播电视软件产品和电磁兼容五个大类。每个大类下面又根据具体功能分为多项产品和系统,针对每一类产品和系统会有不同的测试指标和测试内容,对于同一类产品和系统会存在有规律可循的测试数据。这些测试数据大部分是以doc、pdf、txt文档或者其他的形式保存,由于各类数据是分散的,没有统一格式,不便于对这些数据进行分析处理,这样利用数据仓库技术建立统一的检测数据整合平台就显得尤为重要了。
2.1 需求分析
检测工作是用指定的方法检验测试某种物体指定的技术性能指标,已经成为质量控制的关键环节。
作为广电仪器设备和系统的检测部门,每天要处理大量的检测数据,针对不同的检测内容,会有不同的技术指标和测试结果。目前的状况是伴随着每个检测任务的结束,相应的检测结果和数据也沉睡在了资料库里;而且现存的检测结果和数据是跟着业务单来走的,相互之间都是相对独立的;如何更为有效地处理这些测试数据,将这些关联信息串联起来进行分析,将会给检测业务的长期有效发展带来不可估量的价值。
2.2 数据来源分析
源数据是数据仓库系统的基础,是存储在数据仓库中的数据来源[4-5]。本文中数据来源主要是第三方实验室各类型的检测结果以及相关信息。这其中既有实验室信息管理系统所产生的文档数据,也有其他格式的文档数据,以及未来可能将数据共享的其他实验室所产生的各类型数据。
在构建用于数据分析的数据仓库时[6],往往采集到的数据来源众多、数据不规范,对那些数值定义不完整、数据冗余等情况会影响后续数据分析的结果,建立一套针对性的规则对检测数据进行清洗,这就要使用数据的ETL技术,对各种属性进行概念分层。
数据的ETL相对数据仓库建模和数据挖掘技术难度较低[7],但是所包含的任务量却是数据仓库系统开发中比重较要的一部分。鉴于数据仓库的海量数据特性,可以借助商业的ETL工具来完成数据的抽取、转换和加载,目前比较成熟的ETL工具有OWB(Oracle Warehouse Builder)、Informatic PowerCenter、ODI(Oracle Data Integrator)和Datastage等。
2.3 逻辑模型设计
多维数据模型的设计主要是维度表和事实表的设计,而逻辑模型设计是对概念模型的细化,将信息维度展开成雪花模型,使用多个表来描述维度,多个事实表之间可以通过共享多个公共维度表连接起来[8]。
作为第三方公正的实验室,本中心不仅承担着广播电视仪器设备入网测试的任务,还融合了相关业务的委托测试。从业务范围来说,主要是有线电视、无线广播电视、光和数据网络、移动多媒体广播、卫星广播电视、电视中心和嵌入式软件等。根据工作性质和内容、方式等特点,本实验室检测数据内容结构如图3所示。
图3 雪花模式数据建模
在图3中,检测数据可以作为一个事实表,它的属性有检测时间、检测地点、检测环境和检测仪器等。由于检测数据的出处可能是不同的,会有不同的检测单位属性,每个检测单位的检测业务范围大致一致,每项检测业务会涉及不同的样品,样品又会有不同的生成单位。
在对上图进行具体细化之后,可以得出以下几个表,首先是检测事实表,其存储主要的维度及度量信息,或者一些必要的描述信息。如图4所示,检测事实表所包含的维度信息主要有时间、环境、仪器、类别和来源。基本上包含了检测数据的属性信息。
2.4 物理模型设计
图4 检测事实维度表
数据仓库的物理模型设计要完成逻辑模型在物理系统中的实现,即将逻辑模型中所定义的事实表和维度表转换成物理数据库表,这其中包括表的数据结构类型、索引策略、数据存放位置和数据存储分配等。在进行物理模型的设计实现时,要考虑的因素有:I/O存取时间、空间利用率和维护的代价等。考虑到数据仓库的数据量大,但操作单一的特点,可采取其他的一些提高数据仓库性能的技术,如合并表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、建立广义索引等[9]。
本课题采用SQL SERVER关系数据库为数据仓库的物理基础,存储事实表和维度表数据,见表1~4。在逻辑模型的基础上,需要进一步确定各事实表和维度表的物理结构,包括表格字段数据类型、主键和索引等。
表1 检测时间维表
表2 检测事实维表
表4 检测数据维表
3 小结
在上述内容中,构建了广电检测数据的数据模型,如何根据数据模型构建数据仓库的原型系统将是下一步工作的重点。利用数据仓库强大的数据存储和处理能力,构建广电检测数据的智能化分析处理,一方面使得各种大量检测数据的处理变得更为有效和科学,另一方面,利用数据仓库技术管理庞大的检测数据,可为广电检测数据的质量控制提供系统化和科学化的依据。
检测数据作为各行业质量控制的重要环节,得到了快速的发展,各业务部门积累了大量的检测数据,这对其来说是宝贵的资源,如何更有效地对这些检测数据进行整合,采用数据仓库技术建立一个相对独立的数据信息整合平台。本文通过对数据仓库技术和联机处理技术进行研究,结合广电检测数据的一些实际特点,对其逻辑模型和物理模型进行了初步设计,为广电检测数据仓库的原型系统提供了框架和模型。
[1] INMON W H.Building the data warehouse[M].4th ed.Indianapo⁃lis:Wiley Publishing,Inc,2005.
[2] MICHAEL R,BLAHA J R.Object-oriented modeling and design with UML[M].2nd ed.[S.l.]:Prentice Hall,2004.
[3]蒋秀艳.基于数据仓库的生产成本分析研究与应用[D].上海:上海交通大学,2013.
[4] HAYARDISI G,SITANGGANG I S,SYAUFINA L.Data ware⁃house and Web-based on OLAP for hotspot distribution in indo⁃nesia[C]//Proc.2009 2nd Conference on Data Mining and Optimi⁃zation.Kajand:IEEE Press,2009:1-4.
[5] ZHAO Xiaofei,HUANG Zhiqiu.A quality evaluation approach for OLAP metadata of multidimensional OLAP data[C]//Proc.Depart⁃ment of Computer Science and Technology Nanjing University of Science and Technology.Chengdu:IEEE Press,2010:357-361.
[6] 郭曙超.食品安全检测数据仓库技术的应用与研究[J].食品研究与开发,2013(9):125-128.
[7]廖振云.基于数据仓库技术的交通管理系统研究与应用[D].广州:广东工业大学,2013.
[8] 李炎强.基于数据仓库的广电用户收视数据研究与应用[D].广州:中山大学,2013.
[9]郭晓可.数据仓库和OLAP在广东中烟商业销售分析中的应用和研究[D].昆明:昆明理工大学,2013.
责任编辑:许 盈
Application of Data Warehouse Technology in Broadcasting Test Data
WANG Hongsheng,WANG Tao,SHE Fangyi
(Academy of Broadcasting Science,SAPPRFT,Beijing 100866,China)
According to the different test objects,Testing work will produce large amounts of data as a key link in quality control.It will have a huge role of long-term development of testing work to use data warehouse technology to manage the test data.Firstly,the article introduces the key technology and implementation tools of data warehouse, followed by the analysis of the overall architecture of broadcasting test data.A framework for the prototype system of the broadcasting test data is provided based on the initially designed of the logic and physical models.
data warehouse;test data;model
TP391
A
10.16280/j.videoe.2015.08.024
2014-08-26
【本文献信息】王红胜,王涛,佘方毅.数据仓库技术在广电检测数据中的应用[J].电视技术,2015,39(8).