APP下载

数据仓库在体育彩票行业网点运营管理中的应用

2012-10-27张曦征安徽省体育彩票管理中心230001

中国科技信息 2012年8期
关键词:体育彩票数据仓库网点

张曦征 安徽省体育彩票管理中心 230001

数据仓库在体育彩票行业网点运营管理中的应用

张曦征 安徽省体育彩票管理中心 230001

随着我国体育彩票事业的飞速发展,彩票销售数据不断攀升,销售网点急剧增长,如何对这些急剧增长的销售网点进行科学有效地管理成为了体彩中心一个迫切需要解决的问题。本文作者通过对体育彩票业务进行需求分析,基于数据仓库和OLAP分析技术,构建了以体育彩票销售为主题的数据仓库并进行多维数据分析。

体育彩票;网点管理;数据仓库;OLAP

Sports Lottery;Outlets Management;Data Warehouse;OLAP

随着我国改革开放的深入以及社会主义市场经济的建立,体育彩票业经过近十几年的发展,从无到有,至今已经取得了令人瞩目的成绩,并逐步发展成为我国体育经济的支柱性产业。根据安徽省体彩中心数据,从2000年到2011年的11年间,安徽体彩的年销量翻了近5番,增长了近30倍,销售网点从最初的400个拓展到了目前的5600余个。如何对这些急剧增长的销售网点进行科学有效地管理成为了体彩中心一个迫切需要解决的问题。

体育彩票在计算机系统中储存着大量的数据,记录着历年的网点、分中心、销售值等相当丰富的数据信息。通过使用数据仓库技术,将大量的、分散的数据进行有效集成,使得信息更加容易存取并更具使用价值,并为制定有效的网点分布管理调整策略提供帮助。

1 相关理论

1.1 数据仓库

随着数据日益剧增,人们不再只满足于数据库提供的查询功能,提出了更深层次的问题:即能不能从大量的数据中提取出蕴藏于其中的知识来为决策提供服务。数据仓库正是在这种情况下应运而生。

著名学者W.H.Inmon对数据仓库所下的定义是:“数据仓库是一个面向主题的、集成的、稳定的、随时间变化的数据的集合,用于支持管理决策过程”。从所给的定义可以看出,数据仓库是一个综合的解决方案,主要用来帮助企业相关主管部门和业务人员做出更符合企业业务发展规律的决策[1]。

根据W.H.Inmon给出的定义,数据仓库具有以下四个基本特征[2]:面向主题(Subject Oriented)性、数据的集成(Integrated)性、数据的时变(Time Variant)性和数据的非易失(Nonvolatile)性。

数据仓库处理包括许多方面的内容,主要可分为数据准备和数据展现两大部分:

(1)数据准备:

充分了解决策需求;

根据数据仓库方法设计数据仓库结构;

将业务系统数据向数据仓库结构进行移动(包括复制、抽取、清洗…);

将数据仓库数据向小规模数据集市的数据进行复制和分布。

(2)数据展现:

面向高层决策者的主管信息系统(EIS);

面向决策分析者的联机分析系统(OLAP);

为各层决策者提供服务的即席查询系统(Ad Hoc);

为报表提供服务的灵活报表系统(Reporting);

采用多种灵活的方式进行数据展现,比如采用客户/服务器模式或浏览器模式等。

1.2 联机分析处理

联机分析处理 (OLAP) 的概念由关系数据库之父E.F.Codd在1993年最早提出。OLAP委员会作了如下定义:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”(dimension)这个概念[3]。因此,OLAP也可以说是多维数据分析工具的集合。

“维”是人们观察客观世界的某个角度,是一种高层次的类型划分。“维”一般包含层次关系,而这种层次关系有时会极其复杂。通过把一个实体中多项重要的属性定义成多个维,使用户能将定义好的这些不同的维上的数据进行比较[4]。

“维”的几个基本概念:

(1)维:“维”是人们观察问题的特定角度,例如:时间维、产品维、地理维。

(2)维层次:人们在观察数据的某个特定角度(即某个维)可以根据细节程度分为多个描述方面,这多个描述方面就称为维的层次。

(3)维成员:在维上的一个取值就是该维的一个维成员。如果维已经分成了多层次的,则维成员就是不同维层次取值的组合。

(4)多维数据集:数据立方体或超立方多维数据集是指用三维或更多的维数来描述一个对象,多维数据集既是决策支持的支柱,也是OLAP的核心。另外,多维数据集可用一个多维数组来表示。

1.3 数据仓库与OLAP的关系

在数据仓库中,数据仓库和OLAP密不可分,但是两者概念不同。

数据仓库是包含企业历史数据的大规模数据库,而这些历史数据是用来提供企业的经营分析和决策支持的。

OLAP则以多维分析为基础,重点在管理和决策过程中对数据进行多层面和多角度的分析处理。由于需要从不同角度分析数据来进行决策,因此以多维数据为核心的多维数据分析自然就成为了决策的主要内容。OLAP虽然先于数据仓库提出,由于传统的关系型数据库很难提供按多维方式组织数据的环境,而数据仓库的组织形式则为0LAP提供了理想的数据环境,所以数据仓库一出现,两者便迅速结合在一起。

图1展现了数据仓库与 OLAP 的关系,从图中可以看出,OLAP 技术利用数据仓库中的数据进行联机分析,再将复杂的分析查询结果迅速返回给用户。OLAP利用多维数据集和数据聚集技术对数据仓库中的数据分别进行组织和汇总,再采用联机分析和可视化工具对这些数据进行分析评价,有效地提高了用户复杂查询的要求,因此数据仓库的结构直接影响了立方体的设计和构造,也影响了 OLAP 的工作效率。

图1 数据仓库与OLAP的关系

2 数据仓库的构建

数据仓库的设计与实现是一个复杂的过程,它包括以下一些主要工作和活动[5]:

定义数据仓库的体系结构,进行容量规划,选择合适的存储服务器、数据库、OLAP服务器以及其他工具;

将服务器、存储和客户端工具进行集成;

设计数据仓库的模型和视图;

定义物理的数据仓库结构、数据的存放、分区以及访问方法;

连接数据源,可使用数据网关、ODBC驱动程序或其他封装器;

设计脚本程序,用来实现数据的抽取、清洗、转换、装载和刷新;

将数据库的模式、视图定义、脚本以及其他的元数据装入数据仓库;

设计并实现终端用户的应用程序;

将数据仓库和基于它的应用投入使用。

2.1 数据仓库概念模型设计

2.1.1 主题确定

对于彩票业的决策者和管理者来说,最关心的是体育彩票的市场销售情况。具体到对各体彩销售网点的管理,希望通过了解和掌握各网点的销售情况,各网点的销售排名,各网点销售数据与往年的对比等,为安徽省体彩中心制定有效的网点分布管理调整策略提供帮助。

因此,数据仓库确定主题为体育彩票销售信息,相应的数据源包括:体彩网点销售数据、网点信息数据、彩种信息数据、福彩销售数据。

2.1.2 维度确定

重点考虑销售、网点及彩种的密切关系,所以数据仓库的维度包括时间、地区、彩种三个维度:

(1)时间维度:时间是统计信息中最常用的元素,包括年、季度、月、周、日等统计信息;

(2)地区维度:包括省、市、县等,记录各个地区的名称、代码等基本信息;

(3)彩种维度:包括体育彩票的彩种和彩种类别等属性。

2.1.3 粒度确定

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别[6][7]。在数据仓库中确定粒度时,需要考虑以下几个因素:要接受的分析类型,可接受的数据最低粒度,能够存储的数据量等[8]。实际上,数据粒度的确定是业务分析、软件、硬件和数据仓库使用方法的一个折中,并不是细节程度越高越好,过低的粒度会造成很大的数据规模,在分析过程中给系统增加过大的负担而降低系统效率。因此,需要很好地权衡数据粒度级别。

体育彩票属于数据密集型行业,每天都会产生大量的数据,由于本系统的产品用户为安徽省中心工作管理人员、市中心管理工作人员、彩票中心直属管理单位、网点业主和彩民,需要非常细致真实的数据,因此,本项目主题的粒度级别是要是做到低粒度的,如下所示:

(1)时间粒度线:年→季度→月→周→彩期→日;

(2)地区粒度线:安徽省→市→县→单一网点;

(3)彩种粒度线:彩票类别→具体彩种。

2.1.4 度量值确定

度量值是管理者和决策者最关心的数据,也是用户浏览时重点查看的数据。选取的度量值通常取决于最终用户所请示的信息类型。本项目选择体育彩票销售量为度量值。

2.2 数据仓库逻辑模型设计

逻辑模型是让数据信息从现实世界转化到物理存储的中间媒介。最常见的数据仓库模型有星型模型和雪花模型[9]。

星型结构是以事实表为核心,其他的维度表围绕这个核心表呈星型分布。

雪花模型是对星型模型的扩展,增加了用户必须处理的表数量,增加了某些查询的复杂性,但这种方式可以使系统进一步专业化和实用化,通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。

本系统采用雪花模型,如图2所示。

图2 体彩销售主题的雪花模型

2.3 数据仓库物理模型设计

物理模型表示数据在硬件环境中的存储细节。由于数据仓库中,事实表的数据量非常巨大,占用存储空间较多,需要采用分区来将事实表分割成有利于管理的更小的单元。根据年份进行分区,将每一年的数据存储成单独的一个文件。另外,通过手动添加索引,进行查询优化。

2.4 数据仓库的ETL过程

ETL即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库建立加载的主要方法。

2.4.1 数据抽取

数据抽取即从数据源系统中抽取数据仓库系统所需的数据。数据抽取既要能够充分满足决策系统的需要,又要保证不影响业务系统的性能,所以在数据抽取时要制定相应的策略。一般来说,数据抽取策略大体分可分同步实时抽取和异步数据抽取两大类。

在本系统中,源数据包括体彩网点销售数据、网点信息数据、彩种信息数据、福彩销售数据。这些源数据的特点是数据量特别大,属于流水型增长的数据,因此,选用异步数据抽取的方法。对于体彩网点销售数据,抽取时机选择在各彩种的彩期销售截止后15分钟;抽取周期为各彩种的彩期。对于网点信息数据和彩种信息数据,抽取时机选择在凌晨12点,避免业务系统的使用高峰期;抽取周期为天。对于福彩销售数据,与体彩销售系统是独立的,由用户根据需要手工执行福彩数据抓取将数据导入至数据仓库。

2.4.2 数据转换

数据转换是对抽取的源数据根据数据仓库模型的要求,进行数据的转换、清洗、拆分和汇总等处理,保证来自不同系统、不同格式的数据具有一致性和完整性,再根据要求装入数据仓库。数据转换工作一般会在以下几个环节中进行具体实现:

在抽取过程中进行数据处理;

以文件方式处理,使用异步数据加载;

在数据加载过程中进行数据处理;

进入数据仓库以后再进行数据处理。

在本系统中,源数据类别属于流水型增长数据,数据抽取选用的是异步数据抽取,而且转换效率和安全性要求比较高,选用以文件方式处理的数据转换方法。

2.4.3 数据加载

数据加载是将转换后的数据加载到数据仓库中,可以采用数据加载工具,也可以采用API编程进行数据加载。数据加载周期要综合考虑经营分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保证同一时间业务数据的一致性和完整性。数据的追加策略根据数据抽取策略和业务规则确定,一般分为直接追加、全部覆盖和更新追加三种类型。根据追加类型的适用范围,采用直接追加的方式。

具体的处理流程如图3所示。

3 OLAP分析及展示

OLAP的基本多维分析操作包括钻取(roll up和drill down)、切片(slice)和切块(dice)以及旋转(pivot)等[10]。

钻取是通过改变维的层次来变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而向下钻取则正好相反,它将汇总数据深入到更细节的数据进行观察,或者增加新维。

切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上剩余的维,则是切块。

旋转是变换维的方向,即将表格中维的位置重新安排(例如行列互换)。

通过OLAP的基本操作进行切片、切块、钻取等进行数据分析,下面给出部分系统展示结果,如图4所示。

图3 ELT处理流程

图4 部分系统OLAP展示图

4 结语

本文通过开发网点数据仓库,将体育彩票的各项业务数据进行有效组织管理,将原来的分级管理模式转变成现在的统一管理的增强型模式,极大提高了工作效率和质量,并为制定有效的网点分布管理调整策略提供了科学帮助。本项目已经实施成功,在实际应用中效果良好。

[1]王丽珍,周丽华,陈红梅,肖清. 数据仓库与数据挖掘原理及应用. 科学出版社. 2009.9

[2]W.H.Inmon著,王志海等译. 数据仓库. 机械工业出版社,2000

[3]杨雪南. 数据仓库和知识发现技术. 中国计算机报, 1999.8,总847期

[4]宋晓宇,王永金等. 数据集成与应用集成.水利水电出版社,2008.7

[5]段云峰,吴唯宁,李剑威,韩洁. 数据仓库及其在电信领域中的应用. 电子工业出版社,2003.10

[6]李静. 数据仓库中的数据粒度确定原则. 计算机与现代化, 2007,2

[7]夏秀峰,周大海,张雅茜等. 数据仓库设计中低粒度数据的分割策略研究. 计算机工程,2006,32

[8]吕海燕,车晓伟. 数据仓库中数据粒度的划分. 计算机工程与设计,2009,30(9)

[9]Ralph Kimball. The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing and Deploying Data Warehouse. Wiley Computer Publishing. 1998

[10]Micheline Kanber著,范明,孟小峰等译. 数据挖掘概念与技术. 机械工业出版社, 2001

Applied Research Based on Software Configuration Management Patterns and Anti-patterns

Zhang Xi-zheng

With the rapid development of the sports lottery industry, lottery sales data and the sales outlets is increasing very fast. How to effectively manage the rapid growth of sales outlets has become an urgent problem to be solved. Accroding to the the demand analysis, this paper builds the data warehouse and OLAP on it by choosing the most representative sports lottery sales subject.

10.3969/j.issn.1001-8972.2012.08.072

猜你喜欢

体育彩票数据仓库网点
快递网点进村 村民有活儿干有钱赚
基于“互联网+”的汽车养护网点服务体系
基于数据仓库的数据倾斜解决方案研究
试论体育彩票公益金的使用与核算
聚焦“能打胜仗”全面提升网点竞争力
中国体育彩票
中国体育彩票
基于数据仓库的住房城乡建设信息系统整合研究
基于EVA-BSC的农村银行网点绩效评价体系探析
探析电力系统调度中数据仓库技术的应用