APP下载

打造数据仓库,建设节能校园

2015-11-17朱宇华

电脑知识与技术 2015年24期
关键词:数据仓库

朱宇华

摘要:建设资源节约型、环境友好型社会是中央的一项重要任务,高校作为社会构成中的重要组成部分,资源占有量大,能源消耗量大,因此“节约型校园”建设势在必行。该文以苏州工艺美术职业技术学院校园一卡通系统的历史流水为样本,通过大数据技术对其进行清洗、转换等操作,并最终加载到数据仓库中,找出学院水能源损耗规律,发现平时未留意的问题,将学院“节约型校园”建设工作提升到一个新的台阶。

关键词:节约型校园;数据仓库;OLAP

中图分类号:TP274 文献标识码:A 文章编号:1009-3044(2015)24-0013-03

中国是一个自然资源总量大国,又是一个人均资源小国,各类主要资源的人均占有量远低于世界平均水平。长期以来,中国经济飞速发展,粗犷型的经济增长方式导致资源利用率低,浪费破坏现象严重,环境逐步恶化,资源的供需矛盾不断加剧。为了有效缓解这种矛盾,中央将构建“节约型社会”列为一项重要任务。中国的高校不仅是社会资源占有大户,而且是能源消耗大户,更是传播节约理念,创造节约节能技术的基地,因此节约型校园的建设对整个国家的和谐发展具有非常重要的意义。

校园一卡通系统学院的各项工作中都起着重要的作用,每天都产生数以万计的历史数据,这些数据均具有时效性,在报表完成后,其就变成了垃圾数据,每到一定时间系统就将其自动覆盖掉,但随着大数据技术的发展和应用,如果将历史数据变废为宝,使其能够为学院的辅助决策提供依据成为亟需解决的问题。本文以苏州工艺美术职业技术学院的校园一卡通系统的历史数据为样本,通过大数据技术的综合使用,找出学院水能消耗规律,为学院的水能调配工作提供事实依据,从而将学院的节约型校园工作提升到一个新的台阶。

1 数据仓库技术简介

1.1 数据仓库简介

到底什么叫数据仓库?这可能是每一个技术人员刚刚接触数据仓库时都会问的问题,有人说它是一个特别大的数据库,也有人说它是一种数据管理和分析的技术,其实这些都从侧面反映了数据仓库的概念。

目前,业内公认的数据仓库概念的概念是由美国著名信息工程学家 W. H. Inmon 在他的《Building the Data Warehouse》一书中定义的,即数据仓库是集成的反映历史变化的(Time-variant)、(Integrated)、稳定的(Non-volatile)、面向主题的(Subject-oriented)数据集合,用于决策支持。正如Inmon所说的,数据仓库具有以下特点:

(1) 面向主题的

与OLTP事务性数据库相比,数据仓库中的数据是面向主题进行组织的。主题就是指将信息系统中的数据综合归类并进行分析利用的抽象。

(2) 数据仓库的数据是集成的

为了更易于访问和减少用户的查询相应时间,应把数据从数据源中提取到数据仓库中,而这些被提取的属于应该进过数据预处理,将原始数据做出又应用层面到面相主题层面的转变。

(3) 不可更新的

数据仓库的数据主要是为了决策分析之用,一般情况下并不进行修改操作。数据仓库的数据相对数据库管理系统要简单很多,可以最大限度地对数据仓库进行性能优化。

(4) 随时间不断变化的

数据仓库中的数据虽稳定,数据仓库随着时间的积累,其中也会不断增加新的数据内容和去除过去的数据内容。

1.2 数据仓库和数据库的比较

传统数据库是为特定的应用服务,它的相应时间、数据安全性和完整性是人们主要关心的方面。因此,数据库提供完善的数据锁、事务日志和并发控制等机制,可以安全可靠的处理业务。而数据仓库虽然是又数据基础上发展而来,但是它更多的作用是为复杂的数据分析和高层决策提供支持。尽管目前的数据仓库还是采用关系数据库来实现,但是他们面相的应用已是不同,无论是在数据模型的设计还是数据的物理组织上都存在很大的差异如表1所示:

2 数据仓库工具简介

随着大数据技术越来越被人所重视,各大软件厂商积极投入到数据仓库解决方案的竞争中,形成了诸侯纷争的局面,但截至目前为止,还没有形成某一家厂商的产品垄断的局面。本文选用Microsoft的SQL server 2005作为数据仓库工具。

Microsoft SQL server 2005有两大体系,一是关于数据库管理的,一是关于商业智能应用的。其中商业智能方面SQL Server 2005提供了三大服务,分别是:SQL Server 2005 Analysis Services(SSAS)、SQL Server 2005 Integration Services(SSIS)、SQL Server 2005 Reporting Services(SSRS),其体系结构如图1所示:

本文通过使用SSIS服务从各种异构数据源中整合业务数据,构建能耗分析数据仓库,再使用SSAS服务构建数据立方(Cube),也就是多维数据集,最后进行OLAP分析。

3 项目具体实施步骤

能耗分析数据仓库的构建工作主要分为以下几个步骤:

3.1 校园一卡通系统数据理解建立数据仓库模型

首先,需要对校园一卡通的业务数据进行详尽的了解,进而确定分析主题。经了解,校园一卡通包含了学生消费、图书借阅、考勤等多种数据,此次目的是对学院的水能消耗情况进行一个宏观观察,因此选取学生消费信息中的水能消费流水为基础,建立能耗分析主题,抽取相关数据,建立数据仓库模型,模型如图2所示:

3.2 校园一卡通数据预处理

因为现实中的数据或多或少的都会存在数据不完整,数据不一致和包含不需要的成分等各种问题,而这些问题会给分析结果带来干扰,因此为了提高数据分析结果的准确性,数据预处理非常的重要。

经查询发现,校园一卡通数据库中由于账户的异动、读卡错误、流水丢失等问题,也产生了部分噪声数据,需要通过数据清理、数据集成、数据变换、数据归约等技术对校园一卡通数据库内的噪声数据进行预处理,其主要过程如图3所示:

3.3维度的设计与建立

根据E-R模型,分别建立学生维度表、商户维度表、时间维度表和事实表,在此只展示商户维度表(如表2)和事实维度表(如表3),其他类似。

鉴于时间维度表的特殊性,不能够从校园一卡通数据库中直接抽取,因此需要使用SQL对其进行转换,其部分代码如下:

SELECT @addday = 1

SELECT @dDate = '08/31/2013' --开始日期

WHILE @dDate < '08/31/2014' --结束日期

BEGIN

SELECT @Month = DATENAME( mm, @dDate )

SELECT @DayOfMonth = DATENAME ( dd, @dDate )

SELECT @ WeekString = DATENAME ( dw, @dDate )

SELECT @Year = DATENAME ( yy, @dDate )

SELECT @MonthOfYea r = DATEPART( month, @dDate )

SELECT @WeekOfYea = DATENAME ( week, @dDate )

SELECT @Quarter = 'Q' + CAST (DATENAME ( quarter, @dDate ) as varchar(1))

End

3.4 使用OLAP进行分析处理

接下来通过SQL Server数据仓库工具对数据源和维度表进行设置即可形成数据立方体,然后通过OLAP联机分析处理技术对其进行钻取、切片、旋转对学院的水能消耗情况进行一个全方位立体分析,将分析结果通过excel透析表方式进行呈现,结果如图4所示:

从上图可以看出,有的月份用水量较高,而有的月份用水量偏少,结合学院的自身情况和天气规律,就很容易找到学院水能消耗规律,从而有针对性的调配水资源。

4 结论和展望

通过对数据仓库技术和OLAP联机分析处理技术的综合运用,对校园一卡通数据库内的历史数据完成了筛选,清洗,加载等操作,建立了水能消耗数据仓库,找到了学院水能消耗规律,为学院后勤对水能的供应调配,提供了事实依据,既满足了学生的用水,又防止了盲目供热,浪费能源,最大限度地节约了学院能源损耗。

落实科学发展观、建设生态文明是全社会的一项重要举措,节约型校园的建设对全社会有着重要的现实意义。水资源作为我国珍贵的稀缺资源,本文通过先进的技术手段,对学院的水资源的合理调配,最大限度地节约了水能消耗,既满足了学院广大师生的需求,又切实地将节约型校园工作落到了实处。同样,依照此方法,也可以对学院的其他能源做出相应的处理,最终形成学院能耗检测平台,使学院的节能减排工作上升到一个新的台阶。

参考文献:

[1] 中华人民共和国住房和城乡建设部、教育部.高等学校节约型校园建设管理与技术导则(试行)[S],2008.

[2] 张福麟.高校节约型校园建设示范进展及工作要求[Z].

[3] 建科[2008]90号.中华人民共和国住房和城乡建设部、教育部关于推进高等学校节约型校园建设进一步加强高等学校节能节水工作的意见[S].

猜你喜欢

数据仓库
基于数据仓库的数据倾斜解决方案研究
地理信息数据仓库的技术研究
基于数据仓库的住房城乡建设信息系统整合研究
页岩气工程大数据仓库建设与管理系统开发
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
基于数据仓库的数据分析探索与实践
论销售数据仓库的需求分析和概念模型设计
基于工作流的分布式数据仓库模型的研究