APP下载

数据仓库技术在高校图书馆中的应用研究

2011-11-20张宏武

渭南师范学院学报 2011年12期
关键词:数据仓库馆藏数据挖掘

张宏武

(渭南师范学院图书馆,陕西渭南714000)

数据仓库技术在高校图书馆中的应用研究

张宏武

(渭南师范学院图书馆,陕西渭南714000)

网络技术、信息技术以及通讯技术的飞速发展,使得高校图书馆数字化建设进程越来越快.各类自动化管理系统的应用、各种数字资源的购买,从而积累了大量的业务数据,图书馆各级工作人员都想从这些杂乱无章的数据中获取有价值的信息,而现有的图书管理信息系统只能进行简单的查询和分析,如何找出这些业务数据中潜在的规律非常困难,数据仓库、联机分析处理以及数据挖掘技术的开发应用,为我们解决上述困难提供了强有利的技术支持.

高校图书馆;数据仓库;数据挖掘

0 引言

随着网络技术、信息技术以及通讯技术的飞速发展,高校图书馆数字化建设已经成为图书馆建设的重点,各类自动化管理系统的开发和应用,必然积累了大量的数据,图书馆各级工作人员都想从所积累的数据中获取有价值的信息,领导层则希望利用现有数据指导图书馆决策.因此就需要创建一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换成集成、统一的信息.[1]高校图书馆内各个部门、各级工作人员都能在这个环境下,运用其中的相关数据和信息,发现新的分析、想法和问题,从而发展相应的决策系统,使得图书馆的服务质量更为优质.要实现这个目的,必须获得大量的历史业务数据和汇总数据.现有的管理信息系统只能进行简单的查询和分析,难以实现多层次分析和深层次挖掘,找出潜在的规律非常困难,而数据仓库、联机分析处理以及数据挖掘技术的开发应用,为我们解决上述困难提供了强有利的技术支持.

1 数据仓库及其相关技术

1.1 数据仓库及特点

20世界80年代中期,美国信息工程专家William Inmon博士首次表述了数据仓库的概念.他在《建立数据仓库》一书中这样定义数据仓库,数据仓库是一个面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用于支持管理决策.[2]虽然数据仓库的定义至今没有被标准化,但William H.Inmon所提出的定义已被人们普遍接受.数据仓库因此具有以下特点:

(1)面向主题:主题从根本讲是一个抽象概念,它是把数据在较高层次上综合、归类后进行分析利用的抽象.主题的抽取是按照分析的要求来确定的.数据在进入数据仓库之前必须要经过加工与集成,将原始数据结构做一个从面向应用到面向主题的大转变.

(2)集成性:数据仓库中数据是把原来分散的各个子系统中的数据,经过抽取、清理、转换后加载到数据仓库中的.应该说数据仓库是对源数据的增值和统一.

(3)时变性:数据仓库随着时间的变化要不断增加新的内容,同时也要随着时间变化删除长期不被使用的陈旧内容.

(4)相对稳定性:数据仓库虽然随时间变化但它是相当稳定的.这种稳定性指的是数据仓库的数据主要供决策人员决策之用,决策人员主要是进行数据查询,一般不修改数据.某个数据进入数据仓库后,一般情况下会被长期保留,经过一定的时间,当前数据就被按一定的方法转换成历史数据.由系统管理员或者系统自动将时间长且查询率低的数据从数据仓库脱离到廉价慢速的设备上,并从数据仓库中删除分析处理不再有用的数据.

1.2 联机分析处理

联机分析处理(OLAP)概念是E.F.Codd于1993年提出的.[3]OLAP是分析人员、管理人员或执行人员能够从多种角度对原始数据中转化出来的,能够真正为用户所理解的并真实反映企业维持性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术.[4]对于OLAP来说,“维”是它的核心和关键属性.系统必须提供对数据分析的多维分析和视图,包括对层次维和多重层次维的完全支持.因此,多维分析是分析企业数据最有效的方法,是OLAP的灵魂.

1.3 数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有模糊的、噪声的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.[5]

数据挖掘的任务是从数据中发现模式,即通过关联分析、聚类分析、分类、预测、时序模式和偏差分析等挖掘出数据中潜在的模式,预测其发展的行为,从而帮助决策者调整方案,辅助做出正确的决策.

2 高校图书馆数据仓库解决方案的选择

知名公司,诸如IBM、Sybase、Microsoft和Oracle等都相继推出了自己的数据仓库解决方案.本文采用的是Microsoft的数据仓库解决方案.Microsoft公司于2000年4月,发布了一套完全的数据库和数据分析解决方案,即SQL Server 2000 Beta 2版本,该版本用户可以快速创建下一代的可扩展电子商务和数据仓库解决方案.[6]Micorsoft把OLAP功能集成到了SQL Server数据库中,提供可扩充的基于COM的OLAP接口.SQL Server还支持第三方数据展现工具.它的主要技术包括:

(1)数据传输服务DTS(Data Transformation Services)是用于完成各种异构数据库之间的数据转换,使用DST可视化工具就可以创建适合自身的数据移动解决方案.它通过提供一组工具,使用户实现SQLServer2000数据库中数据和其它数据源之间进行导入和导出.DTS可以和各种类型的数据库交换数据,包括 Paradox、Microsoft Excel和 Access、dBase、FoXPro 和文本文件.

(2)Microsoft知识库(Microsoft Repository)由两大部分组成,一个是被称作开放信息模型的ActiveX接口集合,开发人员可以用它来定义数据模型;第二个是一个知识库引擎,用来存放描述对象的设计、开发和部署环境的数据模型.该知识库引擎运行在Microsoft SQL Server或Microsoft Jet数据库上,用来存放由它描述的模型和对象.

(3)PivorTableServices除了提供客户端OLAP数据访问功能外,还允许在本地客户机上存储数据,开发人员可以通过这一服务用VB等语言开发用户前端数据展现程序.

(4)MMC(Microsoft Management Console)是微软管理控制台,顾名思义,它是一个专门用于管理的控制台.其设计主要用于为Windows管理员提供一个统一的、规范的管理接口和操作平台.

3 高校图书馆数据仓库的构建

了解了数据库的相关技术、选择了相应的数据库仓库解决方案,现在开始进行具体的数据仓库构建.经过对高校图书馆的业务需求的分析,确定了其管理系统中的决策主题分别有:读者需求分析、馆藏结构分析、图书流通分析、图书借阅分析、图书采购决策.限于篇幅,这里只介绍读者需求分析的数据仓库设计.

3.1 概念设计

概念模型也称信息模型,它是按用户的观点来对数据和信息建模.概念模型实际上是现实世界到机器世界的一个中间层次.同时也是数据库设计人员和用户之间进行交流的语言.这里采用信息包图作为概念模型的设计工具,信息包图由事实、维度、粒度组成,它采用二维表格的形式反映用户使用数据仓库进行多维分析处理的需求.如图1所示.

3.2 逻辑设计

逻辑模型是着重用逻辑的过程或主要的业务来描述对象系统,描述系统要“做什么”,或者说具有哪些功能.本设计采用星型模型创建数据仓库的逻辑模型,星型结构图中间是一个事实表,其周围是一组维表.每个维表都有主键,与事实表上的外键相关连.如图2所示.

3.3 物理设计

物理设计的任务就是把逻辑模型转变为实际的数据库存储.一般情况下,物理设计须与逻辑设计相一致,对应与逻辑模型给出读者需求分析数据仓库的物理设计.如表1所示,数据库表的命名规则为:事实表读者需求表的命名以字母C开头(cube的首字母),而其它维表的命名以字母D开头(dimension的首字母).分别有读者需求表CDZXQ、借阅时间维表DJYSJ、书目维表DSHM读者维表DDUZ、借阅地点维表DJYDD.

3.4 ETL 设计

ETL是数据抽取、转换、装载的过程,它是构建数据仓库的重要环节.本设计使用Microsoft SQL Server 2000数据转换服务(DTS)作为ETL工具,DTS从源数据中获取需要的数据并清理、转换后集成到数据仓库中.首先,在数据仓库服务器上创建数据转换服务包sjzh_dw;其次,在sjzh_dw中创建两个数据源,并使这两个数据源分别连上原数据库和数据仓库数据库;再次,在这两个数据源上为读者需求分析事实表和上述的几个维度表建立对应的转换任务;然后,为每个转换任务设置数据源、目的地和转换的对应关系;最后,将包含所有转换任务的转换包保存.执行包就可以完成实际的数据转移,转换任务完成后为各个表设置主键和表间关系.

4 数据仓库技术在高校图书馆中的应用

高校图书馆数据仓库的设计完成以后,其主要功能在图书馆自动化管理系统的以下方面得到很好地发挥和应用.

(1)读者需求分析.对历史业务数据进行挖掘,根据对不同类型读者对图书馆各类资源的需求情况的分析,追踪高校读者对不同服务产生的不同效果,可以预测未来一定的时间内各层次读者对馆藏图书的需求量.读者需求的分析还包括对读者借阅量、借阅倾向、读者需求与馆藏结构的符合程度等项目的分析.

表1 多维需求分析的物理模型

(2)馆藏结构分析.分析不同年度各类图书的入藏情况,发现各种馆藏的有效性.进行馆藏结构分析的目的是通过剔除陈旧的、无人问津的图书,补充新品种、供不应求图书的复本量的办法.不断调整均衡馆藏的策略,使每本图书都能得到充分利用,从而平衡馆藏、优化结构,最终形成最佳的藏书结构.馆藏结构分析还包括图书分布情况分析、图书使用价值分析和馆藏文献比例分析等.

(3)图书流通分析.分析馆藏的二十二大类图书的流通情况,选定一定的时间区段,分析出图书流通的高峰期和低谷期.根据对图书平均流通率、图书月流通率、图书拒借率、图书呆滞率等历史数据的统计分析,有效地帮助图书馆管理层发现图书流通工作规律,指导决策层制定相应的工作方法,从而为读者提供更优质的服务.

(4)图书借阅分析.发现并分析出读者对不同种类图书的借阅规律、借阅倾向,从而为制定藏书补充计划提供了科学依据,也为提高服务质量提供了基本依据.图书借阅分析包括流通率统计分析、借阅频率统计分析、拒借率统计、工作量统计分析等.

(5)图书采购决策.高校图书馆每年都购入一定量的图书,运用数据仓库技术、OLAP和数据挖掘等技术对历史采购数据、流通数据、读者数据和读者需求的挖掘和分析,帮助图书馆采购人员确定采购方向和重点,使得图书馆信息资源体系更为科学与合理,从而为高校学科建设提供强有力的保障.

5 结语

数据仓库技术自问世以来,在很多行业已经广泛的应用,近几年图书馆领域也已开始对数据仓库技术的应用着手研究,高校图书馆数据仓库支持对图书馆历史业务数据的分析、挖掘,能实现对异构数据库数据的集成,作为信息技术构建的新焦点,相信它将对图书馆信息化的发展起到强大的推动作用.

[1]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002.5.

[2][德]M.巴斯蒂安.数据仓库与挖掘技术[M].武森,高学东,译.北京:冶金工业出版社,2003.

[3]于在洋,何伟,刘启贤.OLAP技术及其在民族决策支持系统中的应用[J].中央民族大学学报(自然科学版),2008,17(3):63-66.

[4]张晓明,刘萍,王鹏.基于数据仓库的数据挖掘及联机分析技术[J].网络与信息技术,2008,27(9):58-59.

[5]周晓梅,王潜平,苏琳.基于XML的 Web数据挖掘模型的设计[J].计算机工程与设计,2007,28(2):272-277.

[6]雷德蒙·华盛顿.微软公司发布SQL Server 2000 Beta2版[EB/OL].(2000-04-26)[2010-12-20].微软新闻,http://www.microsoft.com/china/press/2000/04/0426.mspx.

Research on the Application for Data Warehouse of University Library

ZHANG Hong-wu
(Library,Weinan Teachers University,Weinan,714000,China)

Network technology,information technology and the rapid development of communication technology make the digital technology in university library develop faster and faster.The application of various types of automated management systems and the purchase of various types of digital resources have accumulated a large amount of business data,the library staff at all levels want the data from these chaotic to obtain valuable information,while the existing library management information system can only perform simple queries and analysis of business data,to identify the potential of these laws is very difficult.Development application of data warehousing,online analytical processing and data mining technology provides a strong advantage of technical support to solve the above problems.

university library;data warehouse;data mining

G250.76

A

1009—5128(2011)12—0080—05

2011—05—09

陕西省教育厅专项科研计划资助项目(08JK285)

张宏武(1964—),男,陕西渭南临渭区人,渭南师范学院图书馆副研究馆员.研究方向:数字图书馆.

[责任编辑 曹 静]

猜你喜欢

数据仓库馆藏数据挖掘
馆藏
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
博物馆的生存之道:馆藏能否变卖?
基于数据仓库的住房城乡建设信息系统整合研究
知还印馆藏印选——古印篇
基于并行计算的大数据挖掘在电网中的应用
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践