基于DW和OLAP技术的数字图书馆资源访问分析
2009-01-11熊拥军陈春颖
熊拥军 陈春颖
〔摘 要〕针对数字图书馆资源服务系统积累中的大量数字资源访问数据,研究并实现基于数据仓库及OLAP技术的数字资源服务分析系统。首先建立了与资源服务系统分离的数据仓库,并对数据仓库进行多维建模;然后对多维数据模型进行切片、切块、旋转、上钻和下钻等多维操作,从多角度对数字资源访问数据分析;最后采用前端开发工具开发了可视化的多维分析和数据展示平台。实践表明,基于数据仓库的数字资源服务分析可以图书馆管理层提供有效的决策支持。
〔关键词〕数字资源服务;数据仓库;模型设计;联机分析处理;多维数据模型
〔中图分类号〕TP311.13 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0153-05
Digital Resources Service Analysis System Based on Data Warehouse and OLAPXiong Yongjun Chen Chunying
(Library,Central South University,Changsha 410083,China)
〔Abstract〕Based on the large amount history data accumulated in the digital resources service system,the digital resources service analysis system based on data warehouse and OLAP technology was studied and implemented.First,the independent data warehouse of the digital resources service was established and the multi-dimensional model was set up to make multi-analysis.And then the multi-analysis analysed such as slice,dice,rotate,roll-up,and drill-down are made in order to analyze the data from multi-dimension.On this basis,the front-end development tool was used to develop the display platform for the data,which could be used for integration of visualization analysis.The experiments showed that the digital resources service analysis system could help the administrators of library to make the efficient decision supports.
〔Keywords〕digital resources service;data warehouse(DW);model design;OLAP;multi-dimensional datasets
随着信息技术的发展和信息资源的快速增长,数字图书馆信息资源服务模式由以“资源”为中心转变为成以“用户”为中心的个性化知识服务模型[1]。国内许多图书馆建立了自己的个性化数字资源服务平台MyLibrary。系统积累了大量的读者对数字资源的访问数据。但目前的数字资源个性化信息服务系统注重的是信息的检索、定制和推送等个性化服务功能,不能对资源访问数据进行深层次的分析与挖掘,不能很好为较高层次的管理者和决策者提供决策支持。
从实际需求来说,图书馆管理者和决策者急需对数字资源的访问历史数据进行智能分析,了解网上读者对数字资源访问情况,从中发现读者兴趣和资源的关联,为数字资源的采访和读者个性化服务提供宏观指导。而数据仓库(data warehouse,DW)却能提供较好的决策支持,数据仓库面向OLAP(on-line analytical processing,在线分析处理),OLAP注重对数据更高层次的分析,通常是对海量的历史数据进行查询和分析[2]。
在这样的背景下,本研究针对高校数字图书馆个性化服务系统所积累的资源访问数据,建立数据仓库多维数据建模,运用OLAP技术对资源访问历史数据进行多维分析,并利用前端工具对资源访问多维模型进行数据可视化展示。
1 数据仓库和OLAP技术
W.H.Inmon把数据仓库定义为:“一个面向主题、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”[3]。数据仓库技术是在传统的数据库技术基础上发展而来的,其主要是为决策提供支持,为联机事务分析、数据挖掘(datamining,DM)等深层次的数据分析提供平台。目前,数据仓库技术已成功用于电信、银行和零售等行业中。
1.1 数据仓库组成
建立数据仓库的主要过程包括数据源的数据导入、数据存储和管理和数据分析与展现[2-3]。为完成以上过程,数据仓库系统采用如图1所示的结构。其中数据抽取、清理、装载和刷新工具负责将所需数据从数据源导入数据仓库DW中;DW服务器负责数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口;OLAP服务器则透明地为前台工具和用户提供多维数据视图;前台工具包括数据报表工具、多维数据分析工具、数据挖掘工具负责进行数据分析,并以直观的方式向决策层展现数据,提供决策支持[4]。
1.2 OLAP多维分析技术
OLAP支持决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析[5]。OLAP技术的基础是多维数据模型。所谓多维模型就是数据分析时用户的数据视图,是面向分析的数据模型,用于为分析人员提供多种观察的视角和面向分析的操作。
多维数据分析的核心数据为多维模型的度量值,这些数据一般是数量、成本和费用等,例如资源访问中的访问次数。观察的视角即为多维模型的维度,例如从读者类型或院系专业来分析访问次数,读者就是资源访问的一个维度。在同一个维度上,可以存在多个不同的细节,这些细节就是维的层次,它是对维的进一步细化。例如资源访问时间就有学年、学期、月和日这4个层次。多维数据模型包含了维度和度量值,也被称为数据立方体或超立方体。OLAP 的多维分析,是指采用切片(slice)、切块(dice)、旋转(pivot)、上卷(roll-up)和钻取(drill-down)等基本操作[5],从而使用户达到从多个角度,多个细节分析数据的目的。
2 数字资源服务分析型数据仓库设计
2.1 数字资源服务数据仓库需求分析
数据仓库的需求是多方面的,包括功能需求、数据需求、数据安全性和系统性能方面,以下重点分析数据需求和功能需求。
2.1.1 数据需求
要建立数字资源服务分析型数据仓库,首先需要将与决策分析相关的数据从数字资源服务系统导出并导入到一个分离的数据仓库中,供决策分析使用,所抽取的数据为面向主题的,所以数据的抽取也必须以分析主题为中心。数字资源服务数据仓库主要是对资源访问主题的分析,所涉及的信息包括读者信息、资源信息和资源访问信息。表1列出了资源访问分析主题中读者信息、资源信息和资源访问信息所需的常用数据。
2.1.2 功能需求
数字资源服务访问分析主题的功能需求可以从读者、资源和资源访问3个方面来分析。
(1)读者分析。主要是对读者群体进行分类后,从不同的视角展现数字图书馆为读者提供服务情况。划分的角度可以按照读者本身的自然属性,如读者性别、年龄层次、年级、注册时间、读者类型(专科生、本科生、研究生等)、院系、专业等。
(2)资源分析。主要是对数字图书馆各种信息资源进行分类后,从不同的视角来观察资源的配置情况。分类的角度可以从学科专业(中图法图书分类)、文献类型、语种、年代等进行划分,来分析资源的配置、利用率及使用价值。根据对数字资源本身的属性及使用情况,对其提供多种的统计功能,将统计情况以列表、饼图、柱状图、曲线等形式表现出来,资源使用情况的分析数据对下一步资源购买提供准确可靠的决策依据。
(3)访问分析。在数字图书馆信息服务中,读者对资源的使用情况以日志的形式保存下来,包括对资源的浏览信息(题录、文摘、全文)以及下载信息等。利用这些信息来分析读者对资源的访问特征,按照不同的访问时间段对不同读者和资源类型访问数量进行考察,可以得出哪些时段上访问量比较大,而哪些时间段上访问量较小,进而调整服务策略。也可以按照读者和资源的属性来分析不同类型的读者对资源的访问情况。
2.2 数字资源服务分析型数据仓库设计
在实现数字资源服务系统数据仓库时采用SQL Server 2000 Analysis Services工具[6],首先根据数据需求将现有数据抽取出来,进行简单的预处理如数据缺失值、数据不一致、数据规范化处理等操作后进行数据集成,然后设计多维模型,再在Analysis Services平台上建立多维模型。
2.2.1 多维模型的设计
数据仓库的逻辑模型一般分为星型模型和雪花模型两种。星型模型通常采用一个包含主题的事实表和多个维度表来支持各种决策查询,但星型模型不能很好提供对属性层次的支持。雪花模型是在星型模型的基础上改进而来的,可以提供对属性层次的支持。在雪花模型中,维度表除了具有星型模型中维度表的功能外,还与详细类别表相连,详细类别表可以在相关维度上进行详细分析描述,以缩小事实表、提高查询效率的目的。由于本文研究的资源服务信息所涉及的维度数据的层次较多,需要对维度数据规范化处理,所以采用雪花模型。
数字资源服务主题的数据仓库多维数据模型如图2所示,包括资源访问事实表、读者维度、资源维度、日期维度、时间维度和访问方式维度。图3为在Analysis Services平台上实现后的示意图。
对于读者维度,需对读者类型、读者院系、读者专业、读者年龄层次和读者年级等进行规范,随着时间的变化,读者年龄层次和年级也会发生变化,这就需要在数据仓库中跟踪这些变化,对维度做渐变处理,渐变方法参见文献[6]。对于资源维度,需要规范的数据有出版时间、资源类型、资源来源、语种和资源分类,资源分类采用中图分类法的类目级别来规范。对访问时间维度,为1天中的访问时间区段,时间间隔设为1小时,可以反映出1天24小时的访问情况。访问方式维度,数据规范为题录浏览、文摘浏览、全文浏览和全文下载。
2.2.2 多维模型的存储设计
在对多维模型进行处理时,需要解决是采用多维数据库系统还是采用关系数据库系统存储数据的问题。如果采用多维数据库系统存储、显示数据,那么这种OLAP系统就是基于多维的OLAP,即MOLAP(multidimensional OLAP)。如果采用关系数据库系统存储、显示数据,那么这种OLAP系统就是基于关系的OLAP,即ROLAP(relational OLAP)[7]。
由于MOLAP结构能迅速地响应决策分析人员的分析请求并快速地将分析结果返回给用户,而数据仓库中数据量很大,所以为提高响应速度,本文研究的多维数据模型均采用MOLAP存储。
3 数字资源服务多维数据分析
建立数字资源服务数据仓库的最终目的是为了对资源访问数据进行多方面的智能分析,本系统中分别在Analysis Services、Microsoft Excel和Crystal Analysis这3个工具上对资源访问数据仓库中的多维数据进行多维分析和计算,限于篇幅,以下介绍部分功能。
3.1 使用多维数据集浏览器分析数据
使用Analysis Services的Cube Browser(多维数据集浏览器)可以对建立的多维数据集进行数据地行上卷、下钻、切片和切块等操作,从多个角度来对数据进行浏览与分析。数据分析的常用操作如图4所示。
切片是指在多维数据集的某一维上选定一个维成员的动作,即在多维数组中选一维,并取其一维成员,所得的多维数组的子集称为在该维上的一个切片。对于数字资源访问多维数据集来说,只研究某一读者类型为本科生的数据这就是一个切片。
切块是指在多维数组的某一维上选取某一区间的维成员的动作。对于数字资源服务多维数据集,若研究某一访问时间区间的数据就是一个切块。
钻取是改变维的层次,变换分析的粒度,它包括上卷和下钻。上卷是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总数据深入到细节数据进行观察或增加新维。要了解所有某年的资源访问情况就可以在访问时间的“学期”层次上采用上钻操作,要了解资源的二级分类数据就可以采用下钻操作,如需要更详细的某月或某日的资源访问数据还可以在时间维度上进一步下钻。
3.2 使用Excel的数据透视表和数据透视图分析数据
Microsoft Excel的数据透视表(或透视图)服务作为客户端工具,起着与OLAP服务器通讯和为客户程序提供访问OLAP数据接口的作用。首先在Excel中启动数据透视表和数据透视图服务,然后将数据透视视图的数据源设为OLAP中的具体多维模型,可以同时创建数据透视图和透视表。
图5给出了数字资源访问多维数据模型的一个数据透视图,为不同类型资源的访问情况柱形图,在透视图上可以方便地进行各种多维操作,根据分析需求建立其它的图表来进行资源访问分析。
使用Microsoft Excel的数据透视表功能同样可以对多维数据集进行旋转、上钻、下钻、切片和切块等多维分析,同时数据透视图的功能,可以将表转化成图的形式更直观地表示出来,Excel提供的图种类很多,有折线图、柱形图、条形图、饼图等。
4 结 语
本文基于数据仓库OLAP技术建立了数字资源服务分析系统,将数字图书馆资源服务系统中将数字资源访问数据导入到数据仓库中,然后在数据仓库中根据分析需求建立多维数据模型,在多维模型的基础上对数据进行OLAP分析,为数字资源的采购和服务提供决策支持,也为进行更深层次的数据分析如数据挖掘建立了数据的基础。
参考文献
[1]郭海明,刘桂珍.数字图书馆信息服务模式发展研究[J].情报理论与实践,2005,(3):251-254.
[2]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1998:4-12.
[3]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:223-260.
[4]林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003:50-124.
[5]杨彬彬,郑晓薇.基于数据仓库技术的CRM决策支持系统模型设计[J].计算机工程与设计,2004,25(7):1182-1184.
[6]何玉洁,张俊超.数据仓库与OLAP实践教程[M].北京:清华大学出版社,2008:65-70.
[7]布瑞,等.SQL Server 2000数据仓库与Analysis Services[M].北京:中国电力出版社,2003:9-226.