APP下载

数字图书馆个性化服务的数据仓库开发探索

2009-07-14李惠芳

现代情报 2009年2期
关键词:个性化服务数字图书馆数据仓库

李惠芳

〔摘 要〕数据仓库作为一个完整的系统能够有效的把操作型数据集成到统一的环境中以提供决策型数据访问。而这种强大的信息处理和信息分析能力刚好能够满足数字图书馆对数据或信息进行深度加工和高度综合的需求。通过对数字图书馆数据仓库逻辑模型设计进行了初步的探索,试图证明在数字图书馆建设中引入数据仓库的可能性和数据仓库在建设数字图书馆方面的优越性。

〔关键词〕数据仓库;数字图书馆;个性化服务

〔中图分类号〕G250.76 〔文献标识码〕C 〔文章编号〕1008-0821(2009)02-0087-03

Study on Data Warehouse Development of

Personalized Service of Digital LibraryLi Huifang

(Jiaying College,Meizhou 514015,China)

〔Abstract〕As a complete system,data warehouse can effectively integrate the operational data into a unified data-environment in order to provide decision-making data access.This powerful information processing and information analysis capability can meet the digital library of in-depth information or data processing and highly integrated.Through the digital library data warehouse logical model of a preliminary design exploration,this paper has made an attempt to prove that the building of digital libraries in the possibility of the introduction of data warehouse and data storage in the building of the advantages of digital libraries.

〔Key words〕data warehouse;digital library;personalized service

1 数据仓库开发的方法

数据仓库的开发是一个大的工程,在数字图书馆建设过程中,数据仓库的开发可以采取面向单个主题的单线程开发办法。因为:

(1)数据仓库是以数据为基础的,数据仓库的创建是从数据出发的即“数据驱动”。而数字图书馆处于建设初期,没有大量可供集成的数据源。也就无法满足数据仓库全面开发需求。

(2)数据仓库的需求不可能在初期明确获知。这就意味着开发过程中会随时做出结构上的修改,全面开发将会加大做出相应调整的工作量。

(3)数据仓库是面向主题的,不同的主题之间没有非常密切的联系。因此针对不同主题可以逐个开发,最后可以组成完整的数据仓库系统。フ庋做的好处是:能够节省开发成本;比较快的完成针对某一主题的开发,短期内获得数字图书馆所需要的一些功能;之前开发所积累的经验,还能为后续开发提供支持。

2 数据仓库开发的主题

数字图书馆的个性化服务归根结底是面向读者的。个性化服务本身也需要根据读者特殊的喜好、需求来提供针对性的服务。也就是说,实现个性化服务要针对读者的需求开展的服务,分析读者的喜好和需求,尽可能主动地为读者提供所需要的有针对性的信息服务。

因此,利用数据仓库实现数字图书馆个性化服务就需要以读者为主题来建立数据仓库。而且由于数字图书馆拥有大量读者信息和读者活动信息这一有利条件,以读者为主题,还能得到数字图书馆强有力的原始数据支持。

3 数据仓库的数据源选择

为了支持面向读者的个性化服务,建立数据仓库需要抽取的数据源需要包含:

3.1 读者信息数据

读者的自然情况,包括姓名、性别、职业等。

3.2 读者的web站点的访问记录

可以利用身份验证功能,使读者利用账号登录数字图书馆web站点,实现对每个读者合法身份的认定,以及访问历史的监控。

3.3 读者利用数字资源的检索历史

通过合法认证的读者,对数字资源访问时所留下的痕迹都是可利用资源。这包括,读者的检索关键词还有对查询结果的取舍和满意程度等。

3.4 读者利用参考咨询服务的数据

现在的虚拟参考咨询和传统参考咨询服务都可以提供这一数据。而且参考咨询服务更具有针对性,读者提出的请求也更加具体,对于服务的满意度也更容易衡量。

3.5 读者的流通记录

传统图书馆业务的记录,对于判断读者的偏好也具有非常重要的作用。尤其在高校图书馆,读者既使用传统图书馆的流通业务,还利用数字图书馆的服务,这样读者的流通记录就更准确,更有利用价值。

4 数据仓库的模型设计

4.1 概念模型设计

根据数字图书馆的需求和数据源的选择,我们可以设计出数据仓库的概念模型。利用ER模型图,我们可以建立一个星型图来描述数据仓库的实现模式。如图1。

利用星型图可以体现数据关系,易于被用户理解多维数据的访问路径这个星型图利用1个包含读者分析数据的事实表和6个包含事务的维度表来支持多种决策查询。通过事实表将其他维度表连接起来,维度表就可以通过事实表与其他维度表中的对象发生关联,这样就能建立起各个维度标志间对象的联系。而各个维度表则通过主键和事实表联系起来。通常事实表不允许修改,新的数据只作为增量出现在事实表内。维度表则存储事实表中相应数据的特征数据。

这样就可以分析维度表获得关键字,然后连接到事实表进行查询,减少了直接对事实表的扫描,提高了查询效率。

4.2 逻辑模型设计

根据概念模型我们可以利用ER图,生成逻辑模型如图2:

在逻辑模型设计过程中,我们需要关注的一个问题就是要统一数据仓库实体的定义。在设计过程中,各个维度的实体之间存在一定的交错现象。针对这种情况,在开发过程中就要对实体进行统一的定义。统一的实体定义可以在开发过程中减少不必要的空间浪费。因为,数据仓库为了提高数据分析效率,大大的增加了核心库的冗余,这种冗余甚至要达到上G的空间来管理lOM的输入数据。所以,设计过程中就要避免非规范结构带来的空间浪费。对于不同指标的交错实体,我们可以利用不同层次的粒度把它们联系起来。

4.3 物理模型设计

物理模型是数据仓库最底层的数据模型,可以直接生成物理数据库。它是逻辑模型在数据仓库中的实现,包括数据的物理存储方式、存储结构、存储位置和存储分配等。其中,物理存储方式包括多维数据存储和关系数据存储,多维数据存储在逻辑上是按照数组存储数据,是C/S模式;关系数据存储按照关系个是存储数据。

在设计物理模型的时候我们需要考虑到I/0的存取速度、磁盘空间的利用率和数据库的维护代价等。设计物理模型时涉及到几个关键的概念:

4.3.1 指标实体

它的特点是为事实性数据提供主焦点:包括多种访问路径和维度;包括比较标准化的数据;可以发展成为数据量大和增长速度快的表;由每个维度的最低类别和信息包图的指标组成。一般指标实体和指向维度表的外键构成事实表。

4.3.2 维度实体

他的特点是可以访问指标实体的主焦点:包含相对非标准化的实体:映射到信息包图,与之相对应的是维度以下的栏;如果物理实施的话通常是小表;包含用于整个维度的粒度,以及一些描述域。维度实体是逻辑上的,它不一定可以直接转化成维表。

4.3.3 详细类别实体

它是供参考数据和供支持数据;包含特定性的数据:典型的详细数据实体包含适中的数据行,比指标实体少但比维度实体多。详细类别实体通常也转化成一个物理数据库表,这些实体包

含的数据用来给用户提供更多的定性信息以帮助其进行决策。

5 数据仓库的实现

在数据仓库的实现过程中需要完成:建立数据仓库与业务处理系统的接口:完成数据仓库体系结构的建立;进行数据仓库的数据初次加载等。

5.1 数据仓库与业务处理系统的接口的设计

这里需要考虑接口与其它系统的集成问题。所以接口需要能面向应用和操作环境生成完整的数据;数据基于时间的转换;数据的聚集:对现有数据系统的有效扫描,以便今后数据仓库的数据追加。

5.2 数据仓库体系结构的建立

逻辑模型和物理模型都完成了设计,完成数据仓库体系结构的建立之需要现有的数据仓库建立工具中选择与设计方案一致的工具来实现。

5.3 数据仓库数据的初次加载

在建立了数据仓库体系之后,就可以开始数据的初次加载工作。在数据加载之前,首先需要对准备加载的数据进行清理,即对数据按照标准进行格式化处理,这些清理工作可以在一个专门的数据清理区或数据准备区内进行。数据的清理工作必须严格依据元数据的定义进行。一旦数据清理结束,就可以将经过净化和转换的数据加载到合适的数据仓库事实表中。在库中的数据,以反映刚完成的数据加载活动,并对受影响的概括数据重新进行概括处理。数据的加载活动应该使用标准方法和公用工具,这样可以在提供加载数据仓库最有效方式的同时,最小化定制开发工具的需要。否则,需要根据数据抽取和转换过程的需要,自行设计一些定制加载过程。数据加载之后,还需要更新元数据。

至此,数字图书馆个性化服务的数据仓库初步设计完成。在完成数据模型设计之后,该数据仓库只需要能与数据模型的设计相配合的专业工具和设备来具体实现。

6 预期的效果及其影响

通过对读者数据的集成和综合,我们可以比较全面对读者行为进行评估和分析,进而改进和提供相对应的服务。

6.1 可预期的评估内容

利用OLAP技术可以获得的评估内容包括:以时间为线索,评估不同时间段内读者的阅读内容;以专业为线索,评估不同专业读者的阅读内容;以阅读量为线索,评估读者的阅读内容;甚至以丢失、损坏的图书为线索,评估不良的读者行为等等。这些内容可以直观的通过图表来展示。

6.2 可预期的分析结果

利用评估内容,可以进一步利用数据挖掘技术来对不同线索下,读者的阅读倾向加以分析。从而获得不同类型读者在不同时间、不同背景下的阅读倾向,甚至预测未来的读者行为倾向。

这些分析结果可以被图书馆管理人员所利用,用来辅助采购决策;针对性的制定参考咨询任务;发现不良的行为的隐藏背景、目的,并采取相应措施弥补管理漏洞。系统还可以利用这些结果判断读者需求并自动提供相应的个性化服务。

7 结 论

随着数字图书馆的不断推广和发展,读者的信息需求不再是过去单纯的简单的数据或信息,而是需要经过深度加工和高度综合的信息和知识。而传统的数据库技术和信息处理技术已经无法满足数字图书馆的更高要求。

数据仓库作为一个完整的系统能够有效的把操作形数据集成到统一的环境中以提供决策型数据访问。而这种强大的信息处理和信息分析能力刚好能够满足数字图书馆的需求。于是在数字图书馆建设中引入数据仓库技术这一信息处理领域的最新技术变的非常必要。并相信随着数据仓库技术的不断进步与成熟,其信息处理能力会不断强大,届时它将会为我们的数字图书馆事业带来更美好的前景。

参考文献

[1]袁会香.关于数字图书馆个性化信息服务研究[J].大学图书情报学刊,2005,(6):57-59,73.

[2]陆广能.数字图书馆个性化信息检索中信息推送技术的应用研究[J].电脑知识与技术,2005,(20):9-12.

[3]张开森.数字档案馆的个性化服务趋势[J].档案与建设,2004,(6):42-43,50.

[4]丁永玲.个性化信息服务案例分析[J].图书与情报,2005,(6):85-87.

[5]杜文华.个性化信息过滤系统模型研究[J].科技情报开发与经济,2006,(1):73-75.

猜你喜欢

个性化服务数字图书馆数据仓库
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
互联网思维下数字图书馆个性化服务建设研究
需求理论在高校图书馆就业服务中的应用研究
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践