APP下载

ETL在数字图书馆资源建设及用户资源管理中的应用

2012-08-15刘欣欣

科技传播 2012年9期
关键词:数据仓库数据源知识库

刘欣欣

保定职业技术学院,河北保定 071000

当前,数字图书馆建设面对庞大的、多类型、多介质、多格式、多传递渠道的信息资源集合和用户对电子信息资源的多样化、个性化需求,数字图书馆中的信息资源建设必须朝着整合化的方向发展。ETL可以应用在数字图书馆中的数字资源和用户资源建设中,对数字图书馆中不同类型的资源进行整合和集成。

1 ETL在数字资源建设与处理中的应用

1.1 ETL在基于数据仓库的数字资源物理集成中的应用

实现资源整合和集成的方法有多种,既可以是在数据层面上的集成,也可以是在界面上的集成。本文所指的资源整合和集成,主要指的是对异构信息资源实现数据层面的物理整合。也就是根据资源元数据标准建立统一的数据仓库,然后针对各种资源实现不同的元数据增量抽取程序,将元数据汇集到数据仓库中。采用建立本地数据仓库的方法进行整合,可以对整合的结果作更进一步的处理和分析,使更多的工作相对于用户来说可以脱机进行。异构信息资源整合和集成主要包括数字图书馆内部数据源的整合、基于协议的元数据整合、浅层Web信息和深层Web信息的整合等。数据仓库是面向主题的,以整合的方式将内容组织成层次结构,进一步为进行信息挖掘和数据挖掘,提供了一个简洁精炼的操作平台。数据挖掘可以发现、抽取、过滤和评价信息和数字对象以及跟踪和分析用户的访问情况,提供深层次的知识服务。

1.2 ETI在引文数据建设中的应用

为了实现不同来源中文献之间的引文链接,在ETL过程中需要解决一些关键问题。文献的引文是由题名、作者、来源期刊、发表年代等字段组成,自动识别这些字段属性对于资源的参考链接服务是非常有用的,因为它们可以用来链接到实际的引文文献中。不同的期刊来源中,引文通常以不同的形式表现的。引文链接一般是采用基于规则的方式,因此抽取和识别引文数据的规则学习尤为重要。

1.3 ETL在知识库构建中的应用

对于数字图书馆中知识库和知识空间的构建,可以通过两种方式来实现:1)以人为中心的知识获取,即通过有经验的专家手工输入知识,这种方式很难形成大规模的知识库;2)以机器为中心的知识获取。在用户的辅助下,利用知识抽取技术等自动生成和推理出知识,实现对数据源的关联和分析。这种方式是当前知识库的主要建设方式。

目前,国外已经有一些研究机构关注利用知识抽取技术来构建知识库和提供知识服务。在知识库的建设中,主要是在ETL过程中融入语义和ontology,抽取出具有语义的信息。

1.4 ETL在数据库内容描述信息生成中的应用

通过ETL可以自动获得数据库的内容描述信息,从数据库的文献中抽取特征词汇,并建立数据库的内容描述模型,用以反映数据源中所包含的文献及其内容、形式等特征,内容描述模型是资源选择的元数据基础,作为检索时的智能选库依据。ETL中随机挑选词汇作为数据源的初始的检索词,构造和发送提问式以及从数据源获取样本文献,并从样本文献中抽取出文献的特征表示,经过多次的循环,建立起数据库资源描述模型,形成数据库的内容描述信息,利用形成的内容描述信息实现数据库的自动选择。可以在ETL过程中运用基于规则的描述、调焦查询探测、基于提问取样等算法,从分布式、隐藏的web资源中抽取能代表其主题或学科覆盖范围的关键词,动态生成数据库内容描述信息。

在数据库内容描述信息生成的应用中,ETL需要解决的关键问题是形成数据源的描述模型,资源描述模型一般由数据源中所含特征词及其出现频牢、词汇的文献频率、不同词汇的共现概率等信息组成。多次提交检索提问到各数据源,将返回的文献作为样本,通过分析样本文献建立数据源描述模型,以此来描述整个数据源。生成数据源描述模型具体包括:检索提问词的选择,抽取的文献数量,以及取样停止的条件设定等。

2 在用户资源管理中的应用

2.1 ETL在统一认证系统中的应用

随着计算机技术的发展,数字图书馆中采用了越来越多的信息系统。由于种种原因,各个信息系统往往相互独立,在数据和业务逻辑上都存在大量的冗余,为用户和管理员带来诸多的不便。用户身份和权限认证是数字图书馆中很重要的部分,然而不同的信息系统却各自拥有独立的身份和权限认证模块,造成了业务逻辑的重复和数据的冗余,同时也为用户身份信息的统一维护带来一些问题,很难在数字图书馆的服务中真正地实现统一认证服务,因此,在数字图书馆中要实现真正意义的统一认证,前提条件之一就是需要建立统一的用户信息库,同时还要保证用户信息与原来系统中的信息保持同步更新。这些要求可以利用ETL机制来实现,通过ETL来达到用户信息的统一,即生成统一的用户信息库。首先,从不同系统中抽取现有的用户信息,并进行必要的查重处理,一次性地导入认证系统中。然后,进行增量的抽取,同时保证各个系统的相对独立性,解决数字图书馆中的统一认证问题。

2.2 面向用户行为的ETL

面向用户行为的ETL是基于用户在研究活动过程中的行为进行相关信息抽取,需要跟踪和记录用户的主要查询和浏览行为,以便提供更适合的服务。

3 结论

ETL原本是为了构建数据仓库而提出的,有其特定的应用环境。而数字图书馆的环境是分布式的,最终目的不只是为了建设数据仓库,更多是需要进行虚拟的集成和整合。两者虽然最终目的和应用场景不同,但ETL的思想和技术可以用来解决数字图书馆资源整合和服务集成的某些问题,在某些应用场景中仅仅依赖于ETL自身的技术是不行的,还必须结合其他的技术和方法来实现数字图书馆中的具体应用。

[1]黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12).

[2]黄永文,李广建.ETL技术及其在数字图书馆中的应用研究[J].图书馆杂志,2006,25(2).

[3]何涛.使用ETL工具Kettle实现图书馆联盟信息系统数据集成[J].科学咨询,2009(23).

[4]袁小一,俞毅,赵赛.数字图书馆环境下ETL系统的设计与实现[J].现代图书情报技术,2007(7).

猜你喜欢

数据仓库数据源知识库
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
基于数据仓库的数据分析探索与实践
基于真值发现的冲突数据源质量评价算法