APP下载

大数据时代的数字图书馆异构数据集成研究

2020-06-11李妍

科技创新导报 2020年5期
关键词:数字图书馆大数据

李妍

摘   要:现代化信息科学技术的发展使得社会各行各业都发生了翻天覆地的变化,随着信息传播渠道的拓展和传播效率的提高,传统图书馆必须尽快变革,为广大用户提供创新型服务,以适应人们需求的变化。大数据时代为图书馆发展同时带来了机遇和挑战。本文将从大数据时代下图书馆发展面临的主要问题入手,提出异构化数据集成的有效方案,并探讨服务转型的有效途径。

关键词:大数据  数字图书馆  异构数据集成  服务转型

中图分类号:G250.76                              文献标识码:A                       文章编号:1674-098X(2020)02(b)-0245-02

云计算、数据挖掘等大数据时代下涌现出的新技术为IT行业带来了新的发展内容,数据应用已经成为各行业发展的主流方向。对于我国传统图书馆而言,为了避免逐步被边缘化,应积极引入大数据技术,探求全新的管理模式和信息服务途径。其中异构数据的整合是图书馆改革过程中面临的一项主要问题,有必要进行深入的研究。

1  大数据时代下图书馆发展面临的重要问题分析

大数据具有规模大、内容广、形式复杂等特征,除了结构化数据外,还包括大量的非结构和半结构化数据。就目前来看,我国图书馆对大数据技术的挖掘利用仍旧处于初级阶段,引发了一系列的难题。

1.1 大数据网络环境适应问题

大数据有异于传统数据的特征使得传统的数据处理方式已经不再适用,规模庞大且多样化的数据已经超出了现有IT架构和基础设施的承载能力,换而言之,大量数据的应用价值并未被充分挖掘出来,导致这种现象的深层原因主要有三点:分别是人才瓶颈、技术障碍以及基础设施缺陷,这三方面问题的存在使得我国图书馆难以快速适应当前的大数据网络环境,无法对数据进行快速有效的转换和处理,现有的基础设施只能对结构化数据进行处理应用,无法应对非结构化数据。

1.2 文献资源整合难度高

大数据作为一个全新的领域,所带来的影响十分深远,即使到目前位置,大数据的真正应用比例仍旧不高,这是因为许多数据资源并不是简单汇聚而成的,因此并不具备真正的知识源。在大数据时代下,我国图书馆的馆藏资源虽然一直处于增长之中,但是其中大部分都处于被搁置的状态,不仅为资源管理带来了巨大的挑战,对用户检索也提出了更高的要求。现在图书馆要解决的一个关键问题就是如何按照读者的习惯和需求,快速为其提供全面有用的信息,形成以用户为核心的服务模式,实现对数据信息的最大化应用。

1.3 数字图书馆异构数据集成问题

和传统图书馆相比,大数据时代下的图书馆所面临的数据更加多样化,且大部分都是非结构化数据,这对图书馆和数据处理能力、存储技术应用、服务方式均提出了全新的要求,而大部分图书馆的关系型数据库和机制难以快速的适应这种变化,因此异构数据的集成是现代数字图书馆构建必须解决的问题。

1.4 用户流失问题

在现代化信息技术的支持下,人们获取信息的渠道变得更加广泛,获取信息的方式也更加多样化,书本阅读不再是信息获取最主要的方式,电子阅读逐渐兴趣,智能手机、平板电脑和互联网使得人们获取信息变得更加方便快捷,海量的数据共享和搜索引擎技术链接了几乎所有信息的索引服务。在这样的情况下,图书馆所具有的优势逐渐消失,大量用户流失。为了应对这种情况,很多图书馆都在积极寻求变革。而在大数据模式下,想要为读者提供个性化服务,就需要对读者阅读需求、行为、习惯进行追踪和分析,这无疑会带来一定的隐私问题。

2  大数据时代下数字图书馆异构数据集成方案

在大数据时代下,图书馆数据集成面对的是大规模的非结构化数据,因此传统的数据处理、存储和数据库技术都已经不具备适用性,如何对异构数据进行有效集成是现阶段图书馆需要解决的一项关键性问题。对此,人们开发出了很多异构数据机构方法,本文主要介绍的是一类基于Web Service解决元数据异构的方法,利用Mediator/Wrapper异构数据集成模型将源于不同数据源的一些数据信息副本,按照统一的视图要求,对数据信息进行预处理和转换,形成统一的模式,最后将转换完成的数据信息存储在数据仓库之中。该数据仓库可以支持用户直接进行检索。一个需要注意的问题是,基于该模型构建系统存在数据信息重复存储的情况,且数据信息的更新频率也相对较慢,可能会对系统的使用性能产生影响。

参照Mediator/Wrapper异构数据集成模型所构建的基于Web Service数字图书馆异构数据集成体系结构共包括三层结构,分别是应用层、中间层和资源层。其中在应用层中置入了面向用户的可操作应用界面,用户可以通过该界面浏览和获取底层所集成的数据源。用户的检索行为面向的是底层所有的数据库,不同的数据源所返回的相关数据信息通过系统处理后,以统一的形式显示在用户的应用界面上。

中间层可以对系统应用层所发出的各类请求命令进行接收,之后通过请求处理系统对该命令进行分解和分析,转化为相应的功能子命令,将功能子命令包装成SOPA信息,最后借助Web Service傳送到包装器中完成信息检索程序。在结果信息处理系统中,可以接收来自不同子数据源反馈的XML格式的数据信息片段,对其进行整理合并后传送到应用界面。在上述过程中,请求处理系统对请求命令的处理会严格遵照映射关系中所设定的规则,而所涉及到的映射关系,主要是对XML元数据相应的标准加以规定,同时也对XML全局元数据和局部元数据之间的映射规则进行了规定。

资源层在系统结构体系中所发挥的主要作用是存储数据信息,并为不同的数据源提供统一的对外接口,其中设置的包装器组件可以对不同的异构数据进行包装。包装器属于不同数据源的包装层,它可以对数据源中的数据和数据模式进行包装,基于一定的映射规则将中间语言功能命令转化为可以被某一种数据源模式所辨识的物理指令,同时将底层数据源中的一些数据信息格式转变为XML。

3  大數据时代下数字图书馆异构数据集成作用于服务转型

在当前社会背景下,手机、平板电脑等移动终端的出现使得人们的阅读方式发生了巨大的转变,图书馆若是囿于传统的服务模式必然会被时代所淘汰。现阶段我国很多图书馆对异构数据进行集成的目的就是为了推动服务模式的转变,实现服务项目的创新和服务水平的提升。结合实践来看,大数据时代下数字图书馆服务转型的方向主要集中在以下几个方面。

3.1 为用户提供个性化信息推送服务

在互联网环境下,“个人门户”的概念不断普及,用户可以从互联网入口网站获取个性化的服务,各类具有价值的数据信息将被集成到统一的信息管理平台上,直接面向用户。目前,国外很多数字图书馆都已经建立了自己的门户,借鉴国外经验,我国图书馆也在探索门户建立的道路,如北京师范大学图书馆Metalib+SFX统一检索型数字图书馆门户。通过个人门户平台的建设,图书馆可以将各类富含价值的信息快速聚合起来,直接为用户提供个性化信息推送服务,有效适应读者的阅读习惯,满足其阅读需求。例如,根据读者的访问习惯,直接将其频繁访问网站的信息推送过去,或是根据读者的借书记录,为其推荐相近或是同类书籍信息。此外,读者还可以快速获取自己关注书目的借还情况。

3.2 通过信息专员为读者提供知识服务

在大数据时代下,图书馆的服务模式也应做出调整转变,信息专员是图书馆针用户需求对学科馆员服务内容进行调整后形成的岗位,为用户提供“嵌入式”的知识服务,实现服务内容和需求的完美契合。在实际工作中,信息专员的工作内容有四项:其一,协助或参与用户数据信息定制、管理等工作。其二,协同用户开展深度项目,如文献检索、数字门户建立、用户专用研究间建立等。其三,文献书评,参与到文献研究的信息检索、调整评价文献、数据摘录等,最终形成可检索的数据库。其四,为项目组成员创建一个引文管理数据库。在项目实践中,信息专员可以为科研团队提供全方位的信息服务。

3.3 文献传递和快递服务

文献传递是现阶段图书馆为用户提供的常规服务项目,即图书馆向其最终用户提供文献的一个完整过程,包括明确的表述和发出请求以及对文献的物理和电子提供过程的过程。在大数据时代下,人们获取信息的方式逐渐向“终极化”发展,现有的电子文献不可能满足所有人的需求。基于此,图书馆可以参考物流快速衍生文献传递服务,将文献直接送到用户的手中。

3.4 “纸云”融合的阅读推广服务

虽然于都纸质图书的人越来越少,但纸质阅读的个性化深度阅读需求依然存在,结合调查数据来看,大部分老年人更喜欢纸质阅读,但整体上来看,电子阅读是大势所趋。基于此,图书馆可以开发“纸云”融合的阅读模式,具体内容如下:首先,基于图书馆自动化系统定期开展新书和经典书目的推荐、数字资源宣传培训等推广活动。其次,利用网络平台开展阅读比赛、书评等活动,为读者提供一个开放、共享的阅读环境。

4  结语

综上所述,在大数据时代下,图书馆必须积极寻求变革,探索数据信息资源高效利用之路,对异构数据进行集成,推动服务模式的转型,拓展服务项目,提高服务水平,更好的满足广大读者用户的个性化需求,为自身持续发展奠定基础。

参考文献

[1] 晁亚男.大数据环境下数字图书馆服务情境建构的新内涵与新方式[J].图书馆学研究,2017(24):32-36,24.

[2] 王荟.大数据时代数字图书馆面临的机遇和挑战[J].汉字文化,2018(14):105,107.

[3] 程结晶.大数据时代图书馆服务创新的内容及其策略研究[J].情报理论与实践,2016,39(3):57-62.

[4] 王彤.大数据时代下的图书馆跨界服务信息安全技术问题及对策[J].图书馆理论与实践,2016(6):99-103.

[5] 刘佳美,程结晶.大数据下数字图书馆热点研究——基于关键词的因子降维分析方式[J].农业图书情报学刊,2017,29(4):76-80.

[6] 王战平,冯扬文,朱宸良.大数据时代数字资源整合方法研究:模型设计和实验分析——以物流行业为例[J].现代情报,2019,39(9):92-100.

[7] 张瑜.大数据环境下图书馆公共媒体数据库建设与利用研究[D].辽宁师范大学,2014.

猜你喜欢

数字图书馆大数据
浅析“互联网+”时代的图书馆管理
大数据环境下基于移动客户端的传统媒体转型思路