APP下载

大数据环境下数字图书馆建设初探★

2015-04-25

河北科技图苑 2015年3期
关键词:数据挖掘数字图书馆

王 浩

(黑龙江八一农垦大学图书馆 黑龙江 大庆 163319)

大数据时代,数字图书馆发展与大数据密切相关。因为,一方面数字图书馆的建设为大数据技术的发展提供了一个很好的探索和实践平台,另一方面,大数据技术的不断推进势必对数字图书馆的建设过程、发展形态等造成深远影响。本文在分析大数据内涵与图书馆大数据的基础上,阐述了大数据背景下数字图书馆建设所面临的挑战,并提出了数字图书馆的建设新思路。

1 大数据的内涵及图书馆的大数据

1.1 大数据的内涵

“大数据”通常被认为是一个用来描述海量的结构化和非结构化数据的短语,关于大数据的定义目前还没有明确的界定,但大数据的四个重要特征得到公认。第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。第二个特征是数据类型繁多。包括网络日志、音频、视频、图片等,数据多样性对数据的处理能力提出了更高要求。第三个特征是数据价值密度相对较低。如何迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第四个特征是信息处理速度要快,时效性要求高。这是大数据有别于传统数据挖掘最显著的特征。应该说,大数据时代的到来对人类数据的驾驭能力提出了新的挑战。

1.2 图书馆的大数据

图书馆在长期的工作中积累了大量数据,虽然在规模和数据处理速度上尚未达到大数据的标准,但它们具有大数据的特征,笔者认为它们就是“图书馆的大数据”。我们要从大数据的角度去思考和分析,开展新的服务。

1.2.1 馆藏数据

图书馆的纸质资源、电子资源、音频、视频等各种馆藏资源,其实质都是知识数据的集合。图书馆的信息服务要从简单的文献服务,升级为复杂的知识服务的关键环节是从馆藏数据集中寻找关联,加强知识挖掘与整合的力度,揭示规律或发现新知识。

1.2.2 书目数据

书目数据是图书馆界科学的、规范的结构化数据。随着越来越多的图书馆开放书目数据和发布关联数据,使得书目数据不仅可以用于检索,还可以发挥出更多的价值,如用于出版行业的动态研究、书目数据的关联化研究等。

1.2.3 读者数据

读者数据是读者在使用图书馆过程中所产生的自然数据,包括读者信息、访问数据、咨询信息等,它能客观地反映出读者需求的变化趋势,关注和分析这些数据,可以了解和揣摩读者的心理和兴趣爱好,图书馆应该根据读者的需求变化及时调整服务策略。

1.2.4 工作数据

图书馆工作的自动化,产生了大量的相关业务数据,具体说来主要有:(1)采访数据,包括书商提供的书目数据、订购数据、到馆周期、到馆率、入藏登记等;(2)编目数据,包括已完成的书目数据、编目员个人信息、编目数据源、审核记录等;(3)流通数据,包括读者到馆率、文献借阅率、流通率、借阅记录等;(4)咨询数据,包括通过网络软件、通讯技术等途径,在咨询过程中产生的大量咨询记录。

2 大数据时代数字图书馆建设所面临的机遇与挑战

2.1 大数据给数字图书馆建设带来的机遇

2.1.1 分析读者与资源以完善服务

大数据技术不仅可以帮助图书馆了解读者行为、意愿和阅读习惯,对其知识信息的需求进行预测,开展交互式知识服务。还可以通过对网络资源、信息资源及软硬件的运行状况进行分析,来预测可能出现的问题,便于图书馆对资源运行情况的突然波动做出相应的应对策略,及时采取应对的措施。

2.1.2 建立智能化网络信息资源组合方式

大数据将成为图书馆的核心资产,从用户体验出发,利用大数据技术,灵活、方便地从已有的数据资源中抓取有用的知识、模式和关系等,以打造个性化的网络化信息资源的智能组合,获得更加准确的读者及服务人员的服务洞察,设计网络化信息资源的智能组合,提供新型的知识服务方式。

2.1.3 建立模型辅助决策

可以利用大数据分析、预测及智能辅助决策技术建立具有特色的、实用的、科学的业务评估模型辅助机构或者读者进行决策判断。例如图书出版与收益模型、信息资源的采购与利用模型等。

2.2 大数据给数字图书馆建设带来的挑战

2.2.1 基础设施的挑战

数据量的快速增长及非结构化数据的增加,对支持非结构化数据存储与分析的基础设施提出了更高的要求。首先,传统网络的架构设计主要是垂直结构,大数所时代,强调的是水平结构的横向服务,要设计分层合理、分级存储架构。其次,要升级软硬件设施,利用高性能计算机,新的数据表示方法、数据分析技术,建立具有经济高效的存储与计算分析计算能力平台,来保存PB级别的数据。最后,需要拥有保护分布式基础设施和数据的安全可信的软硬件应用系统平台。

2.2.2 大数据深入分析的挑战

大数据时代,信息海量增加,数字图书馆要为读者提供高效信息就要进行数据分析。大数据分析是图书馆创新知识服务体系与完善读者服务工作的基础,对数据的分析,包括常规分析、时间顺序分析、关联数据分析、社会网络分析、移动平均线等广度及深度分析。通过对图书馆数据的分析,可以了解图书馆业务工作的开展情况,客观反馈读者对图书馆的需求与服务评价,快速地做出决策,了解最新知识服务趋势,快速调整信息服务方向,利用大数据技术提升知识服务能力,降低知识服务成本。

3 大数据时代数字图书馆建设思路

3.1 技术方面

3.1.1 数据存储

支撑大数据的核心硬件是存储系统,当前网络化存储根据传输协议,分为网络接入存储(NAS)和存储区域网络(SAN)。大数据时代,随着海量的非结构化数据的不断产生,“NAS+SAN”(也就是统一存储),将是数字图书馆建设过程中主要的存储解决方案。统一存储的磁盘阵列配置多端口的存储控制器和一个管理接口,允许存储管理员按需创建存储池或空间,并将其提供给不同访问类型的主机系统,可适应业务和应用变化的动态需求。

3.1.2 基于云计算的数据挖掘平台

云计算的出现给数据挖掘带来了新的机遇,通常认为云计算包括3个层次的服务,基础设施即服务(IaaS)、平 台 即 服 务 (PaaS)、软 件 即 服 务(SaaS)[1]。基于云计算的数据挖掘平台架构(如图1所示),采用分层的思想,自下而上依次为:云计算支撑平台层、数据挖掘能力层、数据挖掘云服务层。

图1 基于云计算的数据挖掘平台架构

云计算支撑平台层主要是提供分布式文件存储、数据库存储以及计算能力;数据挖掘能力层主要是提供挖掘的基础能力,包含算法服务管理、调度引擎、数据并行处理框架,提供对数据挖掘云服务层的能力支撑;数据挖掘云服务层主要是对外提供数据挖掘云服务。

虚拟化技术是数据挖掘云服务技术的支撑,数字图书馆建设数据挖掘云服务平台,要依赖于虚拟化技术,需要计算资源,需要自主分配和调度。在满足读者需求方面,要争取大众参与,有了大众的参与,个性化和多样化的需求就能够得到更好的满足。为增加服务的可信性,算法要通用、可查、可调、可视,并且要注重对隐私数据进行加密保护。

3.1.3 数据分析

大数据分析是指在研究大量的数据过程中,寻找模式、相关性和其他有用的信息,可以帮助图书馆更好地适应变化,并做出更明智的决策。在大数据处理分析过程中可用的工具有很多,如Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有高可靠性、高扩展性、高效性、高容错性、成本低等优点;Storm是自由的开源软件,易于设置和操作,能可靠地处理庞大的数据流,并且可以应用到实时分析、在线机器学习、不停顿的计算、数据抽取、转换和加载等许多领域。其他分析工具还有 Apache Drill、HPCC、RapidMiner等[2],各馆可以根据实际需要进行选择使用。

3.2 资源建设

3.2.1 资源体系建设

大数据时代,文献信息获取方式与文献资源发行方式都发生了巨大的改变。读者对资源获取的便捷性、可视化要求逐渐提高,而信息资源生产、组织与服务正在向着载体多样化、开放获取、泛出版方向转变[3]。这就要求,图书馆必须重新定义资源建设,在整个数字空间发现、评估、登记、采集、描述和组织各类信息资源,植根于读者环境,构建开放化(多样的信息对象与信息种类)、数据化(可计算的信息资源)、语义化(支持用户驱动的信息资源环境)的信息资源体系。在信息资源体系建设的过程中要坚持三个原则:一是优化夯实数字文献资源保障体系,二是积极推进长期保存与本地仓储,三是持续推进开放信息资源共建共享建设。

3.2.2 资源建设要注意的几个问题

第一,原生特色资源开发问题。大数据环境下,图书馆没有必要也不可能将全部馆藏数字化,但应该对具有特色,形成了一定规模的、结构比较完整的原生信息,进行开发整理。例如美国加州圣何塞大学的贝多芬图书馆,现在已经发展成为欧洲之外最大的贝多芬文献资源收藏地,出版有《贝多芬期刊》,提供在线目录——贝多芬门户,不仅为参观者和研究者提供服务,还为喜欢贝多芬却不能实地到访的人提供服务[4]。第二,知识产权问题。要遵守知识产权法律法规,慎重对待版权、著作权和网络传播权。第三,标准化问题。要推动数字资源建设的国际化进程,优先采用国际已有的成熟标准,实现信息资源的无缝链接。第四,信息安全问题。在数据共享、数据公开的大趋势下,需要从技术、管理和法律等多方面建立完整的安全体系。

3.3 服务方向

3.3.1 个性化知识服务

数字图书馆应该在基于云计算等技术模式的支持下,进行数字资源的深层次开发,使系统具备更强大的互操作性,并能够在此基础上进行系统定制。如可以从读者满意度调查、读者兴趣、资源利用、分布及发展趋势等方面的海量数据中,筛选出有用信息,并通过可视化技术展示出来,进行多种角度解析,以便跟踪并推送读者所关注的信息,满足读者的个性化需求,拓展新型知识服务功能。

3.3.2 协作共享服务

数字图书馆应积极调动相关行业的优势力量,提升服务能力和运作效率,不断充实自身的业务流程,实现不同用户群体之间的信息共享与利用。如2009年,欧洲一些领先研究型图书馆和科技信息研究机构建立了伙伴关系,致力于改善互联网上获取科学数据的简易性,2012年5月,美国行政管理和预算局则发布了《数字政府:建立一个面向21世纪的平台来更好地服务美国人民》的行政指令。

3.3.3 智能化服务

智能信息服务已成功应用在知识管理、智能软件帮助、用户服务、网上营销等多个领域。现阶段,智能短信服务、智能聊天机器人和智能搜索引擎等,已经成为新的应用亮点,智能信息服务正在不断走向实用化和大众化。清华大学图书馆在这方面进行了有益地尝试和探索,其应用的具有自动学习功能的机器人“小图”就是在线咨询服务的一种全新体验。

[1]Peter M,Timothy G.The NIST Definition of Cloud Computing[S].Recommendation of the National Institute of Standards and Technology,2011.

[2]吴昱.大数据精准挖掘[M].北京:化学工业出版社,2014:3

[3]Youngsuk Chi(Y.S.Chi).数字时代的学术出版:最新进展、当前趋势与未来展望[EB/OL].[2014-10-08].http://ir.las.ac.cn/handle/12502/6452.

[4]Fang.马丁路德金图书馆内有贝多芬博物馆[EB/OL].[2014-11-02].http://blog.sina.com.cn/s/blog_4e276 d2c0102e453.html.

猜你喜欢

数据挖掘数字图书馆
探讨人工智能与数据挖掘发展趋势
图书馆
答数字
基于并行计算的大数据挖掘在电网中的应用
数字看G20
一种基于Hadoop的大数据挖掘云服务及应用
去图书馆
成双成对
基于GPGPU的离散数据挖掘研究
数字变变变