大数据与图书馆服务趋向
2016-02-13郭敏
郭 敏
(太原师范学院 图书馆, 山西 晋中 030619)
大数据与图书馆服务趋向
郭 敏
(太原师范学院 图书馆, 山西 晋中 030619)
大数据时代,巨大的数据存储、复杂的数据处理和智能化的服务将成为今后图书馆建设的主旋律。图书馆建设应该结合实际,做好未来的建设与布局,加强馆藏资源数据化和去边界化,探索和利用数据分析技术与工具,逐步向服务智能化靠拢。
大数据;图书馆;数据处理;去边界化;智能化;服务;建设
时至今日,人类社会正处于“第三次浪潮”,即互联网时代。互联网带给我们最深刻的一个词,就是“大数据”。所谓的大数据,是指一种大大超越常规的数据集合,其规模巨大的程度,已经无法在可承受的时间范围内用常规工具进行捕捉、管理和处理。简言之,它已经超越了传统,人类必须借助大型计算机和网络才能进行运用。大数据的增长是裂变式的,迅猛到超出人们的想象。据有关数据显示,人类文明所获得的全部数据,有90%以上是近两年获得的,而到2020年,全世界的数据规模将达到今天的44倍。
在大数据背景之下,图书馆将在数据存储、挖掘、分析等方面面临巨大挑战,复杂数据的处理也将成为图书馆工作的主旋律,通过大量的非结构化数据、半结构化数据去寻找隐藏在数据背后的世界,进而为图书馆服务的模式、对未来发展趋势提供分析与预测将成为大数据时代图书馆的一大主要服务内容。网络君临天下,读者通过手机等移动终端可以访问数字图书馆,查询世界各国数字图书馆的资源。
一、大数据的特点
大数据的最大特点是“大”,维克多·麦尔·舍恩伯格和肯尼斯·库克耶在《大数据时代》里提出了“五V”说法:Volume、Velocity、Variety、Value、Veracity,即大量、高速、多样、价值和真实性。
数据一般被分为结构化数据、非结构化数据和半结构化数据。结构化数据是指传统的以文本为主的数据,有固定的数据库存储和相对应的结构关系。非结构化数据是指我们无法直接知道其内容,而数据库也只能打包将之存储到一个BLOB字段的数据,比如图片、声音、视频和内容管理器等等。而半结构化数据则介于二者之间,它属于结构化数据,但结构变化很大很多很快,是互联网时代最有特点的数据结构样式,对传统图书管理而言,最生动也最有冲击性,所以,可以研究的方向和领域也最广泛。近些年来不断出现的QQ、微博和微信等等使用互联网设备进行交流的数据种类和数据量,基本都属于半结构化数据类型。
但数据的价值密度却存在一个悖论,就是和数据量的大小成反比。数据量越大,数据的价值就会越小,从而给检索工作带来困难。如何在浩如烟海的数据中进行有效的提纯,是未来的图书管理亟待解决的难题。在大数据时代,浏览器可以说是汪洋大海中的一条船,它周围都是水,却并不能同时到达所有的海域。
二、大数据背景下图书馆建设与服务的发展方向
1.馆藏资源数字化
大数据海量信息环境的形成,使图书馆行业与其他信息服务行业的界面日渐融合与模糊,它必须由待字闺中的“藏”,变为无处不在的“送”。而要适应这一深刻巨变,就必须对已经占有的资源进行根本性的数字化,这是时代的要求。
图书馆藏包括实体印刷馆藏和数字馆藏。
实体印刷馆藏因为数据的稳定与体量太小而日渐式微,似乎成了一个无法动摇的趋势。尽管有人反复慨叹电子图书怎么也不会有纸质图书的舒适与感觉,甚至国外的很多学者也指责现代人尤其是现代中国人越来越懒惰,越来越不喜欢读书,但可以肯定地说,这只是一个相当片面的说法。
事实是,现代人的阅读量不是减少了而是剧增了,只不过阅读的对象和方式发生了改变而已。从纸质到电子文本,从借阅到家里蹲式的网络终端,从一天数小时到一天十数小时,所造成的信息传输成果与以前是不可同日而语的。所以印刷馆藏的价值越来越向两个方向靠拢:一个是考据收藏,一个是数据时代里的“元数据”。元数据是个借用的说法,但这是印刷馆藏的必由之路。
数字馆藏包括实体数字馆藏和虚拟数字馆藏。据调查,在以网络形式进入图书馆的用户中,70%以上的用户选择的是数字馆藏。而且,这个比例随着时代的发展呈现越来越高的趋势。
但数字馆藏的制作是一件浩大而复杂的工程。在大数据和系统化时代,这并不是单独一个图书馆所能担负起来的任务,它必将通过互联网面向社会。现代传媒服务行业已经做了很多有益的尝试,并取得了令人惊喜的成果。比如翻译一部外国影片,传统方式需要至少半年的时间,而现在通过网络组合分工形式,最多不过几个小时甚至几十分钟、十几分钟就解决了。
数字馆藏制作流程包括:元数据的标准和规范、知识资源(含声、像、图、文)的通用型加工系统、语法层次的大容量文献自动采集、自动篇名生成、自动标引、自动文摘生成的实用化技术、知识概念(语义)体系的建立、实现语义层次的自动标引、自动文摘生成、分布式藏品元数据的聚集与元数据库的构建、超大规模多媒体数字资源的长久保存、归档和存储管理技术,包括档案系统等、数字内容藏品的版权管理系统、数字对象和媒体的新型经济与商务模型研究、与创建和使用数字收藏有关的社会经济法律问题的技术、方法、过程等等。
2.图书馆服务去边界化
大数据背景下,传统图书馆概念变得越来越模糊,它们不再是一个个相对独立的个体,而是越来越趋向于集合形态,用户可以通过网络徜徉于世界各个图书馆,去寻找他们想要得到的知识数据和信息,即所谓的“插拔人生”。全世界的图书馆整合成一个大服务器,而用户则更像U盘,找个USB接口即可获得或者传输各种知识和信息。这在过去是可望不可即的,现在来看也是路漫漫其修远,但因为互联网的存在,而变得一切皆有可能。
数字图书馆的建设应该以不断改善用户服务为最终目标,为用户在知识发现与利用上提供高效方便的工具,并且使得用户可方便地通过数字图书馆的多个资源库无缝获取所需的知识。服务的核心技术就是网络化。网络化包括先进的高效导航系统、适用于TB级数据的高效搜索引擎;开发实用的多语言、多文字、多文化以及个性化用户界面;个性化、智能的主动服务技术;保证藏品的安全和完整性技术:包括信息过滤系统、隐私权保护技术、实现数字图书馆群与科学数据库群内容的集成性服务、对新型媒体知识产权处理形成合乎法律框架的新的经济和商业模型、用户工具软件、基于互联网的协同工作技术和工具、用户与可使用性研究。
“去边界化”的另一个概念是网格化。网格是把整个网络整合成一台虚拟的巨大超级计算机,实现计算资源、存储资源、数据资源、信息资源、文献资源、知识资源、专家资源等的全面共享。总之,网格可以实现分布在全球的硬件资源、软件资源和各种信息知识资源全面的连通,达到资源的最大共享。由于网格的不同作用,它被划分成不同的类型,如:计算网格、设备网格、数据网格、信息服务网格等。
与数字图书馆的建设目标完全一致,网格致力于一次登录,访问全球分布式信息资源、全世界有用的信息资源可共享、基于自然语言的语义检索并进行资源整合、可提供学科的个性化服务、基于知识挖掘提供最小化的知识子集。基于网格的数字图书馆服务模式是指全球数字图书馆可以提供基于语义的检索服务、虚拟参考咨询服务、主动推送服务、定题信息服务、个性化信息服务、培训服务等。这些都要建立在多语言库的基础之上,需要全球的各个数字图书馆协同工作。
三、当前形势下的几点对策
1.充分探索利用和发展数据分析技术与工具
在大数据时代,如何避免被边缘化,是当今图书馆建设管理与服务面临的最大问题。大数据分析技术与服务是重中之重,也是难中之难。
首先是图书馆自身建设所必需的大数据分析。这类分析基本以图书馆现有资源进行数据分析,需要考虑以下几点:数据存放模式、信息组织方式、供读访问策略、可持续发展策略。
其次是用户所需的大数据分析。这类数据分析技术类似于现在的信息技术导航,应该给用户提供准确即时的信息来源与建议,以更方便用户充分利用本馆的所有数据,从而提供更加切实高效的服务。目前这一手段在很多网站比如百度、阿里巴巴、爱奇艺等等运用得卓有成效,你访问一点,网站会根据你搜索的信息推测你可能更感兴趣的很多点,极大开拓了用户的眼界与思路,也使自身的服务得到比较充分的效能化。
2.要特别重视图书馆基础建设布局
应该看到,大数据时代图书馆建设的中心工作已经不再是文献数据信息的收集,而应逐渐成为对海量信息的采集、分析和挖掘。换句话说就是图书馆将不再是“待字闺中”的被动式服务,而是无处不在的“外卖式”的主动服务。这对所有传统意义上的图书馆都是一场翻天覆地式的变革,也给今后的图书馆基础建设布局提出了无法回避的课题。
首先,“数据即生命”。大数据时代对图书馆的信息存储量要求极高,而数据的增长又是处于一种几何裂变的方式,在此种状态下,作为特殊信息服务行业的图书馆如果仅仅着眼于馆藏图书的册数,一定会面临被淘汰的境地。大数据统计表明,近两年来人类社会所获得的数据,已经达到了有史以来的90%以上,加上知识更新的加速度,所有的所谓馆藏已经变得意义不大。因此,今后图书馆工作的性质会发生质的变化,几乎所有的工作努力方向都会指向一个目标——数据。
其次,由整体变局部。大数据带来的最大的一个变化就是整合,数据越大,世界越小,图书馆建设也不例外。传统图书馆都是相对独立的、封闭的,因此相对资源也是浪费的、效率低下的。大数据时代,图书馆的服务将更加开放和专业,存储资源会越来越避免浪费。如果全世界的图书馆能整合成一个大的服务器的话,那么作为个体的图书馆也必将走向专业化、异他化,用户将进入移动硬盘式的“插拔人生”。它们和用户之间只有量的不同,并无质的区别。
3.进一步提高图书馆服务的智能化程度
解决大数据时代带来的空前压力的途径,最重要的一个就是智能化。图书馆建设与服务也必须认清这个方向。
应用智能化技术,可以在相当大的程度上节省人力物力,更为重要的是可以较高效率地解决人工无法实现的工作需求,如对海量信息的智能分析、采集和抓取,关键词语的抽取和关联,从而提高数据库存储和管理使用效率。
从用户角度来看,服务内容和手段的智能化程度提高,可以使非结构化数据或者半结构化数据,比如声音、图片、视频等等变得相当容易检索和抓取。另外,从智能化服务的网络流通来看,这将是改变长期以来用户和图书馆关系的一个契机,“秀才不出门,便知天下事”将变得触手可及。
QQ和微信的出现,已经开始颠覆人类的阅读和交流习惯,并且势不可挡。我们不知道智能化服务的平台和技术终将以什么面目改变世界,但是我们知道这必将改变我们的世界,这是我们奋斗的方向和面临的巨大课题。
【责任编辑 冯自变】
2016-06-13
郭 敏(1969-),女,山西祁县人,太原师范学院图书馆馆员。
1672-2035(2016)06-0123-03
G250.74
A