大数据思维对数字图书馆建设的启示
2017-05-11荀丽芳
荀丽芳
摘要:大數据时代的来临,使“数据”成为各行各业都要考虑的不可或缺的一种生产要素。作为图书馆行业,虽然“数字图书馆”仍是一个较新的概念,但就其发展趋势而言,在大数据时代的背景下,“数据”更应该是数字图书馆建设的重心。在大数据时代到来之际,对大数据、大数据思维的了解有助于数字图书馆在建设过程中的数据挖掘、数据处理及数据服务上形成符合时代需求的产品及模式。
关键词:大数据;大数据思维;数字图书馆;数据图书馆
中图分类号:G250.76文献标志码:A文章编号:10017836(2017)04015403
近年来,随着计算机技术与网络技术的发展,商业与互联网的结合越发紧密,“大数据”也通过这种全新的商业模式走入人们的视野。“大数据”是指在信息时代通过网络等工具收集汇聚的海量的数据,同时也被指为是对这些数据进行挖掘、分析的各类技术的发展与创新。其实,大数据在很早之前就被运用在多种学科之中。最早提出“大数据”时代的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]由于互联网和信息行业的发展,大数据的理念与实践从商业领域迅速扩展到社会信息服务的各个领域,图书馆作为社会重要的公共文化服务机构,也开始积极致力于大数据理念与技术的引进与应用。
1大数据、大数据思维与大数据技术
1.1大数据
虽然“大数据”成为了近年的热词,也有越来越多的人开始了大数据的研究,但目前“大数据”仍没有统一的定义。那么究竟什么是大数据?笔者认为,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。再简单的概括一下,可以说“大数据”就是一个数据集合。一般认为,当数据集合的存储量达到PB①或者EB级时,这个数据集合就可以称为是大数据或海量数据。
1.2大数据思维
提到大数据与大数据思维,就不得不提及经典的“尿布与啤酒”的大数据案例。在美国的沃尔玛超市里,你会发现尿布与啤酒这两种风马牛不相及的货品竟然是被陈列在一起的,而这种陈列方式大大地促进了二者的销量。原来,在美国,年轻的妈妈一般都会要求孩子的爸爸去为孩子购买尿布,要知道,美国的年轻男士是非常钟爱于啤酒的。所以这些孩子的爸爸们往往则会在购置尿布的时顺便购买啤酒。这一规律就是由沃尔玛的数据专家在杂乱无章的销售数据中挖掘出来的。而这种数据中有利的、规律性的信息的挖掘过程其实就是大数据思维的一种体现。
由此可见,大数据思维就是大数据技术的哲学基础或内在逻辑。掌握大数据思维就能掌握大数据中各类别数据的关联关系,进而通过各种关联关系获得有利的潜在信息。大数据思维具有以下特征:
(1)规律性。大数据中任何相关联的数据之间都有其内在的联系,这一联系是各个数据存在的基础,同时也是大数据内部运行演变的规律。如“尿布与啤酒”,就是在海量的数据中寻找到“尿布”与“啤酒”的关联关系后,在通过这种潜在关系促进二者的销量。
(2)无偏性。不难看出大数据思维的基础是统计学思维,但其有别于统计学思维的地方就是无偏性。大数据最突出的特点是数据的庞大,在庞大的数据中获取有效信息进行分析研究的结果,往往能体现各种不同数据的之间的联系与变化规律,由此得到的结果,往往是海量元数据的共性,所以这种结果一般更加科学,更加符合实际。而统计学常采取的抽样形式,相比较大数据而言,“以偏概全”的概率更高。
(3)准确性。大数据思维的准确性不仅仅体现在其无偏性上,而且体现在其“求解”的过程中。一般的数据分析是在数据所直接表达的信息上发现问题,可以说是“提问”的过程。而大数据由于其数据过于庞大,往往使用大数据的前提是已知某一问题,再就这一问在海量的大数据中寻找共性及解决方案,是一种“求解”的过程。
1.3大数据技术
如同大数据一样,目前大数据技术也同样没有明确的定义,笔者认为,大数据技术是指通过大数据思维在大数据中提取有效的数据关系的技术手段,它应该是统计学、计算机科学、心理学等多学科技术的融合。结合以上学科特点,大数据技术往往被应用于概率统计、趋势预测、客户分析等方面,由于学科的结合,大数据应用在情报分析方面都有着非常出色的表现[2]。
1.4大数据与数字图书馆
(1)数字图书馆。在理解大数据与数字图书馆的关系前,我们首先了解下什么是数字图书馆。数字图书馆是相对于实体图书馆而言的,一般情况下,数字图书馆是基于实体图书馆建构的一种虚拟图书馆。数字图书馆是随着信息时代的发展而来的,属于随着信息时代的到来而到来的产物。数字图书馆是一种能够为用户提供方便、快捷、高水平的信息化服务机制的拥有多种媒体内容的数字化信息资源,它既是一种科学技术,又是一项社会事业。进一步从概念上对信息图书馆进行具体化理解数字图书馆的工作的话,主要有以下两种:一是将传统纸质图书数字化,即将传统的纸质图书转化为电子版的数字图书;一是对数字图书的管理,这就涵盖对数字图书的存储、交换与流通使用。
(2)大数据与数字图书馆。就数字图书馆领域讨论大数据,就不得不讨论图书馆中是否存在大数据。如果有,其大数据的一面又体现在哪里?在已有的大数据与数字图书馆的研究中,普遍认为图书馆自建或外购的数字资源即数据、信息和知识就是图书馆的大数据。这些数据已经达到了PB级别,符合大数据存储量上的要求。但也有反对者认为,这些数据、信息与知识在大数据被调用分析前即已存在,且一般有着详细的归类,无须进一步提取与分析,不能成为大数据。反对者认为图书馆的机器可读目录数据、读者的借阅记录、用户信息行为数据才是图书馆的大数据,虽然这些数据达不到大数据要求的存储量(PB级以上),但是这些数据的存在与应用是符合大数据思维的,即我们可以通过大数据技术手段去探寻隐藏在图书馆的海量数据中各类数据之间规律性的关联关系。笔者认为,就大数据现有的概念而言,以上两种观点都不可完全称作是图书馆的大数据,但如果将两者结合,则完全满足大数据的定义要求,且两种数据之间并不冲突。以上两种类型数据之间既有既定的,也有可变性的,但两者之前其实是存在联系的,这种联系的探求就符合大数据思维模式,数字图书馆的建设就可以根据以上数据进行挖掘与探究。而两者数据存储量之和也满足大数据对存储量上的PB级以上的定义。
2大數据时代数字图书馆的挑战与危机
2.1数字图书馆的外部竞争危机
现实生活中,学术资源上的大数据应用已很常见。如中国知网(CNKI)、万方数据知识平台、百度学术等学术资源建设商都已存在大数据应用。据测算,目前仅百度拥有的信息总量就超过1000PB,相当于国家图书馆藏书数字化后数据量的5万倍,每天增加的数据量 10TB,相当于半个国家图书馆的藏书数字化后的数据量[3]。由此可见,在学术、教育、文化资源上的网络资源建设发展十分迅速,这些网络资源建设商已经在资源的规模与资源的种类两个方面,远远地超过了传统的数字图书馆。再者,一份关于大学生对高校图书馆使用情况的调研报告显示,72%的学生通过网络获得信息,而通过图书馆获得信息的学生只占18%[4]。另一项调查也显示,大学生访问图书馆网站(数字图书馆)的只占28%,远低于使用搜索引擎的使用比例,甚至有25.3%的大学生表示从没有去访问过图书馆网站(数字图书馆)[5]。传统的数字图书馆已经成为了大数据时代背景下信息获取的最后途经。
2.2数字图书馆的内部建设困境
(1)信息时代遗留问题亟待解决。由于时代的差异,传统数字图书馆在建设时难免受技术所限。同时,由于资金不足、标准不统一等许多原因,导致数字图书馆长期存在着诸如接口不统一、资源元数据描述不够、检索能力不足、文献数据相互关联性较差、互操作程度较低、资源发现和扩展能力低下等问题。这些问题从根本上阻断了各图书馆内以及图书馆之间信息的共享,也使得文献检索不便、不全。
(2)大数据时代带来新的数字图书馆建设挑战。其一,大数据技术应用为数字图书馆传统技术应用带来挑战。我们知道,目前数字图书馆在信息检索互操作方面很难将复杂数据环境(多源数据、多类型数据)下的数据价值发现与图书馆知识服务结合起来。这是因为传统的数字图书馆的检索方式主要有基于图书馆自动化系统的元数据互操作(如联合目录+OpenURL)和基于二代图书馆系统的基于系统的互操作(如MetaSearch+OpenURL)两种,这两种检索互操作方式的结合应用,也只能是有效地解决信息描述与检索能力不足的问题,而上文提到的问题是根本无法解决的。这一问题却完全可以通过大数据思维进行剖析与处理。其二,大数据思维为数字图书馆的用户维护带来了挑战。如上文所述,大数据的出现形成了有别于传统思维的大数据思维。这种在海量数据中寻找相互关系的思维逐步地使人抛弃传统的、易错的思维模式与实验方式,是一种“通过信息找人”的思维方式。传统的数字图书馆在其各项数据间都无法形成有效联系的情况下,想“通过信息找人”,即在数据中进行概率预测,为信息找用户的服务就很难达到。
对此,在大数据的背景下,传统的数字图书馆界就应当重视来自其自身内外的威胁,但有时威胁可能也是一种启示,更是一种机遇。
3大数据时代背景下数字图书馆建设研究
3.1数据图书馆是数字图书馆的发展方向
数据图书馆即在数字图书馆的基础上,综合以上数字图书馆存在问题,以数据为核心,围绕数据及数据业务来重构或重组数字图书馆的建设、运营与服务。围绕数据及数据业务就是指数字图书馆的建设、运营与服务均已数据为核心,对数据进行采集、保存、挖掘、分析以及处理与应用,进而形成数据出版、数据增值与数据服务。
数据图书馆的架构主要为三个部分。首先是负责数据采集与保存的大数据层。这一层级主要由文献数据(期刊、论文、杂志等)、用户数据(个人数据、阅读习惯、生活信息等)及其他数据(政府信息、科技环境等)构成。其次是负责数据分析及处理的数据计算层。顾名思义,该层级的主要任务就是提取、处理、分析大数据层存储的所有数据。最后层级即用户服务层,该层级为用户提供基础数据服务,同事兼收用户直接反馈或间接反馈的各类信息。通过用户服务层的功能即可看出,三个层级之间是相互联系的,各自的信息既是为自己服务,也是为其他层级服务的。
3.2数字图书馆的建设研究
在理清未来大数据背景下数字图书馆向数据图书馆的发展方向后,如何建设未来数字图书馆是数字图书馆建设的主要问题。笔者通过国内外各相关文献总结出以下未来大数据数字图书馆建设过程中存在的问题及解决方法。
(1)跳出传统图书馆的思维框架,创建大数据思维的数据图书馆。行动上想有所转变,首先应该在思想上有所转变。其实,大数据时代最重要的并不是大数据本身,因为杂乱无章的数据并没有任何价值。大数据时代最重要的应该是大数据思维。传统的数字图书馆实质上在其思维框架上并没有脱离原有的实体图书馆的思维模式,其设计与建设只是将从前到图书馆内查找图书的方式转变为通过网络查找,被查找的书目由纸质版变为电子书。而大数据时代就是要打破传统的数字图书馆的这种被动提供资源的形式,而是根据海量数据的有效提取、处理及分析转变为主动地运行模式。当然,大数据思维在数字图书馆的建设上并不仅仅局限于此,更多的数字图书馆的工作(如出版等)都可以用大数据思维进行思考,并进行改善。
(2)提供专业有效的大数据技术支持。大数据背景下的数字图书馆建设是绝对离不开专业的、有效的大数据技术支持的。离开了大数据技术的支持,大数据思维将永远停留在“想”的阶段,只有在大数据的技术支持下行之有效的运行才会实现大数据背景下数字图书馆的真正转型,实现大数据背景下数字图书馆建设的“想与做”的结合。一般而言,计算机科学、统计学专业的人员是大数据技术人员的首选,结合上文,无论是大数据的收集与存储、处理与分析都离不开以上两种学科的支持。
(3)提升数字图书馆工作人员个人素质。这里提升的素质主要是指加强图书馆工作人员的大数据思维培养。无论多么便利的工具,只有在正确的使用下,才能充分发挥其效能。相对于大数据而言,人的因素才是主动因素。这里我们不要求普通的图书馆工作人员要向计算机科学与统计学等专业人员一样在大数据的应用中创造技术,但我们需要这些工作人员能够掌握大数据思维,且能够熟练运用数字图书馆中各种数据的分析工具与软件,能够充分掌握图书馆中各种数据资源,这才是未来数字图书馆在大数据背景下发展为数据图书馆的有力保障。
注释:
①计算机信息技术用于计量存储容量和传输容量的一种计量单位(Byte),其换算公式为:1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB,1GB=1024MB,1MB=1024KB,1KB=1024Byte。
参考文献:
[1]大数据[EB/OL].百度百科.
[2]谭影虹.从数字图书馆到数据图书馆——大数据时代的图书馆服务范式转变[J].图书与情报,2016(3).
[3]盘点中国2013行业数据量[EB/0L].百度文库.
[4]张颖.大学生图书馆使用情况调查与研究——以A校为例[J].青年文学家,2014(6):182.
[5]关于图书馆利用状况的调查报告[EB/OL].百度文库.
[6]和婷.大数据思维对图书馆信息服务工作的启示[J].图书馆建设,2014(1).
[7]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,33(5).
[8]苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].探索交流,220.
[9]陈传夫,钱鸥,代钰珠.大数据时代的数字图书馆建设研究[J].图书情报工作,2014,58(4).
[10]Tony H.,Stewart T.,Kristin T. Thefourth paradigm: Dataintensivescientific discover[M].Washington: MicrosoftResearch, 2009.
Abstract:The arrival of big data era makes the “data” become an indispensible production factor which all walks of life have to consider. In the library industry, though the “digital library” is still a new concept, considering its developing trend, the “data” should be the key to the construction of the digital library in the big data era. With the era of big data coming, the understanding of big data and big data thinking is conducive to the creation of the product and mode which meet the needs of the times in terms of data exploration, data processing and data service in the construction process of digital library.
Key words:big data; big data thinking; digital library; data library
(責任编辑:陈树)