大数据背景下图书馆服务体系创新与重构
2014-02-19刘琼
摘 要:大数据时代的到来影响着社会的各个层面,从物联网、云计算到微博等影响着人们生活的方方面面,图书馆作为存储、传播知识的重要场所受大数据的影响最为深刻。大数据时代,图书馆的服务体系需要完善,服务质量需要提升,这就需要研究大数据,应用大数据。文章在分析了大数据内涵与特征,提出了图书馆面临大数据的挑战,从服务内容与服务模式两个方面提出创新与重构图书馆的服务体系的思路。
关键词:大数据;图书馆;服务体系;创新;重构
“大数据”概念最早是由咨询公司McKensey提出,而后《纽约时报》及《华尔街日报》开辟专栏,对其展开激烈讨论。之后,包括Oracle、Microsoft、IBM、Yahoo、VMWare、FaceBook等几乎所有IT巨头,纷纷加入到相关的软硬件技术研究的阵营中。现在,大数据已深深地影响了我们的生活,近年来,信息技术的飞速发展推动社会各个层面快速发展,新事物不断涌现。“大数据”是移动计算、物联网、云计算等一系列新兴技术之后的又一新兴事物。大数据已成为2012年以来的研究热点,2013年7月28日在中国期刊网上用“大数据”作为关键词进行搜索,并以发表时间顺序排列,1985年有1篇文献,2000年有4篇,2011年有41篇,到了2012年有324篇,2013年的1-5月则达到了418篇,增长的速度如此惊人。由此说明,对大数据有研究已成为科学研究的一个重要内容。综观国内外大数据领域的研究和应用发展现状可见:大数据相关的研究与应用目前仍然处于起步阶段,学术研究大多局限于宏观层面;基于互联网和社会媒体的企业大数据研究与应用亟需进一步的深入开展;现有的大数据研究大多立足于信息科学,侧重于大数据的获取、存储、处理、挖掘和信息安全等方面[1]。
图书馆的责任之一就知识存贮、利用、开发和传播,在即将出现的大数据的各种问题面前,图书馆已经感受到其所带来的转变和创新知识服务的巨大压力。要把压力转化为创新的动力,就要正确地认识大数据给带来的环境和改变,利用大数据实现图书馆服务能力的提升,推动图书馆事业的发展。
1 大数据的内涵与特征
早在 20 世纪 80 年代初,美国有人提出了大数据的概念,但是并没有引起人们足够的重视。近年来,各个领域的数据量都在大量的增长,因此,大数据这一概念也变得越来越流行,也越来越重要[2]。以“云计算”为标志的“大数据”,已经成为一些国家和政府的发展战略。对于大数据的概念,企业和学术界目前尚未形成公认的准确定义。维基百科将大数据定义为“无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”[3]; 权威 IT研究与顾问咨询公司 Gartner 将大数据定义为“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题”[4]; 美国国家科学基金会( NSF) 则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”[5]。尽管存在不同的表述,但一个普遍的观点是,大数据与“海量数据”和“大规模数据”的概念一脉相承,但其在数据体量、数据复杂性和产生速度三个方面均大大超出了传统的数据形态,也超出了现有技术手段的处理能力,并带来了巨大的产业创新的机遇。大数据包含了互联网、医疗设备、视频监控、移动设备、智能设备、非传统 IT 设备等渠道产生的海量结构化或非结构化数据,并且时时刻刻都在源源不断地渗入现代企业日常管理和运作的方方面面[1]。
大数据的特点可以用“4V+1C”来概括,“4V+1C”分别代表了Variety(多样化)、Volume(海量)、Velocity(快速)、Vitality(灵活)以及Complexity(复杂)。多样化(Variety)指大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据和以视频和语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区别很大。海量(Volume)指通过各种智能设备产生了大量的数据。据 DCCI 互联网数据中心在2012年7月26日举办的“Adworld2012 互动营销世界”上给出的数据显示:2010 年,全球数据量已达 1.2ZB(1ZB=1024EB,1EB 相当于10亿GB),到2020年将暴增30倍达35ZB;2011年,全球被创建和复制数据总量为1.8ZB;2013年,我们生成这样规模的信息量只需10分钟[6]。快速(Velocity)指大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决策,从而导致这些数据失去了分析的意义。灵活(Vitality)指在互联网时代,和以往相比,企业的业务需求更新的频率加快了很多,那么相关大数据的分析和处理模型必须快速地适应新的业务需求。复杂(Complexity)指虽然传统的已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨。
图书馆作为知识信息的重要来源之一,不可避免地受到社会应用技术潮流的影响,图书馆也应与时代相呼应。在当今,图书馆已具备了大数据的特征,至2008年底,CALIS文献数据总量达到180TB,截止到2012年底,国家图书馆数字资源总量达807.3TB,内容丰富、种类齐全[7]。研究大数据对于图书馆来说具有重的现实意义。
2 大数据对图书馆发展的挑战
2.1 大数据的复杂性挑战
复杂性造成网络大数据存储、分析、挖掘等多个环节的困难。网络大数据的复杂性主要表现在三个方面。
数据类型复杂。信息技术的发展使得数据产生的途径不断增加,数据类型持续增多。相应地,则需要开发新的数据采集、存储与处理技术。例如社交网络的兴起,使相关当的信息表现为短文本数据信息。与传统的长文本不同,短文本由于长度短,下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。
是数据结构的复杂。传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频等等。非结构化数据当中蕴含着丰富的知识,但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。
数据模式的复杂。随着数据规模的增大,描述和刻画数据的特征必然随之增大,而由其组成的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络、甚至社会学等等)。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效鲁棒的方法来实现去粗存精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,仍然存在很多不足,都有待进一步提高[8]。
2.2 应对大数据的不确定性挑战
大数据具有不确定性,其不确定性使得网络数据难以被建模和学习,从而难以有效利用其价值。大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性。
数据本身的不确定性。原始数据的不准确以及数据采集处理力度、应用需求与数据集成和展示等因素带来了数据在不同维度、不同尺度上都有不同程度的不确定性。传统数据具有较为明显的结构性,其处理方法难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。
数据模型的不确定性。数据的不确定性要求对数据的处理方式有别于传统的处理方法,能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡。在对不确定数据的建模和系统设计上,人们常用的是“可能世界模型”观点。该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画,但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求。在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等等。概率图模型由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上面,不确定性模型的构建应当考虑到图书馆系统数据的查询、检索、传输、展示等方面的影响。
数据学习的不确定性。数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是很困难的。因此很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统近似的、不确定的学习方法需要面对规模和时效的挑战。如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域做出了探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算,从而提高数据的处理速度。近年来,在统计学习领域,非参模型方法的提出为自动学习出模型复杂度和参数个数提供了一种思路。但该类模型计算上较为复杂,如何分布式地、并行地应用到网络大数据的处理上,还是一个开放问题,图书馆应加强技术水平来应对大数据的学习不确定性。
2.3 大数据的涌现性挑战
涌现性是指多个要素组成系统后,出现了系统组成前单个要素所不具有的性质,这个性质并不存在于任何单个要素当中,而是系统在低层次构成高层次时才表现出来,所以人们形象地称其为“涌现”。系统功能之所以往往表现为“整体大于部分之和”,就是因为系统涌现了新质的缘故。涌现性是网络数据有别于其它数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。
大数据的模式涌现性是指在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块。
大数据的行为涌现性是指随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系,当这些个体在产生网络数据时每一个体的行为同时出现在一个系统中时,就表现为复杂的区别于个体的复杂性。
大数据的智慧涌现性是指网络数据在没有全局控制和预先定义的情况下,通过对来自大量自发个体的语义进行互相融合和连接而形成语义,整个过程随着数据的变化而持续演进,从而形成网络数据的涌现语义,也可以称之为智慧涌现。作为一种特殊的智慧涌现形式,众包正在通过互联网和社会网络快速发展,成为一种新的商业模式、新的数据产生模式和新的数据处理协作模式。总体而言,尽管与网络大数据研究密切相关的数据库、数据挖掘、机器学习和知识工程等领域近些年来都有很大的进展,甚至在许多不同的领域得到了深入的应用,但由于网络大数据规模海量、关系复杂等根本特性,使得相关领域的研究成果难以被直接借鉴于网络大数据的研究。到目前为止,大数据的精确定义还缺乏一个统一的标准,网络大数据科学需要一个完备的新的理论体系来指导该学科的发展和研究。
3 大数据背景下图书馆服务体系创新与重构
3.1 大数据背景下的服务内容创新与重构
大数据背景下,图书馆的竞争不仅仅是拥有的数据资源的多少,而是在数据类型与结构上、数据的利用与开发上,即服务内容创新。在自媒体时代,每个是都一个数据产生源,图书馆的用户信息是极具价值的信息,如用户信息行为数据,这类目前还未完整收集的用户行为等非结构化数据将极具价值,很多的图书馆服务只有对大量的用户数据挖掘、分析才能得出图书馆所需的决策参考,因此图书馆要重视这些非结构化的大量的用户数据与信息。对图书馆来说,在大数据时代的竞争就是避免边缘化,开展必要的大数据分析服务。图书馆开展的大数据分析服务业务,主要可以有以下几种: 首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆的现有数据位对象进行分析,如读者的借阅方式、行为爱好等,是一种对现有资源的分析与挖掘; 其次是客户即读者所需的大数据分析。这类分析业务类似于当今图书馆为企业等客户群体所做的信息情报参考、竞争情报分析,但也有着很大的区别,如对于分析对象数据的不同、分析手段的不同、分析目的的不同等,这类分析业务所依靠的大量数据可能并非图书馆所拥有,从而成为限制该项业务发展的瓶颈,如何解决此类服务的数据问题是突破该瓶颈的关键[9]。
大数据的价值在于其背后的使用规律和产生规律,对大数据的分析要利用先进的信息技术,创新原有的分析方法和分析技术,大量网络社交等信息行为产生的大量非结构化数据、半结构化数据也让许多学者开始思考去采集和利用这些信息。如果能够采集到Web 日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制 Web 日志的数据模型、过程及方法进行探索。即对现有服务内容进行重构。
3.2 大数据背景下的服务模式创新与重构
在当今时代,传统的物理图书馆已转变为数字图书馆,图书馆的服务也发生了变化,从原来的点对点、线对点、面对点的传统服务转变为一体化服务。不管是服务的方式、途径、模式等也都将发生改变。从服务的理念上转变为基于数据的服务,以“大数据”为基础,围绕从数据汇聚到信息加工,知识服务,智慧服务的四个层次展开一体化服务。即服务模式的创新[10]。
大数据时代下,数据资源是海量的,理论上一个图书馆可以收集所有的数据资源,如各类文献资源,科研成果,学术交流,甚至包括各种访问,社交日志信息等各种网络资源。提供资源之间的无缝链接,提供各种数据管理服务,包括存储备份、元数据加工、数据发布,数据共享等。在数据的洪流中,异构、分布和海量的各种数据资源得以汇聚及融合,形成中心知识库,通过预索引的方式,为用户提供快速,简单,易用的资源发现及获取服务,建立一体化数据资源服务平台[7]。但是,这些数据来源于不同的机构知识库或读者个人,图书馆可以充分利用机构优势有组织地通过对各类数据源的定位和连接,实现数据的采集、传输和汇聚。鼓励读者开放存取各种数字资源,使用户不仅是资源的接受者和学习者,而且是资源的的发布者和贡献者。
在大数据环境下,图书馆应利用知识服务平台重构服务模式,通过对汇集数据的加工整理,数据建模,提高数据的价值密度。探索以数据为基础的知识发现分析,通过基于数据的增值服务,面向用户、满足用户的学科知识需求,开展知识服务。如以学科为基础,将不同学科用户的检索浏览下载的信息行为数据进行分类加工整理,将信息的可视化服务、数据挖掘的智慧服务进行重构,以便发挥大数据背景下图书馆的最大功能。
4 结束语
大数据已深入到我们生活的各个层面与各个角落,已无法抗拒,只有拥抱大数据。大数据伴随着云计算、移动互联网、物联网等信息技术的成熟而迅速发展,并且越来越受到业界和学术界的关注,相较于过去几十年数字图书馆的研究与发展,大数据技术在未来几年给云图书馆将会带来革命性、持续性和创造性的变化,会对我们所熟知的知识服务能力和知识服务机制产生重大的颠覆和创新,也对现有的技术和方法提出更高的要求,而这一切可能会超出我们正常期待的范围。综合分析过去两年内对大数据技术的关注和研究,在未来几年,新型的大数据获取、存储、组织、分析和决策过程中,体系架构、计算模型、数据模型、智能辅助决策模型、性能优化模型及知识服务模型等方面,将会出现更多的研究成果。大数据技术是图书情报领域无法逃避的未来技术发展形态,必将重构图书馆的服务体系。
参考文献
[1]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013,8:112-113.
[2]冯芷艳,郭迅华,等.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013.
[3]孙琳.大数据时代图书馆服务体系创新研究[J].理论观察,2013.
[4]http://en.wikipedia.org/wiki/Big_data.
[5]http://www.gartner.com/it-glossary/big-data/.
[6]http://www.nsf.gov/funding/pgm_summ.jsp?pims_id=504767.
[7]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013.
[8]国家图书馆面向地方开放120TB数字资源[Z].2013-7-28.
http://roll.sohu.com/20130304/n367700292.shtml.
[9]王元卓,靳小龙,等.网络大数据:现状与展望[J].计算机学报,2013.
[10]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013.
[11]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013.
作者简介:刘琼(1971-),女,淮阴工学院图书馆管理员,研究方向:计算机与图书管理。