公共图书馆应用大数据的策略研究
2013-09-12容春琳浙江师范大学图文信息中心浙江金华321004
容春琳 (浙江师范大学图文信息中心 浙江 金华 321004)
1 国内相关研究述评及本文研究缘起
1.1 国内针对大数据的相关研究
随着移动互联网、云计算和云服务、物联网等技术的飞速发展,加之网络视频、智能服务终端、网上商店等的快速普及,全球数据量呈现爆炸式的增长态势;对大规模数据的获取、分析和应用能力成为企业和管理机构能否取得成功的关键。于是,“大数据”(Big Data)应运而生,其是继Web3.0、云计算、关联数据之后,近两年网络热炒和媒体高度关注的关键词之一。全球知名的咨询公司麦肯锡最早提出“大数据”时代已经到来[1]。自从“大数据”的概念提出以来,国际上特别是美国等发达国家掀起了大数据研究和应用的热潮。美国将“大数据”作为一项全球性发展战略计划:2012年2月,奥巴马政府宣布推出“大数据的研究和发展计划”并投资2亿多美元,在美国国防部、美国国家科学基金等6家政府部门的协作下,大力推动与大数据相关的采集、组织、分析及技术实现等[2]。Microsoft、IBM、Oracle等声明显赫的IT行业巨头也都加入到大数据的行列,纷纷通过收购与大数据相关的软硬件技术供应机构来实现大数据的软硬件技术融合和大数据信息处理的技术研发,力图在新的“大数据”时代、在新的信息竞争环境中处于主导地位[3]。中国工程院院士李国杰先生指出,大数据将成为信息科技的新关注点,并可能形成新型交叉学科——网络数据科学[4]。图书馆历来是新信息技术的研究和实践重地之一,大数据不可避免地将会对图书馆产生一定的影响和冲击。国外的图书馆学研究者参与了与数据有关的研究项目,如关联开放数据运动(Linked Open Data Initiative)和图书馆数据监管(Library Data Curation)等。美国学者对图书馆员在大数据环境下的角色定位和专业技能做了调查与设想。另外,美国的密歇根州立大学、伊利诺伊州立大学等知名大学均开设了与大数据相关的课程和研究方向[5]。国外的这些研究为我国图书情报界研究大数据提供了较好的参考借鉴。
笔者通过检索数据库得知,国内有关大数据的研究成果数量较多,大多集中在计算机科学类和企业管理类期刊,也有少部分发表于图书情报类刊物。笔者现选取2012年发表的较新文献进行述评。杨海燕研究指出,从大量的数据中分析潜在的价值将成为大数据时代图书馆的一大主要业务[6]。韩翠峰认为,在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临巨大的挑战与考验,对大数据的分析与处理将成为图书馆的一大主要服务内容[7]。张文彦等人研究指出,大数据时代的来临给图书馆带来了根本性的变革,大数据在图书馆中的应用将会产生较多新问题[8]。黄晓斌、钟辉新则分析了大数据对企业竞争情报研究的影响及大数据时代企业竞争情报分析的发展方向[9]。杨绎从文献计量的角度对大数据进行了定量研究,并得出结论:目前国内对“大数据”的接受程度不高,应进一步展开研究[10]。樊伟红等人探讨了大数据可能给图书馆带来的机遇和挑战[11]。侯经川、方静怡重点探讨了大数据时代数据引证的研究进展与未来研究展望[12]。另外,国内与大数据相关的研讨会议主要有:2012年8月23—25日,中国国防科学技术信息学会情报研究专业委员会在黑龙江省漠河县召开了“大数据背景下的国防科技情报研究”学术研讨会,在学术界首次以学术论坛的形式探讨大数据背景下的国防科技情报研究工作[13]。2012年11月30日—12月1日,中国IT界技术盛会——Hadoop与大数据技术大会(HBTC 2012)在北京隆重举办,大会以“大数据共享与开放技术”为主题,展望了Hadoop和大数据璀璨的发展未来[14]。
1.2 简要评述及研究缘起
在新信息化环境下,大数据将为图书馆对大规模数据的处理和分析、实现知识管理和知识服务模式的完善和创新、提升图书馆的业务服务水平等提供新的思路和方案。我国图书情报界的学者基于不同的视角对大数据与图书馆的相关问题进行了研究,取得了一定成效,这对于加强大数据的研究、推动图书馆应用大数据的尝试和探索具有较大的理论价值和现实指导意义。但目前国内图书情报界针对大数据的研究还存在一些缺陷,如大部分研究主要是对国外实践的介绍,提出独创性观点的较少;理论研究较多,而有针对性的实践研究偏少;大多是从宏观上谈论大数据对图书馆的影响、挑战等,显得较宽泛,操作起来可行性不太强;有些内容前后重复。另外还有一个遗憾,那就是没有专门针对公共图书馆应用大数据的研究文献,这与时代的节拍不太相符。我国提出“文化强国”战略,提出加强公共数字文化服务体系建设,这对于公共图书馆来说是义不容辞的职责。笔者认为,在大数据背景下,加强公共图书馆应用大数据的服务能力和策略的相关研究和实践具有较大的参考价值和时代意义。巧合的是,2013年国家社科基金项目申报指南中的“图书馆、情报与文献学”部分正好列有与大数据相关的研究主题[15]。这说明,“公共图书馆应用大数据”这一研究在国内尚属于较新的研究领域,具有较大的研究潜力。
2 初步认识大数据
2.1 大数据的含义和主要特征
自从大数据的概念提出以来,学术界对于大数据含义的理解很难达成共识,基本上是仁者见仁,智者见智;这一点与云计算的概念刚提出时的情况类似。目前,各种不同的定义基本上是从大数据的特征出发,通过其特征的阐述归纳出来的。对于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[16]。百度百科名片中这样描述大数据:大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯[17]。维基百科对大数据的定义较为简单:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集[18]。
一般认为,大数据具有4个主要特征,业界将其形象地概括为4个“V”:首先,数据体量巨大(Volume),从TB级别跃升到PB、ZB级别;其次,数据类型繁多(Variety),如流行的网络日志、视频、图片、地理位置信息等;第三,价值密度低(Value);以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅才一两秒;最后,处理速度快(Velocity),基本上贯彻1秒定律,这与传统的数据挖掘技术有着本质的区别。
2.2 大数据的价值和主要应用领域
大数据的价值是通过数据共享、交叉复用获取最大的数据价值;未来大数据将会如基础设施一样,有数据提供方、管理者、监管者等,数据的交叉复用将可能使大数据变成一大产业。虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来。首先,手中握有数据的公司处于有利的竞争地位,基于数据交易即可产生很好的经济效益;其次,基于数据挖掘会有很多商业模式诞生。例如,数据分析人才帮企业做内部数据挖掘,或侧重优化,帮助企业更精准地找到用户,降低营销成本,提高企业销售率,增加利润。另外,通过网络工具挖掘用户的行为习惯和喜好,从凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这也是大数据的社会价值之一,大数据将日益显现出对各个行业的推进力[19]。
大数据技术的价值在于应用,而目前人们谈论最多的是大数据技术和大数据应用。移动互联网与社交网络的兴起将大数据带入新的征程。在移动互联网领域,公司从开发者角度找到数据挖掘的方向,通过提供免费的技术服务,帮助开发者了解应用状况;社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的信息,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推送给需要的品牌商家或是微博营销公司。简言之,大数据技术的应用领域主要包括商业智能、公共服务、市场营销等[8]。
2.3 大数据与云计算的关系
随着云时代的来临,大数据也吸引了越来越多的关注。大数据和云计算密不可分,云计算是大数据的基础平台与支撑技术;大数据分析常和云计算联系在一起,因为实时的大型数据集分析需要诸如Map-Reduce的框架来向云端的电脑分配指令和工作。但是,二者也存在一定的区别,如表1所示。
表1 云计算与大数据的比较明细表
3 大数据为公共图书馆带来的契机与影响
3.1 大数据帮助公共图书馆建立和完善新的知识服务方式
由于各种新信息技术的迅速发展,社会网络的知识传播与利用方式也发生了变革,公共图书馆的基础服务体系得到加强;同时,用户不断增长的信息需求促使公共图书馆的拓展服务持续延伸,如读者数据的深度分析和挖掘、知识服务的服务趋势和竞争力分析、知识创新分析与预测等。公共图书馆历来是新信息技术应用的重镇,在当今的“大数据”时代也不例外。公共图书馆亦是大数据的主要来源地之一,其主要数据来源有:用户借阅流通数据、馆藏书目数据和电子数据库、RFID(RadioFrequency IDentification,无线射频识别)数据、社交网络交互数据、移动互联数据及各种传感器数据等。大数据技术将给公共图书馆带来较深刻的影响和创造性的变化,对其知识服务能力和知识服务机制产生较大的冲击,可以帮助公共图书馆建立和完善新的知识服务方式。大数据为公共图书馆新型知识服务方式带来的契机与帮助主要表现为:(1)帮助公共图书馆进行用户流失分析,应对生存危机。由于诸多原因,公共图书馆的存在价值被逐渐淡化,用户流失现象较为严重。公共图书馆借助大数据技术对用户需求的数据进行分析,不仅可以了解用户的信息行为、需求意愿及知识运用能力,还可以深度挖掘用户在交互型知识服务过程中的潜在需求数据,从而有针对性地开展服务并吸引读者,应对生存危机。(2)帮助公共图书馆建立更智能、灵活的社会网络知识服务组合方式。公共图书馆可以通过分析各种数据资源的状况来采取相应的对策,从图书馆的结构化和非结构化数据资源中抓取有用的知识和关联关系等,完善新的知识服务方式。(3)帮助公共图书馆建立知识服务导航机制。如何利用大数据技术构建公共图书馆的新型知识服务导航机制,将会是公共图书馆界研究大数据的主要议题之一。大数据有助于推动公共图书馆建设新型知识服务导航机制,主要应考虑到用户知识需求预测导航、多维数据资源的组织和分析导航、用户信息行为智能分析导航、学术资源搜索导航、数据资源的推荐服务导航等[11]。
3.2 大数据为公共图书馆拓展公共服务提供强有力的技术支撑
公共图书馆作为我国现代社会公共数字文化服务体系中的重要组成部分,理应审时度势,延伸和拓展对用户的公共服务,加强新信息技术的应用,提升自身的服务水平和社会价值,助推文化强国建设。随着公共图书馆开展公共服务的不断深入和完善,公共图书馆的服务基础和社会民众基础也在逐渐扩大,所拥有的数据量也在不断增长。对于公共图书馆而言,如何把握大数据带来的技术优势与数据分析方法,提高公共图书馆能够分析的数据比例,提高和加强公共图书馆的知识服务能力,显得重要而迫切。大数据技术将不可避免地对公共图书馆产生影响,其中大家较为熟知的云计算则是大数据的基础平台与支撑技术,主要牵涉到文件系统和数据库系统、索引与查询技术、数据分析技术等关键技术。目前最为流行的大数据处理平台是Hadoop,另外还有较多大数据处理工具,如MapReduce等[16]。为了便于大数据的管理,公共图书馆需要建立优质的数据库系统并构建高质量的索引,以便为读者提供高效率的数据检索功能,并且通过先进的数据分析技术从公共图书馆的大数据中提取有用的知识。大数据技术可以帮助公共图书馆获得准确、及时的用户数据,为公共图书馆开展公共服务提供强有力的技术支撑;同时,大数据技术在公共图书馆的应用有助于管理者及时了解图书馆最新知识服务的趋势并作出决策、调整服务方向,进而赢得用户的支持,提高公共图书馆的核心竞争力。
3.3 大数据对公共图书馆的数据存贮能力和计算能力提出新的挑战
在新的信息化环境下,数据量急剧增长,数据类型不断增多,用户的社会网络活动产生出大量的结构化和非结构化的数据信息,其数据的格式、类型、结构及存在形态等都变得更加多样,这就增加了大数据的复杂性。公共图书馆要想形成新的知识服务范式,则必须要善于对海量的用户数据加以分析,从大数据中发掘出有价值的现实问题。但目前公共图书馆的信息技术人才、数据处理技术和硬件基础设施等难以满足大数据的应用及用户的知识服务需求,大数据的存储、分析计算和应用等对公共图书馆提出新的严峻挑战。首先,大数据对于公共图书馆的数据存储能力和范围、计算能力有着特别高的要求。公共图书馆自身拥有海量的数据,其存储和运算能力受限,与大数据对存储能力的高要求存在一定的差距,这就直接决定了公共图书馆拥有大数据的质量。其次,公共图书馆面临硬件基础设施和技术人才的挑战。数据量的迅速增加对支持非结构化数据存储及分析的硬件基础设施提出了更高要求。大数据时代,公共图书馆要存储和分析各类用户及社会群体等的信息,需要拥有经济、高效的存储和计算能力,而这则需要建立在较先进、完备的硬件基础设施和信息技术人才的基础之上。因此,需要拥有复杂数据处理的网络基础设施、拥有大数据可靠分析和应用的软硬件基础设施以及拥有技术较为熟练的信息人才是公共图书馆针对大数据研究与应用的主要挑战之一。
4 公共图书馆应用“大数据”的策略建议
4.1 公共图书馆应提高对大数据的分析和处理能力
我国“十八大”的召开将国家信息化提到了较高的战略高度,其提出要加强社会管理信息化建设、加快公共数字文化服务体系建设和健全信息安全保障体系。这给新形势下公共图书馆的发展提供了良好的机遇,公共图书馆理应在社会信息化的浪潮中大展宏图,发挥更积极的作用,如建设好特色数据库、数字资源服务系统及富有个性的门户网站等。近几年,公共图书馆的数据处理也主要是限于将纸质文献资源等进行数字化、网络化处理,并购买一些电子数据库等。这其中牵涉到的大部分是结构化的数据信息,可供分析的数据比例不大,要想从中挖掘出十分有价值的信息难度较大。大数据时代的到来促使社会公众逐渐对大数据产生兴趣,大数据的特征与优势促使用户的信息化需求发生变化,用户迫切需要公共图书馆提供智能化、个性化、较大范围的知识服务。为了适应国家信息化的发展,尽力满足用户不断增长的信息需求,公共图书馆应该充分利用现有条件,挖掘潜力,改善基础设施,提高对大数据的分析和处理能力,这是大数据时代公共图书馆发展的主旋律。在大数据时代,公共图书馆应及时变革图书馆的数据处理范围和方式,根据用户服务数据和社会网络数据对用户的借阅记录、信息行为、微博日志等各类数据进行深入分析,挖掘出有价值的信息,改善和提高服务方案,提高服务效率。对大数据的分析、提炼与处理将成为新时代环境中公共图书馆的主要业务。
4.2 公共图书馆应确立与大数据分析和处理相关的知识服务高标准
公共图书馆信息化建设程度的不断提高,知识经济和知识社会的到来使得知识服务成为当今公共图书馆服务体系中所崇尚和追求的理想服务模式之一。大数据促使公共图书馆服务方式和服务内容发生了改变:现有的公共服务演变为围绕以数据为中心的知识创新型服务,数据分析和挖掘成为公共图书馆知识服务体系创新与完善的战略制高点。大数据客观上要求公共图书馆不仅需要通过数据了解现在知识服务的过程发生了什么、用户需要什么服务,也需要利用数据对图书馆与用户的交互关系进行数据挖掘、分析和预测可能发生的信息行为,还需要利用数据对图书馆与科研机构在合作交互型知识服务过程中将要发生的趋向进行分析和预测。在大数据时代,公共图书馆应该确立“以复杂的大数据为对象,以深度分析和数据挖掘为要求”的知识服务高标准,以便建立和完善新型的知识服务模式和营销方式,积极应对用户流失和未知的挑战等风险。
4.3 公共图书馆应高度关注和重视大数据的隐私问题
随着互联网和社交网络的发展,社会公众将在不同的地点留下越来越多的数据痕迹,这些数据具有关联性和累积性;如果将个人的较多信息行为从不同的独立地点聚集在一起,其隐私将很可能被暴露,这也是人们较关心的大数据的隐私问题。大数据时代的隐私保护面临人力和技术两个层面的双重考验,应该在不暴露用户个人隐私的前提下进行有效的数据分析和数据挖掘,这样才能确保信息的安全和完整。公共图书馆将会面临大数据的影响和挑战,可能也会遭到用户的质疑:“大数据时代公共图书馆能否有效地保护个人的隐私?”公共图书馆在保护读者隐私权方面还是较令人满意的:一向坚持保护用户的个人隐私权。但在大数据时代这一举动可能受到挑战,因为公共图书馆为了改善服务方式、提供更优质的服务,需要通过广泛的渠道提取用户的数据信息并加以分析,了解其阅读爱好和常见的信息行为,以便量体裁衣。那么,新时代下的公共图书馆员应该树立良好的职业素养,高度关注和重视大数据的隐私问题,坚决维护用户的隐私权,做到用户的个人信息在合理、合法的范围内有效传播;达到“既充分发挥大数据的优势,又不侵犯用户隐私”的双赢目的。
5 结 语
新兴信息技术的出现及新环境的诞生将无可避免地影响包括公共图书馆在内的各类型图书馆服务的变革;大数据时代的来临将促使用户产生更高、更现实的知识服务需求。随着信息通讯技术和社会网络的发展,公共图书馆将日益产生规模越来越大的数据,从大量的复杂数据中分析、挖掘出其潜在的价值,从而有针对性地开展知识服务将成为大数据时代公共图书馆的一大主要业务和发展方向。笔者主要探讨了大数据给公共图书馆带来的契机与影响以及公共图书馆应用大数据的策略建议。但诸如“大数据在公共图书馆应用的前景如何?”、“公共图书馆应用大数据如何经受实践的检验?”等问题,尚有待进一步研究。
[1]The New York Times.The Age of Big Data [EB/OL].[2013-03-02].http://www.nytimes.com/2012/02/12/Sunday-review/big-datasimpact-in-the-world.html?pagewanted=all.
[2]The White House.Big Data Across the Federal Government[EB/OL].[2013-03-02].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.
[3]The Wall Street Journal.Big-Data Success Stories: Splunk[EB/OL].[2013-03-02].http://blogs.wsj.com/venturecapital/2011/10/21/bigdata-success-stories-splunk/.
[4]中国科学院.李国杰院士:大数据成为信息科技新关注点[EB/OL].[2013-03-02].http://www.cas.cn/xw/zjsd/201206/t20120627_3605350.shtml.
[5]Corral S.Roles and Responsibilities: Libraries, Librarians and Data[G]// Pryor G.Managing Research Data.London: Facet Publishing,2012:212-218.
[6]杨海燕.大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.
[7]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.
[8]张文彦,武瑞原,于 洁.大数据时代的图书馆初探[J].图书与情报,2012(6):15-21.
[9]黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2012(6):9-14.
[10]杨 绎.基于文献计量的“大数据”研究[J].图书馆杂志,2012,31(9):29-32,37.
[11]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-68,77.
[12]侯经川,方静怡.大数据时代的数据引证研究:进展与展望[EB/OL].[2012-03-02].http://www.cnki.net/kcms/detail/11.2746.G2.20121213.1730.002.html.
[13]“大数据背景下的国防科技情报研究”学术研讨会在漠河召开[EB/OL].[2013-03-02].http://d.wanfangdata.com.cn/Periodical_qbllysj201209031.aspx.
[14]HBTC 2012.2012 Hadoop与大数据技术大会圆满落幕[EB/OL].[2013-03-02].http://hbtc2012.hadooper.cn/.
[15]全国哲学社会科学规划办公室.2013年国家社科基金申报指南:图书馆、情报与文献学[EB/OL].[2013-01-28].http://www.npopss-cn.gov.cn/n/2012/1227/c219473-20030485.html.
[16]孟小峰,慈 祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[17]大数据[EB/OL].[2013-03-02].http://baike.baidu.com/view/6954399.htm.
[18]Big Data [EB/OL].[2013-03-02].http://www.en.wikipedia.org/wiki/Big Data.
[19]大数据定义[EB/OL].[2013-03-02].http://wenku.baidu.com/view/2db0c1de7f1922791688e8b6.html.