APP下载

大数据时代高校图书馆工作思路探讨

2014-04-17赵丽梅

吉林工程技术师范学院学报 2014年2期
关键词:数据量结构化图书馆

赵丽梅

(吉林工程技术师范学院图书馆,吉林长春130052)

根据IDC监测,全球数据量大约每两年翻一番,意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。IBM的研究同样得出:整个人类文明所获得的全部数据中,有90%是过去两年内产生的。预计到2020年,全球将拥有35ZB的数据量,全球数据使用量也将暴增44倍,数据总量相较于2011年将增长近20倍。因此,很多学者指出:未来时代是大数据引领智慧科技的时代,即“大数据时代”。大数据时代的来临也将使企业、学术机构等面临新的技术层面和服务层面的挑战,高校图书馆作为提供知识服务的学术性机构,也开始将新工作思路作为研究方向。试想一下,在PB单位尺度下,一本书只有大约十亿分之一(PB),可见其在海量数据中是非常渺小的。如果互联网还像现在这样无序,那么发现一本书的概率以及一本书对我们的影响就微乎其微了。如何利用这些大数据?高校图书馆应该如何面对大数据时代的到来?这都是我们应该去关注和研究的课题。

一、大数据基本概念及基本特性

(一)大数据基本概念及提出背景

“大数据”概念最早由全球最大的战略咨询公司麦肯锡(McKensey)提出,而真正将“大数据”推向未来信息技术发展核心地位的,则是2012年美国奥巴马政府宣布推出的“大数据的研究和发展计划”,该计划将“大数据”作为全球性发展战略计划,集合美国国防部、能源部、国家科学基金委员会等六个联邦部门和机构,大力推动及改善与大数据相关的采集、组织、分析、决策工具及技术,该举措无疑表明了大数据技术将会在未来数十年内影响全球知识创新和知识服务形式。

“大数据”与“海量数据”不完全相同,它包含结构化、半结构化及非结构化数据,甚至还具有时间或速度维度,即涉及数据流、结构化和非结构化数据的处理速率及效率。很难用传统的数据库和软件技术进行存储、管理和处理。仅以互联网上的数据为例,2011年的网络数据已达1.82ZB,相当于全球每人产生200GB数据。

(二)大数据的基本特性

1.容量(Volume)。存储量巨大,从TB级别上升到PB、EB、ZB甚至DB级别,传统的集中存储与集中计算已经无法处理呈指数增长的数据。

2.多样性(Variety)。数据来源及格式多样化,如Email、访问日志、电子商务、网络检索历史记录、微信、博客等个人数据、企业数据、传感器数据、网络数据等。

3.速度(Velocity)。增长速度快,要求处理速率及效率也要快,能够提供交互式的、实时或准实时的数据分析及数据预测。

4.准确性(Veracity)。浪里淘沙、沙里淘金,真实性、准确性至关重要。

5.价值(Value)。单个数据的价值也许有限,但巨大的数据量蕴藏着巨大财富,经过数据整合、挖掘及数据分析后得到的新信息价值会翻倍。

二、大数据时代高校图书馆工作思路转变

(一)增强收集数据的意识,特别是对非结构化数据的提取

国际图联主席、加拿大英属哥伦比亚大学图书馆馆长Ingrid Parent女士曾在2013年8月举办的“2013中文数字出版与数字图书馆国际研讨会”上讲到:“大规模、高度信息化的数据收集和分析将改变科学技术的开发和研究。”正如前面所述,大数据中有相当大一部分是非结构化的数据,比如图片、声音、视频等。根据名为“互联网上的一天”的数据得知,一天当中互联网产生的内容可以刻1.68亿张DVD;发出的电子邮件达2 940亿封,相当于美国2年的纸质信件数;社交帖子达2 000万个,相当于时代杂志770年的文字量。面对这些“可能是机会的数据”时,图书馆员应该有清醒的认识,应该具备将数据转换成知识的思想意识。获取这些非结构化的数据并对其进行分析,可以揭示之前很难或无法确定的重要相互关系,可以帮助提高图书馆的知识服务能力和智能辅助决策能力。

(二)大力发展数字图书馆及数字图书馆联盟

高校图书馆对于大数据而言,通常有三种角色:大数据的使用者或受益者、大数据的提供者或开发者以及大数据的运营者或维护者。目前,对于图书馆人而言,大数据技术仍然是一种全新的且仍被质疑的新兴技术,高校图书馆应该加强相互间的联盟合作,特别是发展数字图书馆联盟,甚至发展跨领域合作与国际合作,这会大大提高图书馆的数据分析与数据整合能力。比如“欧洲文化门户工程”(Europeana Culture Portal Initiative)的电子档案馆项目,有2000多个成员在元数据标准等方面通力合作,拥有大量的书籍、绘画作品、电影和博物馆藏品。另一个比较成功的例子是“开放获取知识库联盟”(the Confederation of Open Access Repositories),该联盟正致力于开放获取标准等方面的合作。这些优秀的国外图书馆间及跨领域的联盟合作都是值得我们学习和借鉴的。

(三)与出版社、数据库公司、学术研究者等合作

出版社和图书馆如何面对大数据时代的到来是近几年来专家学者讨论的热点。过去,专家学者们都遵循着一个思路——大数据有序化,希望通过对海量文献数据的规范化、自动化加工,以及对相应检索技术的改进完善,解决海量文献的内容发现问题。但这样做的后果会使文献资源变成“数据孤岛”,使图书馆成为孤岛,独立于互联网大数据这一虚拟社会之外,内容价值得不到充分的发掘和利用,整体的影响力也不足以支撑内容产业的大发展。作为高校图书馆来说,要不要搞“大数据图书馆”成为目前要思考的问题。而出版社、学术研究者、数据库公司、图书馆等开展合作是其中一个可行性路线。在大数据时代,学术图书馆和出版社必须加强对话与合作,如果缺乏沟通,学术信息的生产与传播将无从谈起。通过对海量数据、庞大数据库的有效管理,将图书馆的服务智能化,能够智能地挖掘、匹配读者的阅读兴趣,为读者的沉浸阅读、深入学习提供内容和工具。

(四)寻求技术创新与服务创新

近年来,随着云计算、大数据技术的发掘与应用,读者需求也在不断变化。读者要求在获取知识的途径和时间上更简单快捷。过去高校图书馆的数据库都是独立的,读者要在多个系统中多次登录,分别发现不同的结果文献。而现在发展到一个读者账号实现跨数据库检索,实时获取,比如CALIS的“E读”和“E得”。从服务的角度或者学术的角度来说,用户需要的是有准确来源的数据和最直接可信的答案,而不是成千上万篇文献,因此要为他们提供最好的服务,还需要我们对新技术的不断探索和应用,同时要有与新技术相适应的新服务内容与形式。可以说发展技术是最基本的支撑,而服务是高校图书馆的灵魂,二者必须同时发展。

三、结语

学术性图书馆历来是信息技术应用的重镇,大数据时代的到来对于图书馆来说,既是推力又是挑战,这种技术会对我们所熟知的知识服务能力和知识服务机制产生重大的颠覆和创新。作为高校图书馆,如何把握时代带给我们的新发展机遇是值得进一步研究的,特别是如何发挥大数据时代的优势,规避大数据时代的风险和弊端,更是值得所有人去探讨的问题。

[1]The New York Times.The Age of Big Data[EB/OL].[2012-8-9].

http://www.nytimes.com/2012/02/12/sunday - review/big -datas-impact-in-the-world.html?pagewanted=all.

[2]The Wall Street Journal.Big - Data Success Stories:Splunk[EB/OL].2012-8-9].

http://blogs.wsj.com/venturecapital/2011/10/21/big - data -success-stories-splunk/.

[3]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,(11).

[4]The White House.Big Data Across the Federal Government[R/OL].[2012-8-10].

http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.

[5]百度百科.大数据[EB/OL].http://baike.baidu.com/view/6954399.htm,[2013-11-10].

[6]清华大学图书馆馆长邓景康.大数据环境下清华大学图书馆的实践[N].中国新闻出版报,2013-08-29005.

[7]本报记者王玉梅.加强协作,一切皆有可能[N].中国新闻出版报,2013-08-29005.

[8]中国学术期刊电子杂志社社长、同方知网技术公司总经理王明亮.关于“大数据出版”的一些体会和猜想[N].中国新闻出版报,2013-08-29005.

[9]罗 彬,阳 静,袁 赟.数字图书馆中大数据存储的应用研究[J].科技与企业,2013,(18).

[10]郭振桥,王新玲.浅论大数据在未来图书馆服务中的应用[J].内蒙古科技与经济,2013,(16).

[11]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013,(1).

猜你喜欢

数据量结构化图书馆
基于大数据量的初至层析成像算法优化
促进知识结构化的主题式复习初探
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
结构化面试方法在研究生复试中的应用
宽带信号采集与大数据量传输系统设计与研究
图书馆
飞跃图书馆
基于图模型的通用半结构化数据检索
去图书馆