大数据对信息文献资源共建共享的影响
2014-07-27冯秋燕
冯秋燕
(河南财经政法大学,河南 郑州450000)
大数据对信息文献资源共建共享的影响
冯秋燕
(河南财经政法大学,河南 郑州450000)
本文首先介绍了大数据的特征、概念,并对信息文献资源共建共享的现状进行分析,阐述了大数据对信息文献资源共建共享的影响。[关键词]大数据;信息文献资源;共建共享
1 引言
大数据有着巨大的社会价值、经济价值和科学研究价值。通过挖掘和分析Facebook、微博等网络大数据,能够预测社会一些重大和突发性事件。数据逐渐成为相关行业和业务职能领域重要的生产因素。
以“大数据”为基础,有效收集、存储、组织、管理信息,使得用户从海量信息中快速便捷的选取所需信息资源,是信息文献资源共建共享的目标之一;传统的网络架构已不再适用于“大数据”、数据中心面对海量数据的巨大压力、用户从海量数据中选取信息的困惑性等都说明大数据时代对信息文献共建共享带来了巨大的影响。
2 大数据的特征、概念及应用
本节首先介绍大数据的特征,然后基于大数据的特征阐述大数据的概念,简单的分析大数据的应用状况。
大数据本身比较抽象,与“海量数据”、“超大规模数据”不同,目前尚未有统一的定义。比较有代表性的定义均基于大数据的特征进行归纳总结,如下:一是3V定义[1]:大数据需满足3个特征,规模性(volume)、多样性(variety)、高速性(velocity);二是4V定义:IDC认为大数据除满足3V定义外,还应具有价值性(value)[2],IBM认为大数据除满足3V定义外,还应具有真实性(veracity)[3];三是维基百科对大数据的定义[4]为:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
数据是一种基础性资源,研究数据的根本目的是从数据中提取得到所需知识,并将之应用到具体的工业、学术、工程等领域,如Scienticic Computing、Finance、Social network、Mobile Da⁃ta、Internet of Things、Web Data、Multimedia等。这7个典型大数据的数据量均在GB级及以上,而由于数据规模、数据类型、模式和数据关系、处理对象等的变化,传统的数据工程的处理方式已经不能直接应用于大数据,需要采取新的数据思维来应对。
大数据的应用目前处于起步阶段,其普及需要一个过程,首先应从信息技术领域开始逐渐扩展至其他行业。信息文献资源的共建共享需要以一定的技术环境和条件作为平台,革新理念、更新手段、拓展空间。
3 信息文献资源共建共享的现状
随着计算机网络、通讯、多媒体的发展,文献传递、联合虚拟参考咨询等服务得以实现并步入使用。目前,随着纸质文献、数字资源等信息的大幅度增长,仅凭一己之力难以收集、整理出所有信息。只有“优势互补,资源共享”,才可以解决“信息超载”,提高资源的利用率。目前,国内比较有影响力的信息文献资源共建共享项目有CALIS、CASHL、NSTL、DARR等,其中,CALIS通过“3e服务”,旨在构建一个多馆合作、服务于全国高校的服务体系,实现知识库资源的共建共享;CASHL提供一个检索和浏览数据库、书刊原文传递、馆际互借、咨询等服务的平台;国家授权NSTL购买网络数据库资源,为我国NSTL授权用户提供免费在线使用服务。DRAA采用集团采购的方式为DRAA联盟馆成员组织提供优质的数字资源。
由于我国数字资源建设相对较晚,虽着手进行资源调优,但在信息文献资源共建共享方面,还存在着诸多问题,如:数据标准不规范,知识产权等相关法律体质的不健全,信息资源的浪费,缺失全局观念,各自为营等。
4 大数据对信息文献资源共建共享的影响
Gartner认为,信息量至少以59%年增长速度增加,据IDC统计,2020年,以电子形式存储的数据量将达到35ZB。云计算、RFID、社交网络、移动图书馆等日益增长的电子资源带来了更为广泛的信息文献资源。
4.1 电子书刊等电子资源的积累,为大数据提供了广泛的数据来源
随着信息技术的发展,电子图书、电子期刊、数据库、多媒体资源、网络资源等电子资源的种类和数量正在超越纸质资源。截止2010年底,国内数字报已达700多份,电子书已达115万种,电子期刊近万种。截止2011年底,中文网页年增长率为44.3%,数量达866亿个。传统文献的数字化、新生的数字资源、其他虚拟馆藏等各种多媒体资源的积累,构成了现今的大数据。
4.2 云计算、RFID、社交网络、语义网等信息技术的发展,为大数据提供了广泛的数据来源
云计算突破了传统信息处理的局限性,强大的数据处理能力,信息资源整合、分配的能力,简化的IT结构,为大数据提供了物质基础和技术借鉴。RFID、社交网络、语义网等信息技术为大数据提供了大量的海量信息,详见表1。
表1 RFID、社交网络、语义网的作用
作为现代流行的RFID、社交网络、语义网等信息技术分别有着不同的作用与功能,其作用不可忽视,这些技术从不同方面提供了大数据的数据来源。可见,信息技术的发展使得文献资源具备了大数据的特征。
4.3 高速网络、智能手机、移动图书馆等应用的普及,为大数据提供了广泛的数据来源
截止2011年底,我国数字电视用户超过1 000万,互联网普及率为38.3%,上网人数为5.13亿,手机用户达9亿,手机上网人数达3.56亿,智能产品如平板电脑的出现,为用户提供了新的体验、交互、学习的方式,也为数字资源的多网络传输提供了新的渠道与服务。移动图书馆越来越普及,移动阅读与搜索等新服务类型的不断出现,致使数据量以每年翻倍的速度产生。
由此可见,信息时代的发展使文献资源具备了大数据的特征。现代科学研究、科技创新依赖于对数据的管理、组织和利用,学科知识服务以对大数据的分析、挖掘为基奠。由于大数据的复杂性,传统网络架构不适用于“大数据”,数据中心压力巨大,文献资源的共建共享将遇到很多问题与挑战。
5 结束语
本文首先提出了大数据的特征、概念,并对典型大数据应用的情况做了比较分析,然后通过对中国信息文献资源共建共享项目的分析,阐述了我国目前信息文献资源共建共享的现状,最后从电子书刊、云计算、RFID、社交网络、语义网等信息技术、高速网络、智能手机、移动图书馆等应用的普及方面论述了大数据对信息文献资源共建共享的影响。
[1]Grobelnik M.Big-data computing∶Creating revolutionary breakthroughs in commerce,science,and society[R/OL]. [2012-10-02].http://videolectures.net/eswc2012_grobelnik_big_
data/.
[2]Barwick H.The“four Vs”of Big Data.Implementing Infor⁃mation Infrastructure Symposium[EB/OL].[2012-10-02].http:// www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[3]IBM.What is big data?[EB/OL].[2012-10-02].http:// www-01.ibm.com/software/data/bigdata.
[4]Big data[EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/ Big_data.
G250
A
1671-0037(2014)02-57-1.5
2013年12月26日。
冯秋燕(1988-),女,硕士,助理馆员,研究方向:现代软件工程技术、数据挖掘、大数据等研究。