APP下载

大数据时代的数字资源融合研究*

2015-10-23刘晓英文庭孝

图书馆 2015年2期
关键词:数字融合资源

刘晓英 文庭孝

(1.中南大学图书馆医学分馆 湖南长沙 410013;2.中南大学医药信息系 湖南长沙 410013)

引言

“大数据”(Big Data)是继“云计算”之后IT行业最热的词汇。美国麦肯锡咨询公司最早提出“大数据”的概念,在IT行业和商业领域掀起了大数据狂潮。[1]2012年2月,奥巴马政府宣布推出“大数据的研究和发展计划”,并于3月29日在美国白宫网站发布《大数据研究和发展倡议》,在政府管理和社会应用领域掀起了大数据巨浪。[2-5]正如Steve Lohr在给美国纽约时报撰写的《大数据时代(The Age of Big Data)》[6]一文中宣布的那样:大数据时代已经来临!

大数据的核心是数据集成和数据管理,在“大数据”时代,数据即资源、数据即财富、数据即资产已并非虚言,数据、信息已经成为组织重要的资产。如何充分利用历史的和每天产生的海量数据、信息,如何处理和存储这些宝贵的资源,如何从海量数据中提取有价值的信息,如何将数据、信息转化为有用的知识和规则,对于组织的生存与发展至关重要,对于提升组织的核心能力和竞争优势至关重要。而要从大数据和海量数据中提取有价值的信息,并加以利用,就必须实行数据开放、信息公开,将分散分布、零碎存在的数据和信息融合成完整的“大数据”。

1 文献回顾

随着互联网的高速发展,信息呈爆炸式增长,需用“大数据或者海量数据”来描述现有信息和数据量。Gartner(高德纳)公司研究认为,新产生的数据量每年以至少50%的速度递增,使得每年新增的数据量不到两年就翻一番。Cisco(思科)公司在一份报告中推测2015年仅移动数据量将会突破每月6EB,等于60亿GB。而IDC最新的数据预计,到2020年,世界上的数据存储总量将达到35ZB,等于35万亿GB。[7]

“大数据”是一场数据革命,也是一场思维变革,已经在政府管理、商业经营、医疗卫生、交通运输等领域得到广泛应用,它将对我们的工作、生活和思维产生巨大的影响,“大数据”正在改变政府、商业以及我们的生活方式。

1.1 国外研究现状

1.1.1 从实践进展来看。大数据最早源于IT领域的数据存储和处理,如云计算和云平台、数据挖掘和知识发现等。继而用于商业领域数据关联、产品关联和用户行为等分析,如零售巨人沃尔玛从数据中发现啤酒与尿布、蛋挞与飓风用品的神奇关联;谷歌的信息关联搜索和数据图书馆;亚马逊的图书关联推荐;IBM开发出基于大数据的汽车预测模型;苹果从“潜在”数据中挖掘信息价值;银行、电信和保险业通过用户信息和交易记录分析来提高利润、降低风险等等。之后受到政府管理、医疗卫生、交通管理、科学研究等领域的重视,如美国政府面对大数据挑战提出的“数据开放”政策和“数据民主”政府;医疗卫生领域通过大数据进行流感预测、疾病诊断、手术成功率预测、用药效果监测以及健康信息共享;交通领域基于GPS大数据的路面生命周期预测、交通线路选择和交通事故处理;科学研究领域利用大数据进行知识发现和寻找前沿领域[8-10]等等。基于大数据的关联分析、数据挖掘、知识发现在实践中显示出巨大的价值和作用。

1.1.2 从研究领域来看。国外大数据研究主要集中在IT领域、商业领域、公共领域和科研领域等,正在向各行各业和各学科领域拓展。IT领域主要从技术、算法、模型和实现等角度研究大数据,其中有关云计算、数据处理、数据挖掘、知识发现等的研究最引人注目。2011年,IBM指出了“大数据”的四大特征,即“4V”特征(Volume,大量化;Variety,多样化;Velocity,快速化;Value,价值)。Gartner公司在其2012年的研究报告中指出,大数据挖掘将是未来10年内IT领域最重要的技术之一。[11]商业领域的研究主要通过数据关联分析来发现信息的价值。英国著名学者维克托·迈尔-舍恩伯格与肯尼斯·库克耶最早对大数据进行系统研究,并于2013年1月出版了《大数据时代》一书,系统总结了大数据在商业领域的应用,指出了大数据引发的思维变革和商业变革。[12]公共管理领域的研究主要是通过数据挖掘和数据关联分析来提升公共服务质量和加强社会管理能力。旅美学者涂子沛出版了《大数据》一书,从技术、政治、商业三个角度描述了大数据在美国政府管理应用中的经验和实践,反映了美国政府的数据开放创新过程。[13]欧洲新闻学中心(European Journalism Centre)和开放知识基金会(Open Knowledge Foundation)于2012年共同开发了一本《数据新闻学手册》,旨在推动全球数据新闻学的研究和发展。2012年,陶氏基金会和奈特基金会宣布提供20亿美元用于资助哥伦比亚大学新闻学院的数据新闻学研究。2011年,麦肯锡公司在其全球研究报告《大数据:创新、竞争和生产力的下一个前沿》中详细介绍了医疗健康领域中信息化和大数据应用的发展趋势。公共健康领域的研究者越来越多地采用地理信息系统(GIS)来分析人们所处的环境及其影响。国外目前主要从技术和应用角度研究大数据,理论研究、系统研究和综合研究不多。

1.1.3 从数字资源融合研究现状来看。最早是集成,而后是整合,继而是融合。基于数字资源整合、集成和共享的数字资源融合的相关研究已经十分丰富和成熟,如数字资源集成,以数字图书馆、跨库检索系统、数据库集成系统、搜索引擎等为代表;数字资源整合、共享与服务,以文献资源保障体系、图书馆联盟、数字资源共享等为代表。[14-15]无论是数字资源集成,还是数字资源整合、共享,目前都没有有效地解决数据资源的分散分布、重复建设、利益冲突及低效利用等问题,数据开放、信息公开、资源融合、无缝联结是未来发展的必然趋势,数字资源有效利用才是目的。为解决这些问题,第十五届国际信息融合会议将于2013年12月在奥地利维也纳举行。“大数据”开启了数字资源融合的新方向。

1.2 国内研究现状

我国从2011年开始引入“大数据”,很快成为继“云计算”之后的另一个关注热点。我国的大数据研究以翻译和介绍国外研究成果为主,处于研究的初级阶段,并且常常和云计算研究结合在一起。翻译的著作以《大数据时代》(维克托·迈尔-舍恩伯格和肯尼斯·库克耶,2013)、《驾驭大数据》(弗兰克斯,2013)和《大数据》(涂子沛,2012)等为代表,在国内影响较大。随后,国内也相继出版了一些关于大数据研究的著作,如《大数据》(郭晓科,2013)、《大数据挖掘》(谭磊,2013)、《大数据的力量》(郭昕、孟晔,2013)、《大数据战略·技术·实践》(周宝曜、刘伟、范承工,2013)、《大数据时代的历史机遇:产业变革与数据科学》(赵国栋等,2013)等,这些著作主要是从技术和应用角度对“大数据”进行了系统介绍。相关研究论文主要从大数据的意义、作用、影响、技术、应用等方面进行介绍,真正意义上的学术研究和应用研究很少。

有关数字资源融合的研究也主要体现在数据融合及信息资源整合、集成和共享与服务等方面。我国数据资源融合与服务始于20世纪末,相关研究论文逐年增长。信息融合与服务研究兴于2000年左右,相关研究论文匀速增长,而信息资源融合并未引起关注。信息集成与服务研究始于2000年左右,2005年后逐渐冷却。信息共享、信息资源共享与服务研究兴起稍晚于信息集成与服务,迅速成为研究热点,2010年之后关注开始下降。信息整合、信息资源整合与服务研究也同时兴起。从整体来看,目前国内将“大数据”与“数据和信息资源融合、整合、集成、共享与服务”两者结合起来的研究还极少,研究者们几乎没有将融合与整合、集成、共享明确区分,而是混合使用。

2 数字资源融合的内涵、特点

数字资源融合是指从时间上融合过去、现在及未来数据资源,从空间上融合不同区域和不同行业领域数据资源,将信息和数据资源组成一个完整的有机整体进行开发利用,获得更多更大的价值。数字资源融合是数字资源的全面开放、无缝联结、高度集成、即时共享,跨越时空和主体界线,将数据资源组合成一个有机整体。

在大数据时代,分散分布与零碎存在的数据和小数据意义不大,而“大数据”才有价值。封闭的“数据孤岛”、“信息孤岛”难以发挥作用,数据开放、数据集成、数据共享、数据融合是大趋势。在大数据时代,只有“活”的数字资源才是资产,图书馆等信息机构要么主动融合数字资源并组织开发利用大数据的价值,要么被融合,没有其他选择。

从大数据的基本要求来看,目前图书馆等信息机构的数字资源融合迫切需要研究和解决的问题如下:(1)大数据时代图书馆等信息机构所拥有的数字资源及其特征。重点需要确定图书馆等信息机构有哪些“大数据”,这些大数据有何特征,如用户大数据、馆藏资源大数据等[16]。(2)大数据时代图书馆等信息机构的数字资源服务。如何通过数字资源融合形成大数据来开发利用数字资源,并提供服务,是大数据时代数字资源融合研究的目的。(3)大数据时代图书馆等信息机构的数字资源融合及服务模式。大数据背景下图书馆等信息机构的数字资源融合及服务模式可分为三个层次,即数据融合模式或资源融合模式、平台融合模式、服务融合模式,以及基于大数据和云计算的数字资源融合与服务模式,这些模式如何运作还需要进一步研究。(4)大数据时代图书馆等信息机构的数字资源融合及服务平台构建。需要以数字资源融合与服务模式为基础构建模型和平台,设计平台实现方案,为数字资源融合与服务在信息机构的实现提供指导。国外图书馆、档案馆、博物馆的数字资源整合实践与研究为我们提供了经验和依据[17]。(5)大数据时代图书馆等信息机构数字资源融合及服务对策。需要解决大数据背景下实现数字资源融合可持续发展的资源保障、制度保障、组织保障和运行机制等。

3 数字资源融合实现的基本模式

根据全球大数据实践的基本现状来看,大数据管理需要解决三个核心问题,即大数据采集与处理(数据问题)、大数据基础设施(技术问题)、大数据分析与应用(利用问题),[18]因此数字资源融合实现的基本模式可以分为三个层次,即数据融合层、平台融合层和服务融合层。如图1所示。

图1 大数据环境下数字资源融合的基本模式

3.1 数据融合,数据是基础

数据融合层需要通过统一的数据标准解决异质异构异地数据的开放存取问题。数据开放和数据标准是数据资源融合的基础和关键,公共管理部门和企事业单位是数据的最大拥有者,如何平衡数据资源的利益相关者,开放数字资源形成大数据,并解决大数据利用带来的价值分配问题,需要法律、政策和制度依据。数据融合的最终实现还需要构建一个多中心多层级的中央数据平台,分别存放各个数据主体和各行业领域的数据。

3.2 平台融合,平台是核心

基础设施是大数据管理和数字资源融合的平台和技术基础,大数据的利用和数字资源融合的实现归根到底还是一个信息技术问题。数字资源融合平台需要解决数据采集、数据处理、数据存储、数据集成、数据共享、数据传输、数据安全、数据利用等实现的相关标准和技术手段。如何将最新的网络技术、数据存储技术、数据库技术、云计算技术、数据挖掘技术、知识发现技术等用于数字资源平台构建是实现数字资源融合的核心。

3.3 服务融合,应用是目标

大数据和数字资源的开发利用,为管理和决策提供一站式综合服务是数字资源融合的根本目的。以数据资源为基础,以基础设施为平台,可以进行数据挖掘、知识发现、关联分析等,为用户提供数据定制服务、个性化数据服务等,完成数字资源融合的最终目标。

4 数字资源融合的发展趋势

4.1 数字资源融合的突破与创新

在大数据和云计算背景下,研究信息机构的数字资源融合及服务问题突破了传统信息资源整合、集成与共享等研究局限与缺陷,是重要的突破和创新,需要理论依据、实践证明和价值现实。首先需要从理论上寻找大数据背景下数据开放、信息公开、资源融合、无缝联结等的科学依据,并有效地解决传统环境下存在的数据资源和信息资源分散分布、重复建设、利益冲突及低效利用等问题。其次需要从实践上探索大数据时代信息机构数字资源融合与服务的框架和模式,并构建相应的资源融合平台框架模型,为信息机构的数字资源开发利用与服务提供新思路,证明其实践中实现和实施的可能性和可行性。最后需要通过理论、实践和应用研究为信息机构在大数据背景下实现数字资源融合与服务提供指导,同时研究其可持续发展的资源保障、制度保障、组织保障和运行机制,发挥信息机构的优势和特色,提升信息机构在大数据时代的社会地位和影响,寻求其现实作用和价值实现。

4.2 数字资源融合实现需要解决的问题

大数据背景下的数字资源融合实现面临着诸多问题,包括:

4.2.1 观念问题。数字资源融合涉及的观念问题包括数字资源保护问题和数字资源利用问题等。一方面,数据即资产、核心数据资源即核心竞争优势已成为共识;另一方面,数据闲置即浪费、分散与零碎数据和小数据无意义、“大数据”才有价值、数据开放是大趋势已深入人心。如何解决数据资源保护和利用的平衡点和有效边界是数字资源融合需要突破的观念问题。

4.2.2 技术问题。数字资源融合涉及的技术问题主要包括数据存储容量问题、数据标准问题、数据安全问题、数据保存问题等。数据存储容量问题是指大数据中的“大容量”通常可达到PB级的数据规模,海量数据存储系统一定要有相应等级的扩展能力;数据标准问题是指异质异构异地数字资源的兼容与共享;数据安全问题是指某些特殊行业的数据资源应用技术设备等都有特殊的安全要求,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求;数据保存问题是指数字资源保存和积累的时间要求与量的要求,不同类型的数字资源保存期限要求不同,不同领域的大数据分析需要积累量的要求不同等等。

4.2.3 经济问题。大数据管理和数字资源融合的经济问题包括成本控制问题、成本分摊问题、利益分配问题等。成本控制问题不仅涉及数据采集、处理、存储和利用等,还涉及人力、设备和利用效率;成本分摊问题涉及数字资源融合实现过程中各方参与主体的投入问题,包括数据、人、财、设备等的投入成本;利益分配问题指数字资源融合带来的收益分配问题。

4.2.4 法律问题。数字资源融合的实现还需要从、法律层面解决出现的各种问题,包括参与各方的权利和义务、数字资源的版权保护、数字资源安全、数据和平台管理、成本分摊和利益平衡等。

(来稿时间:2014年6月)

1.陆静.我国图书馆界大数据研究评述与展望.图书馆杂志,2014(1):20-25

2.Executive Office of the President. Big Data Across the Federal Government.[2014-04-20].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final.pdf

3.Executive Office of the President. Obama Administration Unveils “Big Data” Initiative: Announces$200 Milion in New R&D Investments.[2014-04-20].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf

4.Steve Lohr. The Age of Big Data.[2014-04-20].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-inthe-world.html

6,8.郭晓科.大数据.北京:清华大学出版社,2013

5,7,10,11.谭磊.大数据挖掘.北京:电子工业出版社,2013

9,12.(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代.盛杨燕,周涛,译.杭州:浙江人民出版社,2013

13.涂子沛.大数据.桂林:广西师范大学出版社,2012

14.肖希明,唐义.国外数字资源整合在多领域的研究进展.中国图书馆学报,2013(1):1-11

15.程焕文.信息资源共享.北京:高等教育出版社,2004

16.陈超.图书馆如何迎接大数据时代?.图书馆杂志,2014(1):4-7

17.肖希明,郑燃.国外图书馆、档案馆、博物馆数字资源整合研究进展.中国图书馆学报,2012(5):26-39

18.周宝曜,刘伟,范承工.大数据战略·技术·实践.北京:电子工业出版社,2013

猜你喜欢

数字融合资源
基础教育资源展示
村企党建联建融合共赢
融合菜
从创新出发,与高考数列相遇、融合
《融合》
一样的资源,不一样的收获
资源回收
答数字
资源再生 欢迎订阅
数字看G20