大数据带给图书馆的影响与挑战
2012-04-29韩翠峰
摘 要:大数据是近两年IT界最为流行的关键词,但对大数据的内涵与认识各大IT厂商、研究机构与科学家都有着不同的见解。在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临着巨大的挑战与考验,复杂数据的处理也将成为大数据时代图书馆发展的主旋律,通过大量的非结构化数据、半结构化数据去寻找隐藏在数据背后的世界,进而为图书馆服务的模式、未来发展趋势提供分析与预测将成为大数据时代图书馆的一大主要服务内容。
关键词:大数据 非结构化数据 半结构化数据 数据处理 图书馆服务 数据挖掘
中图分类号: G250.76文献标识码: A 文章编号: 1003-6938(2012)05-0037-04
“大数据”(Big data)是继Web2.0和云计算之后近两年媒体最关注的一个词,并正在引起了信息科技领域越来越多的关注与投身热潮,美国政府于今年3月29日拨款2亿美元推出的“大数据的研究和发展计划”[1]更是将大数据提升到了全球性战略发展的高度。其实,IBM、EMC、甲骨文、Microsoft等IT巨头几乎都已投入到了大数据的软硬件技术整合、大数据信息处理的技术供应研究开发之中,力求在新一轮的信息竞争环境中占据主动,并抢得战略先机与技术制高点。这些迅速发展的业界变化,也吸引了学者的关注,且因现有数据中心技术无法满足大数据需求而可能引发的IT架构重构等发展态势使得大数据有演化成为一个新型学科的趋势。中国工程院院士、中科院计算技术研究所首席科学家李国杰就指出大数据将成为信息科技的新关注点,并形成新型交叉学科:网络数据科学[2]。同时,当前知识社会中的知识信息服务中心——图书馆因信息技术的在图书馆组织建设中的知识服务、知识创造、知识组织及知识存储等方面有着广泛的应用,使得社会对图书馆的知识服务要求更为苛刻,潜在的知识挖掘、知识评价、数据分析等增值服务需求已经开始显现或已经诉诸表达于读者的日常行为之中。利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆提高服务体系的组织水平、推动行业发展与制度建设的捷径之一。本文在对大数据概述与内涵认识的基础上,重点对大数据带给图书馆的影响与挑战进行了分析。
1 认识大数据
1.1 大数据概述
2011年5月,全球知名咨询公司麦肯锡(Mckinsey and Company)发布了《大数据:创新、竞争和生产力的下一个前沿领域》[3]报告,首次提出了“大数据”的概念,并在报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。之后,《纽约时报》[4]、《华尔街日报》[5]等对大数据进行了专栏封面介绍,但是随着大数据在发展的初期不被业界普遍了解与易从“Big data”字面引申的概念臆想,使得对于大数据的概念、内涵等存在着多种的定义与理解。如从字面理解,大数据易于被认为就是海量的数据。IT厂商、研究机构、维基百科和数据科学家等提出的概念并不一致,截至目前并未形成统一的定义。但通过分析不同概念发现,各个定义尽管在具体的表达中对大数据的范围、内涵等描述不一,但存在一个共识,即:大数据不是对数据量大小的定量描述,而是一种在种类繁多、数量庞大的多样数据中进行的快速信息获取。
1.2 大数据的内涵与认识
尽管大数据在提出以后吸引了业界的大量眼球,对其的研究也蜂拥而上,但在查阅信息的同时也发现目前大家对大数据还并未做到真正的了解,对其的内涵与理解存在偏差。基于这种现状,笔者认为有必要对如下业界还未明确的问题进行列举与分析。
首先,大数据是结构化数据、半结构化数据与非结构化数据的总和。据DCCI互联网数据中心在2012年7月26日举办的“Adworld2012互动营销世界”上给出的数据[6]显示:2010年,全球数据量已达1.2ZB(1ZB=1024EB,1EB相当于10亿GB),到2020年将暴增30倍达35ZB; 2011年,全球被创建和复制数据总量为1.8ZB;2013年,我们生成这样规模的信息量只需10分钟……。而在如此庞大的数据中,只有10%的数据是存储在数据库中的结构化数据,其余的则是由邮件、视频、微博、帖子、页面点击等产生的大量的半结构化数据 非结构化数据[7]。而在我们的日常生活中,智能设备、物联网、社交网站等产生的半结构化数据、非机构化数据量更是远远大于在学习、工作中产生的结构化数据。如何处理这些占据了主要份额的半结构化数据与非结构化数据也因此成为大数据的主要业务与内容,进而给数据分析与挖掘产业带来了更多的机会。也正是存在着这样的巨大市场驱动力,催生了大量的以信息抽取、转换和加载(ETL)及挖掘分析、数据营销为主要业务的新型企业。
其次,大数据的“大”意义具有多样性。IBM认为大数据具有“3V”特点[8],即种类(Variety)多、速度(Velocity)快、容量(Volume)大。但以IDC为代表的业界认为满足“4V”(Variety、Velocity、Volume、value,即种类多、流量大、容量大、价值高)指标的数据才可称为大数据[9]。但无论是“3V”还是“4V”,其本质都是对大数据中的“大”的理解与阐释。NetApp也很好的解释了大数据的“大”的含义,认为大数据应包括A、B、C三大要素:即分析(Analytic)、带宽(Bandwidth)和内容(Content)[10]。具体来说就是:大分析(Big Analytics)指通过对巨大的数据集进行实时分析后能带来新的业务模式,并进行客户服务,能实现更好结果,以至帮助用户获得洞见;高带宽(Big Bandwidth)指能高速的处理关键数据,以支持快速有效地消化和处理大型数据集,帮助用户走得更快;大内容(Big Content)一方面指大数据既指结构化数据,也指半结构化数据与非机构化数据,另一方面则是指对数据的存储扩展要求极高,并要求能轻松实现数据的恢复、备份、复制与安全管理,以去支持可管理的信息内容存储库而不只是存放过久的数据,并且能够跨越不同的大陆板块而不丢失任何信息[11]。
再次,大数据的“数据”不是数据存储,而是数据获取与数据应用。随着信息时代的发展,人们创造和生产的信息数据越来越多,云计算的出现也是使得信息数据的存储、计算并不成为信息数据存储的障碍,但大数据的数据不是存储在云端等存储媒介的数据,因为存储的数据并不具备价值,而大数据的数据是进行高速获取和应用的数据,如对商业客户行为习惯的分析、市场发展趋势的预测等。而正是崭新的大数据时代对大数据的大量分析与应用使得该领域缺乏足够的人力支持,据麦肯锡全球研究所去年的调查报告显示,目前美国需要14万到19万名以上具备“深度分析”专长的研究人员,而对具备数据知识的经理的需求超过了150万[12]。
2 大数据带给图书馆的影响与挑战
大数据时代的到来改变了传统的IT架构与数据存储、利用机构,也将对作为社会中储存信息知识、提供信息服务的信息中心的图书馆形成冲击与挑战。因此,深刻理解大数据的内涵,联系图书馆的发展及其现阶段数据储存、分析、挖掘的发展状况及大数据时代图书馆用户对信息资源的利用需求,对大数据带给信息服务业的影响与挑战进行大胆的假设分析与小心论证将显得非常必要。这种分析与论证也将使得图书馆在大数据时代真正来临时将有充足的应对准备与发展对策。
2.1 复杂数据的处理将成为大数据时代图书馆的发展旋律
社会信息化进程的加快,使得信息的重要性日益显现,信息、能源与材料也被誉为是现代社会发展的三大支柱之一。提高民众的信息获取能力、保障信息获取公平、优化信息获取环境、推动信息社会的发展也因此成为了一个国家、地区政府的主要职责之一,1993年美国政府宣布实施的“国家信息基础设施”计划[13](National Information Infrastructure,也称“信息高速公路”计划)就是美国政府在互联网时代来临之前发动的一场信息革命,尽管其旨在于如美国副总统戈尔所说的完成美国从工业时代向信息时代的过渡,开发更大的潜在市场,但计划对于民众信息素养的提高与信息社会的发展推动作用均毋庸置疑。我国近年来发布的一系列信息政策、法规、技术标准、规范以及《国家信息化“九五”规划和2010年远景目标(纲要)》等也均是我国推进国民经济信息化的保障建设。在政府主导、社会重视的氛围中,图书馆也发挥了该有的作用,门户网站、特色数据库、数字图书馆建设也是风起云涌,截至目前,我国的图书馆均基本实现了信息化建设[14],但具体分析不管是国内外的国家计划还是图书馆的信息化发展,其所包括的信息数据建设都还主要是数据库、XML等同类型、不能再细分的单一数据,即都是结构化数据。但随着大数据时代相关业界对大数据的重视及应用,大数据的特性与优势将在日常的生活中将凸显出其巨大的优越性,民众的需求也将随着这些人性化、个性化的高满意度服务出现而对图书馆的服务呈现出明确和迫切的需求,适应社会的发展,满足用户的需求,提供复杂数据的处理也将成为大数据时代图书馆的发展旋律。
2.2 迅猛增长的复杂海量数据将为图书馆的数据存贮能力提出挑战
信息环境下,信息产生的成本快速下降,产生的方式也多种多样,存在于社会空间中的信息数据量迅猛增长,但大数据时代更是会促使数据产生的范围、方式、途径发生翻天覆地的变化,人们的一举一动、一言一行、行为规律等都将产生出大量的半结构化、非结构化信息数据,信息数据的组成结构、类型格式、存在形态等都愈加复杂。图书馆对这些复杂的数据进行的应用、存储将有着极强的挑战性,其不仅有技术问题,也还包括社会问题,当然在解决这些挑战、问题的过程中,可能会促发图书馆服务模式、资源建设模式、管理模式与发展模式的转变,但要顺利的完成以上模式的转变与完成,两大难题则须予以解决:首先,云计算的出现使得海量数据的存储与运算得到了解决,但其自身存在的安全等问题依然不能让用户完全放心和信任[15],而图书馆自身海量数据的存储及运算能力与大数据对存储能力的高要求之间的矛盾如何去解决将直接决定着图书馆在大数据时代能拥有什么质量、多少数量的负责数据;其次,数据即业务,大数据对于图书馆的数据存储范围有着极高的要求。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典商业案例[16]。但这样的经典案例是通过对海量的多类型数据进行分析而得到的,因此图书馆要在大数据时代掌握读者用户、馆员乃至社会服务群体等的信息,则对其的数据描述中应既要有当前通用的数据记录中的个人身份、借阅记录等结构化数据外,还更需要大量的存储信息行为、搜索方式、行为痕迹等半结构化、非结构化数据。
2.3 传统的信息服务将面临以复杂数据为对象、以深度挖掘为要求高标准挑战
图书馆信息化程度的提高,使得信息服务成为了当前图书馆服务的主要内容之一,知识社会的到来也使得以互联网信息搜索、查询为基础的知识信息服务逐渐被更多的图书馆所吸纳与实践,也成为了现代图书馆服务体系中不可或缺的一大版图。但不管是简单的信息服务还是结合了信息检索、组织、分析等高级业务素养去完成的知识服务,都只是可归纳为是就数据而进行的服务,尽管也有了Web2.0等互动技术的推动后图书馆服务的个性化、人性化服务有了显著提高,但交互性程度并不高,个性化、人性化服务也只是简单的以用户的结构化数据,如根据服务诉求、专业特长等数据,去完成一定程度上的差异化服务。但大数据则要求图书馆不仅需要通过结构化数据了解现在客户需要什么服务,也更需要利用大量的非结构化数据、半结构化数据对图书馆—用户的服务关系中去挖掘正在发生什么、预测和分析将来会发生什么,以便图书馆找到更好的服务营销模式与应对未知的危机及挑战。
4 结语
大数据的出现,将改变我们对数据的看法与认识,数据的存在不仅有价值,大数据更是将其能转化为有意义,人们将透过大数据而找到隐藏在大量数据背后的世界,然而大数据的应用是技术难度极高的集成应用,如需要集成人工智能、商业智能、数学算法、自然语言理解、信息技术等多个跨学科领域的技术成果。图书馆作为社会信息服务的中心,在面临这些较高的技术和管理风险的同时,还面临着内外部环境的挑战与竞争,对内方面,除上述存在的主要挑战之外,基础设施、人力资源、运行经费、管理体制都会是不得不面对的挑战因素;对外方面,IT厂商与信息服务机构的大数据研究、应用已捷足先登,图书馆在大数据的服务竞争中已落后于他们一步,尽管图书馆有资源的优势,但图书馆在技术等方面的劣势也将限制图书馆难以追赶上,如何避免边缘化,将是图书馆不得不考虑的一大问题。
参考文献:
[1]Big Data is a Big Deal.http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
[2]李国杰院士:大数据成为信息科技新关注点[EB/OL].[2012-06-02].http://www.cas.cn/xw/zjsd/201206/t20120
627_3605350.shtml.
[3]Big data: The next frontier for innovation, competition, and productivity. http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next
_frontier_for_innovation.
[4]The New York Times. The Age of Big Data[EB/OL].[2012-05-23].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all.
[5]The Wall Street Journal. Big-Data Success Stories: Splunk[EB/OL].[2012-07-19]. http://blogs.wsj.com/ven
turecapital/2011/10/21/big -data-success-stories-splunk/.
[6]Adworld2012互动营销世界[EB/OL].[2012-09-10].
http://www.adworld.org.cn/index2012.html.
[7]海量数据爆发 大数据时代来临的五个转变[EB/OL].[2012-08-01]. http://labs.chinamobile.com/news/76217.
[8]MapR and Informatica Combine to Conquer Volume, Variety and Velocity of Big Data[EB/OL].[2012-07-21].
http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.
[9]IBM公司在大数据领域占有先机[EB/OL].[2012-08-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.
[10]NetApp .Big Data Solutions for Government[EB/OL].[2012-08-01]. http://www.netapp.com/us/solutions/industry/government/bigdata.html
[11]涂兰敬.专家观点:“大数据”与“海量数据”的区别[J].网络与信息,2011,(12):37-38.
[12]数据分析人才短缺问题成当前CIO必须面对的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322
816.shtml.
[13]United States Patent Trademark Office.Intellectual Property and the National Information InfrastructureThe Report of the Working Group on Intellectual Property Rights [EB/OL].[2012-08-01]. http://www.uspto.gov/web/offices/com/doc/ipnii/.
[14]郭向东,陈军. 甘肃省市县图书馆信息化现状调研与分析 [J].图书与情报,2010,(3):83-87.
[15]黎春兰,邓仲华.信息资源视角下云计算面临的挑战[J].图书与情报,2011,(3):23-28.
[16]高勇.啤酒与尿布:神奇的购物篮分析[M].北京:清华大学出版社,2008.
作者简介:韩翠峰(1978-),女,兰州商学院图书馆馆员。