大数据思维与图书馆知识资源发现
2015-11-14高琳
高琳
(内蒙古农业大学图书馆 内蒙古呼和浩特 010018)
大数据思维与图书馆知识资源发现
高琳
(内蒙古农业大学图书馆 内蒙古呼和浩特 010018)
大数据时代的到来引发了人们对数据价值的重新认识,也使得对解决问题思维从追求因果关系向更看重关联关系方向转移。受大数据思维影响,传统的图书馆知识资源发现服务需在实现步骤、营销策略方面做出改变。
大数据思维;小数据;图书馆;知识资源;发现服务
1 引言
随着大数据在人们认识中的概念加深和在社会发展中的拓展应用,对于公众特别是从事数据生产、处理与应用工作的信息工作从业者来说,大数据已不陌生,它在一些政务管理、市场营销、智能交通、智慧城市等领域的经典案例也被广为传播,大数据成为当代继Web、云计算之后的又一热门词。然而,对于以信息为生存基础的图书馆和图书馆员来说,大数据究竟对我们的工作意味着什么?
目前,图情界已经对大数据及其在图书馆的应用实践、障碍困难、发展前景等展开了广泛的研究与讨论,笔者仅在中国知网以“图书馆”&“大数据”为主题词进行检索(检索时间:2015年2月10日),就发现有532条相关文献,且这些文献的发表时间主要集中在过去两年(2013年和2014年),由此可知我国图情界过去两年对大数据注入了巨大的研究热情。对这些文献进行简单梳理,发现它们主要从大数据对图书馆的影响、图书馆如何应对、图书馆大数据的收集与管理等角度进行推理研究,对于应用的案例则主要集中在大数据在营销、社会管理等领域的应用方面,缺少从图书馆价值体现的信息角度去讨论大数据时代的图书馆信息管理和服务,如知识组织与资源发现等,而这恰恰是笔者认为在大数据语境下,大数据思维能最早也最直接作用于图书馆的价值之所在。基于此,本文在概述大数据和大数据思维的基础上,着重从传统思维下的图书馆知识资源发现和大数据思维驱动下的图书馆知识资源发现比较入手,进而去研究大数据思维驱动的图书馆知识资源发现途径与策略。
2 大数据和大数据思维相关概述
2.1 大数据概述
2011年5月,全球知名咨询公司麦肯锡(Mckinsey and Company)发布了《大数据:创新、竞争和生产力的下一个前沿领域》报告,首次提出了“大数据”的概念,并在报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。之后,《纽约时报》、《华尔街日报》、《自然》等对大数据进行了专栏介绍,但时至今日,业界对大数据的概念并无统一认识,且不同的研究领域和价值判断视角使其的内涵变得更为宽泛,如从“Big data”字面所引申的概念来看,大数据无疑就是“大”数据,其“大”既体现在数量上,也体现在其组成分布、数据结构上;而从大数据的挖掘和应用来看,大数据则更可能是价值巨大的体现和概括。但无论其在具体的表达中如何界定和描述,我们都认为大数据既是丰富的数据组织机构、分布形态属性描述,也是巨大的应用价值属性描述。为此,业界总结了大数据的价值之所在,如IBM和IDC认为大数据具有多“V”特征,即种类(Variety)多、速度(Velocity)快、容量(Volume)大、价值(Value)高,NetApp认为大数据具有"A、B、C"(分析〈Analytic〉、带宽〈Bandwidth〉和内容〈Content〉)三大要素特征。
2.2 大数据思维
在传统的思维模式下,发现问题——分析问题——解决问题是永恒的因果思维模式,即使有一些防患于未然的预防、预警措施,但问题的解决往往主要集中于事后而不是事前,因果关系成了传统思维的主要推理与演绎思维。但随着美国信息高速公路计划的推出和现代互联网环境的出现,使得人们的思考与解决问题方式有了质的改变,以网络体验——话题传播——问题发现——新的体验为循环思维的互联网思维随之出现。大数据的出现则又使得人们的思维方式发生了质的变化,其变化正如维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中最具洞见的观点描述的一样,即大数据时代最大的转变就是放弃对因果关系的渴求,取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。
复旦大学陈宇新教授认为从营销学的角度来看,大数据其实也是营销科学导向的自然演化,其主要包含了定量思维、相关思维和实验思维等三个纬度。第一,定量思维,即提供更多描述性的信息,其原则是一切皆可测。不仅销售数据、价格这些客观标准可以形成大数据,甚至连顾客情绪(如对色彩、空间的感知等)都可以测得,大数据包含了与消费行为有关的方方面面;第二,相关思维,一切皆可连,消费者行为的不同数据都有内在联系。这可以用来预测消费者的行为偏好;第三,实验思维,一切皆可试,大数据所带来的信息可以帮助制定营销策略。沃尔玛的“啤酒+尿布”典型案例则很好的体现出了这三个维度特征。
3 大数据思维与图书馆知识资源发现
3.1 图书馆和大数据:认识与应用
综上,我们可以认为大数据既是一种技术,也是一种丰富数据的概括,更是一种发现事物发展本质的思维。对社会信息中心和知识存储中心的图书馆来说,这种思维范式改变的不仅将是图书馆用户的信息利用、知识显现和潜在需求,也要求图书馆借助大数据技术和思维,从信息的视域去发现满足用户的服务途径和方式。图书馆学术界也意识到了这一视角,但从已有的研究文献来看,业界对图书馆大数据的认识存在一定局限,这或许将为图书馆未来的应用形成障碍。如有学者将具有数量大属性的图书馆文献数据认为是图书馆大数据,这说明业界对大数据的认识还并不深刻和统一。
笔者以为对图书馆来说,大数据既包含了现有的数据库、MARC等结构化数据,也包含了能够反映用户借阅习惯的RFID、Cooki等网络数据,还包含了可以帮助图书馆挖掘用户潜在需求的智能终端设备输出等数据,现有的海量数据和澳大利亚“图书馆立方”项目的成功应用,说明图书馆不仅具备了收集大数据的基础,也有了应用大数据的成功经验积累。
3.2 互联网时代的图书馆知识资源发现:方式与不足
图书馆的资源发现随着社会发展而不断变化,在互联网时代,随着语义化等现代信息技术的发展和图书馆服务平台的建设,图书馆的知识资源发现服务早已不再是数目卡片查找、口口相传等方式,以服务平台和现代信息技术推动着这一服务的发展,其中以基于语义聚焦爬虫、领域本体、RDF查询语言和关联数据的语义化知识资源发现与以Summon、Primo、EDS、Worldcat Local和Encore为代表的资源发现系统是其实现的主要方法与途径。
王思丽等在对比语义化知识资源发现方法后,认为以上几种典型的语义化知识资源发现方法尽管特点不一,应用都较为广泛,但也各自存在这一定的局限,如基于领域本体的知识资源发现方法一直以来都是知识发现领域的研究重点,并随着本体开发工具和技术以及语义标注工具和技术的不断改进而逐渐完善和优化。但由于构建领域本体需要巨大的领域知识库和具有相关领域学科知识背景的支持,而复用领域本体也需要有相关本体技术知识的支持,一般用户很难将基于领域本体的方法运用自如,一般都是图书馆或相关学术研究机构的资源建设团队在整体运作。而对图书馆知识资源发现系统来说,也是由于各个发现系统的依赖资源都有一定的局限,故资源的关联和发现都只是在其可以获取的资源范围内,同时如接口与标准化差异、需求场景不同导致各个系统都存在一定的进一步发展障碍。
3.3 大数据时代的图书馆知识资源发现:思维与范式3.3.1大数据思维影响下的图书馆知识资源发现
《大数据时代》作者、大数据研究专家舍恩伯格指出,人们在大数据时代对待数据的思维方式会发生三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。在上述思维转变的基础上,有学者还认为大数据思维其最关键的转变在于从自然思维转向智能思维,甚至智慧思维。这些思维方式的转变对图书馆的知识资源发现服务来说,其将体现在如下三个方面:
首先,对原有图书馆物理服务空间环境下的借阅发现、网络环境下的语义检索发现等途径,将向对图书馆用户和资源全关联后的知识发现转变,且对图书馆用户和资源的关联挖掘,其数据不仅是对用户身份、学历、借阅需求的小数据分析,更可能是对用户借阅习惯、阅读领域、信息行为等多种数据的挖掘和分析;
其次,由于基于用户信息行为乃至生活行为的分析和挖掘,以致图书馆的知识资源发现服务可能并不满足于用户最需的科研文献推送等服务,而可能是概括了其可能感兴趣的生活如旅游、音乐等知识,使其不得不从这些服务中去挑选自己所需知识,服务的精准性有所降低,需用户不断的阈值设置与校正;
再次,图书馆知识资源的关联性增强,使得用户虽所需要的知识资源发现可能性增加,而这些文献可能需要特别的途径和代价获得,这就可能需要图书馆通过馆际互借等途径获得,以致图书馆不得不面临着诸多的挑战,如服务成本的增加、版权争议的风险、用户满意度的降低等。3.3.2大数据时代的图书馆知识资源发现实现阶段
从营销学的角度来看,运用大数据的递进层次为描述、预测和产生攻略。这就启发对大数据时代的图书馆知识资源发现服务策略来说,也需要经历这三个阶段和层次:
第一阶段:基于数据的行为描述。结合图书馆用户进行用户兴趣、研究凌领域的分析与需求挖掘,就必须依赖于海量的描述用户行为数据,如用户的借阅历史、科研记录、学习网站的访问频率与种类等。掌握和采集可描述用户特征的异构数据,则可借助一定的仪器和设备,如美国迪斯尼公司最近投资了10亿美元开发出了MagicBand手环进行线下顾客的跟踪和数据采集,游客在入园时佩戴上带有位置采集功能的手环,园方可以通过其来采集游客信息行为数据,还可通过定位系统了解不同区域游客的分布情况,并将这一信息告诉游客,方便游客选择最佳游玩路线。
第二阶段:基于描述数据的预测。基于描述数据的预测,其实就是基于海量有用数据的分析和挖掘利用过程,是图书馆应用应用大数据的关键阶段。在这个阶段,图书馆通过大数据分析平台如Hadoop来实现从对数据量的拥有到价值体现的过程,沃尔玛超市的“啤酒+尿布”就是从海量的用户购物数据中得出的经典营销策略案例。目前的社交网络在这一方面也进行了有益尝试,其通过社交网络分析与跟踪,将消费者社交网络上的关键词频率转化为可视化表达,对消费者进行分类,进而预测目标客群的消费水平、人际圈子、行为习惯等,实现从数据的描述想预测阶段发展。
第三阶段:基于预测结果的服务策略制定。通过预测结果,图书馆可以制定对应不同用户群体的服务策略,如对在校学生,其可能更需要可以帮助其提升学习效果的学习技巧类知识资源,而对于中老年用户其可能更需要养生保健知识资源。将这些用户群体的显著特征与预测模型相融合,图书馆就可以制定出科学的发现服务的实现策略,即营销理论的攻略制定。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-09-21].http://www.mck insey.com/Insights/MGI/Research/Technology_and_Innov ation/Big_data_The_next_frontier_for_innovation.
[2]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].[2014-09-21].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.
[3]IBM公司在大数据领域占有先机[EB/OL].[2014-09-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.
[4]NetApp.Big Data Solutions for Government[EB/OL].[2014-09-01].http://www.netapp.com/us/solutions/indust ry/government/bigdata.html.
[5](美)维克托·迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
[6]陈宇新.互联网思维PK大数据思维[EB/OL].[2015-02 -03 ].http://mt.sohu.com/20140819/n403586440.shtml.
[7]王思丽,刘巍,祝忠明,等.语义化的知识资源发现方法探析[J].图书馆学研究,2014(9):2-6.
[8]大数据带来的四种思维[EB/OL].[2015-02-03].http://www.techxue.com/techxue-12814-1.html.
Big Data Thinking and the Discovery of Knowledge Resources in Library
Big data times make people rethink of the value of data and the pursuit of causalty shifts to the pursuit of relevance in problem solving.The traditional services of libraries in the discovery of knowledge need changes in implementation steps and karketing strategies.
big data thinking;small data;library;knowledge resources;discovery service
G250
A
10.11968/tsyqb.1003-6938.2015022
高琳(1970-),女,内蒙古农业大学图书馆馆员。
2015-02-15;责任编辑:魏志鹏