APP下载

暗数据对图书馆应用大数据的影响分析

2015-11-14崔小宜

图书与情报 2015年2期
关键词:价值图书馆用户

崔小宜

(西北政法大学行政法学院 陕西 西安 710012)

暗数据对图书馆应用大数据的影响分析

崔小宜

(西北政法大学行政法学院 陕西 西安 710012)

数据挖掘、数据分析等大数据应用是大数据时代图书馆拓展和升级服务的必然选择,但大数据中不容忽视的暗数据会对其应用造成影响,图书馆必须认识到其存在和影响,并采取一定的措施来提高数据应用效率。

暗数据;大数据;数据服务;图书馆

毋庸置疑,大数据是当下社会最热的词汇,其不仅被学术界所研究,也被政府所重视,更被商界所追捧,全社会已然进入到了一个开口必言“大数据”的时代,数据也似乎成了可以推动社会发展的最强驱动力,但实际是否如此?所有的大数据都真如一些研究所言可以分析与利用,是“金矿”、是推动社会发展的新动力吗?带着这些问题,笔者通过引进、介绍了占大数据比例较高、价值巨大但难以收集、分析和应用的暗数据,重点分析了暗数据对应用大数据的影响和图书馆应用暗数据的方式与途径。

1 暗数据概述

目前,业界对“暗数据”的定义还不丰富和完善,相关讨论也都主要引用国际著名咨询公司Gartner公司对“暗数据”的定义:“企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其它目的(如分析、商业关系和直接获利)的信息”。大数据智库则将其定义为:“暗数据”是深藏于海量数据之中、在商业应用上可能发挥重大作用的关键隐含数据。结合上述两种定义,我们可以理解为,“暗数据”是人类没有掌握和收集但已产生影响的数据+人类没有开发挖掘的大数据,具有不易收集与分析、隐匿性较高等特征。

相较于大数据,暗数据的社会关注度就逊色不少。笔者以主题为“暗数据”检索了国内收录研究文献最为齐全的中国知网(检索日期:2015年3月30日),结果显示只有2015年初蒋报永发表在2015年1月12日《中国计算机报》上的“点亮‘暗数据’的五种方式”一文,可见国内学者对其的研究之匮乏接近于空白。但需值得注意的是,有一篇网络博文则受到了业界极大的关注,那就是上海图书馆馆长吴建中先生2015年2月22日发表于其博客“建中读书”的“暗数据”一文,该博文不但对暗数据的GARNER定义、国内外图情界对其的关注与实践进行了介绍,也介绍了博主对暗数据的理解与发展展望。

根据上述两篇仅有的中文文献资料,我们知道:国际知名的开放出版机构生物医学中心(BioMed Central,简称BMC)与全球最大搜索引擎谷歌Google,分别于2008年及其后,各自致力于药物开发或科技领域的暗数据研究;从2012年开始,美国众多企业都在信息发布或微信等媒体上透露将关注暗数据信息;惠普、美国慷孚系统公司(CommVault System,Inc)等IT公司正致力于研究和推广点亮“暗数据”的信息治理策略研究和智能归档解决方案。此外,Facebook面对数量庞大的互联网社群,为了使生成的内容既吸引一批忠实的品牌倡导者,也可以唤醒那些“潜水粉”,于是通过在社交虚拟社区测定“潜水粉”的点击率、变动率和一段时间内的参与度,以此来“激活”“潜水粉”,将品牌的着力点放在他们“正在不做什么”之上,进而影响和促动营销者们挖掘品牌内在的价值。

2 暗数据对图书馆应用大数据的影响

2.1 图书馆暗数据的分类与原因

尽管大数据价值巨大,但其价值的实现必须依赖于深度的数据挖掘和分析,以此来发现隐藏在事物发展表明的本质和规律,进而实现数据信息的增值与开发。反之,数据则会处于黑暗的非揭示状态。而从上述暗数据的定义、特征等可以看出,处于黑暗非揭示状态的数据可能是人们未能存储掌握或真实存在而又人们未能知道的数据,也可能是已经存储但没有挖掘开发的数据,这两类不同的数据对大数据分析和应用的影响也存在差异。

图书馆是社会知识存储、加工与组织的公益性机构,也是社会文明发展历程的见证者和成果继承者,跨入大数据时代以来,图书馆界敏锐的观察到了大数据社会民众的信息需求变化特征,并开始了对大数据时代图书馆转型变革的研究与实践。其中,掌握和分析用户的图书馆利用等信息行为等数据,以为用户的个性化、专业化信息服务开展、推送与实现提供决策参考,是图书馆在大数据时代的大数据应用主要内容。暗数据的存在和对其他数据的影响也会影响到图书馆对大数据的应用效率、价值和意愿,而分析这些影响的大小与可能性,则需从图书馆所需大数据中所含暗数据的来源入手,以进一步通过分析这些来源数据可能产生的影响。笔者认为通常来说,图书馆所需大数据一方面来自于用户享受图书馆服务时产生的借阅习惯、借阅历史等存储于计算机的结构化数据,和产生于用户在科学研究、社交网络等情景时产生的非结构化数据、半结构化数据(第一类数据),另一方面则来自于互联网、商场等物理空间、虚拟空间中个体的信息行为数据(第二类数据)。

从产生上述两类暗数据的原因来看,既有主观原因,也有客观原因,如数据收集、分析和挖掘等处理设备、技术等都可能造成数据无法准确掌握的原因,对数据分析深度的欠缺、基于经验的人为主观判断等也可能造成暗数据价值的浅层挖掘,隐私、商业信息的保护和获取之间矛盾,大数据时代信息伦理规约和传统信息道德的博弈,等等。这些问题的解决既需要相关技术的发展为支撑,也需要数据挖掘等相关工作的开展积累,更需要相关法律、法规和制度的完善与保障等多方发展推动因素。

2.2 暗数据对图书馆应用大数据的影响

从对图书馆应用大数据的影响来看,第一类数据主要会影响到图书馆对用户个体需求特征的精准判断和服务,如对用户所需学科领域、服务途径等的模糊掌握,会影响到用户对图书馆服务的体验与评价,甚至当图书馆在大数据时代信息中心的地位被边缘化、以服务来体现价值的情况发展逐步显现时,用户可能会选择其它信息咨询、数据分析等盈利性机构,最终降低图书馆的存在价值;第二类数据主要会影响到图书馆对非图书馆服务利用者和发展生态环境的需求与态势判断,如对非图书馆用户来说,其对图书馆服务的服务体验可能处于空白,图书馆不能依赖第一类数据的分析来断定所有社会民众的图书馆服务体验意愿,而是需掌握这类潜在的图书馆用户利用图书馆服务的可能性和有区别于图书馆用户的服务需求,这就需通过分析这类信息行为主体在互联网、社交空间、移动终端使用等方面的社会数据。同时,图书馆不能对数据的分析局限在固定用户和潜在用户的信息行为等范围,大数据的价值巨大就是因为其实现了多领域、多途径数据的关联,通过潜在的关联去分析和发现事物之间可能产生的关联关系,如经典的“啤酒+尿布”就是看起来毫不相干的两件事,最后却关联在一起并铸造了一个传奇营销案例。因此,图书馆也需对产生于商场、博物馆等物理空间和网络、设计空间等虚拟空间的数据进行掌握与分析,以寻求图书馆的服务改进与事业发展途径。如果对所分析的数据在数量、来源分布等方面存在较大的暗数据,其分析的结果可能不能达到预期的效果或产生一定的结果偏移,影响到图书馆决策者在事业发展、服务改进等方面的正确决策和创新。

3 如何点亮图书馆所需的暗数据

3.1 图书馆应用暗数据:价值与风险并存

大数据价值的产生缘于其广泛的来源和庞大的数量以及复杂的组成结构,那么,在大数据中,暗数据所占的比例有多高呢?全球性的组织CGOC(Compliance,Governance and Oversight Counsel,合规管理监督委员会)在2013年进行的一项调查研究结果显示:“在企业存储的数据中,69%的数据对企业毫无价值”。也有科学研究表明“宇宙中有90%是由人们看不见的暗物质组成的”、“存在于地处暗黑之海里面(DarkWeb)一些孤岛的数据占数据总量的85%以上”,等等。这些都表明暗数据不但存在于大数据之中,且所占比例和数量巨大。图书馆利用这些存在形态多样、收集与存储难度较高、数量巨大、结构复杂的暗数据,其带来的价值必将巨大吗,但也将面临着上述的技术、信息伦理等制约与风险,2013年央视3· 15晚会曝光的网易等公司追踪用户cookie、分析邮件内容就是一件典型的案例,而其实从大数据的角度来看待的话,其只是客户信息行为数据的一个收集过程,但其与当前的用户隐私等法律法规相冲突,面临法律诉讼等风险。“棱镜门”事件也是此类事件的典型代表。

与风险对应的则是价值,暗数据好比所占宇宙物质高达90%的暗物质一样,其主导着大数据的形态分布、结构组成与价值大小等属性,其实这也就决定了对大数据的分析与挖掘其实就是对暗数据的价值挖掘与分析,图书馆掌握和提高了对暗数据的应用,也就是提高了对大数据的应用。

3.2 图书馆应用暗数据:方式与途径

“点亮‘暗数据’的五种方式”一文对于企业如何点亮“暗数据”,释放更大商业价值有了初步研究成果,认为企业可通过利用CommVaultSimpana10更好地搜索、了解和管理企业存储的海量非结构化数据(如电子邮件等),智能地利用已存储内容,在数据的生命周期内对其进行管理,就可告别“暗数据”时代。笔者借鉴企业的五种方式,认为对图书馆来说,应用暗数据的方式与途径第一步是控制图书馆“暗数据”的庞大数据量。即抛弃传统的数据保护方法,通过借鉴Simpana软件基于内容的保留策略,仅保留那些对于图书馆有重要价值的数据,如用户的上网记录、借阅历史等数据,减少数据存储成本。第二步是建立一个全面的归档策略。即一方面从所有生成数据的地方采集数据,另一方面能够使用一个单一、不可复制的索引去管理所有数据。第三步是让用户和图书馆能自助搜索和访问所需数据。即让用户能够快速地发现、访问、分析和提取所需信息。第四步是自动管理数据生命周期。即让对数据从生成到处理的整个生命周期进行评估,制定内容删除的治理策略。第五步是确保合规和发现。即对数据的获取与利用是否与现行的法律法规等有冲突,进行策略改进。同时,还要确保其它未收集数据的及时发现与已收集数据的价值发现,让更多的暗数据走向可视化(收集的可视化与价值的可视化)。

4 结语

《驾驭大数据》一书曾写到,数据的核心是发现价值,而驾驭数据的核心是分析。暗数据在大数据中所占的比例和价值决定了其大数据分析和应用的核心,但目前的科学发展、技术水平、法律法规、伦理道德等制约和影响着对暗数据的研究与应用,业界对暗数据的研究和关注说明人们对更深挖掘大数据价值的期待,也说明对于解决应用暗数据存在的障碍充满期待。图书馆一直以来是社会知识存储、数据加工与分析的中心与主要阵地,尽管在当前发展时期,暗数据的存在可能会影响到图书馆用户个性化、学科化等服务实施的精准性和未来图书馆事业发展的态势判断,同时还需处理好风险与价值共存的关系,但借鉴企业实施点亮“暗数据”五步途径,也能在一定程度上降低暗数据对图书馆应用大数据的影响。

[1]Gartner IT Glossary.Dark Data[EB/OL].[2015-03-16]. http://www.gartner.com/it-glossary/dark-data.

[2]暗数据(Dark Data)[EB/OL].[2015-03-16].http://mp.weixin. qq.com/s?__biz=MzA5NzY5NDQxNg=&mid=201848593 &idx=4&sn=fc7c68a27c19f52aad571078fb01219e.

[3]蒋报永.点亮“暗数据”的五种方式[N].中国计算机报,2015-01-12.

[4]吴建中.暗数据[EB/OL].[2015-03-16].http://blog.sina. com.cn/s/blog_53586b810102vgky.html.

[5]DarkDataandMeasuringInvisibleImpactinYour Facebook Community[EB/OL].[2015-03-16].http://www.socialme diatoday.com/content/dark-data-and-measuring-invisible -impact-your-facebook-community.

[6]东南大学借“大数据”研究暗物质数据总量等于30个国家图书馆[EB/OL].[2015-03-16].http://news.jschina. com.cn/system/2014/09/21/021926615.shtml.

[7]大数据的暗黑之海和外部效应[EB/OL].[2015-03-16]. http://www.cio.com.cn/eyan/391997.html.

[8]3.15晚会曝光易传媒等破解cookie窃取用户隐私[EB/ OL].[2015-03-16].http://www.sootoo.com/content/404144. shtml.

[9](美)Bill Franks.黄海译.驾驭大数据[M]北京:人民邮电出版社,2013.

Analysis of the Influence of Dark Data on Library’s Utilization of Big Data

It is necessary for library to apply big data to increase and widen its service,but dark data in big data will certainly influence the application.It is important for us to recognize the existence of these data and their influence and then try to exclude them so as to increase efficency.

big data;dark data;data service

D035

A

10.11968/tsygb.1003-6938.2015040

崔小宜(1980-),女,西北政法大学行政法学院讲师。

2015-04-06;责任编辑:魏志鹏

猜你喜欢

价值图书馆用户
图书馆
一粒米的价值
关注用户
“给”的价值
飞跃图书馆
关注用户
关注用户
如何获取一亿海外用户
去图书馆
小黑羊的价值