大数据与图书馆信息服务新构想
2015-02-13吴敏慧广东省立中山图书馆广州510110
●吴敏慧(广东省立中山图书馆,广州 510110)
大数据与图书馆信息服务新构想
●吴敏慧(广东省立中山图书馆,广州510110)
[关键词]大数据;信息服务;信息产品;图书馆
[摘要]运用大数据的相关关系和核心价值提出图书馆信息服务新构想,针对大数据的特征提出应将大数据变小,及对大数据进行价值提炼,并阐述了图书馆信息服务的新机遇。
1 大数据核心价值及其应用
(1)大数据的核心价值。舍恩伯格认为,大数据的核心价值是预测,大数据不是要教会机器像人一样思考,而是把数学算法运用到海量的数据上来预期事情发生的可能性。[1]大数据时代是人工智能、机器学习和数据挖掘等技术迅速发展所驱动的一个历史进程,这个进程要求我们将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。正是基于大数据的核心价值,2013年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将大数据战略上升为国家意志,奥巴马政府将数据定义为“未来的新石油”,积极发展起如苹果、谷歌、亚马逊等一批世界级互联网企业。2013年9月底,百度公司董事长李彦宏在中关村为习近平总书记、李克强总理等中共中央政治局常委讲解大数据,李彦宏认为大数据有两个重要价值,一是促进信息消费,加快经济转型升级;二是关注社会民生,带动社会管理创新。
(2)大数据的应用案例。案例一,2012年11月的美国总统大选,众多政治分析师和专家直到11月6日选举日仍认为今年美国总统选举难分胜负,称民主党候选人贝拉克·奥巴马和共和党候选人米特·罗姆尼旗鼓相当。美国天才统计学家纳特·西尔弗(Nate Silver)则在当天称,奥巴马将赢得大多数人的选举票,可能性90.9%。结果证明西尔弗的英明,奥巴马所获选举人票数远超罗姆尼。这次预测中,西尔弗根据多个数据点和大量的计算机建模,对每次民意调查及美国各大电视网给出的选举预测结果等进行深度统计分析,非常准确地预测了美国50个州的投票胜负,2008年他也猜中了50个州中的49个。他称,现在有那么多的民意调查数据,我就是从这堆大数据当中挖出自己所要的东西的。[2]
案例二,热播美剧《纸牌屋》的高收视率,缘于制作方Netflix(北美最大的付费订阅视频网站)通过其网站上的用户每天超过3000万条的播放记录,包括用户在何时、何地、何种设备上观看什么内容,用户给节目添加的恐怖、必看等个性标签,并在记录暂停、倒退、快进、评分、搜索的同时,进行大量截图,分析用户在音量、画面色彩甚至场景选取上的喜好等,然后进行精准运算,预测出美国演员凯文·史派西、美国导演大卫·芬奇和BBC出品(英国广播公司拍摄的电视剧或戏剧)三种元素结合在一起的电视剧产品将会大火特火,由此大获成功。开创了大数据影响电视剧制作的先河,也将大数据的概念从技术层面下沉到生活层面。[3]
2 图书馆信息服务新构想
利用大数据的相关关系,能进一步提高受众信息反馈的价值,拓展图书馆对受众分析的广度和深度,推动图书馆信息服务出现一些方向性调整,如从单向性的专题报告或舆情监测向趋势性预测报告和数据驱动型信息专题转变,规划“内容+关系”的图书馆信息服务新构想。
2.1运用大数据的相关关系
随着科技的迅猛发展,人们在数据搜集、数据传输、数据存储及数据处理能力等方面都取得了极大的进步,使人们除了可以通过因果关系的方式来认识世界外,还可以根据海量的数据依靠相关性理论来进一步认识世界。所谓“相关性”是指两个或者两个以上变量的取值之间存在某种规律性。例如,如果A和B
经常一起发生,我们只需要注意到如果B发生了,就可以预测A也发生了。这样即使我们不能直接测量或观察A,也有助于预测A可能会发生什么。例如,经济学家巴曙松就曾提出用“榨菜指数”观察农民工回流和中国城镇化发展的观点,即从关注榨菜销量(B)的变化来观察农民工(A)的流向变化。这就是说,如果找到某个现象的良好关联物,相关关系就可以帮助我们捕捉现在和预测未来。这种通过洞察细微数据之间相关性的分析方法,为我们认知世界打开了一扇新的窗户。按照这样的思路,未来图书馆信息服务可以在利用常规数据之外,再结合大数据之间的相关关系,从原有的静态收集数据向动态跟踪数据拓展,提供更加精准的信息服务。大数据中的相关关系可成为今后图书馆信息服务新思维、新领域及重点关注的方向,帮助我们走出对直觉、经验、常规逻辑推断、因果关系分析等传统的路径依赖,拓宽思路飞跃到由大量的、非传统的数据汇集而成的海量数据之中,不断发现新的关联模式。
2.2关注大数据的核心价值
全球大数据权威专家、美国物理学会院士艾伯特—拉斯洛·巴拉巴西认为,建立在相关关系分析法基础上的预测是大数据的核心,有充分的证据证明,人类行为的93%是可以预测的,人类大部分行为都受制于规律、模型以及原理法则。他认为,通过找出一个关联物并监控它,就能预测未来,进而寻找到通往未来的钥匙。[4]现时网络的普及和网上强大的功能搜索,造成了人们有问题的第一个想法就是“自己上网查一查”,而不是马上采取实质性的行动,所以,网上的搜索记录完全可以成为预测某些事件发生的有力凭证。
2014年4月24日第四届技术开放日上,百度公司正式宣布推出“大数据引擎”(该引擎包括开放云、数据工厂、百度大脑),将打造一个开放平台,采取邀请制和免费模式,吸引通信、金融、物流、制造、农业等行业拥有海量数据却不知如何处理的传统企业进驻,为这些公司提供存储、关联、分析大数据的能力。据悉,百度“大数据引擎”的开放是渐进式的,目前主要与政府、非政府组织、制造、医疗、金融、零售和教育等传统领域率先展开合作。百度公司董事长李彦宏表示,未来会有更多行业被卷入,而且被卷入的速度越来越快,是一个加速发展的过程,将产生一场新的工业革命。
未来的图书馆信息服务应顺应大数据的发展潮流,着重于关注大数据的核心价值,从目前描述事件过去状态的信息产品、专题报告和舆情研究,向能预测事件未来发展方向的信息产品延伸转变。例如,利用大数据对疾病爆发、失业率、社会情绪、智能交通等进行预测,帮助政府部门提高应急处理能力和安全防范能力。[5]
3 大数据带来的问题思考
3.1大数据的收集和价值提炼
大数据具有体量大、模式多、速度快、价值总量高但价值密度低的特征,使得传统的数据分析、数据挖掘、数据处理方式都不再适用。大数据从各种源头通过不同渠道产生,常包含图像、视频、音频、数据流、文本、网页等不同的数据格式,因此其模态是多种多样的。面对如此庞杂的数据,图书馆大数据采集必须解决三个问题,一是如何收集大数据,二是如何将大数据变小,三是如何对大数据进行价值提炼。
(1)大数据的收集。图书馆大数据的数据源很广泛,主要有:图书馆现有内部网各应用系统产生的数据(如图书期刊外借数据、数据库检索动态数据、网站浏览量、网页点击率、人均浏览量、平均访问时长、受访域名和页面、访客属性等),也有来自图书馆外互联网的数据(如社交网络数据及互联网上资料)和物联网等。但在数据源广泛、数据量巨大的背景下,大数据决策者必须清楚地确定数据采集原则,即能够采集到的数据,并不意味着值得或需要去采集它,需要采集的数据和能够采集到的数据的“交集”,才是我们确定要去采集的数据。
(2)将大数据变小是在不改变数据基本属性的前提下对数据进行清洗,在尽量不损失价值的条件下减小数据规模。为此,需要研究大数据的抽样、去重、过滤、筛选、压缩、索引、提取元数据等数据变换方法,直接将大数据变小,这可看作是大数据的物理变化。这时,数据分析及信息检索策略显得尤为重要。可采用分析主题、找出核心概念、选取规范化词组、批量删除重复无用数据、先选用上位词普选再用下位词来缩小数据范围的方法。
(3)对大数据进行价值提炼可看作是大数据的化学反应,由于大数据中包含大量的非结构化数据,需要进行结构化的解读和梳理,这时人机的交互分析中人的智慧显得尤为重要,必须通过群体智慧对数据的价值进行发酵和提炼。信息人员首先要评价数据的质量与意义,需要认真考察诸如数据来源是否可靠,时效性如何,包含了怎样的主题,应选择哪些相关数据,出于何种目的、采用什么方法收集而来等一系列
思考与选择。其次再对数据进行处理,去除不必要干扰性的数据,清理其中的各种误差,并将来源纷杂、格式各异的数据转换为统一格式,最终确定需要呈现的数据信息。[6]
3.2大数据的安全和隐私问题
现实中,大数据已经在我们的身边。当你在互联网上检索阅读时,搜索引擎公司会记录你的阅读检索习惯,并根据这些信息自动向你推荐相关广告;当你在社交网络上进行言论交流时,这些网站会记录你的言论;当你驾车上路时,电子导航系统会自动定位并记录你所到位置的所有数据。这些信息安全和隐私问题在大数据时代已经防不胜防。所以图书馆需要设立一个隐私保护模式,如区分数据用途、规范数据使用者、如何评估潜在风险、如何规避或减轻潜在的伤害等。因而,图书馆要在充分评估大数据风险的基础上,认真研究从数据生成、数据收集到数据分析应用的数据保密问题,确保信息安全。特别是图书馆信息开发针对的高端读者群,更要把保护高端读者隐私问题放在首要位置。
同时,对已开发的信息产品,图书馆要建立良好的信息产品保密管理制度,如设置专人专职处理信息和文献传递工作、文档加密、身份验证等,以防范无关人员对电子文件非法访问和随意改动。对大数据的开发,图书馆则应通过制定相关法律法规来规范大数据开发利用行为,建立大数据使用规范和安全标准,促使数据使用者以负责任的态度使用数据,履行保护用户隐私的责任,加大对信息窃取及篡改的惩罚力度,优化大数据发展环境,以确保数据在内部流转、系统流转乃至外部流转的过程中是安全可控的。
4 大数据时代图书馆信息服务新机遇
4.1大数据催生图书馆新职业
由于大数据的典型特征,图书馆学界在大数据时代将催生一批新的专业技术岗位,如信息数据分析师、图书数据分析师等。正如复旦大学计算机研究所所长施伯乐所说,无论是个人、企业还是国家,谁能更好地抓住数据、理解数据、分析数据,谁就能在下一波的社会竞争中脱颖而出,数据的知识将成为个人知识结构中的必备要素和基础。图书馆信息数据分析师的数据分析能力也必须要从基础性分析、推测性分析提高到更加成熟的预测性分析上。推测性分析是根据数据的连贯性、概率性、相关类推原则等对事物发展进行定性推测,目前图书馆大多采用这种定性推测,也就是以信息人员的经验为主观判断,对事物的未来发展作出描述性推测;预测性分析则要善于分析大型的数据集以识别其趋势,并通过建立模型进行预测,发现数据与事物之间的相关关系,从而准确预测事物发展方向,及时提供解决方案。
4.2未来信息服务的对策
未来信息服务的对策,一是加强用户研究与交互数据的利用,对用户数据进行深度分析并建立用户模型,开展精准服务、知识关联服务,提供预测性信息服务产品;二是通过数据了解现有的知识服务过程发生了什么、用户需要什么服务,利用数据对图书馆与用户的交互关系进行数据挖掘、分析和预测可能发生的信息行为;三是加强数字资源的整合、分析和挖掘,识别定位高质量信息,为客户提供解决问题的信息服务;四是将现有成熟的信息采集工作模式与先进的数学模型结合,实现工作效率的提升;五是关注和融入社交网站,扩大图书馆的受众面,实时了解读者的需求,提升图书馆在读者个人文化生活中的作用和影响。
总而言之,大数据应用技术将是未来图书馆服务创新的重要领域,图书馆界应关注和研究与之相关的技术应用和发展,建立和完善新型的知识服务模式,提高图书馆在日新月异的科学技术和社会环境下的竞争力。
[参考文献]
[1](英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013.
[2]王鹏.大数据成功预测美国大选[EB/OL].[2012-11-07].http://www.csdn.net/article.
[3]成雅.大数据如何捧红《纸牌屋》[N].南京日报,2013-09-09(A091).
[4](美)艾伯特—拉斯洛·巴拉巴西.爆发:大数据时代预见未来的新思维[M].马慧译.北京:中国人民大学出版社,2012:8.
[5]陈超.图书馆如何迎接大数据时代?[J].图书馆杂志,2014(1):4-7.
[6]吴敏慧.图书馆政府决策信息采集分析[J].大学图书情报学刊,2013(3):31-34.
[收稿日期]2014-04-21 [责任编辑]菊秋芳
[作者简介]吴敏慧(1969-),女,馆员,广东省立中山图书馆信息部《文化内参》责任编辑,研究方向:文献信息开发。
[文章编号]1005-8214(2015)02-0014-03
[文献标志码]A
[中图分类号]G252;G250.73