APP下载

基于大数据技术的智能文献采访模式探析

2017-09-13邓小明

图书馆界 2017年3期
关键词:大数据技术模式大数据

邓小明

[摘 要]大数据和大数据技术推动下,智能文献采访将成为图书馆文献采访的发展方向和趋势。结合大数据技术和图书馆文献采访的业务工作,研究文献采访大数据的组成和相互关系,探索基于大数据技术的智能文献采访模式及具体方法。同时,指出实现文献智能采访需要培育的几个方面的内容。

[关键词]大数据;大数据技术;智能文献采访;模式

[中图分类号]G253.1[文献标志码]B[文章编号]1005-6041(2017)03-0006-04

基于云计算机、物联网等基础的大数据技术发展和应用逐渐深入到各行业。大数据所涉及的信息量规模巨大,在合理时间内达到撷取、管理、处理、整理成类并能够解读的数据资讯,根据应用动态分配资源。大数据及其相关技术,让图书馆、读者、供应商和大数据企业间的智能文献采访成为可能[1]。利用大数据及其技术,能方便获取读者阅读需求、供应商、出版商以及网络信息数据来智能分析、管理和预测读者需求、文献动态和采访细节,并以智能虚拟化的方式为图书馆采访员、读者用户间构建实现智能文献采访,从而提高采访的质量、准确性,降低采购成本、管理成本,提升文献采访效率。

1 大数据、大数据技术概述

大数据(Bib Data)是指所涉及的规模巨大的数据,于2011年由麦肯锡提出。大数据是无法用现有软件工具提取、存储、搜索、共享、分析和处理的、海量的、复杂的数据集合,是需要使用新的处理模式才能具有更强的决策力、洞察力、优化能力的海量资产。大数据基本包括大交易数据、大交互数据。大交易数据是指财务数据、用户数据、经销商数据、员工数据等。大交互数据是指微博、微聊天数据、移动终端数据、地理位置等数据。这两部分数据共同融合成为全面大数据。2012年美国启动大数据研究,随后日本、欧盟、法国、澳大利亚陆续进行大数据研究。2013年我国启动大数据建设,至2015年越来越多的政府和企业建立大数据产业园和创业平台。如百度、淘宝、京东等企业建立了商品大数据[2]。

大数据具有“4V”特征,即数据巨大、数据类型多样、处理速度快、价值密度低。大数据是动态的、开放性的、多样化的。随着海量的大数据产生,对数据处理的实时性、有效性提出了更高要求。然而传统的常规技术手段根本无法应付。在这种情况下,大数据技术应运而生。这些技术主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。NoSQL数据库技术主要实现搜索、实时统计分析、简单事务等[2]。Hadoop数据分析技术主要实现用户积累、数据整合和分析处理等方位的服务。随着数据挖掘技术、聚类分析、可视分析、预测分析和数据管理等大数据技术的不断发展和完善,逐渐实现数据的多维度采集、整理、分析、预测和管理信息源,挖掘出有价值的信息及隐藏在数据背后的信息,进而揭示事物的本质及其发展规律。

2 大数据技术给文献采访带来的影响

随着人工智能、专家系统技术、云计算、大数据、物联网等的发展应用,智能采购系统的数据挖掘、预测、分析等技术已取得重大进展。大数据驱动采购变革已开始,不断把数据拿出来分析和关联,进行合理的预测和数据推送。已有人尝试将部分技术运用于图书馆文献采访工作的理论与实践。随着大数据技术进一步完善,为智能文献采访实现提供技术支持,这也是人工智能整体发展的必然趋势。大数据技术支持下,智能文献采访不再高度依赖采购员的主观经验,而是根据大数据挖掘、个性化文献需求,自动生成采购推荐清单,高度智能地完成文献采访工作。智能文献采访系统通过对读者用户各方面数据、馆藏数据、书目数据、文献价值、经费分配、风险等等进行全面分析、比较、判断、评价,最后做出科学的文献采访。同时,通过挖掘数据价值、发现规律和知识为文献采访决策和优化提供有利依据,指导文献采访和管理的改进,最终改善文献采访的运营,实现便捷、高效及环保的文献采购[3—4]。

3 文献采访大数据的构成

在大数据技术和环境下,联系文献采访业务技术流程,可将文献采访大数据分为读者数据、图书馆数据、供应商数据、企业大数据四个部分[1]。

3.1 读者数据

读者数据分为读者用户身份数据和读者交互数据。读者交互数据是指读者的行为数据,主要是指读者点击、浏览、停留记录、检索、阅读、借阅、购买等信息数据,也包含读者与供应商和其他网络平台进行沟通联系产生的一切数据。读者身份数据是用于在大数据间进行沟通的数据,如身份信息。

3.2 图书馆数据

图书馆数据是指馆藏文献数据、采访员数据、读者基本信息。该数据也存在读者用户访问图书馆网站、微信、微博等信息的读者交互数据。

3.3 供应商数据

供应商数据是指文献资源数据、读者交互数据。文献资源数据主要是文献出版信息、文献采购信息、采购交易等数据。这里的读者交互数据是指读者参与图书供应商浏览、自主采购或推荐等信息。

3.4 企业大数据

企业大数据是指图书馆、供应商、读者共同依靠的互联企业所提供的有关文献资源、大众读者以及阅读、交易等信息。如百度、腾讯、阿里开放数据库等。企业大数据是最广泛数据,也是文献采访挖掘、预测、精确采购的数据集合。文献采访大数据相互间的结构关系如图1所示。

4 基于大数据库技术的智能文献采访模式分析

4.1 文献采访数据的收集

在大数据环境下,通过大数据搜集读者信息,利用大数据准确了解每位读者的文献需求。这些读者数据的搜集主要通过图书馆、供应商和大数据企业,还包括通过进行数据分析后获得的决策数据。供应商开放的文献采访平台拥有文献资源数据。企业大数据依靠的是互联网企业所提供的有关文献资源、大众读者以及阅读、交易等信息。这些数据为供应商营销和图书馆文献采访提供参考、预测数据。接下来需要将这些数据进行整合。其具体办法可找到一关键字段把两个或多个数据进行连接,如读者通过身份证号码在图书馆网站、供应商平台和互联网大数据企业间进行连接。通过这种方式,可以对读者的基本资料、行业特征和交易记录形成全方面了解。整理完读者数据之后按一定的逻辑给读者打标签。如这个读者最近经常浏览孕妇服装、奶粉,可以给读者打上“孕妇”标签。通過读者数据来全方位地了解读者,以便为下一步精准文献采访奠定基础。当这些读者数据越来越大,企业就将这些读者数据进行存放,为文献采访、供应商的销售提供科学、智能的预测。同时,图书馆馆藏种类、数量和结构等通过图书馆采访系统与供应商开放平台互通连接[5]。endprint

4.2 利用大数据,进行精准文献采访

收集到读者数据后,图书馆确定有文献需求的读者人群。通过读者在网络上的阅读行为数据,确立图书馆文献采访服务重点人群。图书馆根据服务读者的重点人群的文献需求对接馆藏文献情况(结构、专题、数量)

和网络免费获取的数据。在处理这些数据的过程中,供应商或大数据企业可以根据读者行为数据进行推荐,引导或帮助其获取相关资源;同时向图书馆发出相关采访决策的数据。图书馆也可以根据实际需求、馆藏结构设定或其他情况,利用大数据进行读者行为、文献出版贸易、其他图书馆收藏利用等数据的搜集,进行精确文献采访。如还可以利用大数据将文献采访数据、文献出版交易数据传送给具有某种阅读行为或大数据预测需要的读者,或将文献采访数据投放到读者个体,引导读者阅读,实现文献采访最大效率。如将一重点大学某一专业的学生读者作为用户数据分析对象,然后把目标读者群的主要参数放在学术交流、学术研究大数据库中,通过数据挖掘到这些学生读者、专家在网络中的关注最多、提及最多的观点、资料或文献,然后将这一专业及热点相关研究文献信息传送给这一专业的其他学生读者和教师,从而实现学科专业精确文献采访。虽然通过利用大数据进行精确文献采访不是最终目的,但是智能文献采访确实可提高文献采访的准确性和效率。

4.3 丰富采访数据,建立长期采访

从收集数据至利用大数据进行精确采访,再到丰富大数据建立长期关系,是一个不断循环、不断完善的过程。文献采访工作不是一段时间的工作。其最好的方式是建立长期持续读者数据、供应商数据和大数据企业互动,并不断循环更新。读者数据在图书馆本身是一种长期服务沟通关系。大数据企业、图书馆、供应商等平台记录相关的长期信息,根据读者兴趣爱好、上网阅读、消费等网络行为等数据分析,通过Email或微信向读者发个性化推荐信息,引导读者。如果读者参与信息互动,图书馆就可以根据这群读者进行互动采访。利用数据分析,跟踪采访和持续采访;并根据预测这些文献发展趋势进行采购预测,进而预测文献采访经费使用分配。通过这些长期文献采访和数据积累,进行跟踪采访,从而提高文献采访效率。

基于大数据技术的整个智能文献采访流程如图2所示:

5 基于大数据技术的智能文献采访的培育

5.1 观念和制度的培育

基于大数据技术的智能文献采访的观念培育主要是指为了使用文献采访发展与外部新技术环境、与读者需求为导向相匹配,根据文献采访的性质和特点并不断创新和发展。智能文献采访模式,具体如注意读者需求为导向的采访观念、提高网络信息资源采访观念、新技术应用观念、读者隐私、知识服务采访等。智能文献采访观念作用于观念意识、思维方式,进而影响图书馆读者、文献采访员的行为。

智能文献采访制度培育是指适应网络信息时代读者需求、新技术应用等变革发展,规定文献采访方向、运作方式、分配和管理等规范化设计与安排的观念的创新。文献采访观念创新是文献采访制度创新的基础,文献采访制度创新是文献采访意识创新的实现。文献制度创新的目的是建立一种适应创新需要的制度,通过调整文献采访的目的、需求、对象以及工作流程,保障文献采访工作具有更高的效率[6]。

5.2 文献采购新技术及平台的培育

2004年,阿帕奇组织开展了Hadoop项目。该系统包括一些计算的系统、数据存储的系统、数据分析的系统。Hadoop是一个非常重要的革命性开源系统。现在许多大数据企业、新生代企业都是以该系统开源平台为基础延伸出来的。传统的文献采访数据与大数据的关系是一个发展和结合的关系。利用Hadoop技术将两个系统进行整合,形成一个后端式的解决方案。现在也出现一种基于不完全集成的新的大数据平台,同时兼容大数据和传统数据的融合,通过简化的试工帮助企业脱离技术的限制来利用数据。我们可以利用这些技术将图书馆传统采访平台、文献供应商平台与大数据企业平台整合,实现传统数据和大数据的融合,并利用大数据技术平台进行文献采访业务工作。

5.3 文献采购员和读者的培育

文献随着新技术应用创新,采访员需要紧跟技术发展,提高素质。大数据时代,文献采访员除具有图书馆职业道德的职业素质外,还要进行与文献采访创新所相应的技能和素质的培养。第一,培育文献采访员对大数据、云计算、物联网等新技术在文献采访工作创新的意识。第二,掌握新技术在文献采访工作中的应用,确保文献采访时新技术能熟练运用,提高文献采访效率。读者对文献的需求、对新技术的应用从不缺少动力。全球70%的人口使用55亿个移动设备,其中22亿人在使用社交网络,由此产生了大量的数据。在大数据环境下,读者对文献资源的需求会考虑文献的使用习惯、应用需求,还会考虑到新技术、新文献资源的来源[7]。

人工智能在大数据和大数据技术推动下将逐渐成为未来技术发展方向和趋势。虽然智能文献采访不能一蹴而就,但隨着大数据、大数据技术在智能采购中不断的应用和完善,终将会实现。智能文献采访是图书馆在新技术环境下,提高文献资源建设能力,保持创新服务动力的需要。

[参考文献]

[1]王 素.大数据发展趋势下中国采购的变化[J].进出口经理人,2015(10):51.

[2]徐 斌,王晓冬,林 丽.大数据管理:企业转移升级与竞争力重塑之道[M].北京:人民邮电出版社,2016:23—106.

[3]陈兵兵,刘 慧.大数据对采购与供应链的影响[J].中国企业采购发展报告,2014(196):4—40.

[4]孙冬雪.大数据环境下省级公共图书馆图书采购模式研究[J].图书馆学刊,2016(1):61—63.

[5]伍 瑾,毛忠行.大数据背景下的高校图书馆图书采购模式探析[J].常州大学学报(社会科学版),2014(9):134—135.

[6]马启花,玉丽东.大数据环境下高校图书馆文献采访工作变革[J].广西教育学报,2014(6):172—175.

[7]蓝冬梅.大数据环境下高校图书馆开放获取文献的采访策略[J].河南图书馆学刊,2016(1):65—67.endprint

猜你喜欢

大数据技术模式大数据
大数据技术在电气工程中的应用探讨
大数据技术在商业银行中的应用分析
永续债券探析
思想政治理论课实践教学研究述评
中学数学创造性教学的模式与策略研究
基于大数据背景下的智慧城市建设研究