大数据环境下民办高校图书馆的知识服务之路
2017-03-28陈晨健
陈晨健
2012年3月美国政府将大数据上升为国家战略高度。2015年国务院也发布了《促进大数据发展行动纲要》。在社会生活领域。2009年阿里巴巴启动“双十一”活动,2011年的“双十一”开始利用它的阿里云提供大数据支持,如实时显示成交额,以及不同省份的购买情况等。从2013年开始,微软、亚马逊等国际巨头都在中国建立数据中心。IBM从2008年在中国建立第一个云计算中心,接连几年拓展它的数据服务业务。2016年国家健康医疗大数据中心落户长乐。2017年夏收小麦,利用大数据分析“收割机指数”。种种现象说明,大数据已然成为一个“时代”而到来。
图书馆,作为新技术应用的忠实拥护者、数据的提供者,似乎当下互联网技术、云计算、数据分析和数据挖掘技术、数据仓储等技术的集大成者——“大数据”,正是为图书馆量身打造的。这似乎可以成为图书馆又一自我变革和进步的契机。本文通过对我国大数据的现状进行阐述,并分析现阶段大数据在图书馆应用的可能性,探讨民办高校图书馆应该如何开展自身的学科服务知识服务。
一、大数据的特征及现状
(一)大数据的特征
虽然大数据的首次提出还存在争议。大数据的概念还没有一个被广泛采纳的明确定义。但业界通常用4V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
一是数据体量巨大(Volume)。互联网的数据已经从TB级别,跃升为PB级别。根据国际数据公司(IDC)统计,2014年全球数据总量为8ZB,预计2020年达到44ZB。同期,我国总量为909EB,占全球数据总量的13%。
二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
但4V特征仅仅体现的是大数据的资源视角,体现的是一种全新的资源观。
还有人在4V的基础上加了个O(online):数据是在线的。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是“大”,更重要的是数据变得“在线”了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。
(二)我国大数据的现状
一是全社会对数据资源极其价值认识不足,存在盲目追求硬件设置投资,轻视数据资源积累和价值挖掘利用等现象;二是技术创新及支撑能力不够,难以满足各行各业大数据应用需求;三是数据资源建设和应用水平不高,数据价值难以被有效挖掘利用,大数据应用整体上处于初级阶段,潜力远未释放;四是信息安全和数据管理体系尚未建立;五是人才队伍建设亟须加强,综合掌握数学、统计学、计算机等相关学科及应用领域知识的综合性数据科学人才缺乏。
二、大数据技术与图书馆
(一)图书馆界对大数据的研究情况
笔者根据CNKI,搜索统计了2012年至2017年6月3日的“大数据”关键词的会议数量。如表1。
表1:2012—2017“大数据”会议统计
笔者接着用高级检索“大数据&图书馆”。CNKI会议中,2012年及之前并无图书馆界的关于“大数据”的会议,从2013年开始出现。如表2。
表2:2012—2017“大数据&图书馆”会议统计
1.研究成果。近几年,图书馆界从多方面入手研究大数据在图书馆的应用。包括新技术和新哲学,图书馆发展型态转换,服务模式创新,图书馆管理方式,以及相关领域的拓展[1]。
在实际应用探索方面。复旦大学图书馆利用大数据相关技术驱动图书馆业务应用和服务创新,对图书采访、学科服务、电子资源使用、网络等方面进行实证研究[2]。
国家图书馆的大数据工程的一个实验性项目——国家图书馆数据管理与分析平台。通过对馆藏资源、资源利用情况和用户行为等信息,为国家图书馆的大数据利用提供理论和实践依据[3]。
自从2013年RDA开始实施,2014年12月1日,CALIS生效了它的RDA实施申明。对大数据环境下,非结构化数据的规则,进行跟进和研究。2017年4月16—21日,CALIS与大连外国语大学图书馆联合举办CALIS外文书刊RDA编目业务培训研讨会。会议培训教材《CALIS外文书刊RDA编目培训教材》中,总结了这几年RDA的发展,并为国内各大高校图书编目以及未来非结构化数据的编目提供参考依据。
2.研究欠缺。2014年前,图书馆界的大数据应用更多的是停留在理论阶段[4]。虽然这三年“大数据”研究依旧是图书馆的热点,但研究范围,研究深度要进一步提高以及质量水平不高[5-6]。
(二)大数据技术暂时无法运用到图书馆
1.国内图书馆发展不平衡。公共图书馆依据地域经济情况更加复杂。在技术应用和数据提供较有优势的高校图书馆,呈现的不平衡与高校自身所处的阶梯大致一致。如“985”“211”高校,省市公办高校以及民办高校。这其中的各项不平衡及困难最终都归结于资金及人才储备
尤其是民办高校图书馆。既没有国家及各级部门的资金支持,又在一定程度上吸引不到优秀的人才。使得国内民办高校图书馆大部分都处于基础应用阶段,与“985”“211”高校图书馆存在明显的差距[7]。
2.大数据技术还处于初级阶段。大数据要应用到各行各业,必须经过数据到产品到服务的阶段。而图书馆也输出大数据应用的末端,属于行业应用。目前,大数据已经应用于电信领域、政务领域、交通领域、医疗领域、工业、零售业、农业等,但尚处于初级阶段。
三、民办高校图书馆该何去何从
(一)民办高校图书馆的自我定位
大数据都是从小数据收集起来的。虽然图书馆可以公用通用的数据以及读者行为指导。比如与京东当当合作,获取高等教育群体的图书购买阅读指数。但你有,他有,大家都会有。这个时候,什么是图书馆的核心竞争力?答案是:图书馆要收集自己的大数据。不仅仅有读者数据的各项行为数据,更重要的是地方性区域性的资料数据。民办高校走应用型道路是立校的方向,图书馆结合地方特色以及办学特色进行知识推送才是它的生存之道。
(二)民办高校图书馆可以做什么
民办高校图书馆在受限于自身各方面条件的情况下,可以从数据入手,从人才培养开始,从基础建设、馆藏优化、管理制度健全等方面着手。
正是因为大数据的应用还处于初级阶段,民办高校与其他已经发展得很好的高校图书馆一样,都面临着新形势、新环境、新技术的挑战,所以必须立足与本校的办学特点,对大数据进行探索和利用。民办高校能做的依旧是从基础出发,从图书馆的全面发展和自我提升完善出发。因此,民办高校图书馆在完成相应的馆藏配置以及硬件配套后,必须通过人才培养以及组织架构的整合,依据学校办学方针及区域文化特色,依托于高校区域联盟,共享丰富及多元的数据,实现个性化的知识服务。
(三)民办高校图书馆的知识服务
大数据环境下的知识服务是面向海量数据的知识服务模式;是提供智慧服务的知识服务模式;是面向下一代数字图书馆发展的知识服务模式[8]。这就涉及对本馆本校本区域大数据的存储,对相关数据的开发利用。
从宏观角度出发,图书馆需要资金的投入以及人才的培养。
正如前文阐述的,民办高校需要从现在开始,将图书馆的知识服务作为图书馆的服务方向。这是技术应用后的服务要求,也是生存要求。
首先,民办高校图书馆需要调整自身的组织架构。2016年底福建高校图书馆联盟(FULink)的学科服务组赴厦门大学调研学习。通过对厦门大学的学科服务知识服务的学习,大家都认识到高校图书馆开展自身的学科服务知识服务的紧迫性和必要性。2017年3月FULink学科服务组提交了各个高校2017年的学科服务的工作计划,其中多所高校图书馆开始调整自身的组织架构,拆分图书馆传统部门,组建学科服务组。将技术、参考咨询、学科馆员整编。
其次,在完成组织架构后,图书馆必须进行相应的人才培养和技术储备。培养知识服务理念以及知识服务手段。存储图书馆的读者的各项信息,包括读者的借阅信息、门禁数据、微信访问情况,网站使用情况等。存储学校各专业的教师专家的研究成果、教学资料、微信微博有关学科的分享、言论。存储地方区域的各类别各方面的数据,特别是地方经济、文化、历史、党政机关、学校、医院、公共图书馆等的数据。为建设本馆的大数据仓储添砖加瓦。
最后,学习其他高校图书馆的经验,开展自身的知识服务。在不断摸索和完善中,形成个性化的知识服务。
四、结语
本文通过对现阶段国内大数据应用的分析,得出高校图书馆在对大数据的运用还处于初级阶段,还有很长的路需要走。因此,高校图书馆需要做好数据的采集工作。本文的不足是并未给出现阶段适用于高校图书馆的大数据应用,以及高校图书馆应该在那些业务方面实践并应用大数据技术。
[1]韩炜.国内关于大数据推动图书馆变革的研究综述[J].山东图书馆学刊,2014(5):21-25.
[2]张计龙.大数据驱动图书馆业务应用与服务创新[J].上海高校图书情报工作研究,2013(3):1-6.
[3]张宁,李雪.国家图书馆数据管理与分析平台建设[J].国家图书馆学刊,2016(6):80-89.
[4]陆静.我国图书馆界大数据研究评述与展望[J].图书馆杂志,2014(1):20-25.
[5]张小琴,王昊,孙承军.“十二五”期间我国图书馆大数据领域研究内容解析[J].情报科学,2017(1):169-176.
[6]刘佳美,程结晶.大数据下数字图书馆热点研究——基于关键词的因子降维分析方式[J].农业图书情报学刊,2017(4):76-80.
[7]李小平.浅谈民办高校图书馆的现状与对策[J].科技情报开发与经济,2017(7):30-32.
[8]胡莲香.走向大数据知识服务:大数据时代图书馆服务模式创新[J].农业图书情报学刊,2014(2):173-177.