APP下载

图书馆行业大数据建设研究

2016-03-17张宁李雪

科技与创新 2016年5期
关键词:共享平台图书馆大数据

张宁+李雪

摘 要:主要研究了图书馆行业大数据建设的内容。根据国内外大数据商业应用实例,从需求、数据、标准、共享和环境建设等方面阐述了大数据技术是如何在图书馆行业落地的,并最终确立了图书馆大数据建设的内容,包括确定需求和业务场景、建设数据中心、制订行业标准、搭建共享平台、构建图书馆大数据生态圈五方面。

关键词:图书馆;大数据;共享平台;大数据生态圈

中图分类号:G250.7 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.05.001

随着云计算技术、数据存储和分析等技术的不断进步和发展,大数据产业的内在价值日益凸显。人们开始越来越多地依赖数据进行决策分析,并对数据进行再加工,以不断发掘数据的内在价值,大数据已从传统意义上的概念逐步发展成为一种产业,成为各国学者研究的热点。本文以此为背景,通过研究、分析国内外相关商业应用案例,并结合图书馆实际,研究图书馆行业大数据建设的内容,希望能为图书馆大数据建设提供一定的参考和借鉴。

1 国内外研究现状

目前,各国对大数据产业十分重视,纷纷开展大数据研究。其中,美国作为大数据的发源地和创新引领者,一直走在世界的最前端。2012-03-29,美国颁布了《大数据研究和发展计划》,标志着美国成为第一个将大数据上升到国家战略并制订行动计划的国家。2013-06,日本公布了《面向2020年的ICT综合战略》,全面阐述了在2013—2020年期间以发展开放公共数据和大数据为核心的新IT国家战略,提出将日本建设成为具有世界最高水准的广泛运用信息产业技术的国家。加拿大计划以宽带建设和数据中心建设为支撑,为大数据的发展提供前提条件。英国力推数据公开,为商业、研究机构所用,并支持大数据在医疗、农业、商业和学术研究等领域的发展。法国则以新兴企业、软件制造商、工程师、信息系统设计师等为目标,以一系列投资计划来促进大数据技术的发展。此外,德国、西班牙、俄罗斯、韩国、澳大利亚、新加坡和印度等国家也纷纷从宽带网络、智慧城市、基础设施、数据中心等方面布局大数据产业,希望抢占大数据领域的技术制高点。

我国大数据布局开始于2012年,包括“十二五国家政务信息化建设工程规划”、国家发改委和中科院“基础研究大数据服务平台应用示范”项目、广东启动大数据战略推动政府转型、北京探索政府公布大数据供社会开发和上海大数据研发三年行动计划等。此外,在技术层面上,国内大数据的关注重点为“信息集成”,即利用一个集成的、可缩放的、可扩展和安全的信息基础设施来推动大数据的应用实践。在商业上,各商业帝国也开始纷纷打造自己的大数据“战场”。比如,Google在海量数据存储方面提出了分布式计算的方式,实现了海量数据的存储和管理。Yahoo将大量资源投入到Hadoop的研究中,以推动Hadoop的发展。阿里巴巴以大量商业数据为基础进行统计、分析和挖掘,形成规范的实体明细数据和指标数据,对外提供数据服务,并获得了较好的利润。其中,具有代表性的为阿里巴巴的“数据魔方”。在图书馆行业,美国哈佛大学图书馆已将“大数据”服务引入图书馆并付诸实践,将图书馆大数据向读者公布,其中包含1 200多万种资料,有书目数据、地图、手稿、音/视频等,并在美国数字公共图书馆中提供下载服务。

2 图书馆行业大数据建设的必要性

据2014年中国电子技术标准化研究院出版的《大数据标准化白皮书》显示,目前我国的大数据应用主要集中在涉及社会管理和公共服务领域的政府部门,其中,关注度位列前三的分别为“智慧城市”“政务”和“公共服务”。但是,随着数字图书馆建设的不断深入,“智慧图书馆”应运而生。一方面,图书馆拥有的数字资源和数据呈爆炸式增长。以国家图书馆为例,截至2014年年底,数字资源总量达到1 024.45 TB,数字资源长期保存量达到897.86 TB,数字资源服务量达到734.52 TB。除此以外,全馆几十个应用系统每天产生的结构化、非结构化数据也已达到GB级,比如用户行为数据、资源数据和系统日志等,为图书馆大数据建设提供了数据基础。另一方面,为读者提供个性化服务也是图书馆的现代化需求之一。

3 图书馆大数据建设

本文以国家图书馆数字图书馆建设为背景,在研究现代商业应用成功案例的基础上,将部分先进理念引入图书馆行业,分别从确定需求、建设数据、制订标准、搭建共享平台和构建大数据生态圈五个方面,阐述图书馆大数据建设的内容,为大数据技术在图书馆行业落地提供一定的参考。

3.1 确定需求和业务场景

在大数据环境下,数据的有效价值率是很低的,有用数据或核心数据占有的比例很小,过多地收集数据会导致核心数据被埋没在大量的无用数据或死数据中。因此,前期业务数据的收集并不是盲目的、无边界的,而是需要我们明确自身的业务需求,从业务驱动的角度选择最主要、最基础且需要解决或产生的业务场景,并根据这些需求和场景选取所需要的数据,收集与之相关的数据作为大数据的数据基础。

对于图书馆来说,基本业务需求就是读者服务和资源建设两个方面。无论现代技术如何发展,发展到何种程度,这两个方面始终是图书馆业务的核心。只有牢牢抓住这两个核心,才能抓住图书馆的核心业务。因此,图书馆大数据的建设首先需要收集与读者服务和资源建设相关的数据。与之相关的数据包括读者属性数据、行为数据、资源属性和资源数据等。此外,还需要提供对内和对外两种业务场景,对内为图书馆行业的管理决策提供科学依据;对外主要为读者提供个性化、精细化服务,以及为机构用户提供增值数据服务。

3.2 收集整理数据,建设数据中心

在大数据环境下,需要对收集到的海量数据进行有效的管理和筛选,构建数据应用平台,即建设数据中心。对于图书馆来说,需要处理的数据不仅包括读者属性、读者行为、服务政策、资源属性、资源内容、资源管理方式等数据,还包括图书馆业务规划,资源采购情况,服务政策,国家文化走向,当地的社会、交通管理和经济发展水平等其他外部数据。要想做好数据的收集整理和数据中心的建设,以下几方面的工作不容忽视。

3.2.1 人才培养

随着大数据时代的到来,图书馆传统的工作方式、管理办法和工作内容都会发生变化,数据服务模式的比例将会增加,原有图书馆的服务模式也将会由单一的图书服务模式逐步演变为图书服务和数据服务并存的模式。图书馆除了需要拥有一批精通传统业务的图书馆员外,还需要培养一批掌握数据收集、数据分析、数据管理、数据服务和数据研究的人才,将数据的收集整理、分析建模、存储管理、应用服务和研究创新贯穿起来,形成一条完整的主线。这是图书馆大数据建设成败的关键所在。

3.2.2 数据估值

在大数据时代,数据是具有价值的,充当“生产原材料”的角色,任何企业或组织在收集原材料时,都会对其进行估值,数据也不例外。从数据的角度来看,数据估值就是从不同的角度、不同的维度思考数据的价值。只有明确了数据的价值,才能做到数据的有效收集、整理和筛选,否则收集到的数据中就会存在大量低价值或无价值的数据,从而无法筛选出我们需要的核心数据。

数字图书馆发展到今天,已经积累了不少结构化和非结构化数据,以国家图书馆为代表,数字资源总量已经达到1 024.45 TB。此外,数字图书馆工程所涉及到的几十个系统每天产生的数据增量也以GB来计。这些数据增量的数据输入标准、数据格式、数据类型、表现形式和存储结构千差万别、形式各异。在现有技术条件下,完全收集、整理和处理这些数据是一件几乎不可能完成的事情,因此,必须要制订图书馆数据价值评估标准,对数据价值进行量化评判和评估,按照数据的重要性排序和分类,并建立数据价值信息库。这样,不仅有利于收集核心数据,还有利于了解数据价值分布情况,便于数据的后续收集、保存和使用。

3.2.3 数据分类

在面对大量碎片化数据时,如果没有对收集的数据进行科学、有效的分类、存放和管理,就会出现放进去时很轻松,但等到要找出来时就会浪费大量时间,甚至可能找不到的情况。因此,在收集数据时,需要对收集的数据进行合理分类。笔者认为,可以按照存储层次、业务归属、隐私安全和数据价值等进行划分。

3.2.3.1 按照存储层次划分

从数据的存储角度出发,数据可以分为基础数据、中间数据和应用数据三种。其中,基础数据即为原始数据,仅存储收集到的最基础、最原始的数据,不作任何加工和统计汇总,作为其他数据的基础;中间数据是由基础数据发展而来,在基础数据的基础上进行加工,包括统计分析、分类汇总等,形成数据仓库;应用数据则是针对具体业务问题,经过一系列的数据分析和数据挖掘得来的数据。

3.2.3.2 按照业务归属划分

按照业务归属划分时,需按照不同的业务主体分门别类地归纳。对于图书馆行业来说,业务数据可以分为读者数据、资源数据、借阅类数据、行为数据和资源管理数据等。

3.2.3.3 按照隐私安全划分

按照隐私安全划分,图书馆数据可以分为隐私数据和非隐私数据。其中,隐私数据包括个人级别的隐私数据、资源级别的隐私数据和行为级别的隐私数据。个人级别的隐私数据是指涉及到读者个人隐私信息的数据,包括读者个人的姓名、住址、工作单位、身份证号、用户名和密码等;资源级别的隐私数据是指资源的保密性元数据,包括图书、音像资源的保密性要求,可公开级别等信息;行为级别的隐私数据是指个人在图书馆借阅行为中产生的不宜对大众公开、或公开后可能会对个人造成不良影响的数据,包括个人的借阅记录、逾期记录等数据。

3.2.3.4 按照数据价值划分

数据是有价的,且每种数据的价值不同。人们在使用数据时,总希望优先使用高价值数据,忽略或放弃无价值数据,因此,在数据估值的基础上,需对数据价值分类。其中,按照表现形式来分,可以分为显性价值和隐性价值;按照作用方式来分,可以分为直接价值和间接价值;按照时间范围来分,可以分为短期价值和长期价值;按照空间范围来分,可以分为局部价值和整体价值。

3.2.4 数据培养

对数据进行培养即为阿里巴巴大数据中所提到的“养数据”战略,也就是改变过去传统的对已有数据单纯的、“被动式”的收集行为,开展从无到有的“生产”或“寻找”数据的 “主动式”行为,这是基于业务的深入理解和更高层次决策的需要,也是数据收集的更高层次。数据的收集不应该仅仅考虑有什么数据就收集什么数据,而是要决定收集哪些数据,从解决问题的角度出发,在实际研究中了解需要哪些数据,缺少哪些数据,哪些数据的精度还不符合我们的要求,从而主动地去收集、补充和生产这些数据,实现从数据化运营向运营数据的转变。

3.3 制订图书馆行业大数据建设标准

目前,大数据技术相关标准的制订还处于起步阶段。就图书馆行业来说,需要尽快制订图书馆行业大数据标准体系,分别从基础框架、数据格式、数据价值、工作流程和使用方式等方面制订相关行业标准,并作为行业引领规范,这对图书馆行业内部数据交换和共享具有极大的促进作用。

3.4 搭建大数据共享平台

我国研究大数据的著名学者、电子科技大学的周涛教授曾有一个重要观点,“进行据收集无外乎两个方面,一方面是自己用——用其他数据来提高自己手上数据的精准度,为我所用;另一方面就是给别人用——把自己的数据贡献给他人使用,提高他人的数据精准度。”

图书馆行业不同于其他行业,各级图书馆、各地图书馆以合作为主,资源共享、联盟合作是各图书馆关系的主线,文献传递、馆际互借也早已深入人心。在大数据时代,建设图书馆行业大数据共享平台,就是以建立大数据共建共享机制为基础,采用直接提供数据集和开放数据接口两种方式,联合各级图书馆、各地图书馆共同参与大数据共享平台建设。这样,不仅能够促进图书馆行业大数据的合作共建、成果共享,还能够加快大数据产业在图书馆行业的价值转化。

3.5 构建图书馆大数据生态圈

所谓“生态圈”,其实是借助了生态学的概念。图书馆大数据生态圈是指在图书馆行业环境下所有与大数据产业相关的个体总和,包括图书馆的整个行业环境以及在此环境下的大数据涉及的各个层面,比如数据源层、数据存储层、数据分析层、应用层、支撑保障体系等。在整个生态系统中,图书馆的优势和核心为数据源层,关键为数据分析层。因此,在构建图书馆大数据生态圈时,我们需要在把握优势层和核心层的基础上,开放其他层,并走联合合作的道路,将各个层面上的行业、企业和用户吸纳并连接起来,共同打造图书馆系生态圈。

4 总结

大数据已经成为信息产业界的研究热点,是未来新技术产业发展的趋势之一。图书馆行业的发展,尤其是随着数字图书馆的不断深入,大数据建设是必不可少的。但是,图书馆行业大数据建设也绝非易事,它需要我们从自身业务出发,整体规划、合理布局,从确定需求、建设数据、制订标准、搭建共享平台和构建大数据生态圈几方面入手。只有这样,才能走出一条传统图书馆与现代技术相结合的道路,才能将大数据技术真正长久地应用于图书馆行业,为图书馆的现代化建设服务。

参考文献

[1]李纪舟,苏晓娟,叶蕾.大数据技术及其国外发展情况[J].电信技术研究,2013(2).

[2]宋荣华,李宗富.部分国家大数据发展对我国的启示[J].科技情报开发与经济,2014,24(22).

[3]邹捷.大数据技术发展研究综述[J].科技风,2014,7(14).

[4]陈新明.淘宝网数据平台数据仓库建设[D].大连:大连理工大学,2013.

[5]程莲娟.美国推进大数据的应用实践及其有益借鉴——基于图书馆视角的分析[J].情报资料工作,2013(5).

[6]张新娜.大数据时代智慧图书馆建设路径分析[J].图书馆研究,2014(1).

[7]苏蓉.基于大数据的数字图书馆信息服务研究[D].武汉:华中师范大学,2014.

〔编辑:刘晓芳〕

猜你喜欢

共享平台图书馆大数据
图书馆
中企搭乘“共享平台”好出海
科学数据共享平台的建设与服务探讨
基于大数据背景下的智慧城市建设研究
高校大型仪器设备共享平台构建与运行管理探讨
去图书馆