大数据时代的数字图书馆建设研究
2018-03-31邓文婷
邓文婷
(河南省濮阳市图书馆,河南濮阳,457000)
一、引言
随着科学技术的不断发展,信息技术被广泛应用,全球已迈入了大数据时代。大数据时代的到来,对社会各个行业及领域均有影响,图书馆工作也不例外。本文提出了大数据时代数字图书馆的建设对策,旨在提升我国数字图书馆建设水平,为相关人士提供参考。
二、大数据时代的含义及其特点分析
(一)大数据时代含义
大数据时代是随着互联网不断发展而出现的一个新词语,主要指收集及处理信息资源,以此来推动人类生产发展,促进人们生活质量的提升。在当前社会不断发展的过程中,获取信息价值逐渐成为人们关注的话题。因此,目前关于大数据时代方面的研究较多。在大数据时代下,信息数据容量不断扩增,信息资源也在增多。事实上,大数据时代下数字图书馆的主要任务并不是对信息资源进行大量收集,而是重点分析和处理具有价值、对社会生产力发展有利的数据。同时,需要充分注意处理之后所带来的社会效应。当前,大数据时代的数据处理已经应用了云技术,通过分布结构的转变,实现网络储存功能。
(二)大数据时代特点
大数据时代具有两方面显著特点:1.信息数据资源十分丰富。随着互联网技术的快速发展,计算机信息技术已被广泛应用于人类生产生活,从而丰富了信息数据并提高信息的共享质量。当前,我国已全面步入网络社会。在此背景下,人们对于信息数据的需求不断提高,从而间接地促进大数据时代发展。同时,信息资源形式也呈现出多样化发展的特点,因此信息资源的数量及其处理都处于动态发展变化的过程。2.大数据时代结构较为复杂且变化速度偏快。数据形式从原来的单一变得多样化。同时,随着计算机技术的不断发展,数据形式也在不断地变化。人们对于大数据的需求不断提升,因而数据结构十分复杂。例如大部分的数据均以非结构化或者半结构化形式存在。[1]
三、数字图书馆结合大数据的必要性
(一)数字图书馆综述
数字图书馆是当代计算机和互联网技术下的新兴产物,属于一种信息资源组织模式。关于数字图书馆的概念,最初是由上世纪90年代美国科学家所提出的,但是每位研究人员对于数字图书馆的研究角度有所不同,对其进行定义也会有一些差别。其中对于数字图书馆有一种综合的定义,具体为:数字图书馆通过数字化形式对于信息资源从收集到发布,并依托于实体进行发布。从形式上来看,其可以是相关的社会机构或是有关的组织,同时也可为虚拟网站等任何数字信息资源的集合。从整体上来看,数字图书馆是图书馆的一种新的组织形式。因此,无论从哪方面来看,数字图书馆都同传统图书馆之间有着不同的状态。当然两者功能和本质相同,数字图书馆属于传统图书馆发展的新形式。
(二)数字图书馆对于大数据的需求
1.数据的快速更新要求数字图书馆建设应当加大对数据的研究
2010年由联合国统一发表了《大数据促发展:挑战与机遇》,明确指出,大数据的到来将会是人类社会的重大转折点,依靠大数据为人类服务,将给人类社会带来更大的便捷。至2018年,大数据应用一直是研究人员讨论的热点之一,美国政府也不断强化大数据的开发和研究,并将其同国家发展战略结合在一起,这无疑大大推动了全球数据一体化的发展。在大数据推广的背景下,国际上针对数字化图书馆的相关功能应用也随之进行。在国际社会数据环境变化的背景下,我国针对数字图书馆建设的大数据开发应用等方面还需要不断加强研究。
2.创新主体变化要求数字图书馆应当符合企业发展方向
当下,我国存在着资源配置不够优化、资源的利用率较为低下等问题。企业是整个技术化改革创新的主要对象,但由于创新能力等方面的因素,不少研究结果都没有直接转换为实际的应用技术。企业作为创新主体,在大数据时代下,应当通过对大数据的掌控,提高自身的运营效率。所以,数据化运行及研究成为当今企业发展的根本。[2]
四、大数据时代下数字图书馆建设面临的问题
数字图书馆从数据库再到大数据,从整个过程来看虽然只是技术的简单演变,但是两者之间是有本质差别的。大数据的出现完全改变了传统图书馆数据管理模式,无论是在数据的收集和数据的处理等多方面均带来了较大改变。
(一)数据规模问题
数字图书馆中包含的资源较多,不仅具有文献资源、网络资源等,还包含用户信息和为用户提供服务的信息。随着时间的流逝,图书馆的数据资源不断增长。其数字资源的总量相当于一个庞大的数据集。数据库处理一般是以MB作为基本单位,大数据则常常以GB或者TB、PB作为基本的处理单位。大数据所谓的“大”,并不只是指大数据的绝对数量,而是指在数据处理中所采用的“大”模式。因此,数字图书馆如何合理处理异构数据、如何对海量数据进行储存、如何对数据资源进行选择等等问题,都将成为大数据时代下数字图书馆面临的主要问题。
(二)数据价值问题
目前,我国图书馆的业务应当不断地朝着数据分析和数据挖掘方面转变,这能够让图书馆的业务真正地转变为对数据的处理和分析。事实上,许多具有价值的东西均藏于碎片化数据之中。例如在两个小时的视频之中,仅仅只有五分钟是具有价值的资源。数据挖掘将成为大数据时代下数字图书馆的主要业务,该业务开展水平也直接决定了大数据时代下数字图书馆的发展。但是,基于数据库的数字图书馆,其事先对于数据模式加以设计,数据主要是在使用中不断产生。而大数据则很难在事先就确定其模式,它必须在数据出现之后才能够确定,并且随着数据量的不断增多,其模式也会不断发生变化。因此,数字图书馆建设将面临从海量异构数据中挖掘有价值的信息这一问题。
(三)数据多样问题
数字图书馆的数据主要包括系统运营和用户服务数据、论坛反馈数据等。这些资源及其数据编码格式无法达到统一,因此形成了许多异构数据。相对于数据库数字图书馆而言,其数据类型相对而言十分单一,并且主要以结构化数据为主,非结构化数据在数据库数字图书馆中十分少见。在大数据时代,数据包含的类型较为丰富,例如办公文档、WEB信息等半结构化及其非机构化数据日渐增多。因此,数字图书馆同大数据时代之间存在一定的矛盾,在建立过程中将会面临数据多样性这一问题。[3]
五、大数据时代下数字图书馆的建设对策
(一)有针对性地建设和区域馆际合作相结合的数字资源
针对以上大数据时代下数字图书馆建设面临的大规模数据问题,事实上根本无需建设起所有类别的数字资源,应当避免资源类别全面建设,这种“贪大求全”反而容易带来一些不良影响。对此,在实际建设过程中,应该根据自身特色形成一定规模资源,并同其他资源进行整合,从而系统地、有组织地进行开发、整理建设,以使数字图书馆规模效益得到有效地发挥。而针对少部分未建设的数字资源,可以展开馆际区域合作,实现同其他资源的整合及其共享。采取区域合作的方式,能够有效地解决大数据对数字图书馆建设和发展带来的相关经济成本,避免建设中出现资金不足的问题。此外,对于数字资源,还应当综合考虑对其长期保存的标准问题、储存介质选择、安全和管理等方面的问题,以此保证数字图书馆能够真正实现规范化管理,保证数字资源数据的全面性与综合性。[4]
对于数字图书馆的文字、音频等数据,主要是考虑对于这些数据的储存,从而满足用户的使用要求。目前针对这类数据储存,主要有分布式缓存、分布式文件系统、NoSQL分布式储存方案等。这些数据储存方案在实际实施中,需要投入较多资金购买软、硬件。如果采取这类方案,数字图书馆建设将面临巨大的压力。对此,可以采取云计算技术对数据进行储存。随着云计算技术的不断发展,已经能够为大数据提供具有弹性、可以拓展的数据储存服务,因此在数字图书馆建设过程中,应当根据实际的需要应用云计算技术,以此解决数字图书建设资金的问题。
(二)基于网络技术和面向服务体系构架结合的平台建设
当前,我国数字图书馆在针对结构化数据的管理上已经较为完善和成熟,但是在非结构性数据化管理方面上还有待完善。应当立足于用户的实际需求对信息资源结构加以调整和建设,以保证信息资源的数量及其质量。同时,还应支持多媒体文档储存等,从而能够形成一种新型的分布式与整合式的资源平台,最终提高非结构化数据的管理水平。
基于网络技术的数字图书馆平台,能够将互联网技术、高性能计算机、传感器等整合为一台虚拟但是功能十分强大的计算机。通过网络技术平台的建设,在数字资源系统上建立起数据核心协议层,收集各种不同的服务信息,并在核心协议层统一解决,实现数字图书馆在异构环境下跨平台异构资源的协同工作。另外,构建起基于网络技术的服务体系架构,能使工作平台不再受到限制,而服务的提供者和用户均可使用同一种软件来实现对服务的操控,从而最大限度地整合异构资源。
(三)创新应用服务及其软件技术价值提升
在大数据环境下,数字图书馆的数据应用价值主要体现在数据应用系统,例如常见的信息检索服务、数据挖掘服务及其个性化软件等。应用服务及其软件主要是通过原始数据的筛选及转换,利用可视化技术将筛选出来有价值的信息进行展示,从而实现数据主导服务的发展。
数字图书馆建设必须充分地应用新技术,尤其是学习技术、数据可视化技术的应用等。这需要对自身软件技术不断地进行创新,促使数字图书馆能够跟上大数据时代发展的步伐。利用大数据分析及其智能计算,数字图书馆可以根据数据分析出用户的偏好,从而根据用户的实际需要提供个性化服务,为用户带来更优质、更全面的服务。而随着图书馆用户在服务要求以及相关技术方面的变化,使得图书馆在服务方面也需要寻求一定的变化,才能够满足当前人们的需求。由于各方面因素的共同作用,使数字图书馆在服务的途径、模式以及方式等都出现了一些变化。同时,其服务不但有信息方面的咨询、文献类的服务以及学科方面的服务,而且还会根据数据采集、分析以及决策来完成相关服务,从而为企事业单位及相关机构提供数据的分析处理和挖掘等方面的服务。
(四)提高馆员的专业素质,严控风险
对于数字图书馆而言,其服务最终往哪个方向发展,需要看其怎样防止知识产权方面的风险。对知识产权的重视,需要尽可能地提升馆员的专业水平,对产权进行维护。为了使公民的数字使用权与文化方面的权利得到应有的保护,可以依靠立法来实现。同时,应当设置管理著作权的专门机构,让图书馆能够得到信息资源传播、建设方面的授权,妥善地解决可能存在的知识产权风险问题。
(五)优化财政投入制度,系统化管理项目
在大数据的背景下,数字图书馆承受着较大的经济压力。随着服务和产品方面的成本升高,资金的投入却不够。鉴于这种情况,政府在数字图书馆方面的投资建设时,应当重视全面性与可持续性,实现多元化的平衡发展。在其他国家的数字图书馆中,有税收政策来进行引导,使得政府、企业、基金会等都是其投资主体。我国在这方面也可以借鉴国外的一些经验,鼓励社会公众的力量参与进来,从而让投资结构得到很好地优化,拓展收入方面的渠道,促进数字图书馆建设发展。同时,依靠系统化与规范化的管理,实现馆际合作和资源共享,完善成本管控的长效机制,从而达到图书馆服务等方面的目标。另外,遵循公益性质的无偿性服务原则,结合市场化运作的方式,通过技术创新与数字接入等手段,提高数字图书馆为公众服务的效益。
六、结束语
大数据时代的到来,促使数字图书馆建设面临巨大的挑战及发展机遇。对此,数字图书馆在实际建设过程中,应当紧紧抓住大数据时代的发展机遇,从数字资源建设、平台建设等多方面进行创新,促使数字图书馆建设满足大数据时代的需求。创新建设是大数据时代数字图书馆的核心,因此数字图书馆应当充分结合云计算技术等高新科技技术,不断地创新数字图书馆,从而促使大数据时代下数字图书馆建设能够朝着更好的方向发展。