大数据时代高校图书馆特色数据库建设研究
2014-08-08谭黔林
谭黔林
[摘要]针对目前高校图书馆特色数据库的建设现状,结合大数据时代的特点,提出了大数据环境下高校图书馆特色数据建设的设想,从数据标签、子节点建设、虚拟大数据库系统、用户访问机制探讨了特色大数据库系统的建设模式、实现方式以及用户访问机制。利用“数据标签”将分散在不同高校不同类别的特色数据库虚拟地集中起来,实现了特色数据的集中展示、统一检索和共建共享。
[关键词]大数据;特色数据库;数据标签;研究
1引言
特色数据库是指依托馆藏信息资源,针对用户的信息需求,对某一学科或某一专题有利用价值的信息进行收集、分析、评价、处理、存储,并按照一定的标准和规范将本馆的特色资源数字化,以满足用户个性化需求的信息资源库[1]。就国内高校图书馆特色数据库的建设情况来看,高校图书馆特色数据库群分散在全国各地,数据总量可用PB级甚至是EB级来计数,并以一定的周期成TB级的态势增长。
2大数据与特色数据库
2.1 大数据
学术界对大数据概念并没有一个统一的定义,但大数据的“4V”特征已成科学界的共识,即规模性、高速性、多样性以及价值性,正是这四个特征对数字时代的数据存储技术、数据共享技术、数据挖掘技术等方面带来了巨大的冲击和挑战,大数据的新技术正逐渐应用于互联网、超级计算、生物工程等领域。
2.2 国内高校图书馆建设与共享情况
为彰显馆藏特色、传承民族文化、满足特色教学和科学研究需求,特色数据库已成为各高校图书馆的建设重点,在CALIS地方特色数据建设项目的支持下,全国高校图书馆进一步掀起了特色数据库的建设热潮,其中东三省(黑龙江、吉林、辽宁)建有210个特色数据库[2],两广地区(广东、广西)建有100个特色数据库[3],两湖地区(湖北、湖南)建有160个特色数据库[4—5],此外海南、陕西、天津、重庆等地区高校图书馆都分别建有不同数量和类别的特色数据库。
从目前对国内高校图书馆特色数据库抽样访问情况来看,数据内容的共享情况不容乐观,以广西高校图书馆特色数据库的共享情况为例,21所高校图书馆所建的57个特色数据库中,仅有12个数据库可以访问和下载,其余45个特色数据库都作了不同形式的限制,基于时空和地域条件的差别,数据库的共享程度还有待进一步提高。
3大数据时代特色数据库建设设想
(1)由于数据库的特色性,不同的地域文化、资源类别、办学特点、学科优势等决定了特色数据库的建设只能是分散建设,但是能否用同一种途径或手段将这些不同的特色数据库有效地集中起来。
(2)能否让已建成的特色数据库通过一个统一的平台,直观地展现在用户眼前,而不需要用户通过逐一访问各高校图书馆的特色数据库平台而获取。
(3)在众多的特色数据库类别中,不论采取何种技术的数据库建设方式,使用何种类型的检索系统,用户都能通过统一的检索平台,从不同高校、不同类别的数据系统中获取所需要的信息。
(4)基于大数据处理技术的优越性,能否将各高校图书馆这些分散的处理系统、存储系统、数据信息等看成是另一个类别的大数据系统,从而利用大数据的核心技术来进行处理。
4大数据时代特色数据建设的技术手段
基于以上几点设想,本节将从数据标签(Data Label)、子节点建设、虚拟大数据库系统、用户访问机制四个方面来探讨大数据时代特色数据库的建设和实现形式。
4.1 数据标签
数据标签是元数据的身份标志,主要起到数据的定位、查询、获取等作用,它在整个系统链中处于核心地位。基于特色数据库数据内容的唯一性和特殊性,数据标签的字符长度不必太大,也不必太复杂,太大、太复杂的数据标签虽然能够提高信息的获准率,但同时也延长了数据获取的时间,增加了计算系统的运行成本。数据标签内容从几B到几K不等,在设计数据标签的过程中,考虑到标签内容的普遍性、可检性和预览性,它主要包括:建设单位、数据库类别、数据库名称、标题、作者/出处/来源、关键词、内容简介、元数据获取标志(详见图1)。
数据标签是特色数据库系统的最小组成单元,它是用户通过一定的条件限制,从大数据中过滤冗余数据的身份标记,它贯穿于特色数据库从建设到利用的始终,在特色数据库建设过程中,数据标签可以是由内容管理系统自动生成,也可以后期导出数据表进行加工处理,每一个特色数据库的元数据按照数据标签的格式进行著录建立一个数据标签表,给予它一个身份识别标志,其中数据标签的部分内容可以是重复的,但是构成数据标签的“元数据获取标志”字段必须是唯一的,因为它是用户从大数据中获取原文件的唯一身份识别标志。标签字符上限长度30B20B30B40B50B20B800B30B建设单位类别名称标题作者/出处/来源关键词内容简介元数据获取标志图1数据标签
4.2 特色数据库子节点的建设
特色大数据库系统是由不同地域、不同类别的子库构成。目前,国内高校图书馆在特色数据库建设方面已有了成功的经验和比较成熟的技术手段,基于数据库的特色性,考虑到设备、人力、财力、管理、资源的属地性、效率等诸多因素,特色数据库子节点应由各高校图书馆分散异步建设,而不适用于重新组建统一的机构来承担建设,在子节点的建设过程中,应不拘泥于何种建库标准,采用何种建设方式,使用何种数据库内容管理系统。它可以是已建好的特色数据库,也可以是正在建设的特色数据库,还可以是任何结构化数据或非结构化数据类型。
在子节点建设过程中,数据标签是数据内容的基础单元,对于已经建成的特色数据库,可以通过导出相关的字段信息和原址,进行简单匹配重新生成数据标签表;对于正在建设的特色数据库,通过制定相应的数据著录规则,从而实现数据标签的自动生成。
4.3 虚拟大数据库系统
尽管不同种类的海量数据存在一定差异,但总的来说,支持海量数据管理的系统应具有如下特性:可扩展性(满足数据量增长的需要)、高性能(满足数据读写的实时性和查询处理的高性能)、容错性(保证分布系统的可用性)、可伸缩性(按需分配资源)和尽量低的运营成本等[6]。
基于大数据系统的特点,虚拟数据库系统主要由用户、虚拟数据中心、特色数据库子节点所构成(如图2)。子节点由每个高校图书馆的服务器群集、GPU群集、存储设备、网络设备、软件系统、特色数据库资源系统等组成,每个子节都有独立的运算系统,一个节点的丢失不会影响到其他系统的运行。此外,从理论上来说,子节点可以无限地进行扩容,它们所承担的任务就是数据的并行计算和与用户的信息交汇。
虚拟数据中心,是整个特色大数据群的前台,主要承担展示特色数据库、传递用户与子节点的信息交汇、任务分派等任务。虚拟数据中心并不直接处理用户提交的需求,也不存储数据原文件,可以建立多个数据中心,避免一个虚拟数据中心系统的停机影响整个数据库系统的正常运行,同时可以对它们做负载均衡处理以提高运行效率。虚拟数据中心通过Internet与每一个子节点进行连接,特色数据库的子节点将数据标签表传递给每一个虚拟数据中心,数据中心根据一定的规则生成Web预览目录和索引表,将不同高校图书馆、不同类别的特色数据库集中展现在虚拟数据中心上,从而实现元数据预览和统一检索的功能。
图2虚拟大数据系统4.4 信息获取机制
大数据环境下,用户获取信息机制与传统意义上的信息获取机制有所不同,用户通过虚拟数据中心的统一搜索框提交新的查询需求,虚拟数据中心通过存储在本地的数据标签表与用户提交的查询需求进行内容的匹配,如果没有匹配到对应的数据标签(DL)则向用户返回查询结果,如果匹配到对应的数据标签将把查询的结果返回用户。用户根据需要提取其中某一条标签,虚拟数据中心则根据数据标签内容的建设单位、类别、名称、数据获取标志等字段判定标签所属节点,同时将用户查询信息、IP地址信息、数据标签等内容进行封装提交给所属子节点,子节点在接收虚拟数据中心传递来的封装信息后进行解包,根据数据标签内容的“元数据获取标志”子字段,将本地存储的原数据提取出来,再将原文件传递给查询用户,至此,整个原文件的获取过程结束(见图3)。
图3大数据下用户访问机制
5大数据时代高校图书馆特色数据建设特点
5.1 实现了不同数据库的统一展示和检索
在传统模式下,用户想要获取特色数据的内容,首先要知道哪些高校建有此类型的特色数据库,其次再进入特定的数据库进行相关的查阅和下载,这样既浪费了用户的时间,也闲置了资源。特色大数据系统将所有高校图书馆所建设的特色数据库资源通过虚拟数据中心集中展示在用户眼前,用户可以根据数据库类别进行浏览,也可以根据所属高校进行预览,同时还可以通过统一的检索界面一站式地进行查询和检索,从而提高了特色数据库的利用效率和用户资源获取的效率。
5.2 便于特色资源的共建共享
在特色大数据库系统环境下,各子节点通过虚拟数据中心可以直观看到其他各节点特色数据库的建设情况,这样在很大程度上可以避免特色数据库的重复建设和盲目建设。此外,特色数据库的建设由各子节点来承担,多个节点的分散建设大大地提高了特色数据库的产出效率,节点之间通过虚拟数据中心进行发布,实现了相互之间资源访问、下载。
5.3 灵活性
特色大数据库系统建设的灵活