大数据时代图书馆馆藏数字资源整合与存储策略分析
2017-06-08王震宇王宁
王震宇,王宁
安徽行政学院图书馆,安徽 合肥 230059
大数据时代图书馆馆藏数字资源整合与存储策略分析
王震宇,王宁
安徽行政学院图书馆,安徽 合肥 230059
大数据时代图书馆馆藏数字资源进行整合,是信息组织自动化、动态性、多模式的需要,也是信息组织的标准化、易用性的需要。图书馆馆藏实现数字存储,可以为资源共享提供技术保障,便于文献资源的分享利用。文章提出了馆藏数字资源整合策略,并设计了存储系统。
大数据时代;图书馆;馆藏数字资源;资源整合;存储
随着新兴的物联网技术、云计算技术以及社交软件的快速发展,衍生数据的增长速度惊人,网络中存有海量数据,这些都预示着大数据时代的来临。人们的生产、生活已经离不开数字化信息,而在海量数据中筛选出有效数据的相关技术已经成为专家学者重点关注的问题[1]。值得注意的是,作为传统图书信息资源提供者的图书馆也应与时俱进,尝试获取更为准确、有效的数据信息,为用户提供高质量的服务。显然,图书馆方面应该依靠海量图书资源平台,将大数据处理技术与图书馆服务理念进行紧密结合,积极探究数据的获取、整理以及存储等技术,为用户提供更加有效和人性化的服务。为应对数据量不断增大的多类型信息资源,图书馆引进了数字资源存储和整合技术,以保障数据处理的优质、高效。
1 大数据时代图书馆馆藏数字资源整合的必要性
1.1 数字资源整合是信息组织自动化、动态性、多模式的需要
传统图书馆整理资料时是用人工方式,对各类书籍资料进行标注、分类和整理,而且检索的关键字都是需要繁琐的手工劳动进行整理和录入。如今,网络上的很多数字资源(比如多媒体资料,文本资料)都具有很强的时效性,如果用人工方式进行整理,必然会影响资料使用的效果,所以,数字资源的自动标注、自动分类和整理,资源关键字的编制以及自动化管理等方面都是图书馆的重点研究内容[2]。现在数字资源种类繁多,构造成分较为复杂,信息化比重加大,都让以传统手工整理方式为基础的图书馆的使用优势不再明显,数字资源的非结构化也让自动化提取资源特征的难度加大,非文本资源的整理以及低成本化也是传统手工整理方式难以实现的。
1.2 数字资源整合是信息组织的标准化、易用性的需要
因特网是一种将多个网络进行整合的互联网结构,网络中的数字资源是以杂乱无序的方式进行分布。信息网络是以信息为处理的基本单元,并针对信息进行存储、添加以及整理的合作型的网络结构,网络之间的数据交流需要各方面的支持,因此整合网络资源的前提就是制定一系列的信息整理和加工的标准(比如制定统一的数据格式、统一的索引和描述语言)[3]。在互联网环境下,任何用户都可以轻松地利用手机、平板电脑及个人计算机等终端访问数字图书馆平台并进行操作。考虑到用户的软件操作水平参差不齐,在设计平台功能时要尽量做到简洁实用,使普通用户可以非常方便地检索到所需的数字资源,提高平台的使用效果。
2 大数据时代图书馆馆藏数字存储的意义
2.1 为资源共享提供技术保障
在整合和管理图书馆馆藏资源后,图书馆还需要借助先进的信息处理技术来维护和存储图书文献资源,尤其是非常稀缺的光盘制品和微缩文献制品等。由于采用的存储技术具有运行稳定性高、技术成熟、寿命长、应用面广及密度大等优势,所以可以尝试将简易信息聚合(RSS)技术、标签技术以及Web2.0技术等应用在图书馆存储工作中,从而帮助图书馆实现用户信息推送服务、用户个性化定制服务、扩大检索服务、新书发送服务及相关信息链接服务等[4]。正是由于上述技术支持提供的服务,才使图书馆与用户的互动交流存在有利环境,让用户有更多机会参与到信息交流过程中,并根据个人的信息需求来获取相应的信息资源服务。
2.2 便于文献资源的提供利用
很多历史文献资源极其珍贵,尤其是孤本,不可能满足用户的阅读需求,而且相互传递阅读不可能实现,而将其数字化,则可以满足读者的阅读需要。另外,如果1本16开的书籍有1000多页,经过数字化处理之后就可以利用 6张微缩平片进行存储,而且这些平片可以直接进行传送阅读。当然,关于音像制品、微缩制品以及光盘的管理和存储技术则显得十分重要,如果没有有效的管理和存储技术,便会对资源管理和共享产生不良影响。
3 图书馆馆藏数字资源的整合策略
3.1 图书馆资源整合方案
基于大数据的图书馆数字资源整合方案主要分为大数据资源模块、资源过滤和解析模块、资源整合模块、资源整合系统反馈控制模块等部分(详见图1)。
图1 图书馆馆藏数字资源整合方案
3.1.1 大数据资源层主要负责存储和管理数据、系统管理数据及客户管理数据,而且该模块还会参照数据的存储特点、数据的来源、数据的应用方向以及数据的使用频率等特点将收集到的数据按照规则存储到相应的管理数据库中,为整个信息服务资源整合系统提供信息数据的基础管理服务。
3.1.2 资源过滤与解析层该部分是大数据资源的上层,接受下层的大数据资源提供的服务。该部分主要担负着大数据特征的提取、类型和格式的判别、数据清洗(即筛选)及数据解析等工作,其目的在于不仅过滤掉大数据存在的不利噪音,还要规范数据的格式和类型,而且需要进一步提高数据的存储密度和使用价值。
3.1.3 资源整合层为使用大数据读取和转换准则,将过滤后的数据进行转换并最终存储在主数据库中[5]。
3.1.4 资源整合反馈与控制层通过数据处理以及分析技术针对大数据进行评估,并利用系统反馈技术实现数据整合、资源调整及反馈系统优化,从而整体提高数据的操作管理水平,提高数据的有效性和可控性。数字图书馆还会全程监管数据的整合过程,及时发现问题、纠正错误及完善管理,为用户提供安全、可靠及便捷的数据服务。系统反馈控制可以影响资源整合控制策略,进一步影响整个图书馆馆藏数字资源整合方案。
3.2 实现数据在采集终端的过滤与整合策略
数字图书馆还会在提供优质数据服务的同时积极收集和整合用户数据,比如可以利用终端的传感器、监控仪器、服务器日志监控系统以及终端数据收集器等设备,收集和整理系统运行信息以及用户使用的信息。需要强调的是,这些收集数据的设备构建比较复杂,数据量较大,因此在收集数据时要把握系统所需收集数据量和网络传输的负载之间的平衡,在不影响硬件设备正常运行的基础上尽可能地收集所需的信息数据[6]。因此在数据收集方面采用何种的收集、整理以及过滤策略对于整个信息服务资源整合系统的构建起到至关重要的作用,先进的收集技术将会大大减少硬件设备的运载负荷,从而显著提高数据的整理和分析效率。数字图书馆应该注重针对大量原始数据的过滤和整合技术的研究,降低大数据的噪音,有效去除数据的冗余信息,提炼有价值的信息数据并进行存储,整体上提高数据的时效性和利用率。
4 图书馆馆藏数字资源存储系统设计
图书馆资源存储系统主要包括应用服务层、平台服务层及基础设施服务层等,这些都参照层次进行分类[7]。其中应用服务部分主要提供具体的系统功能;平台服务部分主要提供系统监控功能、用户管理功能以及为应用服务层提供专门接口等。图书馆资源存储系统就是一种云端类型的网络,该系统可以提供高并发的网络计算服务以及网络功能服务,利用分布式技术和虚拟化技术来扩展 Web网络服务器、应用服务器、存储服务器以及数据库服务器,还可以为不同区域的数字图书馆之间提供多种检索、计算以及存储服务等。
4.1 基础设施服务层
基础设施服务层即 IaaS层,为图书馆资源存储系统总体架构的基础部分,支撑着整体框架的运作,其利用虚拟化技术将硬件资源和相应管理功能进行有机结合。该服务层包括 2个方面功能:⑴利用网络硬件设备、存储设备、主机进行虚拟化、抽象化及分布式处理,将数字图书馆中的各种硬件设备整合在一起,共同封装成为基于云存储基础服务设施,用户只需将其当成一个整体即可,无需知道是哪部设备提供服务,只用发布调用设备命令就可以获取所需的硬件和软件资源。⑵借助虚拟化技术以及抽象化技术,基础设施服务层为用户提供备份管理、计算服务管理、数据存储管理及负载管理等服务。
4.2 平台服务层
平台服务层即PaaS层,为图书馆资源存储系统总体架构的中间部分,又称为云中间件,它的作用是将系统的复用性软件和通用性软件进行整合,从而实现为区域数字图书馆提供PaaS层服务。该服务层主要提供以下 6个方面功能:⑴提供系统信息管理接口功能,比如课题管理、专题管理、资源管理及简报管理等;⑵提供平台核心服务接口功能,比如行为分析和统计、任务调度、资源整合及检索等;⑶提供信息发布接口服务,比如提供用户定制、发布信息检索、系统资源导航及资源专题发布功能等;⑷提供信息规划接口功能,比如信息资源规划及资源体系规划等;⑸系统信息资源加工接口功能,比如信息生产的分析和统计功能及信息内容编发功能等;⑹提供资源库的发布接口功能。
4.3 应用服务层
应用服务层即SaaS层,为图书馆资源存储系统总体架构的高层部分,可以为区域数字图书馆提供所需服务和应用软件支持。借助SaaS层提供的软件功能,区域数字图书馆可以根据用户具体需求将系统功能以租用方式提供给用户或者其他组织。具体来讲,提供的服务功能主要包括 RSS信息服务、信息订阅推送服务、系统信息检索服务、个性化用户信息服务、系统公共信息服务、企业竞争监管服务、用户参考和咨询服务、技术评估服务及高新技术查新服务等。
基础设施服务层主要提供系统管理及业务支持的相关功能,从而保证整个系统能够正常运行。终端是整个数字图书馆的最高层,不仅为用户提供登录功能,而且还可以直接与服务器进行交互,该层不再局限于个人计算机,只要是能够访问云端的终端设备都可以登录客户端。
5 结语
资源共享模式是大数据时代图书馆发展的必然趋势。借助资源整合技术,图书馆不仅可以实现信息资源的规模化处理,还可以实现本图书馆与其他图书馆在同一平台上用户和资源的统一管理,从而更大程度地实现资源共享目的。存储功能是借助先进技术将文献资源按照一定的次序进行管理和存储处理,让相同或相似的文献资源紧密关联,这就是基于文献资源的存储处理的核心所在。
参考文献
[1]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-68,77.
[2]刘芳,卢国强,刘宾娜,等.大数据时代的数字图书馆异构数据集成分析[J].电子技术与软件工程,2015(22):193.
[3]郑飒.大数据时代的图书馆服务初探[J].黑龙江史志,2015(5):268.
[4]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5): 37-40.
[5]温浩宇,李京京.大数据时代的数字图书馆异构数据集成研究[J].情报杂志,2013,32(9):138-141.
[6]席亚军.大数据时代下云技术在图书馆数据存储中的应用[J].农业图书情报学刊,2015,27(11):5-8.
[7]黄燕.云存储在图书馆数字资源存储中的应用[J].现代情报,2011, 31(4):68-70.
Analysis on the Integration and Storage of Digital Resources in Library Collection in the Era of Big Data
WANG Zhen-yu, WANG Ning
(Library of Anhui Administration Institute, Hefei Anhui 230059, China)
The integration of digital resources in the library collection in the era of big data is the need of automatic, dynamic and multi-mode information organization, and it is also the need of standardization and ease of use of information organization. The achievement of digital storage of library collection can provide technical support for resource sharing, and easy to sharing and use of literature resources. This article put forward to the strategies of digital resource integration and designed the storage system.
era of big data; libraries; digital resources of library collection; resource integration; storage
G250.71
A
2095-5707(2017)03-0035-04
王震宇,王宁.大数据时代图书馆馆藏数字资源整合与存储策略分析[J].中国中医药图书情报杂志,2017,41(3): 35-38.
10.3969/j.issn.2095-5707.2017.03.009
2017-03-27)
(修回日期:2017-05-12;编辑:魏民)
2016年度安徽省教育厅高校人文社会科学研究重点项目(SK2016A0254)
王震宇,馆员,研究方向为读者服务。E-mail:Daisj80@163.com