APP下载

运用大数据构建数字图书馆

2016-03-13西安石油大学

电子世界 2016年23期
关键词:结构化馆藏数字

西安石油大学 李 绯

运用大数据构建数字图书馆

西安石油大学 李 绯

信息化社会正迎来大数据时代,文章在简要探析大数据技术及数字图书馆内涵与关系的基础上,提出了运用大数据构建数字图书馆的思路与举措,以期实现数字图书馆更好地为用户服务的目标。

大数据;数字图书馆;数字资源建设

大数据对于推动泛在信息社会进步意义重大,其带给图书情报学领域的变革更是引人瞩目,运用大数据构建数字图书馆,将使得图书馆工作由表及里翻开新的篇章。

1 大数据与数字图书馆

1.1 大数据技术

大数据即巨量数据集合,是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。(1)目前的软件工具无法在一定时间内处理整合为有效利用的巨量信息群。

大数据具有“5V+1C”的特性:数量巨大(Volume)、更新高速(Velocity)、种类多样(Variety)、价值密度低(Value)、真实准确(Veracity),以及处理繁复。

大数据技术的战略意义不仅止于对浩瀚数据信息的掌握,更在于对海量信息数据进行专业化的挖掘,以提高处理数据的能力,使庞大的海量数据经技术处理后实现“增值”。大数据技术将促进信息技术的应用与信息产业的进步,最终推动科技革命进而提高核心竞争力。

1.2 数字图书馆

数字图书馆是传统图书馆在信息时代的变革与延伸,是全新的科学技术。数字图书馆是使用数字技术处理存储各类信息的数字化管理系统,是传统图书馆的虚拟化(2)。

数字图书馆具有超大规模信息储量、分布式、使用便利性、无时空限制、远程传递性、跨库无缝链接、智能检索等特点。基于数字图书馆的特点,任何用户在任何时间、地点,利用任何网络、技术与图书馆服务,可获取任何资源与任何服务。收藏文献信息是数字图书馆的基本属性,提供服务则是数字图书馆的社会职能。

2 大数据与数字图书馆的关系

当前的信息环境中数据分为结构化、半结构化和非结构化三类数据,以数据库、文本、音频、视频等非结构化和半结构化数据为主,二者占数据总量近90%。并且数据总量在持续增长中,规模庞大至以TB,甚至PB级计量。据相关资料统计,每天新建首页导航需提供的数据超过1.5亿PB,而迄今为止人类全部的印刷型资料数据量仅为200PB[3]。数字图书馆涉及的大数据类型繁多,包括图书馆馆藏、馆员等基本情况数据,书目、数据库等馆藏数据,读者基本情况数据,此三类数据属结构化数据,另外,还有大量涉及文献信息建立、使用、提供服务的半结构化和非结构化数据,是数字图书馆进行数据挖掘管理的重点。数字图书馆需要收集和使用这些数量庞大且不断增长的数据,利用大数据技术数字图书馆可以有效减少资金和人力资源的投入、缩短研发时间、提供更为精准的信息,以满足用户的个性化需求。

3 运用大数据构建数字图书馆

图书馆工作随信息技术进步而改变,在信息环境中的数字图书馆亦应积极变革,适应科学技术快速发展和高信息素质用户对图书馆信息服务更高的要求,建立全新的数据收集、处理、利用的科学化的大数据思维,提升业务水平,构建符合时代发展要求和用户文献需求的全新的数字图书馆。

3.1 拓宽数字资源选择范畴

馆藏资源建设是图书馆工作重心,以图书、期刊、报纸、论文、数据库为收藏主体,辅以标准、专利等结构化信息,而通过大数据技术的运用,可以将馆藏文献在传统收藏范围基础上增加至所有网络信息,以及用户搜索和使用数字图书馆信息,再加工的数据信息等半结构化、非结构化信息,建设成为分布式资源平台。馆藏资源选择范畴由此扩大,但不必也不可能将所有资源都进行数字化处理,而是应当有重点有步骤地优先开发数字图书馆的优势与特色资源。3.2 加强大数据资源整合、保存及合理配置工作

数字资源,特别是非结构化数据的整合及保存,将传统优势结构化信息——文献信息与半结构化、非结构化信息——网络信息、读者检索利用信息等进行整合,能够直接为用户提供解决问题,尤其是复杂问题的方案,而不是将许多分散无关联的资料的简单呈现,并且选择合适的存储介质对馆藏数字资源加以长期备份保存。将数字资源进行合理配置,馆藏与非馆藏信息资源加工分析内在关系,建立语义关联,构建大数据技术支撑的面向社会的大资源平台。

3.3 改进数字化服务方式

通过聚类技术、语义技术和信息分析技术的运用,建立无序的海量信息间的联系,进而进行知识挖掘,数字图书馆除提供文献服务等基础服务外,还将提供再生信息服务,以及音频、视频服务。通过用户行为分析,提供用户真正需要的个性化服务,实现知识发现。

3.4 非数字化保障因素

非数字化保障因素包括确保资金支持与提升馆员技能。大数据技术的运用与数字图书馆工作的开展离不开资金支持,而资金投入不足是自传统图书馆时代起就存在的制约图书馆发展的瓶颈。图书馆服务属公益性无偿服务,在大数据时代的数字图书馆中,资金的充足持续提供更为关键,政府等拨款应形成机制,另外,还可借鉴国外吸收社会资金的先进做法,优化投资结构,加大投资力度,有力促进数字图书馆的发展。数字图书馆也应加大合作共享范围,开展成本管理,高效利用有限的资金提升服务效益。

大数据技术、数字图书馆等涉及许多图书情报学领域以外的学科领域,如计算机技术、网络技术、云计算等等,图书馆馆员必须加强学习,掌握相关技术,能够熟练运用,才能更好地为用户服务。

4 数字图书馆运用大数据需要注意的问题

4.1 规避知识产权风险

数字图书馆应重视知识产权问题,自觉宣传、保护知识产权。国家应建立相应的政策法规,确保数字图书馆合理合法地无偿使用数字化资源,研究探讨版权唯一性与信息共享机制的双赢之道。数字图书馆应努力研发具有自主知识产权的资源平台,同时通过防火墙技术、加密技术、数字水印技术、认证技术、身份识别技术等切实维护知识产权。

4.2 保障用户信息安全

大数据带给数字图书馆无限便利的同时带来的负面影响是用户的个人信息安全的保障问题。数字图书馆对此应有足够的认识,从硬件和软件两方面着手大力防范网络信息泄密情况的发生,采用最新互联网安全防护技术,设置专门人才搭建并维护安全防护系统,将安全防护工作作为数字图书馆的日常重要工作之一常抓不懈,保证数字图书馆健康有序地开展服务,特别是个性化服务工作,真正将用户的利益放在第一位。

5 结语

大数据技术的应用为数字图书馆的进一步发展插上了翅膀,数字图书馆应乘势而为,提供知识应用服务,提升服务能力与水平,完成数字图书馆的创新使命。

[1]百度百科.大数据[EB/OL]. http://baike.baidu.com/link?url=o3FPj RJopzaSC1gxVKLexcsfcgyun-9ZAeCpB2qhmGxpg7IBEfZi9jpJLePNb1z_ Zmh3NmHPCfT-65hZEH05q4bfQW-Ia-s0LuMCL39qjAfJgnXj1MvJK Ql8A5saA2UW[2016-09-18].

[2]百度百科.数字图书馆[EB/OL].http://baike.baidu.com/link?url= u2YaBxZVcV4b2l8SFnXj_ge3eUDxkPYHuNrfvqyCeJbJxpZvwBinilc732g2M8eKHXV8Yvm4_LC62llb_q9I0Yy5KrPHj8YxJ8-seI9LnIUh3CREMWKYkASl__ vwuVpUCo8haldCqG-VR5L8doGIK[2016-09-18].

[3]卢艳兰.数字图书馆的大数据信息接入和管理问题研究[J].图书情报导刊2016(7).

猜你喜欢

结构化馆藏数字
馆藏
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
博物馆的生存之道:馆藏能否变卖?
知还印馆藏印选——古印篇
答数字
数字看G20
介绍两件馆藏青铜器