大数据时代图书馆的建设策略分析
2014-09-23赵月
赵月
摘要:现代社会中,图书馆是公共信息服务体系的重要组成部分,因此容易受到社会技术应用潮流的影响。因此信息管理的从业人员应该尽早了解大数据技术的重大意义,以及这一项技术在图书馆建设中将会产生的积极影响,更好地实现大数据技术的优化应用。随着国内公共文化信息服务体系建设的深入完善、图书馆用户基础的不断壮大、读者和资源类数据的急剧增长,要求图书馆在自身的建设上带有前瞻性,在信息服务上需要利用现有的半结构化及非结构化数据进行有效分析,并针对可能遇到的问题提出相应的策略。
关键词:大数据;图书馆;建设策略
中图分类号:G252 文献标识码:A文章编号:1006-8937(2014)20-0142-02
1管理层次方面
在麦肯锡咨询公司提出“大数据”这一概念之后,IBM、EMC、惠普以及微软等多家互联网巨头也迅速认识到从海量数据中挖掘提取有效数据资源进行分析后,针对未来业务可能的发展趋势提出的可行性预测的重要性,纷纷通过收购进行大数据业务的公司来实现资源整合,表明互联网公司从管理层次方面认识到大数据的重要性。我国的图书馆服务及建设,不管是盈利性的图书馆还是公益性的图书馆,都应该从管理层次方面认识到大数据可能会给图书馆行业带来的危机以及机遇。因此,成立数据管理部门与机构, 制定数据管理政策、统一的标准及共享平台,从管理层次方面规范数据应用,并将其加以制度化成为了图书馆业界的首要任务。
大数据建设并不是一项无序的、静态的、短时期就能完成的工程,而是一项需要长期投入的工程。从总的发展趋势来说,大数据建设需要通过精心的安排,力求使其步入良性化、秩序化的发展轨道。一方面,我们需要在全面了解大数据技术的核心构成要素的基础上,通过建设一整套的运行机制,使该技术能够很好地与相应的设施相配套。另一方面,通过做好顶层设计,使大数据技术的应用在开始就
正是因为上述原因,在现代图书馆系统内部成立相关的管理部分,在处理相关数据处理的基础上,为实现数据的统一管理和有效利用作为基础,使得相关信息能够在各地区、各部门之间保持协调是图书馆应对大数据时代所应该采取的管理层次方面的措施。在美国高校中,有些学校的图书馆成立了专门的“数据研究管理服务工作组(RDSMG)”,如麻省理工学院、弗吉尼亚大学以及康奈尔大学等。虽然目前我国图书馆业界认识到了大数据对工作内容和方式可能带来的影响,但在管理层次方面还未着手开始进行改革,因而在数据管理、共享和数据利用、处理以及数据版权方面,从技术上或者从政策上都还存在着漏洞,其实这不仅限制了图书馆自身的发展,也使得图书馆用户的使用权利受限。因此,大数据时代图书馆的建设要首先从管理层次方面得到重视。
2技术层次方面
图书馆的建设不仅是硬件设施层面的要求,也需要在管理措施方面进行提升,使其符合大数据时代来临的建设要求,政策是否能够得到有效地落实、如何落实相关政策更具备可行性,这些都要从技术层面进行考量。因此,以何种方式去建设现代化的图书馆、以及相应的大数据结构如何配置都是我们必须面对的,尤其是在解决大数据的采集、处理、存储等配套技术性问题都需要进行研究。简单来说,从多元化渠道获得海量数据不仅蕴涵着极有价值的信息,但也充斥着冗杂信息。这就需要运用大数据技术力求从中获得有效信息,这一点是建构大数据的核心,也决定着我们能够以正确的方式应对时代变革。我们需要从数据的采集、储存、处理、分析和应用等方面给予宏观的观照。将大数据作为一个系统工程来进行,进而建构形成基本现代形态的图书馆架构图:主要包括大数据采集、大数据存储、大数据处理及大数据应用四层。第一层是大数据采集,数据库、RFID、科学数据、论文、课件、邮件、微博和社交网络等等都是图书馆信息数据的来源,其中包括结构化、半结构化和非结构化数据信息。第二层是大数据的储存,利用云存储、虚拟技术、HDFS、HBASE、Hadoop、MapRaduce技术等存储海量数据。大数据的处理是图书馆大数据架构的第三层,数据集成、抽取、建模、网格计算、聚合与关联、重复数据删除、数据加密、容灾和备份等等都属于数据处理的范畴。第四层就是大数据的应用,只有将处理后的数据用于各类型的服务才使整个图书馆大数据架构得以完成。应用的方面可以包括信息检索、资源发现、数据挖掘、应用软件、推荐服务、学科化服务、个性化服务等。从现代图书馆的整体性建构来说,在大数据技术背景之下,应着力解决以下几个方面。
2.1大数据的统一表示及融合
现代信息技术的飞速发展使得信息产生的速度越来越快,通过不同方式产生不同格式的数据越来越多,因此图书馆大数据中包括的不再是单一格式的结构化数据,而是包含了很多半结构化与非结构化数据。在大量的信息资源中挖掘有用信息具体表现为:我们也可以这样说,是否能够直观地展现出数据本身的意义,主要取决于数据表示的方法。如果我们不将海量的数据加以整合、挖掘和分析,就无法发挥出大数据本身的重大价值。各种数据和信息能否统一规范的表示及有效地融合,从而构建起文献与数字资源体系是大数据目前面临的一个最基本问题。
2.2解决大数据量存储的问题
数据存储是大数据时代面前的诸多问题中最为核心,首先表现为面对大数据的高效率处理和访问明显增加,使得数据库及其相关技术的要求有较为明显的提升。而云计算技术的快速发展深刻影响着相关的数据库技术,并迫使相配套的数据库技术不断升级。例如据NoSQL、MapReduce和Hadoop都是常用的,非关系型数据库分析技术的优势是能够进行大规模的并行处理,同时简单易用,不需要进行复杂的换算演化。在以特定的表现方式呈现出相应问题的处理方案的同时,非结构化数据的处理正在成为大数据技术发展的关键性技术增长点。
2.3解决非结构化数据的分析和挖掘问题
数据挖掘和分析工作之所以具有非常重要的作用,是因为大数据不仅信息量大,而且类型复杂多样,不仅包括结构化数据,还包括半结构化和非结构化数据。
传统的数据挖掘与分析方式能够有效应对结构化数据,但是对关系型数据、半结构化数据和非结构化数据就无能为力。而正是这些在图书馆的大数据中传统的数据挖掘分析手段无法处理的半结构化、非结构化数据才与用户有着直接的关系。例如读者的兴趣不会体现在结构化的数据当中,而通过对待处理的非结构化数据进行挖掘和分析才能了解这一点。通过处理结构化数据对读者的显性行为进行分析,处理半结构、非结构化数据对隐性的潜藏信息进行深度挖掘,只有准确地把握阅读群体的审美诉求,才能为读者群体提供更为个性化、人性化的服务。
建立数据内容基础之上的推荐方式是当下最为流行的推荐方式之一,另一种是协同过滤。就后者而言,往往能够根据读者的阅读兴趣和数据呈现的稀疏性反映出某些潜在的问题。如何挖掘协同过滤算法模型中存在的规则,设计可以提供个性化的服务,是图书馆研究的方向。
3队伍建设方面
图书馆服务要随着技术的改变和用户服务要求的变化而提升和完善。不仅是服务的方式、途径还是服务的模式都将要发生改变。通过大量数据挖掘、组织和分析后决定的服务策略可能更具有针对性和鲜明性,服务方式和手段也会随之调整。在执行文献服务、信息咨询和学科服务这些原有的服务策略的同时,以信息处理与服务为优势的图书馆的服务范围及领域会得到更大的扩展。服务领域的扩展、服务种类的增加以及服务质量的提升要求图书馆在人力资源储备和培训不断强化,力求能够在较短的时间内建设起一支高素质的图书馆专业队伍。
传统类型的图书馆建立在其自身的管理方式、工作内容,以及工作方式和管理思维基础之上。但在大数据的信息环境中传统型图书馆运作模式遭遇到前所未有的挑战,并使其内部构成方式发生了巨大的变化。
抓住这个机遇,尽快开展数据管理服务是图书馆目前的首要任务,要想做好这一项工作,需要图书馆不断提升支撑相关研究的服务内容、以及与其相配套的服务能力。NSB明确指出数据挖掘、获取、处理、保存、分析、利用和可视化为职业的数据科学家(Data Scientist)中,应该包含有信息与计算机专业人员、相关领域的专家和图书馆管理人员。美国图书馆研究协会认为,未来的图书馆管理人员最为重要的能力就是研究数据管理能力。由此可见,能够尽快的培养一支掌握现代信息处理技术,将直接影响到图书馆事业的发展能够适应新形势的需要。综合素质较好的“数据官员”是图书馆队伍建设首先要解决的问题。只有不断发展壮大这支队伍,并使之成为信息数据资源的整理者、分析者、传播者和教育者,才能真正促进图书馆事业向着更为全面的方向继续前进。
参考文献:
[1] 熊金超.全球迎来大数据时代数据成为越来越有用资源[EB/OL].
http://www.hb.xinhuanet.com/2012-11/07/c_113623396.htm,2012-11-
07.
[2] 徐子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].桂林:广西师范大学出版社,2012.
[3] 李福铭.高校图书馆馆藏中文图书书龄与利用率研究[J].湘潭矿业学院学报,1998,(2).
[4] 尹秀波.基于馆藏结构分析与文献利用统计的馆藏文献资源质量评价研究[J].情报科学,2011,(4).
[5] 代晓飞.香港地区高校图书馆馆藏发展政策研究[J].图书馆学研究,2011,(3).
[6] 陈立刚.高校图书馆馆藏质量分析与优化探讨[J].图书馆论坛,2010,(2).
endprint