数据分析和图书馆数据化
2017-09-07徐勇
徐勇
【摘 要】图书馆数据化是一门古老而新兴的事业,用现代的数据分析方法分析图书馆的数据,是让图书馆事业焕发新活力的有效途径。基于此,论文试图将图书馆数据分类,进而在数据分析的基础上得出结论,指导图书馆的工作。
【Abstract】Library datamation is an ancient and emerging enterprise. Using modern data analysis method to analyze library data is an effective way to make library cause new vitality. Based on this, this paper attempts to classify library data, and then, on the basis of data analysis, draw conclusions and guide the work of library.
【关键词】图书馆;数据化;数据分析
【Keywords】library; digital; data analysis
【中图分类号】G250.7 【文献标志码】A 【文章编号】1673-1069(2017)08-0112-02
1 引言
在如今信息爆炸的时代,对数据进行分析得出非凡的结论,正在逐渐成为一种新的工作模式。高校图书馆是读者和信息的桥梁,是人类获取信息的途径和方式之一。对高校图书馆的数据进行分类,可以更方便地进行数据分析,顺应时代的发展。
2 数据分析和文献数据化
一般地,图书馆馆藏资源包括图书、期刊、报纸、学位论文、古籍善本、特藏专藏、工具书、年鉴、电子出版物、缩微资料、视听资料等。詹姆斯?格雷克在《信息简史》中写到“万物源于比特”,以现代信息论的观点来看,图书馆就是一个“比特的海洋”[1]。一个“信息比特”从创作者手中诞生,流动到图书馆中沉淀,直到有一个读者发掘出它、利用了它。
数据分析一般是指用适当的统计方法有目的地收集数据、分析数据,使之成为信息的过程,它的主要目的是为了通过分析图书馆各工作流程中产生的数据来得出总结和结论,进而指导图书馆的工作。在《大数据时代》这本书里,作者写道:“数据化是指一种把现象转变为可制表分析的量化形式的过程;数字化是指把模拟数据转换成用0和1表示的二进制码的过程[2]。”所以在图书馆数据领域,一般地我们可以这样区分,资源数字化揭示的是文献的实质内容,资源数据化是数字化更进一步的发展,它既揭示文献的外部特征和内部特征,也揭示文献的历史沿革。例如,假设本馆收藏《大数据时代》的纸本书,把它数字化的结果就是计算机存储的0和1的二进制码,读者阅读的是计算机转换二进制码得到的图书内容,将本书数据化得到的结果是表格,内容既包括书名等外部特征和主题词等内部特征,也包括本书的版本历史、入藏历史、借阅历史等数据。所以可以这样说,资源数字化或者说数字图书馆的概念兴起于20世纪末,而从图书馆诞生之时起,人们就做着文献数据化的事情。
3 图书馆数据
在本文中,我们说的图书馆数据分析的数据主要就是指图书馆数据化的结果数据,数据化的目的是為了分析。在数据分析过程中,我们把图书馆数据分为三个大类:馆藏数据、流通数据和其他数据,这三类数据主要按数据的产生流程来分类。
3.1 馆藏数据
一般地,图书馆文献资源包括图书、期刊、报纸、学位(会议)论文、古籍善本、特藏专藏、工具书、年鉴、电子出版物、专利、标准、缩微资料、视听资料等。馆藏数据是指文献经著录入藏后形成的数据,各种文献类型均有相应的文献著录规则。馆藏数据数据化的过程是把书目数据和marc数据相结合的过程。
在《大数据时代》做著录入藏工作之前,会有一个文献采访订购的过程。在采访过程中,会形成一个采访数据库,主要作用是用直观的分析和数据来保障采访工作的质量。在采访过程中的《大数据时代》,它的大部分数据字段跟它的marc部分数据字段内容相同,主要包括题名和责任说明、标准号、版本、出版发行、载体形态、丛编、附注、主题分析、分类号等。采访数据也有不同于其marc数据的特点,这个特点是采访工作的重要内容之一,那就是关系。例如本书作者迈尔·舍恩伯格,在采访库中笔者注意到他的另一本书名叫《删除》,描述的是大数据相关内容,值得收藏却没有入藏,可以列入采购计划中。在这个过程中,用的方法是关系,所以采访数据库一般设计为关系数据库。由上述过程应该注意到,采访数据库数据内容的丰富和完备非常重要,它决定了采访工作的深入和完善。而采访数据库的建设是一个随时间累积的过程,因此,对文献建设质量来讲,图书馆配备专职的文献采访人员是必要的。
在文献入藏后,还有一些marc字段数据也是馆藏数据化的一部分,对数据分析工作是重要的。例如,001字段记录控制号,它有固定格式,一般由编目系统自动生成,部分系统也可由编目人员自行修改,它是书目数据库中准确对应一条记录的唯一标识,在应用系统中常作为数据链接和合并的依据。在数据分析中,它可以作为一个时间段内入藏记录的统计依据,对数据批处理有特殊帮助。再如,在某些编目系统的9字段,可以添加条形码号,这样通过条形码号和001字段的对接,可以精确确定一本书的入藏过程,在数据分析中,这是有意义的。
3.2 流通数据
传统上,流通工作是检验图书馆工作成效的重要途径之一,这体现在流通工作主要面对读者,是图书馆和读者沟通的桥梁。流通数据是图书馆统计分析数据的主要来源之一,它主要包括文献及其借阅史、读者及其借阅史。
在文献入藏进入流通以后,会有两种情况出现,一种情况是零借阅,另一种情况是有借阅。造成文献零借阅的因素有很多,从数据分析的角度看,这些因素大体分两种,一个在采访环节,另一个在流通环节。在采访环节,采访员没有做到完整的读者需求分析、文献入藏价值分析,造成误购。在流通环节,缺少文献流通分析、读者借阅分析,造成工作无的放矢,阅读推广活动缺乏针对性,导致读者找不到好书读。endprint
对于有借阅的文献,对其借阅史和相关数据的分析和解读是流通部门的重要工作之一,这涉及读者信息、流通类型、借还时间、借还期限等数据的数据化,也包括进馆人数和阅览人数的数据化。对读者信息的分析可以了解到某种读者类型的阅读喜好,例如女性读者更偏爱言情小说,男性读者更偏爱武侠小说;对流通类型的分析可以反映读者的阅读,例如图书馆的图书总是文学类借阅最多,专业类借阅相对较少;从借还时间和借还期限等方面,可以反映出文献的受欢迎程度和被阅读程度。
同时,读者信息和文献借阅信息是相辅相成、密不可分的,这里的逻辑是:读者信息对应单个读者,单个读者对应单本文献,单本文献对应文献借阅信息。所以我们可以按照需要,分析单个读者和单本文献的借阅数据,分析一类读者和一类文献的借阅数据,也可以分析所有读者和所有文献的借阅数据,这些分析结果最终反映的都是一定时期内的文献资源建设质量。
3.3 统计数据
在图书馆中,除了编目数据和流通数据,还有许许多多其他的数据,对图书馆的数据分析是有用的,需要做到数据化,这些数据在本文中,统称为统计数据。
图书馆是一个生长着的有机体,不是一个孤立的事件,它和周围许多事物是联系在一起的。以高校图书馆为例,图书馆的建筑面积、阅览座位、读者人数、高校的教学层次、学科设置等,均影响着图书馆的建设。这些信息的数据化对图书馆的数据分析是有意义的。同时,在图书馆中,除馆藏数据和流通数据之外,还有一些服务数据是有意义的,包括科技查新、参考咨询、学科服务、馆际互借、电子资源等。
统计数据的分析对图书馆建设的影响主要体现在硬件和服务两个方面。同样以高校图书馆为例,一定时期内,建筑面积一般是不变的,阅览座位按在校生人数总量控制,一般也是不变的,而读者人数总是变化的,这由招生规模控制,教学层次和学科设置决定了文献资源建设的侧重和策略。按照《公共图书馆建设标准》(2008)和《普通高等学校基本办学条件指标(试行)》(2004)中的相关标准,硬件的设定决定了图书馆建设的下限,图书馆的建设要达到相关标准并在标准上方运行,于是,在数据分析结果中没有达标的项,需要被强制建设。在服务方面,数據同样被采集和分析,例如,对参考咨询来说,读者咨询的每一个问题都应该被记录下来,这些被记录的数据,就是图书馆特色资源库建设的完美素材。
4 结语
在信息时代,做图书馆的数据化和数据分析,是一件非同寻常的事情,它抽象了图书馆,也让图书馆显露出它的信息本质,即信息中介。本文的图书馆数据分类,实质上是在数据分析工具和数据分析手段日新月异的当代,来完成图书馆数据化这项古老而新兴的活动,为图书馆各项事业的发展提供效益反馈和数据支撑。
【参考文献】
【1】詹姆斯·格雷克.信息简史[M].北京:人民邮电出版社,2013.
【2】维克托·迈尔-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2015.endprint