APP下载

以数据库视角浅析图书馆数据化

2018-11-09徐勇

科技视界 2018年18期
关键词:数据表流通馆藏

徐勇

【摘 要】图书馆数据化是一门古老而新兴的事业,用现代的数据分析方法分析图书馆的数据,是让图书馆事业焕发新活力的有效途径。基于此,本文试图说明图书馆数据化的方式和方法,助力图书馆事业的发展。

【关键词】图书馆;数据库;数据化

中图分类号: G250.7 文献标识码: A 文章编号: 2095-2457(2018)18-0071-002

DOI:10.19694/j.cnki.issn2095-2457.2018.18.031

【Abstract】Library datamation is an ancient and emerging enterprise,Using modern data analysis method to analyze library data is effective way to make library cause new vitality.Based on this,this paper attempts to explain the way and the method of library datamation,boost the development

【Key words】Library; Data base; Digital

0 引言

在21世纪的今天,信息飞速产生和沉淀,数据量呈几何式爆炸增长,各种数据分析和数据管理工具应运而生,对数据进行分析得出非凡的结论,正在逐渐成为新的工作模式。图书馆是读者和信息之间的沟通桥梁,是人类获取信息的重要途径之一。对图书馆的数据进行顺应时代发展的处置,是使图书馆事业焕发活力的新途径。

1 數据化理论

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法这样的捷径,而采用所有数据进行分析处理的方法。在大数据背景下,数据样本=数据总体,即全数据模式。数据化是指一种把现象转变为可制表分析的量化形式的过程,通过数据化,万千事物均可转化为数据形式。通常,数据化包含收集数据、整理数据和存储数据等步骤,数据化一般均以数据分析为目的,最终为工作业务服务。图书馆数据化是将图书馆业务工作以数据表格形式量化的过程。数据分析一般是指用适当的统计方法有目的地收集数据、分析数据,使之成为信息的过程。由此我们得到了数据化的一般闭合流程,即:工作业务-数据化-数据分析-工作业务。如上可知,完成图书馆数据化,是为了用数据分析的方法揭示和分析图书馆业务流程的特点和彼此间的关系,为图书馆事业的发展提供数据支撑。

关系是图书馆工作的重要特征之一,因此图书馆数据化的结果一般用关系型数据库来存储,在这个数据库中,数据按不同类型形成不同的数据表在分析使用中,数据表间用不同的特征值(主键)联络,形成特定的数据链条。详见图表1。

从图表1中可以看出,我们可以把馆藏数据、流通数据和参考咨询数据通过数据链条链接到一起,实现我们自己需要的查询和分析目标。在同一个数据表中存储同类型的数据,在不同的数据表间用相应的字段链接,使整个数据库数据形成一个整体,方便查询使用。

2 图书馆数据

按照图书馆业务流程和数据分析的需要,本文将图书馆数据分为三个大类:馆藏数据、流通数据、统计数据。馆藏数据是文献资源建设成果的最终体现;流通数据反映了文献资源建设的质量;统计数据是除馆藏数据、流通数据之外所有能反映图书馆事业的数据的总称。

2.1 馆藏数据

一般地,图书馆馆藏资源包括图书、期刊、报纸、学位论文、古籍善本、特藏专藏、工具书、年鉴、电子出版物、缩微资料、视听资料等。这些文献资源按照相应的文献著录规则著录后形成馆藏。需要注意到的是,本文中的馆藏数据,并不是指文献著录形成的marc数据,而是数据化馆藏以后形成的表格数据,它的大部分字段和marc数据的内容相同,包括了题名和责任说明、标准号、版本、出版发行、载体形态、丛编、附注、主题分析、索取号等,同时也包含条形码号、记录修改者、记录修改时间等。详见图表2。

在本表中,简单设计了馆藏数据的存储格式,它包括了所有的题名和责任说明项,在数据库中,可以比用marc数据更方便地统计和分析,载体、附注和主题词也是同样的道理。比如主题词有网络经济和通俗读物两个,它们以“;”分隔,用数据库的方法可以将这两个词分离出来,供我们查询使用。这和在常规的图书管理系统中查询关键词是同样的原理。

在文献入藏之前,有一个采访过程,采访是图书馆工作中非常重要的工作流程,它直接决定了文献资源建设的质量。采访数据和馆藏数据在结构和内容上的区别均不大,区别在于采访数据可以用不同的字段做主键建立不同的数据表。一般的采访表是以标准书号作为主键,如以题名为主键,可以建立同名书的采访表;以责任者为主键,可以建立同作者作品库采访表等。详见图表3。

在文献采访过程中,用不同的采访表与馆藏数据表作比较,可以明确重复采购和查缺补缺。因此,建设一个数据完善的、具备不同采访表的采访数据库是非常必要和必须的。同时,采访数据库的建设是一个长期的随时间累积的过程,需要有专门的专业人员负责。

2.2 流通数据

流通工作是图书馆和读者之间沟通的桥梁,流通工作中产生的数据直接反映的文献资源建设的质量。流通数据常用结构见图表4。

一般地,读者表主要包括姓名、性别、读者证号、读者类型、读者单位、借阅量、借阅期限等。在流通数据表中,通常以索取号和读者证号为主要检索途径,它们链接着馆藏文献表和读者表。因为文献在流通过程中,会产生借阅和零借阅。

对于一段时期内的零借阅,原因一般有两点,一是采访过程中没有做好读者需求分析和文献入藏价值分析,造成误购;二是流通过程中没有做好文献流通分析和读者借阅分析,导致阅读推广活动缺乏针对性,没有为好书找到读者。

对于有借阅史的文献来说,文献借阅信息和读者借阅信息是相辅相成、必不可少的。在这里,读者表对应馆藏文献表,馆藏文献表对应文献借阅表,所以分析单本文献、一类文献和所有文献的借阅史和读者表,可以知道文献受欢迎程度和读者分布,如一般地,男性读者偏爱武侠小说而女性读者偏爱言情小说,又如图书馆的文献总是文学类借阅量多而专业类相对较少。所以,借阅数据和馆藏数据的互动,可以为文献副本量的确定和新书荐购、阅读推广等活动提供指导方向。

2.3 统计数据

图书馆是一个生长着的有机体,除去传统的馆藏数据和流通数据,还有许多其他的数据,对图书馆的数据化是有用的。如建筑面积、阅览空间、读者数量、办馆层次、自动化设备等硬件数据,也有自动化软件、科技查新、参考咨询、学科服务、馆际互借、电子资源等软件资源,这些数据关系着图书馆的硬件建设和内涵建设。同时我们注意到,这些数据在數据化过程中的格式是各不相同的,所以要在需求的前提下单独设计相应的数据格式。如下图表5。

图表5是参考咨询数据形成的一个表格,它反映了读者、咨询时间和咨询方向等信息,它可以跟读者表链接,以此说明读者的基本情况。也可以跟馆藏数据表链接,统计和分析在本课题下的文献建设情况等。如上的每一种跟图书馆相关的事物均可以设计相应的数据化表格并做数据收集,但某些数据收集和表格设计工作又是困难的。如读者阅览文献的过程是读者对文献检索挑选的过程,这个过程的数据对于图书馆了解读者动态、把握读者阅读兴趣非常有帮助。但是目前对于读者阅览数据的收集,尽管有先进的门禁系统,但我们仍然无法判断读者经过门禁系统后在图书馆呆了多久、读者进图书馆是借阅文献或者是自由活动等。所以对于某些特定数据的收集,需要我们有更多的思考和办法。将这些特定数据整理起来,形成一个有机的整体,对图书馆各项事业的发展是一种有力的呈现和支撑。

3 结语

本文中的所有数据表格均为简单的截取一条数据,实际上,万千条经过数据化的图书馆数据就这样汇集在一起,形成一个庞大的数据库系统,它们彼此独立又彼此联系,共同构成了图书馆事业发展的数据支撑。

在《信息简史》一文中,作者写到:“万物源于比特”。而图书馆本身就是一个信息的集散中心,数据化是对文献载体和存储空间进行的量化,它一般不涉及文献的具体内容。而数字化是指把模拟数据转换成用0和1表示的二进制码的过程,它恰好处理的是文献的内容。所以图书馆的数据化和数字化优势互补,共同作用使图书馆呈现出它的信息本质,即信息中介。信息的传递性让图书馆数据化有了根本的动力,也是在大数据技术蓬勃发展的今天,让图书馆数据化有了分析和处理的解决之道。

本文是作者在图书馆数据化领域的初步尝试,水平有限,错误难免,权作抛砖引玉,希望有志同道合者与本人沟通,为图书馆事业的发展略尽绵力。

【参考文献】

[1]詹姆斯·格雷克.信息简史[M].北京:人民邮电出版社,2013,7.

[2]维克托·迈尔-舍恩伯格.大数据时代[M].浙江人民出版社,2015,039.

猜你喜欢

数据表流通馆藏
馆藏
博物馆的生存之道:馆藏能否变卖?
圣物的流通——蕃尼古道上的尼泊尔鎏金铜佛流通考察
基于列控工程数据表建立线路拓扑关系的研究
知还印馆藏印选——古印篇
“流通空间”的中西方比较
图表
商贸流通
基于VSL的动态数据表应用研究
The Japanese keiretsu system