基于汇文系统的数据提取与应用研究
2010-10-20孙金娟
孙金娟
(常熟理工学院 图书馆,江苏 常熟 215500)
基于汇文系统的数据提取与应用研究
孙金娟
(常熟理工学院 图书馆,江苏 常熟 215500)
自动化系统固化的统计模块功能已不能满足图书馆个性化的数据资源需求,为了解决这一问题,本文提出了数据提取的概念。数据提取有别于数据挖掘,是利用数据库技术,从大量的实际应用数据中提取隐含的、潜在有用信息的过程,更侧重于数据的收集,目的在于简化图书馆的工作程序,提高工作效率,满足图书馆的个性化需求。
数据提取;汇文系统;自动化系统;图书馆资源
自动化管理系统在图书馆的广泛应用促进了数据量的飞速增长,经过长年累月的运行,数据库忠实地记录了图书馆的各种运行信息。图书馆界对数据资源的关注从未间断,近年来更是引入了数据挖掘技术,研究成果斐然,但其重点大都集中在为图书馆运行状态的评估和管理决策提供支持信息,以及提高图书馆对读者的个性化服务水平上。事实上,自动化系统提供的准确、系统、全面的数据资源并未惠及图书馆普通工作人员,对大多数人来说,自动化系统的功能只是把日常工作从手工操作转换成了计算机操作,并未见有更多助益。
笔者兼任常熟理工学院图书馆系统管理员多年,见证了数据库容量与日俱增,每次整理数据都有“入宝山而空手回”的感慨和遗憾。为在数据挖掘方面做一些事情,笔者多次与图书馆一线工作人员交流和反馈,利用Access数据库和ODBC技术,对数据资源的提取和应用有了一些自己的体会。
一、“数据提取”的概念分析
本文中提到的 “数据提取”有别于目前炙手可热的“数据挖掘”。数据挖掘技术是一门交叉学科,它把人们对数据的应用从低层次的简单查询提升到对数据进行更高层次的提炼和分析,[1]涉及数据库技术、人工智能技术等多门学科。分析该定义,数据挖掘强调的是对数据的更高层次的提炼和分析,目标定位在为战略决策和知识管理提供信息支持。就图书馆普通工作人员而言,数据挖掘技术是高深而遥远的,归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法和可视化技术等数据挖掘的方法和技术让人望而生畏。[2]而“数据提取”是利用数据库技术,从大量的实际应用数据中提取隐含的、潜在有用信息的过程,更侧重于数据的收集,目的在于简化图书馆的工作程序,提高工作效率。
二、基于汇文系统的数据提取
1.系统情况介绍
汇文文献信息服务系统(libsys,下文简称“汇文系统”)是基于大型图书馆管理模式,以江苏省高校文献保障服务系统(JALIS)为宗旨,面向网络化、标准化、数字化和区域化的图书馆自动化管理系统。截止到2008年底,国内400多家知名高校和公共图书馆选用该系统,其中包括教育部公布的39所 “985工程”高校中的11所,112所211高校中的41所大学,[3]成为单个系统占有量之最。
汇文系统基于Windows Server、Unix操作系统,以先进的大型关系型数据库Oracle数据库为支撑,包括采访、编目、典藏、流通、期刊、统计、系统管理等业务处理和管理功能,覆盖图书馆现阶段所有的工作范围。系统统计模块提供5大项42小项统计,其中流通17项,采访11项,编目2项,典藏7项,期刊5项,可谓功能强大。同大多数自动化管理系统的统计模块一样,该模块是采用列举法进行设计和实现的。尽管某些统计项目采用了参数化设计和实现的技术,但仍未脱离列举法的框架,因此,其统计内容和报表格式基本是不变的。由于各个图书馆管理水平和关注内容在不同时期会有所变化,这种不变性造成了图书馆所关注的内容无法统计,而不关注的统计项大量浪费。[4]数据提取技术可以弥补这一缺憾,根据图书馆的实际需求从数据库中提取相关统计信息。
2.工具的选择
Access是一个小型的开放式数据库管理系统,通过ODBC(开放式数据库互连)能与其他数据库(例如SQL Server,Oracle、Sybase、Visual FoxPro 等)相连,实现数据交换与共享。[5]在本文中,笔者正是使用Access和ODBC实现数据提取。
我校的汇文系统采用Oracle9I数据库,基于安全考虑,数据提取严禁在服务器上直接操作。我馆采用的方法是在客户端上建立ODBC数据源,以Access数据库为载体,把汇文Oracle数据库的用户表链接(或导入)到本机上,然后再操作。需要注意的是,操作必须是在图书馆网络范围内、装有Oracle客户端并配置好服务命名的工作机上进行。
3.汇文数据库常用用户表介绍
配置好ODBC数据源后,新建一个Access数据库(命名为library),打开数据库library,把获取查重数据所需要的用户表链接(或导入)过来。在操作过程中,系统会提示输入Oracle数据库服务器名、用户名和密码。如果是链接表,那么每次操作用户表时都会要求输入相关账号信息,是对Oracle数据库的直接操作,存在一定风险,不建议使用。稳妥的做法是把用户表导入数据库library,再对用户表操作就单纯是对本机数据的调用,不再需要输入账户信息,安全性高,缺点就是导入速度稍慢,而且数据每有更新就需重新导入一次。
汇文系统使用的Oracle数据库十分庞大,仅以libsys开头的用户表就有200多个。好在我们需要的数据大部分集中在以下常用表中,见表1。
表1 汇文数据库常用用户表
这24个表基本囊括了图书馆业务流程除阅览模块的所有数据,其中MARC_REC_NO为所有表之间的对应关键字,可以通过Access查询的方法进行对应链接,实现数据提取的目的。Access数据库的操作十分简单,在此不再赘述。
三、应用案例
在实际工作中,具体哪些数据是我们需要而统计模块不能提供的呢?这些数据对我们的工作能起到怎样的促进作用呢?本文拟用以下几个案例进行分析。
1.现场采购查重数据的获取
由于脱离了图书馆的自动化系统,现场采购的查重工作一直是困扰图书馆界的难题。一般来讲,现场采购查重工作要实现的目标就是快速反映本馆藏书信息,具体有以下几点:
(1)判断手里文献是否为非重复的。由于现在图书的初次查重都是基于ISBN号的简单查重,ISBN号相同的就认为是重复图书,不同的就认为是非重复的。但是因为丛书、版本、多卷书等因素的存在,都会导致异书同号的现象存在。因此有必要进行详细字段的查重,需要的信息为:ISBN号,书名,作者,出版社,出版日期,价格,丛书项,版次。
(2)手里的文献如果重复,是否需要追加采购。一般来讲,图书馆采访时都会对馆藏图书复本量小的和流通量大的进行追加采购,我馆还根据我校的情况,对全部借出的图书(即全部不在馆)进行有选择的追加。需要的信息为:馆藏量,总的流通量,在馆是否为0。
(3)手里的文献是否已经在书目圈订时订购,如果订购,是在哪个书商处订购以及订购的其他详细信息。需要的信息为:是否订购,书商名称,订购时间,订购批次,订购量。有了这些信息,采购人员可以根据经验,比较方便地判断出哪些图书是不需要现场采购的,哪些图书是书商难以配齐需要采购的,哪些是需要适量补充复本的。
总结一下,现场采购查重的数据需求是:ISBN号,书名,作者,出版社,出版日期,价格,丛书项,版次,馆藏量,总的流通量,在馆是否为0,是否订购,书商名称,订购时间,订购批次,订购量,共16个字段。汇文系统的统计模块虽然提供了强大的统计功能,但是我们尴尬地发现,这些统计项目只是提供了一个固化的统计报表,并没有提供字段导出的功能。即便是把所需的这些数据全部统计出来,数据的整合也是一项不小的工程。现场采购查重所需16个字段中除前8个字段可以直接通过系统管理模块的“MARC导出程序”导出外,其他8个字段直接从数据库中提取更为方便,具体涉及LIBSYS_CALLNOCHILD,LIBSYS_MARC,LIBSYS_INDI_ACCT,LIBSYS_ITEMCHILD,LIBSYS_ITEM,LIBSYS_ORDER_RECORD,LIBSYS_MARC_IDX等用户表。
2.轻松制作随书光盘清单
随书光盘借阅一直是图书馆流通工作的一大难点,排架和检索工作量大,借出的光盘容易损毁。为了解决这一问题,很多图书馆都建立了非书资源系统,把包括随书光盘在内的多媒体资料录入数据库,供读者检索下载。以本馆为例,其加工流程是采编部把随书光盘随书著录,然后附清单转交数字化部,数字化部清点无误后把清单转交数据加工商,由加工商在其总库中检索并把匹配到的数据返还图书馆,未匹配到的数据再手工录入。这一流程中,“随书光盘清单”扮演着重要角色,但汇文系统并没有提供随书光盘数据的导出功能,手工录入不仅工作量繁重(本馆2009年采购新书8万余册,随书光盘计8900张)而且容易出错。数据提取可以轻松解决这一问题,从表LIBSYS_INDI_ACCT和LIBSYS_MARC中导出随书光盘数据,包括书名、作者、ISBN号、光盘数量等信息,每次操作只需要几分钟时间。
表2 随书光盘数据
四、结语
庞大的汇文系统数据库就像阿里巴巴宝藏一样,只要找到了“芝麻开门”的密码,就有不断的惊喜等着我们去挖掘。基于汇文系统的数据提取也绝不仅仅限于应用在现场采购查重和随书光盘数据获取上,如总流通量为零的数据可以为书库剔旧提供数据支撑等。本文谨以此抛砖引玉,大家共同探索,进一步提高图书馆的工作效率。
[1]陆觉民,郑宇.基于矩阵的数据挖掘技术在数字化图书馆中的应用[J].现代情报,2007(12):92.
[2]张玉峰,艾丹祥,王翠波.智能信息系统[M].武汉:武汉大学出版社,2008:248-249.
[3]http://www.libsys.com.cn/about.php[EB/OL].2010-4-7.
[4]赵立宏,吴学毅.基于图书馆自动化系统的自定义统计分析技术研究[J].情报杂志,2006(3):35.
[5]郭力平,雷东升,高涵编著.数据库技术与应用 Access 2003篇(第2版)[M].北京:人民邮电出版社,2008,10.
(编辑:隗爽)
G250.7
A
1673-8454(2010)21-0079-03