基于UML的图书馆自建特色数据库的探索
2009-07-14刘毅力
刘毅力
〔摘 要〕用UML取代传统方法,本文对高校图书馆的数据库进行分析和建模,并探讨如何利用馆藏文献筹建相应的通用型、标准化的图书馆的特色数据库。
〔关键词〕UML;自建数据库;数字图书馆
〔中图分类号〕G250.74 〔文献标识码〕A 〔文章编号〕1008-0821(2009)02-0112-02
Research of the Self-building Characterized Library Database Based on UMLLiu Yili
(Library,Jilin Architectural Engineering College,Changchun 130021,China)
〔Abstract〕Based on UML,this article made an analysis and modeling of the database of the higher educational libraries,and illustrated how to build the standard characterized database with the documents of the library.
〔Key words〕UML;self-building characterized library database;digital library
现代图书馆已进入数字图书馆阶段,数字图书馆的第一基本特征就是信息的数字化,各个图书馆都在努力研究数字图书馆的技术,而特色化建设可以满足读者的专业需求,提高图书馆的竞争力和知名度。每个图书馆都有自己的特色藏书,这些极具针对性、专业性、特色性的文献信息,由于时间跨度大、收藏范围广,所以具有一定的权威性。如果进行有效的开发利用,就可能成为某一学科、专业或专题的“资料库”。因此积极开展特色数据库的建设已成为各高校图书馆文献资源建设的重要内容。
自建数据库不是简单的互联网上的图书馆主页,而是一整套面向对象的、分布式的、平台无关的数字化资源的集合,其实质是形成有序的信息空间。主要有信息的获取与创建、访问与查询、动态发布管理等几个方面。
1 系统的建模分析
高校图书馆有必要将各馆积累多年的成系统的特色馆藏图书进行数字化建库工作。图书馆自建特色数据库在实现的过程中,逐渐形成了如下工作流程:(1)数据提交:将搜集的稿件或学生提交的电子表单,简要加工记录。(2)审核:根据专题分类,对提交的数据进行审校。(3)标引:将审核后的文档标准化,进行标引加工。(4)数据发布:把整理好的数据放到各个专题数据库中进行发布。
分析评价本系统的需求,充分考虑图书馆的实用性,用统一建模语言UML来对图书馆的自建数据库进行建模分析。UML(Unified Modeling Language)是一种定义良好、易于表达、功能强大且普遍的建模语言。它溶入了软件工程领域的新思想和新技术,它是进行需求分析和概要设计的利器[1]。通过建模,可以使不同人员从不同层面了解一个复杂的软件系统,并且随着模型驱动构架的日渐成熟,将模型直接转化为软件产品。
在此基础上,建立系统的用例图,以便清楚、准确的表达系统的功能需求,对未来系统的行为建立模型。Visio提供了一个UML构造块的图形化模板元素的综合建模平台,可以帮助我们把各种UML元素组织成模型,并且还可以从模型出发,直接产生框架代码[2]。目前,只有Visio和Together支持将UML模型直接转换为代码。
下面给出利用Visio 2002进行系统的UML可视化建模。系统的用例图如图1、2所示:
2 数据的存储方案
图书馆的自建数据库是一个庞大的数字资料库,应该力求把传统介质的资料数字化,以方便对信息资料的保存和网上发布。图书馆的资料一般有书刊、报刊、手搞、图片和影像等,一些珍贵或专业的资料是纸质文献,这就需要把这些资料回溯建库,转化为计算机读取的数字化资料。
图书馆特色数据库采用的数字信息资源系统,是具有高度组织的、超大规模的资源库群,是经过加工整理后形成的增值的、有序的知识中心,对信息资源的组织是非常重要的。我们都很熟悉的例子是过去图书馆中的图书分类卡片,每张分类卡片本身就是一个信息资源,它提供了相关书籍的信息。而寻找信息的有效方法,不是查找信息资源本身,而是查找小得多的、更集中的、能够引导找到有用信息源的数据集,元数据就是实现了这样的功能。元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具。元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。
因此,在数据加工阶段采用XML(Extensible Markup Language)技术对资源内容进行置标,是实现高效跨库检索的重要基础,充分利用元数据,可以完善由多个异构系统构成的协同计算环境的管理[3]。RDF(Framework for Describing Resources)的含义就是描述资源的框架,它采用的是另外一种方法,即它允许任何人定义元数据来描述特定的资源,由于资源的属性不止一种,因此实际上一般是定义一个元数据集,这在RDF中被称为词汇集,词汇集也是一种资源,可以用URI来惟一标识,这样,在用RDF描述资源的时候,可以使用各种词汇集,只要用URI指明它们即可。当然,各种词汇集的受欢迎程度可能不同,有的也许只是被定义它的人使用,有的却由于其定义的科学性为许多人所接受,如以类似图书馆卡片目录的方式来定义资源的词汇集Dublin Core,定义教育内容IMS元数据,定义个人信息的V-card元数据等。
本系统参照了目前国际上广泛认同的书目描述元数据标准Dublin Core[4],确定了数字图书馆自建数据库系统元数据的XML格式,设计了多种对应于不同资源类型的元数据方法并存,并以XML的RDF资源描述体系框架将它们封装在一起。这样,既保证了针对不同资源类型描述的元数据要求,也充分利用了图书馆原有的元数据资源(主要为CNMARC记录),使得元数据之间的转换与整合更为容易实现,也为未来向新的体系与标准迁移提供了便利。
3 系统的开发与实现
本系统采用B/S(Browser/Server)和C/S(Client/Server)相结合的结构方式。本系统包含用户数据提交和信息员数据采集装载两部分内容,其中用户数据提交和检索下载在Web环境下运行,采用B/S模式,图书馆的信息加工员对数据进行采集、装载和管理员完成管理工作采用C/S模式。采用经过扩展的三层Web体系结构,建立三层客户/服务器逻辑结构,保证了数据的完整性和安全性。在我们的三层结构中,图书馆服务器在系统的结构中处于核心位置,提供对数字对象的安全访问并且与各对象服务器进行通信。索引信息位于图书馆服务器中,而原始的文献资源存放于各个对象服务器中。数据库管理在后台进行,提交部分采用浏览器模式,文档的加工及转换由于和应用程序相关性很强,不便用浏览器模式,一般由管理员完成,采用专门的用户管理界面。其它应用工具主要包括文档格式转换器、中图分类法查询模块、数据库查询工具等等。
在我们的系统中,实现了一个统一的基于浏览器Web界面的元数据、检索和发布界面,对分布在异地的多个数据源的数据进行不分来源的实现[5]。就是分布更新、统一索引,利用统一的元数据库和统一的全文索引库实现统一的检索。在此,数字图书馆服务器承担了主要任务,它统一管理和维护我们的元数据库、全文索引库,保证把每个后台节点的数据变化都能及时的反映到统一的元数据库和全文索引库中。数据库的信息和数据需要通过互联网发布,这里的发布不仅仅是一些静态网页的发布,更重要的是能为各种用户提供个性化的信息服务。如:快速、准确的返回动态的查询结果;通过跟踪用户在页面上的点击规律,发现用户对哪些信息感兴趣。
开发数字图书馆这样一个具有一定规模和复杂性的软件系统是一项工程,必须按工程学的方法加以组织,并经过分析、设计、实现、测试、维护等一系列的软件生命周期阶段。提供基于元数据的数据提取与录入、在线编辑与检索、与关系数据库的数据集成处理等功能,系统中所有资源的元数据都是基于XML来进行存储和管理的,成功实现为进一步开发实现实用的数字图书馆系统积累了一定的经验。
参考文献
[1]Joseph Schmuller.UML基础、案例与应用[M].北京:人民邮电出版社,2004.8.
[2]刘晓华.UML基础及Visio建模[M].北京:电子工业出版社,2004.10.
[3]郭景峰,陈玲灵.基于XML的数字图书馆技术体系结构研究[J].计算机科学,2002:82-83.
[4]赵慧勤.网络信息资源组织——DublinCore元数据[J].情报科学,2001.4:439-442.
[5]Jim Conallen.用UML构建Web应用[M].北京:中国电力出版社,2003.11.