APP下载

走向挑战 走向新生

2009-02-25张晓林

大学图书馆学报 2009年1期
关键词:书目开源软件

张晓林

摘要介绍了在魁北克城召开的国际图联第74届大会上就开源软件与学术图书馆未来、书目数据的开放与共享、新环境新视角下的元数据、物理数字对象保存、数字资源长期保存基础结构、著作权限制与例外等方面的讨论。

关键词国际图联开源软件书目数据共享元数据物理数字对象数字资源长期保存用户权利著作权限制与例外

国际图联第74届年会于2008年8月10日—14日在加拿大魁北克城召开,全球3000余名代表参加了大会。从专业的角度看,国际图联年会最核心的部分是分组学术会议,多达75场,有的以学术报告为主,有的以开放讨论为主,有的则是专家讨论形式。我根据自己工作和研究的需要,选择参加了多个会议,下面就其中五个会议的热点问题进行介绍(其他内容可到会议网站上查阅。

1开源软件与学术图书馆的未来

学术与研究图书馆专业组的“学术与研究图书馆热点问题”研讨会,采取了开放讨论形式,事先列出十多个热点问题,每个问题设置一个讨论桌,参会代表选择加入到讨论桌。我选择的是“Open Sourceand the Future of Academic Libraries”(开源软件与学术图书馆的未来)。

这个问题的起源,一方面是图书馆自动化系统产品和公司正不断合并和被收购,例如sirsi和Dv—nix的合并为SirsiDynix,涉及到Unicorn和Horizon两个系统,Ex Libris和Endeavor的合并为新的ExLibfs集团,而它们又分别被私人风险投资基金收购,这种趋势可能导致图书馆自动化系统市场竞争者越来越少、日益被商业投资公司控制,进而使整个市场的技术进步、产品开发和竞争性受到极少数垄断者的限制。另一方面是现在的图书馆自动化系统基本上还是按照传统图书馆藏书管理模式开发,已经远远不能适应网络环境下多元资源类型、多元组织方式和多元利用模式下新型图书馆服务的需要(而且这些需要还在不断变化),可能需要通过开源软件的开放视野、开放研发模式和开放系统结构来发展图书馆自动化系统。从这两个背景出发,图书馆需要主动参与到(甚至组织)图书馆自动化系统软件、尤其是开源软件的开发中,例如最近美国梅隆基金会资助、杜克大学图书馆牵头、全球近10个图书馆参加,一起提出下一代开源软件的图书馆自动化系统的设计要求。其实,多数图书馆已经在很多方面(例如系统软件、网络服务器软件、机构知识仓储系统软件等)都很习惯采用、甚至依赖诸如A,pache的开源软件,有些图书馆还把首选开源软件作为自己的系统开发政策。但要有效利用开源软件,往往需要图书馆具备必要的持续的技术力量,对于一般图书馆将是个很大的挑战,但通过联合开发、建立开发者社区、与有关开源软件支持公司合作等方式,可以减轻利用和长期维护开源软件系统的负担,就像Sakai的发展一样。而且,已经有多种开源图书馆系统(例如Greenstone,Evergreen,Koha,PhpMylibrary,Emilda,OpenBiblio,iVia,NewGenLib等)和开源仓储系统(例如DSpaee、ePrint、Fedora等)存在,其功能与性能都相当不错,而且往往有开发者社区或专门非赢利团体支持其持续发展。实际上,图书馆还可以进一步采用开放的思路,不把自己看成是一个封闭和特殊的系统,而从广义资源管,理系统和广义信息服务系统的角度来重新认识自己,这样就可充分利用开源的内容管理系统,甚至一般的商业化资源规划与管理系统,例如霍普金斯大学图书馆提到它正积极考虑利用诸如SAP这样的系统来支持日益复杂的信息资源及其服务的管理。我也提出,因为图书馆将与e-science、e-learn—ing、数字档案馆、数字博物馆、数字出版与传播等领域日益融汇,应该积极推进Open integration和OpenMach-up战略,充分利用这些领域的大量的开源工具,通过开放的对象描述与封装、开放接口、开放的服务与流程描述等,支持与任何领域的任意资源与服务进行动态聚合,支持个性化和动态的用户信息体验。事实上,“开源”不仅是个软件问题,还包括要采取开放模式进行软件开发,积极吸引用户参与到需求分析和开发过程,而且不再试图去独立地建设一个完整的系统,而是依赖用户与专家社区,开发可以不断发展的、可以不断与其他信息资源、信息系统和信息服务过程互操作的系统。这还与图书馆服务本身的开发模式相关,这是当今开放的信息环境的必然要求和强大能力所在。依靠开源思想,我们不但能够打破系统商并购所带来的挑战,还能够“从容应对”环境复杂化所带来的系统复杂化挑战。

2物理数字对象保存和长期保存基础结构

保存与保护专业组与信息技术专业组等联合举行的分组会议,专门讨论了物理数字对象长期保存和长期保存基础结构(Digital Objects on Physical Carries and Digital Preservation Infrastructure)。

所谓物理数字对象,主要指以各种软盘、CD—ROM、DVD为载体的出版物,这些出版物的内容都是数字化的,有些是文本形式,但多数是多媒体形态。从上世纪90年代起,各类图书馆(尤其是高校和公共图书馆)采购了大量的这类出版物,但随着载体变化、技术换代、设备更新、人员替换等,我们很可能已经不知道这些媒介是什么(有多少人知道什么是"HyperCard”?),可能对这些媒介上的内容知之更少,从而谈不上利用它们。因此,如何保护这类资源就成为一个严峻的挑战。来自美国纽约大学的Mo—na Jimenez和英国大英图书馆的Rory Me[cod分别对这类物理数字对象的状况和风险进行了调查和分析,指出它们可能遭受物理介质损坏、使用技术过时、内容格式过时、硬件设备损坏等风险,而且图书馆书目系统中往往缺乏这些出版物的著录数据,即使有著录数据,多数很少描述相应的技术信息(包括技术平台及其生产厂家和文件格式等信息)。因此,那些收藏有较多这类出版物的图书馆应该首先进行风险评估,清楚掌握这些物理数字对象是什么、有什么内容、需要什么样的软件硬件来使用它们、在长期持续使用上面临什么样的危险,并建立相应的策略和技术过程来保护这些出版物上的内容(例如大英图书馆将这些媒介上的数字内容映射到联机存储系统上)。来自澳大利亚国家图书馆的ColinWebb特别介绍了该馆保存物理数字对象的业务流程。该馆从2003年起就开始将物理数字对象转移到基于海量存储的内容数据库上,但为了提高转移效率,开发了MediaPedia系统,全面管理关于各种媒介类型、各种数据格式、各种利用系统的信息,在它的支持下,通过一个计算机辅助的流程,把物理数字对象镜像到海量内容数据库中,并自动加

载数字签名、进行METS封装、把著录信息加载到图书馆书目系统之中。来自英国Glasgow大学的DaisyAbboa通过一系列实例(包括音频磁盘、多媒体CD、网站内容拷贝CD等),发现物理数字对象存在复杂的内容结构,包括简单文件对象,也包括含有多个独立文件的复合对象、含有多个相互关联文件的复合对象、含有多个复杂文件的复合对象、含有多个独立对象的群组对象以及含有多个相互关联对象的群组对象。这些对象可能包含陈旧的文件格式,往往隐含内部复杂的文件关系,经常需要专门的浏览软件(这些软件又可能没有和内容捆绑在一起一而装载这些软件的原来的浏览系统可能还不知所踪)和额外的网络或数据库软件才能使用,相关的技术说明却无从寻觅。人们虽然可以根据文件扩展名,利用像WWW.filext.com这样的网站和类似新西兰国家图书馆文件元数据抽取工具查询文件格式,如果多个物理载体之间存在着内容关联,如果浏览系统使用专门的用户控制系统,如果物理数字对象依赖额外的软件或数据才能使用等等,没有相应的技术说明,就可能陷入一筹莫展的地步。

数字资源长期保存分组会议的第二个内容是长期保存体系结构,来自美国加州大学CDL(California Di6tal Library)的Margaret Low首先回顾了CDL公共框架(CDL Common Framework)的基本原则,在SOA结构下,实现功能模块独立、存储系统与其他保存流程相互独立、所有存储系统共享底层编码、采用分布系统来支持可伸缩性。在此基础上,CDL提出了针对机构仓储型的基本保存模式、针对网络资源存档的复杂模式和针对复杂应用环境的柔性伸缩结构,争取得到更大的灵活性和系统能力(through—put)。来自德国国家图书馆(DNB)的ReinhardAltenhsner介绍了德国的KOPAL项目,在德国联邦教育研究部支持下,DNB和哥廷根大学图书馆在DIAS系统基础上合作开发了koLibRi数据摄入模块和检索模块,并在若干核心图书馆建立彼此分工合作的核心保存系统,其他机构可以通过一定机制获得DIAS/koLibRi软件建立自己的保存系统,也可委托核心图书馆保存自己的数据。当然,为了促进保存系统软件及其服务能被广泛采用,合作系统必须在服务定义、资源选择规则、资源完整性真实性检验规则、保存工作流程、服务界面、合作责任与义务等方面达成协议。法国国家图书馆(BnF)的代表介绍了他们的SPAR长期保存系统建设计划,将把数字化扫描数据、网络存档资源、出版商提交数据、自动收集的出版商数据、第三方系统提交数据和来自数字内容管理系统的数据等不同渠道的内容在统一系统下摄入和保存。为此,提出了Set/Group/Ob。jeet/File的基本内容结构,将利用一系列标准来组织被保存资源,例如MIX(静止图像)、TextMD(文本文件)、PREMIS(起源元数据)、DC(描述元数据)、METS(数据封装)等,并利用PAlMASt作为与资源提供者谈判的基础。来自加拿大国家图书馆与档案馆(LAC)的Pam Armstrong介绍了他们开发的Virtu,al Loading Desk,作为一个摄入界面,支持对多种来源渠道的数据进行摄入处理,现在已经与加拿大政府的RecoMs,Documents and Information Manage。merit System相连,可直接接收各类数据。今后,LAC还将与加拿大出版商谈判建立接收数据的通道。来自新西兰国家图书馆(NLNZ)的steve Knight介绍了NLNZ的NationalDigitalHeritageArchive项目,在新西兰数字战略的指导下,提高数字资源长期保存的机构准备度,进行相应的能力建设,建立长期保存性能与效率的度量指标,建立资源创建者与提供者管理机制,建立流畅的运营流程,并将长期保存有机纳入整个图书馆系统之中。他特别强调了随着数字资源长期保存而出现的Business Change,图书馆今后的数字战略将围绕内容资源(不是目录资源)来进行,这些内容资源才是图书馆的核心。来自美国Drexel大学的Andrea Japzon介绍了图书馆如何为个人数字资源(例如我们个人的文件、数字照片、数字音像资源等)建立可公共使用的数字保存系统,分析了可能的版权、隐私、公共信任度、系统结构支持度等问题。

3书目数据的开放和共享

“图书馆与Web 2.0”讨论组举行了一场关于开放和共享著录数据的讨论,来自OCLC、美国国会图书馆、卢森堡国家图书馆和SirsiDynix公司的有关代表作为Panel experts参与了讨论。今年,OpenKnowledge Foundation针对美国国会图书馆2007《书目控制的未来》报告,指出这个报告令人遗憾地几乎完全没有谈到书目数据的开放获取,要求美国国会图书馆推动书目数据的开放获取。这次讨论就以此为起点,会议主持者首先放映了一个视频短片“Free the data”,指出Wikepedia、Google Books、Wiki-source、LibraryThing、Amazon、OpenLibrary等都能提供丰富的书目及相关数据,而作为提出OpenAccess的积极推动者、并积极支持开放数据和开源软件的图书馆,应该参照开放数据的八项原则,也把自己的书目数据解放出来,使得图书馆目录变成开放资源。来自OCLC的Karen Calhotm针对这个要求,提出了有限制的开放的概念,她通过对Wikepedia、Sherpa/RoMEO、Amazon、ProQuest?AllMeSa Guide和Twitter等的分析,认为实际上没有完全免费的开放数据,几乎每个系统都有一定的限制条件,而且经济来源性质可能决定各个系统的数据共享政策。她说,其实OCLC的成员图书馆可以任意使用自己本馆在OCLC的数据,不过不能用于商业化的服务。美国国会图书馆的代表表示,它的书目数据在网络上是免费检索和单条下载,但批量数据仍然收费,主要是传输数据的成本费用,且用于支持对接收用户的服务;它可以免费提供批量数据,但就难以提供相关的服务。

SirsiDynix公司的代表指出,实际上图书馆存在着一种“元数据思维定势”(Metadata mind-set),把书目数据看得过于重要,当成自己不可或缺和用户须臾不离的基础。其实,随着数字全文内容的逐渐普及和网络化数字挖掘与关联能力的日益提高,真正有意义的将不再是元数据本身,而是关于用户行为(例如用户标记一User tagging、用户群体过滤—Col—laborafive filtering等)、用户过程(用户的教育、研究与管理工作流)和内容关联(通过引用、链接、逻辑

语义等方式形成的内容间关系)的组织机制。如果说文献本身属于第一层次的内容组织机制(First or—der of content order),书目数据则是第二层次,而关于用户行为与内容管理的信息则是第三层次(Thirdorder of content order)。利用第三层次,可以推演和归纳出新的组织机制和新的内容,避免仅仅依靠书目系统去硬性组织。与会专家和参会代表对此进行了热烈讨论。其实,类似Wikepedia和Amazon以及LibraryThing等都积极挖掘各类内容关联信息,并记载、组织和利用用户行为与用户过程信息来灵活地组织、预测和引导信息获取。所以,不应孤立地看待书目数据,而要从用户本身工作流的角度,考虑如何把书目数据和其他内容(例如文献全文,与文献相关的借阅或购买信息,与内容有关的地点或事件或人物或数据或工具或新闻等信息,以及相关文献、相关评论、合作作者等)关联起来,而且在这个过程中充分考虑利用第三方数据资源一而不是自己重新做所有的事情。要做到这点,根本的是要突破图书馆长期依赖的书目范式(Bibliographic paradigm),这个范式实际上仍然把图书馆看成一种物体或对象(0b—jects)的存储系统(尽管“物体”可能已经是数字化的),对于这个存储系统来说,最重要的过程仍然是对物体进行采集(虚拟或物理的)、组织和检索获取的过程,最重要的工具仍然是著录系统,最习惯的思维和做法是遇到任何信息需求都先考虑自己如何采集、描述、检索和提供相应的内容对象,导致“无法采购就无法服务”、“无法编目就无法服务”。这种以“采购和编目”为核心的传统模式已经受到强烈冲击,而且限制了图书馆本来可以开拓的领域。图书馆书目系统本来可以作为一种可广泛连接各种内容、灵活激发各类服务、丰富地融汇用户活动和用户社区的开放平台,但我们没做,结果LibraryThing等就做了,而且Google通过利用我们的书目系统、再连接其他系统就形成了用户趋之若鹜的新的服务平台。实际上,如果我们打破图书馆作为一种存储库和依靠复杂系统进行著录控制的模式,利用信息网络广泛连接各类资源和信息技术深度挖掘相应的关联与行为与过程信息的能力,我们有可能创造出真正以服务为核心的新的模式。考察Amazon和Wikepedia等系统,就可以看出它们并不局限于某种过程或工具,而是不断地根据用户服务的要求而扩展自己的内容和功能,而且在扩展过程中大量地利用其他系统的资源和服务,使得它们充满了活力。人们进一步讨论到,我们需要重新认识图书馆的根本任务(The business of libraries)和图书馆的实质产出(The products of libraries),不再死抱着自己的数据,而是从建设馆藏和维护书目数据中跳出来,从图书馆作为一个地点发展到任何地点都变成图书馆(Karen Calhoun:From libraries as places to places as libraries),把图书馆推送到用户环境和用户过程;从简单的检索数据到开放的共享和关联数据,不要在用户研究、学习和生活的过程中竖立一个个的数据关口,而是致力于流畅的用户体验和效果。

4从新的视角认识和利用元数据

OCLC在这次会议上组织了一个专门的讨论会“The New World of Metadata”,由OCLC总裁Jay Jor-don和负责WorldCat的副总裁Karen Calhoun介绍OCLC的新战略思考,吸引了爆满的听众。Jay Jor-don首先回顾了OCLC最近几年有关研究报告中揭示的用户行为变化,多数用户首先通过搜索引擎检索学术信息,多数用户信赖从搜索引擎获得信息,多数用户非常关心能否获得检索到的信息,许多用户经常使用和很依赖新的Web 2.0应用。因此,OCLC以及图书馆的生存与发展空间已经不再是简单的图书馆本身,而是包括Web 2.0和整个信息产业的新环境,是包括从Discover到Dehver的整个服务链。OCLC以及图书馆应该从这个认识出发,形成自己的网络空间(包括Web 2.0空间)服务模式,迅速扩大自己在网络空间的渗透度、显现度、相关度和可关联性,成为适应现代和未来用户的服务环境的有机组成部分。为此,OCLC提出了Maximize uptake(最大化参与度)、Increase efficiency(提高效率)、Moveto the network(转移到网络空间)、Build Web-scale(建立规模化网络服务)和Create local value(开发本地化价值)等五个战略。它积极开展与Google的进一步合作,包括从WorldCat连接Google Books的电子图书;推出WoddCat Local系统,把WorldCat与机构的OPAC和其他资源与系统有机连接起来;开发WoddCat API,建立WorldCat的开发者社区,支持成员机构开发能深度利用WorldCat的新工具和新服务;收购EZProxy来探索远程用户认证服务;支持与出版界的合作,支持数字资源长期保存服务,与大英图书馆合作来支持期刊文章层次的著录记录以及服务;进而,推动图书馆间的合作,推动图书馆与档案馆、博物馆等的合作,创造一个与互联网规模相适应的Web-scale的图书馆合作体,同时逐步将OCLC的WorldCat变成一种开放的服务平台,支持全世界图书馆和其他系统利用它来扩展新的用户服务。

Karen Calhoun作为《书目控制的未来》报告的作者,在会上做了New World of Metadata的报告。她首先举例分析了eBay、Wikepedia、HousingMaps,corn等系统上的元数据,发现这些系统提供了非常丰富的包括内容、使用、评价、关联、后续利用等各方面的元数据。而且这些元数据可以是用户输入的、自动从内容中或使用统计数据中挖掘的、从第三方系统挖掘或关联的、或者利用词表或用户标注自动生成的。这些“元数据”已经大大不同于图书馆编目规则中的“完整记录”(Full record),意味着元数据本身的概念已变化。实际上,什么是元数据取决于所针对的内容体系、应用场景和应用过程,已经从局限于学术出版资源延伸到任何类型的内容和活动资源,从按照编目规则构建到依靠多种方法形成,从相对独立和固化的目录系统到松散、动态连接的“元数据云”,从依靠单一系统的产生与维护过程到跨越多个系统的复用(reuse)、混用(remix)和集成(inte—gration)过程。在这种环境下,图书馆应该打破孤立的书目系统和严格的“书目控制”的局限,更多地努力于将元数据推送到尽可能多的网络系统和应用环境中,尽可能增加元数据的数字显示度(Digital visi—

猜你喜欢

书目开源软件
推荐书目《初春之城》
禅宗软件
五毛钱能买多少头牛
软件对对碰
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0
开源计算机辅助翻译工具研究
谈软件的破解与保护
本刊邮购书目
《全国新书目》2009年1月荐书榜