汉化Dspaces的运用状况与实践分析
2009-07-14何海地
何海地
〔摘 要〕Dspace软件的运用在中国大陆、台湾和香港呈现出不同的特点,通过对3地目前Dspace本地化的运用和机构典藏的管理进行分析总结,可以对我们进一步开发、推广和运用Dspace提供思路,从而促进机构典藏建设与管理策略制定,为实现开放存取打下基础。
〔关键词〕Dspace;开源软件;本地化;机构典藏
〔中图分类号〕TP393 〔文献标识码〕B 〔文章编号〕1008-0821(2009)02-0126-04
The Application and Practising of Dspace in ChinaHe Haidi
(Zhongshan Institute,University of Electronic Science and Technology in China,Zhongshan 528403,China)
〔Abstract〕Dspace is being used in the Chinese Mainland,Hong Kong and Taiwan.The application of Dspace and the practising of institutional repository present different characteristics in these places.Through analysis of these characteristics,more ideas on further development,promotion and application of Dspace can be obtained,so as to promote the constructive and strategic planning of institutional repository,and to lay a foundation for achieving open access.
〔Key words〕Dspace;opeo-source software;localization;institutional repository
1 机构典藏与Dspace
机构典藏是以数字形式收集、保存和传播某个机构(学术研究机构)的学术产出的在线系统。对于一所大学而言,这些资源包括:研究性刊物上的论文,被同侪所认可的预印(或后印)电子版学术论文和学位论文,还包括一些日常学术活动中产生的数字产品,例如:行政管理文件、课程笔记和教学课件等[1]。
业界普遍认为,机构典藏应是开放且跨平台的,支持OAI(Open Archive Initiative)元数据获取通讯协议,在学术研究上允许开放存取(Open Access)。目前在网络上有许多国外开发的免费或开源软件可作为机构典藏管理软件使用,如:CDSware、Dspace、EPrints、Fedora、Greenstone等。根据Dspace官方网站的统计,Dspace的教育科研机构用户已有253家,成为全球使用最广泛的开源软件。
2 Dspace本地化的运用状况分析
Dspace由麻省理工和惠普公司联合研发,用户遍布全球。目前最新版本为Dspace1.5.1(Beta),提供了6种西文语言包,同过去推出的各种版本一样没有中文语言包,因此,中文用户要使用Dspace需要克服两个障碍,一是要通过阅读各种英文资料去理解其复杂的安装和维护过程;二是要完成界面本地化和功能模块的增减,解决中文字符检索与排序的问题,才能符合中文语言环境的使用要求。笔者以这两点为思路,尝试开展了一系列与Dspace相关的有益探索。
首先收集阅读了有关Dspace的中外文资料并成功安装,通过实际操作找到需要解决的问题;然后,通过网络搜索引擎和国内期刊网中有关Dspace的学术论文,特别是对在中文使用及文献典藏集中的大陆、香港和台湾地区Dspace的运用和管理状况进行分析比较,从而获得有价值的信息资料,安装了合适中文环境的Dspace系统,最终得以开展机构典藏建设的实践。在此,笔者希望将自己摸索和实践的过程与同行分享交流。
2.1 Dspace在中国大陆的运用状况分析
目前在中国大陆可检索到约有7个机构典藏用户在使用Dspace软件。见表1。
成功安装Dspace1.4.2版于Windows2003后,如何将英文界面汉化相对容易学习解决,但其存在的中文检索与排序两个关键问题会影响中文用户的正常使用。
在Dspace英文版中,按照系统提示步骤输入各种元数据能成功上传中文文档,笔者首先根据检索到的资料解决了中文检索的问题,随后笔者发现无论是主题(subject)、作者(author)还是题名(title),Dspace所有中文首字排序均不是按拼音,而是按Unicode编码排列,如果不能解决中文按首字元音排序问题,题名、作者或主题排序这个模块对于中文用户就没有多大意义了。资料显示国内只有“中国科学院力学研究所机构知识库”进行了较为系统的汉化和功能添加,解决了首字元音序排序问题。
在Dspace1.4.2版中有一个问题笔者始终没能解决,点击首页界面左侧栏目中的作者(author)或主题(subject)模块后,相关的文献就会显示出来,如果选择的是中文作者或主题时,一旦继续点击按日期排序或按题名排序,原来选择的中文作者或主题就会变成乱码,该作者或主题下相关的文献就全部无法再显示出来,英文的作者或主题则显示正常,这个现象的出现或消失没有规律可循。根据笔者的观察,目前只有浙江大学图书馆的机构典藏系统完整保留了Dspace的原有界面和功能,且解决了这个问题。笔者也尝试按着有关资料的介绍去解决,在完全安装tomcat6.0.13.后在/conf/server.xml文件中的两处加入URIEncoding=″UTF-8″,仍然不得其法。
多数用户直接删除了作者(author)或主题(subject)这2个模块,从而避开了以上2个问题的出现。因为没有测试最新的Dspace1.5.1(Beta)版,这些问题是否已得到解决笔者尚无法确定。
笔者逐个访问表1中所列的国内机构典藏库后分析还发现,由于国内没有机构主持协调Dspace的开发和推广,从而出现Dspace多次开发的局面,这些Dspace的界面各异,汉化程度不一致,各单位根据需要加以功能增减后,形成了不同的汉化版。其中“中国科学院文献情报中心机构仓储”[2]、中国西部环境与生态科学知识积累平台[3]和“甘青特有少数民族数字资源保存与服务系统”[4]3个机构典藏库建设项目还得到研究基金支持,可惜没有资料显示这些汉化后的软件再次公开源代码,只仅限于本机构自用。
与其他国家或地区相比较,国内的Dspace除了没有形成技术开发分享外,还缺乏典藏资源共享和机构典藏管理协作的机制,这样不利于机构典藏的发展,影响开放存取的实现。问题主要表现在3个方面,首先,Dspace在大机构间有开发却没有推广,一些真正需要建立机构典藏库的小机构因为缺乏技术辅导而无法引入这种开源软件;其次,没有机构积极组织和倡导,无法形成规模效应;再次,各自研发会导致Dspace的重复开发,还会忽视各机构间典藏数据共享和获取这个最终目的,虽然OAI-PMH(Protocol for Metadata Harvesting)协议能使各种分布式系统相互沟通,能扩大研究资源的存取能力及改革学术传播体系,但对于如何具体操作还是需要专业辅导;国内如果没有一定规模的Dspace用户,没有元数据联合目录或共同检索平台,机构典藏开放存取的实现范围将会打折扣。
目前的资料显示,国内有些机构已经开始了一些合作行动。上海情报服务平台基于“开放、合作、共建、传播”的原则,技术上与浙江大学图书馆合作,应用机构库(Institutional Repository,IR)的开源Dspace系统作为系统平台,内容上依托中科院上海生命科学信息中心、中科院国家科学图书馆兰州分馆等相关研究机构,面向国内外相关研究机构和个人开放,共建共享情报内容,目前推出生命科学和资源环境两大专题栏目[5];北京清华大学的OAPS(Outstanding Academic Papers by Students)数据库是由台湾逢甲大学、香港城市大学、北京清华大学3校联合创建的共享项目,主要收录各成员单位的学生优秀作品,目前有清华大学、上海交通大学、厦门大学、香港城市大学、逢甲大学、首尔大学参加了此项目。
2.2 Dspace在台湾地区的运用状况分析
目前在台湾地区约有28个机构典藏使用Dspace软件。见表2。
台湾和大陆一样使用中文,也是中文文献集中的地区,其机构典藏的发展非常值得关注。目前有台湾大学、清华大学、逢甲大学和中央研究院的“数位典藏计划后设资料工作组”(SMMT)等机构开发了4种Dspace本地化版本。
由于台湾没有建立类似大陆学术期刊网式的知识仓储,建立台湾地区的学术产出存放与展示窗口显得特别迫切。2001年台湾中央研究开始推动“典藏数字化计划”,支持包括图书馆在内的超过80个不同的典藏计划。2006年5月,台湾大学图书馆受托于台湾教育部开始执行“建置机构学术成果典藏计划”,目前这个计划已经在实施推广过程中,有近30所台湾的大专院校参加,故称为“IR30”,IR30先在重点院校推广,再逐步促成更多的学校参加,达到完整保存台湾学术研究资源及便利用的目的。它有几个特点:
以台湾大学为机构典藏的运作模式为样板,统一研发机构典藏软件。台湾大学机构典藏(NTUR)系统采用Dspace 1.4 Beta1作为开发基础,配合台湾的学术研究状况,依据中文语言特性及使用需求,本地化系统接口与系统功能,调整系统功能,使用更易于中文环境,推出中(简、繁)、英、日和德文多语种界面,同时,支持OAI协议,便于建立集中的元数据联合目录。如今,NTUR的开发与更新已到Beta4版,不再跟随Dspace的版本升级进行了。
美国学者Susan Gibbons指出:“机构典藏最困难的不是科技,是内容的征集,机构典藏能否成功取决于政策”。NTUR“典藏计划”除了提供技术支援外,在机构典藏建设管理规范方面也很重视,同时推出了完备的机构典藏作业流程文件与标准规范,作为全台湾各大学院校建设机构典藏的执行参考。使各机构在免费使用典藏软件的同时,还获得一套共同的典藏资源文献收集管理的明确指引规范。
为使机构典藏发挥最大效益,NTUR“典藏计划”还确立了“分散建置、集中呈现”的原则。由各校安装台大开发的典藏软件(NTUR)自行建立机构典藏,收集各校之学术研究成果,以保持各校的主体性,展现本身的研究特色与研究产品;除各校本身系统外,并建立共同的台湾机构典藏入口网站(TAIR),同时检索并连接到台湾各院校的机构典藏,作为台湾地区整体学术研究成果的累积、展示与利用窗口[6]。
笔者对以上不同版本的机构典藏进行访问发现,台湾大学开发的NTUR本地化版本在功能、语言界面和操作方法各方面都比较深入,有专门的中文检索入口,但中文字符按音序排列的问题仍然没有解决,它同样删减了Dspace原有的主题排序功能模块。笔在前面提到的英文版Dspace中存在的中文字符的主题或著者再按时间和题名排序后,主题或著者变成乱码的问题,在政治大学和成功大学安装的NTUR系统仍有发现,而其他院校则显示正常,笔者无法找到原因所在。
2.3 Dspace在香港的运用状况分析
目前在香港约有5个机构典藏使用Dspace软件。见表3。
自2002年Dspace面世以来,香港各大学就关注并开始各自机构典藏的建设,香港科技大学和香港大学先后利用Dspace在图书馆建立了自己的机构典藏库。
2003年香港科技大学就开始利用Dspace软件研发建立机构典藏,现已运用到校内4个资料库的管理中[7],香港高校使用英文教学和研究,但也有大量的中文文献需要收藏,虽然无需进行Dspace操作界面的汉化,但笔者仍然关注的是中文文献的检索与排序问题。香港科技大学做了一些深入的Dspace研发工作,实现多语言支持(CJK中文、日文、韩文),提供OAI数据库跨库搜索引擎数据,Retrieve Web service/URL service(SRW/U)检索界面等功能特色。
香港在Dspace的运用开发基本上呈个性化状态,用户界面略显不同,多以英文界面展现,但都进行了本地化。值得我们关注的有三点,一是香港大学的机构典藏被OpenDOAR收录的情况,中国共有6家机构典藏列入其中,分别是大陆2家、台湾1家和香港3家,这个数字与大陆和台湾相比,数量和比例都要高,说明香港各大学的机构典藏内容受国际认可度要高;二是香港科技大学的“HKIR”是专门为香港“大学教育资助委员会”资助的大学建立的平台,现有六所大学的IR资源通过 OCLC的OAIHarvester2软件在HKIR可检索到;三是香港城市大学的机构典藏还加入到有6所大学参加的OAPS(Outstanding Academic Papers by Students)共享项目。
3 Dspace的选择与安装实践
根据历次安装Dspace各种版本的经验,笔者发现,Dspace安装指引始终不是很清晰,甚至需要参考不同国家的实践者的安装介绍,多次安装才成功,然后要对照系统操作界面进行汉化编译,每次升级改版就需要重新汉化界面一次,还存在一些无法解决的系统漏洞。
经过反复检索和查找,笔者在台湾机构典藏计划网站(http:∥ir.org.tw/)上检索到Ntur软件。该软件完全以开源的方式介绍给公众,但要求安装使用NTUR需要签订授权书,界面有简汉、繁汉、英语3种语方言可相互转换,是一个完全汉化的Dspace软件,非常适合中文用户使用。在该网站上还有清晰的Ntur安装说明并及时发布补丁,对系统的硬件要求也给出了具体说明。目前笔者在windows2003下安装Beta4并成功试运行,具体过程无需赘述,仅与同行分享机构典藏计划网站未曾提及之经验:
建议使用MySQL管理软件(MySQL Administrator.msi)添加用户和密码,从而代替在Command Line Mode里输入的各种设置用户和密码的命令。完成后可使用新建的Dspace账号,测试是否能正常登入。
建议将Ntur安装在数据盘,如D:盘,因为主要数据在默认生成Dspace目录下的assetstore文件夹中,数据量不断增会导致数据盘很快满溢。修改Dspace.cfg参数时,设置Dspace.wardir=C:/Program Files/Apache Software Foundation/Tomcat 6.0/webapps,每次执行ant update更新前要手动删除dspace.war和dspace-oai.war文件;handle.prefix=10332,该handle号为全球惟一,现在需要申请付费使用。
Ntur操作界面需要本地化,其简汉语言包(MessageszzhzCN.properties)存在于 turuildclasses和 turconfiglanguage-packs 2个文件夹中,通过执行native2ascii.exe reverse-encoding GB18030将MessageszzhzCN.properties编译为可修改的文本文档,对生成的文档进行本地化,然后再利用native2ascii.exe-encoding utf-8生成经过本地化后的MessageszzhzCN.properties去覆盖原有的同名文件,主要针对一些学术词汇进行修改,如:“搜寻”改为“检索”、“进阶”改为“高级”等。输入文件界面也需要本地汉化, turconfig中的文件input-forms.xml.zh-TW,可利用WORD的汉字繁转简功能进行初步转换,然后再逐字斟酌,另存为input-forms.xml.zh-CN置于原目录下。所有修改后的文件必须以UTF-8格式存盘。
4 总 结
结合本人的实际操作,分析和比较Dspace在大陆、台湾地区和香港的本地化的运用和机构典藏的管理状况,笔者认为,台湾的机构典藏建设模式最值得我们关注和学习,在科学地解决了数字资源管理平台的基础上,其典藏文献数量最多,整个“建置机构学术成果典藏计划”有着明确的目标、管理策略、行动纲领来保证其持续运作与永久保存。如今,国内图书馆界在倡导特色资源建设,也就是机构典藏的特色化,Dspace就是一个值得推广的数字资源管理平台,但是我们的软件统一研发,以及机构典藏的组织与管理都没有提上日程,机构数量及其典藏文献质量无法形成规模效应。在安装Ntur后,笔者似乎看到解决这些问题的希望,更加关注这个开源软件的发展,毕竟Ntur有着许多优势吸引着中文用户。
参考文献
[1]Wikipedia.Institutional repository[R/OL].http:∥en.wikipedia.org,2008-05-18.
[2]林颖,张智雄.构建基于DSpace的中文机构仓储系统[J].图书情报工作,2007,(2):87-91.
[3]祝忠明,马建霞,常宁,等.SEEKSpace基于DSpace的环境与生态科学知识积累平台[J].图书情报工作,2007,(4):71-74,108.
[4]马建霞,祝忠明,王渊命,等.基于Dspace构建甘青特有少数民族数字资源保存与服务系统[J].现代图书情报技术,2007,(1):54-57.
[5]http:∥218.1.116.115:8080/dspace/[EB].
[6]机构典藏.机构典藏计划网站[R/OL].http:∥ir.org.tw,2008-05-18.
[7]Ki Tat LAM.Exploring IR Technologies[R/OL].http:∥repository.ust.hk,2008-05-18.