高校文库数据库建设实践研究
2009-10-20黄婧吴英梅
黄 婧 吴英梅
摘要主要围绕北师大图书馆京师文库全文数据库的建设实践展开。首先简要阐明文库建设背景,在调研国内其他高校文库数据库建设实践基础上,明确京师文库全文库建设力图实现的功能。重点针对全文库建设实践的难点与特色功能进行了介绍。最后提出了关于全文库建设的下一步发展设想。
关键词高校文库特色数据库京师文库
“京师文库”,全称“北京师范大学文库”,“建立于2002年,是北师大图书馆迎接百年校庆的重要项目之一”。京师文库作为展示北师大学术科研成果的重要窗口,收录了自建校(1902年)以来的校友及目前在校师生的各类文化、学术作品。在图书馆与学校各方的努力和支持下,文库已有相当数量的藏书规模。为了更好地利用京师文库,北师大馆于2006年开展了文库图书的数字化工作,并于2008年完成了京师文库全文数据库(以下简称“全文库”)的设计与实施工作,同年10月正式向读者推出。全文库的建设不仅延伸了京师文库阅览室的功能,更加便利了读者对文库图书的阅读,同时对文库的继续丰富与发展也起着积极的促进作用。
在实施全文库的建设过程中,为了能够满足读者全方位的信息需求,对全文库页面进行了充分的考虑和周详的设计。尽管全文库建设的主要目的是为读者提供文库藏书的电子版全文阅读,但围绕这一核心内容,必需的和可拓展的功能还有很多。此外,由于文库自身的属性与特点,也决定了其在数据库建设上与一般专题库之间存在着差异,以及在不同图书馆之间存在的共通性。因此在全面考虑全文库页面功能与特色之前,对国内主要高校的文库数据库进行调研是一项非常必要的工作。
1国内调研
通过网上调研发现,国内很多高校均在本馆的主页中建设了揭示文库内容的模块。据不完全统计,“在我国的680所具有本科授予权的高校图书馆中,有25个省市96所大学图书馆创建了高校文库,其中56个图书馆在其主页上设有文库栏目”。但从网络文库的内容来看,各馆的建设速度与质量参差不齐。多数馆仅对文库实体阅览室的工作内容进行了网络延伸,页面停留在藏书介绍及赠书相关事宜的宣传等内容上;有些馆则做了进一步的工作,将文库藏书的书目信息以页面列表或可下载的表格文件形式放在网上。通过建设数据库为读者提供详尽信息揭示的图书馆有清华大学、北京交通大学、中央财经大学、中国人民大学、中国农业大学、南京师范大学、武汉大学、首都师范大学等,并不十分多见。文库数据库的内容基本以书目数据为主,仅中国农业大学、武汉大学和首都师范大学实现了部分文库论著的全文电子化。尽管文库数据库建设的内容与形式还很有限,但有些数据库的设计也较具特色。
对于已建库的高校馆,其建设情况大致可分为以下两种情况。
1,1
与馆藏书目数据库(以下简称OPAC)结合
此种情况如清华大学的清华文库、北京交通大学的校友文库、中央财经大学的教师文库等。其中清华文库和北京交通大学的校友文库均没有对文库藏书的书目进行单独的数据库建设,中央财经大学的教师文库则在建设简要书目数据库的基础上利用OPAC的数据资源作为其详细书目信息的补充揭示。
清华文库中的“文库藏书目录”专栏列出4000余册教师、校友著作,“读者在文库藏书目录中点击所需图书,即自动连接到图书馆INNOPAC系统”,获得书名、作者等相关的详细信息。但读者获取到的仅为书目信息列表,还不能对其进行检索。北京交通大学则直接以OPAC子库的方式对校友文库的书目信息进行揭示,并可直接利用OPAC系统的检索功能来满足读者对此子库的其他深入检索需求。中央财经大学的教师文库,首先建设了一个简要的书目信息数据库,读者可对书目信息进行检索。当读者点击题名时,系统可通过URL传递系统号参数直接定位到馆藏书目数据库相应的MARC记录,读者可在此页面对书目的详细信息进行查看。
1,2独立建设
此种情况如中国人民大学文库、中国农业大学教师文库和南京师范大学教师专著查询系统等。三所学校的图书馆均建设了独立完整的文库图书数据库,主要以书目信息为主,并对数据库的导航、检索及具体的信息揭示都作了较为周详的实现。
其中人大的数据库通过浏览检索、“获奖著作”等栏目反映了人大文库7500余种本校教师、校友著作的收集情况”。其数据库最主要特色是著录了文库图书赠书者的所在机构。读者除了通过中图法一级类目检索外,还可以通过点击机构名称浏览在此机构工作的校友赠与的全部图书,同时数据库中关于图书的细节还增加了对赠书者的揭示,读者可通过姓名查看该赠书者赠与的全部图书。南京师范大学的教师专著查询系统除了图书的分类导航与检索外,增加了“热门点击”与“最新加入”两个模块,读者通过这两个内容可直接了解数据库的更新与利用情况。而中国农业大学的教师文库中则更像一个初步的机构知识库。该库对教师的论文与著作成果进行了整合,并对教师及其所在机构的相关信息进行了揭示,同时还设有提交作品的功能模块。但由于该库尚处建设初期,数据量较为有限,库中现有成果以论文为主,专著数据相对较少。
通过对国内高校馆文库数据库的调研,可以看到,尽管各馆根据自己的需求建设的数据库多种多样,但仍有很多共同之处。一是浏览与检索功能。在检索方面,考虑建设数据库,检索功能必不可少。在浏览方面,从各馆的建设经验可以看到,除了针对图书设置分类导航外,还应考虑对校友及其所在机构的导航,因为文库的建设离不开教师及相关机构的主动参与,数据库对于赠书相关主体的揭示在一定程度上可以促进和推动文库实体建设的深入开展。二是图书信息的揭示。多数馆均在图书信息揭示的过程中保留了对OPAC的关联,这主要考虑了为读者提供跨平台服务的便利,增加读者对于新数据库的使用体验。三是数据库更新内容及相关热点的揭示。在为读者提供资源的同时,也利用数据库的功能为读者提供了相关的更为深层次的服务内容。
2功能定位
鉴于以上考虑,并结合北师大馆资源的实际情况,初步拟定了全文库待实现的主要功能。对全文库除了设置必要的检索点并保留与OPAC记录的关联功能外,以下两点是在实现该库的过程中主要考虑的特色所在。
首先,在导航方面,除了依据《中图法》设置图书分类导航外,也希望实现对赠书者相关信息的导航。但是由于北师大馆在收集文库赠书时,对于赠书者的具体信息及相关情况还没有较为详尽的记录或信息存档,因此在这一点上实现起来稍显困难。考虑到其中大部分赠书者均捐赠了自己的著作成果,此外虽然也有一些代亲属或师生进行的捐赠但数量不多,因此可以认为赠书者主要还是以作者本人为主,采用作者进行导航可以在一定程度上弥补赠书人信息的缺失。同时还可以通过图书作者所在的机构或单位进行导航。就此基本确定了京师文库
全文库的页面导航,即以图书分类、作者姓名、作者机构进行图书导航。
其次,在检索结果的页面陈列方面。从调研情况来看,各馆主要以书目简要信息的文字描述为主,除了人大文库外,尚没有看到其他馆有对图书封面的揭示。由于北师大馆文库所藏图书主要为1949年以后出版的图书,其封面主要以彩色为主,考虑到封面炫丽的色彩可以在一定程度上增加页面对读者的吸引力,因此决定将图书的封面进行发布,同时展示的内容还包括图书的题名、作者、出版项等信息。
3重点与难点
尽管已经确定了全文库有待实现的具体功能,但由于资源本身的原因,在实现过程中,仍存在着各种困难,很多问题仍需在实现过程中作具体分析与解决。
3,1发布平台
由于京师文库电子图书的发布格式为djvu图像,因此对于全文图像的发布主要考虑通过现成的CADAL项目本地发布系统来实现,但是考虑到此系统对于图书的导航功能及信息揭示方面尚存在一定的不足,无法满足读者的需求,鉴于TRS系统平台对信息的深层次揭示的功能,因此决定采用TRS系统平台进行书目层面的信息揭示。即将TRS系统与CADAL本地发布系统相结合,书目信息通过TRS系统平台进行展现,全文数据库采用CADAL本地发布系统为读者提供全文浏览,书目信息与全文数据用电子图书的ID号实现关联链接。
3,2分类导航
尽管《中图法》历经修改完善,目前已是第四版,但由于图书事业的发展日新月异,《中图法》仍有一些类目与目前的实际情况不相适宜,此外由于北师大的学科特色,即以教育学科、心理学科及其他一些基础学科为主,所以文库收集的主要成果也明显带有这方面特点,本校特色学科方面的藏书数量明显要多出其他学科。因此在具体设计图书的分类导航时,没有完全照搬《中图法》的类目,而是采取了以中图法一级大类作为基本分类标准,并对二级类目进行了简要删减的做法,力求图书的分类类目与电子图书的实际情况相契合,并以下拉菜单方式展现二级类目,为读者提供更为方便和简洁的导航功能。
3,3作者导航
作者姓名导航的设计是整个数据库实现的特色,同时也是最困难,耗时最长的工作。尽管每本图书的作者姓名均可在书目信息中抽取,但对于京师文库藏书来说,针对与本校相关的作者姓名进行导航才是必要的。因此全文库的作者姓名导航,实际上针对的仅仅是那些具有本校相关学习或工作经历的作者,这在一定程度上也可以视为赠书者姓名导航。
如此一来,就需要对每本图书的作者进行核对,即确定其是否曾在本校工作或学习过。工作人员在作具体核对工作时,利用了网络上一切可利用的信息资源,如学校人事处的教职员工清单,图书扉页中保存的赠书人的留言信息,图书前言或后记中出现的作者相关经历介绍,学校、院系所及作者本人的主页,网络搜索引擎,中国期刊网中的作者机构信息等等,最终从近6000条作者数据中确定了1600余位本校相关的作者姓名,同时在核对过程中也搜集到了作者的主页、在本校的相关经历等信息内容,这些内容大大丰富了全文库的作者姓名导航。
目前通过已经实现的作者姓名导航,读者可点击进入作者姓名列表,点击相应拼音首字母后即可察看相应姓名列表,进一步点击某位作者的姓名后,就可察看到包括作者的主页链接、作者在本校相关的任职机构及作者在本校的简要经历等内容的页面,同时在页面的下方嵌入了以作者姓名对全文库进行搜索的成果列表,读者可在此页面直接对其感兴趣的成果进行阅读,至此实现了全文库中本校作者的姓名导航。
3,4封面揭示
由于京师文库图书封面的发布有利于读者确认图书,并起到美化页面效果的作用,因此在数据库的页面对电子图书的封面予以揭示,这就涉及图像抽取与处理等相关工作,力求不增加网络传输负担。
为了实现较好的页面效果,同时便予图像处理,封面图像选用了电子图书的原始扫描图像(黑白为tiff格式,彩色为jpg格式),由于每册电子图书以独立的文件夹方式存在,因此需要对全部电子图书的第一张封面图像进行批量拷贝抽取,在对每张图像进行重新命名后,集中于服务器发布路径下专门存放图书封面的文件夹中,并通过对图像进行压缩处理,大大节省了网络传输带宽,力求不影响读者浏览与检索的速度。
3,5教材标识
京师文库作品中含有大量教材内容,对于教材的揭示有利于将来进一步扩展数据库的相关功能,因此利用从OPAC中抽取的相关教材记录,通过图书的唯一标识即馆藏号进行了匹配,将全文库中属于教材的图书进行了字段标识,同时保留了记录中所含的获奖信息字段,以待今后有进一步需求时对教材进行独立发布或揭示。
4下一步建设
目前,京师文库全文库的基本功能已得到了实现,并已面向校园网内读者发布,鉴于文库图书所涉及的知识产权问题,数据库将全文浏览的权限设置在馆内电子阅览室范围内。此全文库目前已收录电子图书5392册,今后还将随着京师文库纸本数量的增加而陆续增加,以保证文库藏书的版本与电子版基本保持一致。从数据库的使用来看,初步实现了当初的建设目的,便利了读者对于京师文库图书的阅读。但是随着读者需求与提供服务的深入,今后全文库的建设与发展仍有待进一步完善。
4,1功能完善
目前对于本校院系所等相关机构的导航还没有实现,由于机构名称变更较为频繁,很多细节问题无法确定,这在一定程度上给机构名称的导航带来了困难。另外,对于作者相关信息的揭示也还有很多工作可以进行,如进一步将作者的相关学术方面的信息尤其是作者的著作信息及获奖信息等收集完整并进行揭示,将作者的学术论文整合进来等等。
4,2基于总分馆模式补充馆藏
在文库图书的征集方面,还应进一步制定完善的制度来保障文库图书征集工作的顺利进行。目前从实际工作来看,主要以作者自愿捐赠为主,以主馆采编部门及文库管理部门的补充为辅。
在今后的工作中,还可以在总分馆的模式下,借助总馆与分馆在资源调度方面的相互协调优势,充分发挥分馆的积极性与主动性,将文库图书的征集工作列入分馆部门的日常工作内容之一。分馆作为连接总馆与学校各院系之间的纽带,与各院系之间存在着密切的关系,无论是在人际方面还是在地理位置上,分馆的馆员们在完善京师文库图书的征集方面具有非常便利的条件,同时全文库的建设也为馆员的征集工作提供了已有图书数据与相关的作者数据,各分馆的馆员可以此作为图书征集依据,对京师文库藏书进行更具针对性的直接补充。
高校文库是记载学校科研活动和学术水平的“集体档案”,从长远发展来看,仅作为成果展示,无法发挥资源的最大利用价值,必须通过数据库的功能挖掘其潜在价值。一方面,全文库可在一定程度上作为本校机构知识库发展的重要基础,在完善相关的数据收集与整理工作后,深入扩展其他相关的功能,如增加成果提交和个性化相关模块等,北师大馆也将逐步完善和实现自己的机构知识库相关功能,从而实现为读者提供系统化深层次的信息服务,并助力北京师范大学的教学与科研工作;另一方面在文库藏书相对完整的情况下,“通过对文库资料及其著者相关因素进行评价鉴别、整合优化、统计分析,形成跨学科、跨专业研究的参照体系,为图书馆调整馆藏资源建设、确定服务方向提供量化依据”。此项工作同时也将对掌握学校的整体科研情况起到重要作用,为确定学校科研方向和结构,引进人才等提供依据。