数据库建设:目标、原则、措施和存在问题分析——以岭南音乐资源数据库为例
2013-09-17吴春明
吴春明
(星海音乐学院,广州510006)
数据库建设目标与图书馆的功能和作用是一脉相承的,岭南音乐资源数据库建设目标主要有两个:一是利用现代技术,对岭南音乐资源进行深度开发,提供学科知识服务,为学院的教学科研活动提供资源保障,满足广大师生读者的文化需求;二是保存岭南地区的非物质文化遗产,通过对岭南音乐资源的挖掘、整理和研究,推动优秀的岭南文化精神的发展。
1 数据库建设遵循的原则
1.1 特色原则
发掘特色、定位特色、凝聚特色、完善特色是数据库建设的成败关键和首要前提。[1]据2009年习为妮统计,104所211工程大学图书馆共建有600个特色数据库,这些高校图书馆主要是根据本校的学科发展特点和特色馆藏资源,或者是围绕学校所在地的政治、经济、文化等建立相应的特色数据库。从数字图书馆的发展情况分析,成功的数据库有两类,一类是资源好资金足,走大而全的路子,也就是所谓的商业型数据库和政府主导型的数据库;另一种是走专精的路子,这类数据库多属高校图书馆。一是因为各馆的重点馆藏不同,二是各高校学科重点不同。高校图书馆数字资源建设必须体现自己的学科和专业特色,如:岭南音乐资源数据库充分体现了自己的专业和地区两大特色,它的权威性是其它综合性数据库无可比拟的。
1.2 人性化原则
人性化是指技术和人的关系协调,让技术的发展围绕人的需求展开,真正实现科技以人为本的目的。人性化可以说是数据库保持长久生命力的关键,它的设计主要体现在以下三方面:(1)网页界面友好,用户参与度高,导航合理,检索简单化;(2)资源内容丰富多彩,能满足读者的个性化需求;(3)以全文检索技术为核心,采用流行的B/S浏览器的检索方式和先进的C/S架构,能够同时管理文字、图片、多媒体等信息,支持网页的动态发布。如:岭南音乐资源数据库除拥有传统的印刷型书刊外,还有图片、音频、视频等多种载体,通过文献转换技术和当今流行的流媒体技术,把纸质文献和图片资料转换为数字化资源,将音像资源的不同载体,如:黑胶唱片、录音带、录像带、CD、VCD、DVD等进行统一格式的音视频转换,并通过网络平台实现资源数字化服务,既可回顾不同时期岭南音乐的传承形式和内容,还可欣赏不同载体的音响效果和演奏风格。
1.3 开放兼容原则
开放兼容,既是一种宽广的胸襟、博大的情怀、开阔的视野,更是一种借力发展的理念,还是和谐协调发展的理想境界。开放兼容进行数字资源建设,能有效避免重复劳动和资源浪费,它是数据库持续发展的一个重要保障,数据库的开放兼容主要包含三点:(1)开放的资源展示手段,采用国际元数据标准、融合WEB2.0理念、支持文档、图片、多媒体等文件格式;(2)具备跨平台检索能力和OpenUrl、RSS接口,能对基于网络环境的数字化资源服务系统进行整合;(3)开放、共享的数字化服务和ftp接口,如:岭南音乐资源数据库可以接受编目软件批量上传的全文附件和元数据,并实时对元数据经行格式进行转换和入库。
1.4 安全原则
作为一个出色的数据库,安全性是基本的要求之一,在进行系统设计时,要对权限的设定以及数据的备份等加以充分考虑,当出现网络被攻击、被破坏情况时,能快速地恢复数据库的服务,减少损失。数据库安全体系包括安全防护、安全检测和安全恢复三方面,我们采用以下几方面的措施确保有效监督入侵、预防病毒、恢复数据,把局部故障对系统的影响降到最低。首先使用国际上成熟的系统、中间件产品,并对用户权限进行严格控制;其次建立数据定期备份、敏感数据双层加密、冗余备份、自动检测故障、无缝迁移的安全恢复体系;最后安装先进的防火墙软件、防毒软件和网管软件。
2 数据库建设的具体措施
数据库建设有四方面的内容是必不可少的:一是资料的收集整理;二是资源数字化加工;三是网络平台的选择;四是硬件设施的配置。
2.1 文献资源的收集和整理
数据库的资料除了要求有特色,不能与其它数据库重复或相似外,还要求资源必须完整和全面。为了方便加工,以保证资源收集全面、书目数据完整,可以把资源按载体形式分为:纸质文献资源、音视频资源和图片资源三部分,并对每种载体制定收集范围和条件。
(1)纸质文献:涵盖广府音乐、潮州音乐、客家音乐和少数民族音乐等学科内容,包括现代的岭南音乐乐谱、手稿以及从未出版过的资料,合法授权的岭南音乐各乐种的音乐作品、名家、音乐家画像、传记、音乐注释、乐谱资料、图片、研究成果等。该资源由专业的岭南音乐人才和岭南音乐文献人才共同收集整理,汇集自唐宋以来四大岭南民乐体系的原生态、次生态和再生态文献,是岭南音乐传统文化的重要载体,也是岭南文化元素传承发展,开拓创新的重要工具。
(2)音视频资源:由省内、海外各时期有关岭南音乐出版的音像资料组成,收录来自岭南音乐各个地区与民族的音乐、戏剧、曲艺、民歌、歌舞,包括岭南音乐生活中的各阶层,各族群体,各时期的音乐,形成一部岭南音乐听觉与视觉百科全书。
(3)图片资源:由乐器图片和名人图片两部分组成。其中岭南乐器图片包含:岭南乐器实物图片和乐器工艺制作、演奏特色等文字介绍;岭南名人图片包含:名人照片或肖像画以及生平、艺术成就等文字介绍。
2.2 数字化加工
目前对数字化加工的技术要求有:转化的速度快,准确率高,数字资源贮存空间小并能够快速通过网络传输,既能全文检索又能显示原有版式,成本能够承受。[2]下面以岭南音乐资源数据库为例,介绍数字化加工的有关技术指标和加工流程。
(1)音像资料,运用多媒体压缩技术,将不同格式的音视频文件转化为MPEG-4进行海量存储,如本数据库音频占用带宽最低8K比特每秒;视频最低20K比特每秒;采用适合视音频在网上的实时传输的RTSP协议,单台流媒体服务器可支持数百个并发流,对节目的播放、暂停、快进、快退给予支持;系统具有防下载功能,有效地保护资源版权,具有用户认证,保证高的安全性。
(2)纸质资料,黑白文字按8位灰度扫描,光学分辨率300DPI以上;彩色页面按24/36位全彩扫描,光学分辨率300DPI以上;扫描图像必须与原页面一一对应,不得出现缺页、重页或错页情况;扫描的页面内容基本居中显示,页眉、页脚信息完整;扫描留下的黑线、指印或阴影清除干净;存档文件按300DPI,TIFF 格式保存;应用文件按 150DPI,JPEG格式保存。
(3)流程:包括扫描、纠偏、压缩、识别、标引、入库、密级、发布等环节。(见下图)
图 岭南音乐资源数据库的管理流程
2.3 平台的选择
平台的选择首先必须适应现代图书馆要求,技术理念先进、扩展功能完备、学科知识服务能力好;其次能对资源所蕴涵的多重信息进行充分的揭示和组织,并提供全文检索服务;第三能够同时管理多种类型的信息资源,支持文本、图片、图像、动画、音频、视频等各种媒体的元数据标引、内容分类,使其成为一个全方位的学术资源库。近年来国内外有许多数据库平台设计商,如:国内的清华同方、重庆维普、万方、超星、方正、书生,国外的有 Blackwell、Springer、Swets、SAGE、Gale、Thomson Reuters 等公司。我们选择了清华同方公司提供的TPI6.0数据库平台,除了资金和技术的因素外,还考虑了方便管理和对满足使用要求的情况,TPI具有以下几方面的优点:
(1)采用XML语言作为系统数据格式,以保证数据的可再利用性和易二次加工性;字符编码采用Unicode编码规范,并支持 GB2312、GB18030,能通过CALIS特色库子系统认证;支持MARC、都柏林核心元素集DC及其他元数据之间的映射与转换;流媒体采用MPEG4格式;支持中图法分类、自定义分类以及对分类工作的管理。
(2)底层数据库采用基于文档管理的非结构化数据库、B/S模式和先进的三层C/S架构;检索协议采用Z39.50、OAI、OPENURL等数字图书馆的互操作标准。
(3)采用可视化界面,可直接从原文中提取数据,操作直观简单,支持 WORD、TXT、PDF、HTML、CAJ等格式文件的直接标引。
2.4 软硬件设施配置
软硬件建设必须有一个整体规划,技术和产品的选择上有主线、交换机、服务器和存储器在性能、接口、协议上相匹配,硬件的使用不能与实际运用相脱节,最后还必须考虑后续成本和管理成本的问题。因此在建设硬件时必须对应用需求进行客观地分析,然后才能确定设备的性能指标、体系结构和型号数量。以岭南音乐资源数据库为例:
(1)从数据库的应用模式分析,用户通过检索元数据来定位对象数据,检索的过程需要服务器具备非常高的逻辑运算能力和I/O吞吐能力,并且性能与交换机、存储相适应。考虑TPI平台的运算要求:P4以上服务器,内存不少于4GB,一个空间足够大的独立硬盘,操作系统可使用对换空间100MB以上。我们选择了IBM机架式服务器X3850 X5(处理器4*Intel Xeon6C Processor Model 1.86GHz/18MB,最大扩展至4个处理器/内存:32G DDR3 RDIMM/硬盘:4*300GB SAS/阵列:ServeRAID 0,1,5/网络:2*Giga Ethernet/Light Path),IBM 四路服务器目前CPU主频最大2.0GHz,最大八核,考虑成本采用六核。
(2)存储器用于存储各类资源,当用户检索到需要的对象数据时,存储能迅速地把资源反馈到读者手中,存储的选择需要考虑数字资源类型、数量和所需存储空间。[3]数据库对存储的基本要求:保证系统7天×24小时全天候服务,需要3.5T以上的存储空间。我们选用IBM磁盘存储柜DS3500(DS3512 SAS Dual Controller(双控制器)/4GB缓存/12*600G SAS硬盘/FC扩展子卡/5m LC-LC光纤线缆),存储分单控制器和双控制器,从安全角度采用双控产品,硬盘采用6个1TB,做RAID5及热备后,总容量4TB,设备还有6个盘位的空间,目前支持单个最大硬盘2TB。RAID5能充分发挥多块硬盘的优势,还可以提供良好的容错能力,在任何一块硬盘出现问题的情况下都可以继续工作,不会受到任何损坏硬盘的影响。[4]
(3)操作系统选择:Window server 2003以上版本,硬盘5G以上(不包括存储空间)。
3 存在的问题分析
3.1 知识点超级链接
很多数据库未能在各知识点之间建立链接,如:文本本身相关内容之间、相关文本之间以及文本与有关网页之间建立链接,这些链接对于推进学科专业研究是非常重要的。如:在音像资源库中采用知识点链接技术,实现音乐欣赏与相关知识点之间的链接,读者可以在轻松欣赏音乐的同时查看各种类型的乐谱,而音乐家也可以轻而易举地比较不同时代、不同音乐流派的音乐作品。
3.2 背景知识
未能在数据库中嵌入音乐家辞典、音乐百科全书、历史年代表、电子地图等,岭南音乐有自己辉煌的历史,但展开历史的研究不够,研究中的历史感不强,如果在平台中载入背景性知识,建立相应的知识支撑体系,提供立体的时间、空间坐标体系和背景信息,就可以很好地解决这方面的缺陷,利用者不再需要繁琐地另外查找资料去搞清那些细微的知识点,而可以使用平台提供的辅助性工具确认。[5]
3.3 检索技术
数据库一般提供有分类检索和学科导航功能,这样的设计能够省去利用者在查找文献、文本鉴别方面所付出的劳动,启迪新的研究思路和引导研究者思想的深入。如借助于现有的检索技术,可以实现文献类型、指定分类、指定字段等多种字段的检索,还可进行基本检索、高级检索、联合检索、分类浏览、全文获取等。但国内很多数据库的文档资料扫描存贮格式为图像,并不支持全文检索功能,这一功能非常重要,对于平台利用者具有特殊的价值,可满足其个别的需要。
3.4 引文分析
绝大多数数据库提供有用户的总访问量、分类浏览量、数据的使用情况、用户的IP等用户基本信息的统计分析功能,通过该功能可查询到不同IP地址、不同用户对数据库的使用访问情况。但数据库最重要的是引文分析功能,通过该功能可以分析文献资源间的各种数量关系及其变化规律,研究引用与被引用之间、共被引文献和同引文献之间的数量关系及其规律。但国内很多数据库在这方面研究不足,未能通过引文分析技术给研究者提供学科的最新成果、研究热点、未来的发展情况、定位重要的研究者、重要的刊物、主要的研究机构,并分析其贡献和影响力。
[1]俞长保.高校地域文化资源专题特色数据库建设探讨[J].图书馆学研究,2006,(12):25 -219.
[2]黎小妮.浅议高校图书馆的数字资源建设[J].图书馆论坛,2007,(3):82 -84.
[3]安 东.图书馆硬件支撑体系建设中存在的误区与解决途径[J].图书馆论坛,2006,(2):104 -106.
[4]易正强,廖思周.电子图书馆及其资源建设[J].图书馆论坛,2006,(2):127 -129.
[5]徐 清,石向实,王 唯.古籍数字化资源的深度开发[J].图书情报工作,2007,(3):95 -97.