中国音乐大典数据库的设计开发与应用
2021-12-24马英珺
○ 马英珺
《中国音乐大典》编纂工程是“中国乐派高精尖创新中心”①“中国乐派高精尖创新中心”成立于2016年10月9日,是依托中国音乐学院建设的音乐人才特区,其建设目标是以中国音乐资源为依托、中国艺术风格为基调、中国音乐家为载体、中国音乐作品为体现,为最终实现中国乐派的确立与发展构筑强有力的支撑。的建设方向之一,是“中国乐派”研究与建设的重要理论支撑,其要旨是通过梳理中国音乐的历史文化发展脉络,研究中国音乐传世之精品,全方位展示中国音乐的思想理论、音乐作品、音乐人物、音乐表演、音乐器物、音乐组织等各方面的发展成就,努力打造成为中国音乐历史上的“四库全书”②王黎光:《院长致辞》,《中国音乐》,2017年,第1期,第5-7、11页。。
中国音乐大典数据库是一套专门为《中国音乐大典》编纂工程而建设的典籍资源平台,内容与《中国音乐大典》收录的资源相匹配。平台的根本任务是通过对《中国音乐大典》文论编、乐谱编、音像编、图像编等不同类型的音乐资源进行采集、存储、分析、管理,实现海量资源的动态展示和各编之间的信息关联,为用户提供浏览、检索、资源推送等个性化服务,为中国音乐理论、创作、表演研究提供便捷有效的知识获取渠道。
一、数据库总体需求
数据库首先需要将《中国音乐大典》先期收录的图、文、谱、音、像等数据资料进行整理、分类、编目、修复和存档等,在保证原文件无损的前提下进行数字化处理、转换、加工、入库,然后根据不同类型资源的元数据规范建立索引和关联,通过资源发布平台对外发布,用户便可以通过终端进行检索、浏览、下载、视听,随时随地获取中国音乐信息资源。
(一)应用技术
系统采用经典B/S架构,基于MVC设计模式,以Mysql数据库、Solr搜索引擎、SpringCloud服务端框架等先进的开源技术作为支持。技术架构支持分布式集群,采用模块化设计,每个模块之间互不影响,分合自如,是有机联系的一体,确保在高并发下的访问速度和稳定性,同时保证系统后期升级迭代开发的延续性。
(二)功能模块
系统通过梳理实际业务流、数据流和工作流,细化软件开发方案,设计了数据库管理、数据库采集转换与加工处理、数据库发布检索、用户权限认证、系统管理等模块,并且支持门户布局、框架的自定制,功能模块、服务的扩充和调整等个性化定制,实现资源的导航浏览、发布检索、资源推送以及数据库管理和统计分析等功能。
(三)设计原则
在遵守国家相关标准的前提下,系统围绕统一数据管理、统一身份认证、统一数据共享的设计原则,规范地进行业务数据的采集、存储和应用,确保技术的先进性和稳定性、平台的开放性和可扩展性、数据的规范性和安全性以及服务的可靠性、操作的易用性,并充分尊重知识产权问题。
二、内容与分类
(一)收录资源概况
中国音乐大典数据库的内容与纸本大典文献资源内容一致,分为文论编、乐谱编、音像编和图像编。四编的收录内容大致如下:文论编主要收录古代与近现当代有关中国音乐的经典著作、论文、文集等,其作品收录标准定位为经典、典范、典型,以便于研究和了解中国音乐研究的现状;乐谱编收录中国古代与近现当代已出版的、民间收藏的,以及流传于海外的各类型乐谱及谱本提要,其中古代乐谱包括存见于古籍中的古代乐谱和传世于今的琴谱、工尺谱等,现当代乐谱包括中国传统音乐曲谱及经典中国音乐作品曲谱;音像编主要收集整理中国传统音乐各类艺术形式的音乐作品,着重于收录现当代有学者采录的、来自田野的音像资料和传统音乐作品;图像编主要收录中国古今一切记录、描绘社会乐音生活各个领域的音乐器物、场景、人物,以及音乐实践的、以平面视觉形象为表现形式的、具有经典意义的图像资料。四编收录的各类资源共同为“中国乐派”的建设提供理论体系的支撑。
(二)分类架构
中国音乐大典数据库确立了基于音乐研究领域的科学的、合理的分类。文论编、乐谱编、音像编和图像编是四个并列的子库,也是数据库的四个一级分类。二级分类建立在时间维度之上,文论编分古代文论、近现代文论;图像编亦分古代卷和近现当代卷;乐谱编和音像编分传统艺术形式与现代艺术形式等。从三级分类开始,各编内容各有侧重:如近现代文论按照资源的出版形式和来源分为图书、期刊和学位论文;传统艺术形式的乐谱和音像资源则是根据音乐艺术形式的门类划分为民歌、戏曲、曲艺、器乐等。第四级、五级、六级分类是数据库最为核心的内容,分别体现了各类资源所属的学科、专业、乐种等,七级则是具体的曲目名称。以汉族民间器乐曲谱的分类层级为例。(见表1)
表1 汉族民间器乐曲分类结构示例
数据库在上述分类基础上确立了层次性与多元性结合的树形分类体系,并搭建了数据库分类导航架构,使得各编的分类一目了然,用户可以根据检索需求任意点击分类树前面的“+”“-”符号,扩展或缩小层级。(见图1)
图1 乐谱编和文论编树形分类架构
三、检索功能的设计与使用
对于以资源为主的学术类数据库来说,检索功能之重要性不言而喻,检索结果的精确度和敏感度直接影响到数据库使用效果。中国音乐大典数据库采用实时分布式搜索和分析引擎,实现了一站式检索、分类检索、高级检索、关联检索等功能,并且对不同信息载体之间既各自独立,又相互关联的中国音乐资源进行优化和整合。
(一)一站式检索
在中国音乐大典数据库主页面上,即设计了一站式检索框,可以同时在四个子数据库中进行检索式表达,并支持主题检索和全文检索。
主题检索即选择相应主题字段进行检索。数据库在检索框左侧设置了主题字段的下拉框,用户可以根据需求选取下拉框中的标题、关键词、摘要、责任者等字段,然后在检索框中输入对应的关键词进行检索。在这些主题字段中(除责任者之外),系统采用了搜索引擎的分词检索功能,即把检索词拆分成多个词语,如“中国音乐学院”进行分词后就会生成“中国”“音乐”“学院”“音乐学院”“中国音乐”等,使得检索结果更加丰富。
全文检索则是根据关键词在全文中进行匹配③苏石、翟中会、刘华:《一站式检索工具在系统评价中的应用及效果评价》,《中国循证医学杂志》,2018年,第5期,第506-510页。,在中国音乐大典数据库中,如果没有选择下拉框中的指定主题字段,则默认为全文检索。全文检索支持空格操作符,多个关键词使用空格连接可实现“与”检索。以查询“程砚秋”演唱的《锁麟囊》为例,直接在检索框中输入“程砚秋 锁麟囊”(使用空格连接关键词,实现“与”检索),即可在四个子库中进行全文检索,如果检索结果数量较多,可以直接点击左上角资源类型,有目的地浏览某一编的数据内容。
(二)快速分类检索
中国音乐大典数据库首页下方设计了文论编、乐谱编、图像编、音像编的分类导航功能。鼠标移动到某一编目标区域的时候,会自动展开其二级分类和三级分类,用户可以根据需求点击某个分类,即可进入到相应的检索结果页面。快速分类检索功能能够帮助用户快速了解数据库各编的资源内容。
(三)高级检索
高级检索是利用布尔逻辑运算符实现多个字段的检索组合,是一种灵活、精确的检索方式。中国音乐大典数据库在高级检索页面设计了可视化的表单式检索界面,用户可以通过资源类型、检索字段、时间范围、查找方式、检索式等多个条件,任意新增或删除检索字段,并在多个字段间进行“与”或“非”等逻辑关系的组配,满足多元的检索需求,有效缩减检索范围,直接定位目标数据。在高级检索中,数据库还提供了精确查找、模糊查找以及“检索字段+时间范围”的检索方式。其中,精确查找不进行字段分词检索,检索结果比较精确;模糊查找对检索字段进行分词检索,可以得到更全面的检索数据;“检索字段+时间范围”的检索方式,方便用户根据关键词来定位某一个时间范围内的文献,提高数据访问的效率。
(四)关联检索
关联检索是在检索结果页面中根据数据库提供的检索字段进行二次检索,以缩小数据范围。由于中国音乐大典各编内容的侧重点不同,因此每一编设计了不同的二次检索字段:文论编可以通过标题、关键词、责任者、摘要、文献来源进行二次检索;乐谱编可通过标题、责任者、民族、类别、流传地区进行二次检索;图像编通过标题、民族、类别、时间等字段进行二次检索;音像编可以通过标题等字段进行二次检索。关联检索可以找到更多目标之外而又非常重要的数据。
(五)检索结果的显示
中国音乐大典数据库的检索结果以列表形式呈现,检索结果可以按相关度或者时间进行排序。为了醒目表现,每一条数据都将其中的检索词(包括分词之后的词语)做了高亮展示。页面左侧提供检索分类树和聚类检索功能,右侧上方还可以选择标题、责任者等主题字段继续“在结果中检索”,或者重新进行全局检索。在检索结果数据中,每一条数据都可能对应不同的附件类型,点击标题后的附件标志(不同的附件类型有不同的标志),即可浏览PDF、音视频等附件内容。每次使用的检索策略都会存放在检索记录模块中,用户可对自己的检索历史进行修改、保存和删除,如果直接复用这些检索条件可以再次进行检索。④陆敏、刘颖、洪正国:《CALIS专题特色数据库中心门户系统建设分析》,《图书情报工作》,2007年,第5期,第126-129页。
四、中国音乐大典数据库的特点
中国音乐大典数据库以资源的目录体系为纽带,整合不同类型资源,实现海量数据的存储、维护、管理、发布、全文检索以及统计、分析、应用等功能;数据库的每个子系统既可单独运行,又是有机联系的一体,分合自如,有效地梳理解决数据资源整合及数据共享的复杂应用需求。
(一)海量资源存储
中国音乐大典数据库目前已拥有20余万条数据,所包含的中国音乐信息全面丰富,体量巨大。数据库内容与大典收录的文献资源内容一致,涵盖了现有分布式网络中所有数字媒体类型。目前,乐谱编收录了中国古代与近现当代已出版的、民间收藏的各类型乐谱数据近4万条;音像编收录了中国传统音乐门类的音视频资源3万余条;图像编收录中国古今音乐器物、音乐场景、音乐人物等图像资料13万条;文论编收录有关中国音乐理论、创作等相关书籍、学位论文、期刊文献等5万余条。这些海量数据为音乐学者进行中国音乐研究提供了重要线索,为音乐艺术院校及音乐研究机构提供全面而翔实的音乐史料。
(二)基于元数据的著录体例设计
针对不同文献类型和资源内容而设计的元数据著录体例和规范,对于在不同元数据元素之间建立准确可用的映射起到非常重要的作用。为满足不同类型的文献对于元数据的不同需求,中国音乐大典数据库在遵循国际标准、国家标准和行业标准的前提下,以都柏林核心元数据为基础,制定出十几套元数据描述类型和对应的著录体例,如著作类元数据、学位论文元数据、期刊文献元数据、古代乐谱元数据、近现代乐谱元数据、民间乐谱元数据、音像编元数据、图像编元数据等,涉及曲名、作词、作曲、演唱、传谱、演奏、伴奏、剧目、角色、声腔、民族、打谱、谱本名称、版本信息、年代、编者、提要等上百条元素,从而可以对各种不同格式、不同来源、不同类型的文献进行有效组织,合理类聚,形成互联互通的中国音乐知识网络。
(三)完善的聚类体系
中国音乐大典数据库在四个子库的基础上,设计了科学、合理、专业的分类导航浏览体系,并根据资源类型、年代、艺术门类、民族、乐种、作品等,将相同字段、相近主题特征的数据聚合在一起,提供基于文献内容和外部特征的知识链接,有助于厘清四编内容之间的内在联系,有效解决各编资源松散孤立的问题。与此同时,数据库利用语义化共词分析方法实现基于主题的多维度聚合⑤刘伟:《基于内容特征元数据的多源异构科技资源关联聚合研究》,《中国科技资源导刊》,2020年,第5期,第28-34页。,形成类目体系之外的聚类层次:比如文论编提供时间、期刊、院系机构、出版社等聚类;乐谱编提供谱式、谱本、体裁聚类;音像编提供时间、采录地点聚类等;图像编提供表演照、事件照、人物照、乐器照聚类。如此这般,不同的资源类型联动不同的聚类,使得数据库的层级更鲜明,为用户提供更多的关联内容,数据检索结果也更加理想,便于知识的分享与推荐。
(四)友好的用户界面和个性化功能
中国音乐大典数据库秉持“一切面向服务”和“简化用户体验”的设计原则,系统页面清晰简洁,配色轻松淡雅,栏目主次分明,结构合理清晰,数据显示集中,操作简便灵活。登录用户可以对检索结果进行收藏、分享、推荐、下载、保存、打印等丰富的个性化服务。数据库将PDF文件都添加了目录,并可进行放大、缩小、旋转、全屏阅览、快速跳转等功能。另外,数据库支持门户布局、框架的自定义以及功能模块的扩充和调整等个性化定制。
(五)图表化数据管理
数据库后台管理系统采用 VUE+Elementui的集成方案,内置了i18国际化解决方案,提炼了典型的业务模型,设计了图表化数据分析和统计功能。业务人员可按照四编聚类特点进行学科、专业、体裁、民族、乐种、谱式等方面的数据统计和数据分析功能,分析结果以柱状图、饼状图、地图等形式展现出来,满足各编信息资源的统计和数据共享过程中的应用和管理需求,为《中国音乐大典》的进一步研究提供便利的条件。
结 论
中国音乐大典数据库是《中国音乐大典》编纂项目不可或缺的一部分,同时也是学院信息化建设顶层设计的项目之一。数据库整合了《中国音乐大典》的海量数据资源,实现了对文论、音视频、乐谱、图片等多种数据资源的发布、存储及管理,为保存、传承和利用中国音乐资源、弘扬中国音乐文化发挥了应有的作用。