基于关联数据的非物质文化遗产语义化组织研究
2015-09-08董坤
董坤
[摘要]针对当前非物质文化遗产分类组织方法的不足,提出一个基于关联数据的非物质文化遗产语义化组织框架。通过构建非物质文化遗产本体描述模型,实现非物质文化遗产知识元及其关联关系的语义化描述,在其基础上,基于关联数据所采用的RDF模型与链接机制实现了非物质文化遗产知识元以及知识元之间关联关系的语义化整合与组织。
[关键词]关联数据;本体;非物质文化遗产
[中图分类号]G250
[文献标识码]A
[文章编号]1008-0821(2015)02-0012-06
联合国教科文组织在《保护非物质文化遗产公约》中将“非物质文化遗产”的概念界定为“被各群体、团体、有时为个人视为其文化遗产的各种社会实践”。我国作为世界上拥有非物质文化遗产数量最多的国家,对濒临消失的非物质文化遗产进行抢救性保护一直是我国非物质文化遗产保护工作的重要内容。然而从信息组织层面看,我国非物质文化遗产相关资源的数字化组织整理工作还存在着一定的不足,主要表现在文献组织方法较为传统,主要依据传统的分类组织方法,如主题分类、等级分类、地域分类等组织方法,这种基于非遗某一特征进行的单线索的线性组织,无法反映非遗之间的固有联系,无法表达非遗表现形式之间以及其子元素之间存在的复杂的关系,造成查询与利用的不便。为有效解决这一问题,本文针对我国非物质文化遗产的特点,在借鉴语义网知识组织方法的基础之上,设计了一个基于关联数据的非物质文化遗产知识组织模型,基于该组织模型实现对我国非物质文化组成因素、各因素之间关联关系的统一的语义描述与揭示,为非物质文化遗产的语义化组织提供一种有效的方法。
1 非物质文化遗产组织现状分析
近年来,为有效保护与宣传非遗资源,实现保护工作的数字化与现代化,在地方文化管理部门的推动下,一大批非物质文化遗产数据库纷纷建立。以湖北与陕西两省为例,隶属于全国文化信息资源共享工程的湖北省非物质文化遗产资源库以各地的非遗申报材料为基础,收集并整理具有湖北地方特色的非物质文化遗产项目,该库构建了一个由民间文学、传统戏剧、民间美术、民俗等10个类目所组成的非物质文化遗产分类组织体系,在每个类目下以列表形式对非遗项目名称、所属地区、所属级别、传承谱系、基本特征等非遗项目知识进行介绍;由陕西省文化厅主办的陕西省非物质文化遗产数据库以项目所属级别与批次将非遗项目划分为国家级与省级保护项目,在每个级别批次下冉按项目表现形式进行二级分类划分,同时,该数据库还提供非遗传承人与研究文献的索引。
从现有非物质文化遗产数字化保护成果来看,对非遗项目的组织模式普遍采用分类方法,对非物质文化遗产按其遗产地域、所属分类、保护级别等特征进行单线索的组织划分,这种组织方法虽然具有较好的局部条理性,但对非物质文化遗产外延下所蕴含的大量丰富的关联知识,如非遗项目所包含知识内容本身以及非遗项目与项目之间、非遗项甘与所处时空之间、非遗项目与传承人之间、非遗传承人之间、非遗项目与使用器具之间丰富的语义关联关系缺乏有效的揭示手段,一方面造成非遗项目所蕴含的知识内容的极大流失;另一方面由于缺乏统一科学的非遗组织体系使得已有非物质文化遗产数据库平台内容分散为一个个独立的信息孤岛,难以在现有组织架构基础上实现对非物质文化遗产数字化保护成果的整合。
2 基于关联数据的非遗资源语义组织框架构建
非遗作为文化形式和文化空间的有机结合体,非遗的管理不仅要关注其表现形式,更要关注其所生存发展的时间、空间、生态环境等因素,是一个多元素结合的有机整体。非遗项目的组织与保护需要利用富含语义特征的元数据来发现和揭示非物质文化遗产所包含的丰富的客观知识元并基于其语义关联对其进行有效的整合。而关联数据作为语义网环境下实现结构化与非架构化数据聚合与开放共享的有效途径为实现以上目标提供了解决之道。
基于关联数据的非遗资源的语义化组织工作可分解为非遗资源的数据建模、实体RDF化与实体关联化等3个核心环节。数据建模就是根据非遗资源内容定义非遗资源所包含的客观实体与抽象概念之间的关联关系,实体RDF化就是采用RDF协议米描述每一个实体与概念,实体关联化指采用RDF Link来描述实体与概念之间的语义关系。本体作为共享概念模型的明确的形式化规范说明,构建非遗资源的语义本体描述模型既是非遗资源数据建模的目标与最终成果,也是实体RDF化与实体关联化的基础。根据关联数据的发布流程,本研究提出一个关联数据驱动的非遗资源语义组织框架,通过构建非遗资源语义本体实现资源实体与概念的语义化标注,基于关联数据所利用的RDF数据模型与链接机制从静态、动态、时空等视角将非遗资源表现形式与非遗资源所处的文化空间知识内容进行整合,实现对非物质文化遗产丰富知识元基于其关联关系的语义化组织与统一展示。该框架由4层结构组成,如图1所示,从下至上分别为源数据层、语义层、数据关联层与应用层。
2.1源数据层
源数据层是非物质文化遗产所涉及知识内涵的最初始状态的信息表达形式,如文档、互联网页所记载的推遗的表现形式、所处地域、相关人物、发展时间、相关文献等信息。源数据层为上层的非遗知识提取、知识标引,知识组织功能的实现提供基础数据支持。
2.2语义层
语义层基于语义本体元数据模型,实现非遗资源的RDF化。非遗资源RDF化是非遗资源关联数据发布的重要一环,实体RDF化需要相应本体的支持,本体提供了领域内的基本概念及其关联关系的宏观理解,语义层设计构建了一个描述非遗项目知识无与知识元之间关联关系的非遗资源语义本体描述模型,基于该本体模型对非遗项目所包含的知识内容以及内容之间丰富的语义关系进行梳理与定义。基于本体描述模型对底层源数据层进行知以抽取并转换为RDF格式的语义元数据。
2.3数据关联层
数据关联层基于关联数据发布技术,将基于语义本体所构建的RDF元数据在语义层上相互关联起来,将非遗相关资源发布为一个有机联系的统一的整体,每个资源都可通过HTTP协议进行直接访问,并可沿着RDF链接访问其他资源,向上层提供一个统一的富含语义的知识视图。endprint
2.4应用层
基于数据关联层的知识组织架构,开发实现上层的各项语义应用服务功能,如语义检索、可视化语义知识地图、知识推理与发现等应用服务。
3 非遗语义本体构建
为实现对非遗资源的语义化描述,首先需要构建一个元数据本体实现对非遗领域内的核心实体与概念以及实体与概念之间的语义关系进行精确的语义化描述。目前,在非遗的领域内还没有出现特定本体,但在其上层的文化遗产领域,已经出现了一些具有一定影响的本体方案,如CIDOC CRM、ABB、AAT等,其中CIDOC本体基于面向对象的模型,描述关于文化遗产的概念以及概念之间的关联关系,其总共包含62个实体类,148个属性定义,对文化遗产具有最大的描述能力和灵活性。本研究在CIDOC CRM本体的基础,结合veard、Geoname等本体词汇库并进行适当扩展,譬如构建ICH-Project类定义非遗项目,扩展定义ich:inheritor属性定义非遗项目与传承人之间关联关系,ich:inherit from属性定义非遗继承人之间继承关系,ich:accepteddate属性定义非遗项目申报时间,本研究所构建的非遗元数据本体如图2所示。
非遗元数据本体由非遗项目(ICH-project)、人物(Person)、位置(Place)、事件(Event)、时间段(Time-span)、类型(Type)、事物(Thing)等6个核心类组成,实例之间关联关系通过类属性来揭示。
非遗项目(ICH-project)类实体为我国非物质文化遗产的知识表征,其描述属性项主要包含我国非物质文化遗产的相关特征,如名称、别名、内容描述、类型、入选名录等信息。
人(Person)是非物质文化遗产所处人文环境的重要组成部分,通过人的作用,非物质文化遗产才能够得以产生、传承并得到研究、推广。在某种程度上,人是我国非物质文化遗产的惟一的依附载体。在本模型中,人物类是与非物质文化遗产相关联的一切人物的抽象,可以是非物质文化遗产的创造者、传承者,也可以是其推广者、研究者,其基本属性包括人物的姓名、出生年月、个人简历、相关图片等信息。
类型(Type)实体主要应用于非遗知识元素分类体系的构建,其类别实例可以依据不同的分类准则进行定义,可以来源于各类受控词表,也可以依据不同的分类体系来定义,如依据我国《非物质文化遗产名录》将非遗分为民间文学、民间音乐、传统医药、民俗等十大类,依据非遗的民族特性又可划分汉族、土家族、苗族等类别。类别实例之间还可以利用类属性crm:has border term进行层级关系的搭建,建立一个多视角、多层次、灵活的分类体系,其他类实体可分别构建与类型实体的映射关系。
时间段(Time-span)主要表征特定的时间范围,类属性包括时间段的起始时间、结束时间等。时间段类主要用来描述非遗项目在时间维度演化发展的特定窗口,如非遗的起源时期、发展时期、非遗项目申报时间等。
事件(Event)类指代一切与非遗项目有关的活动,如祭祀活动、集体仪式、文艺活动、竞技游戏等。非遗项目的生存、发展与其所处特定环境的特定民俗活动有着极为紧密的联系,如被誉为中国戏剧活化石的“恩施傩戏”、民间舞蹈“土家族撒叶儿嗬”与民间祭祀活动之间关联的关系,民俗“端午节”与“赛龙舟”活动的关联关系等。
非物质文化遗产存在着较为鲜明的地域特征,同一地域相同的语言文字、风俗习惯、文化、历史源流往往孕育着反映该地域不同社会侧面的非遗内容,同一地域或相邻地域的非遗项目之间往往存在有着不同程度的关联关系。在ICH模型中位置(Place)实体一方面对非物质文化遗产的所流传的区域进行描述,同时也为非物质文化资源的发现提供多样性的捕获和发现手段。在本文中基于Geoname本体库对非物质文化资源所处地域基于其地理关系进行语义化组织。
非物质文化遗产也有其物质化的一面,大量的非遗项目需要依靠物质层面的事物来表达和呈现。如傩戏面具作为非遗项目傩戏造型艺术的重要手段,是傩戏其别与其他戏剧的重要特征,此外还有大量展示非遗项目内容的影、音、文字等文献资源等。事物(Thing)类实体主要揭示与非遗相关的物质元素。
类之间的关联关系通过类属性来定义。部分核心类属性如表1所示。
4 基于关联数据的非遗语义化组织功能实现
本节将以湖北、湖南两省非遗项目为例,基于上文所提出的非遗资源语义化组织框架及非遗原数据本体,将湖北、湖南两省非遗项目所蕴含的知识内容以关联数据的形式进行发布,在此基础上实现非遗知识基于语义的浏览、检索功能。
4.1源数据获取
本研究中非遗相关知识内容的获取主要基于互联网来实现,以互联网现有的非遗数据库平台为起点,并以此为依据在互联网上进行相关知识的扩展检索,实现对非遗相关知识内容的全方位获取。本研究共整理出湖北、湖南两省国家级、省级、市级非遗项目内容321项,包含非遗内容介绍、地域信息、传承人信息、相关事物信息等。
4.2基于D2RQ的非遗数据RDF化及关联数据发布
因为非遗信息数据量较大,内容需要不断更新,因此本研究采用在线映射方式实现非遗数据的RDF化及关联数据的发布。所采用方法是将非遗信息借助于关系数据库进行存储,基于D2RQ平台实现关系数据库与RDF关联数据的语义映射,将关系数据库发布为关联数据并提供语义查询检索接口。D2RQ服务器体系框架如图4所示。
D2RQ基于一个可个性化定制的D2RQ mapping file将关系数据库中数据直接映射为语义网RDF格式并建立对应的RDF链接关系。D2RQ提供RDF数据的浏览和检索接口,以供上层的RDF浏览器、SPARQL查询客户端或传统的HTML浏览器调用。
本研究使用mysql数据库实现数据的存储,在底层mysql数据库中与实体类对应分别建立数据表ich-proiect、person、place、time-span、type、thing,数据表列对应本体类属性;另外建立数据表rel_porject_place、rel_project person、tel_project_thing、rel_place_place分别存储非遗项目与地区,非遗项目与人物,非遗项目与事物,地区与地区之间的多对多关系。将收集整理的321项非遗项目内容进行特征内容的抽取与划分,存入对应关系数据库表结构中。利用D2RQMapping Language构建映射文件,基于D2RQ平台的映射工具实现非遗数据的关联数据发布。系统配置及位置实体类映射代码如下:
用户可分别点击页面上部Event、ICH-Project等类名称标签浏览类实例数据目录,点击目录链接即可查看实例数据内容。同时,用户也可以以任一实例数据为起点沿着关联数据所构建的RDF语义数据链,从任意一个非遗知识节点开始不断发散式访问浏览其他相关非遗知识内容,如从非遗项目目录→非遗项目→非遗传承人→传承人相关文献资源,非遗项目→流传地域→临近地域→非遗项目→相关事物等。
基于D2RQ平台所提供的SPARQL关联数据语义查询接口,用户可直接编辑SPARQL查询语言精确根据系统所构建的语义关联检索所需信息。非遗项目“龙凤书”的类实例SPARQL查询检索页面如图6所示。
5 结语
本文提出了一种基于关联数据的非遗知识语义化组织方法,基于所构建的非遗语义本体,实现了对非遗资源及其关联关系的语义化揭示与组织,最后完成了一个原型系统的构建。该方法相对于传统分类、主题等组织方法的优点是:
(1)改变了传统分类组织、主题组织等单线索式的组织模式,实现对非遗知识基于其表现形式、人物、地域、相关事件、相关事物的多线索的有序管理,弥补了传统的单线索的分类组织方法功能上的缺陷。
(2)基于关联数据的非物质文化遗产语义化组织系统改变了传统信息组织系统的封闭性,成为了一个开放的系统。基于RDF Dump协议或SPARQL协议能够便捷的向外界开放系统内的知识内容,同时也能将外部基于关联数据组织的知识数据灵活的与系统内数据进行关联整合,可形成一个可无限扩展的非遗知识网络,向用户提供一个统一的蕴含丰富非遗知识元及其语义关联关系的知识视图。
(3)基于RDF和非遗语义本体强大的语义描述能力,对非遗领域丰富的知识元以及知识元之间的语义关系进行了充分的揭示,为上层非遗领域的专家系统、知识推理等语义服务奠定了坚实的基础。
在后续研究中,将在非遗资源的语义化组织基础之上进一步研究基于关联数据知识组织系统的非遗资源的知识挖掘,例如基于规则库等方法的非遗知识推理与挖掘方法,同时构建基于自然语言的语义知识检索系统,让系统更加实用化。
(本文责任编辑:孙国雷)endprint