基于关联数据的文化遗产数字化保护研究综述*
2020-03-14金小璞
徐 芳 金小璞
文化遗产是历史留给人类的宝贵财富,包括物质文化遗产和非物质文化遗产。早在2004年,全国人民代表大会常务委员会就通过《保护非物质文化遗产公约》。2006年,国务院《关于加强文化遗产保护工作的通知》决定每年6月的第二个星期六为我国的“文化遗产日”。2011年,国务院颁布《中华人民共和国非物质文化遗产法》。据新华社报道,截至2019年7月,我国已有55项世界文化、景观和自然遗产列入《世界遗产名录》,包括周口店北京人遗址、四川都江堰、陕西兵马俑、山东泰山、北京故宫、北丝绸之路和京杭大运河等[1]。 2017年10月18日,习近平同志在十九大报告中指出,要加强文化遗产保护传承。文化遗产的保护与传承已经成为近年来的一个热门研究领域。大力挖掘文化遗产的历史和人文价值,推动文化遗产从地理空间走向文化空间是一个需要多学科共同合作的重大课题,来自不同学科的学者们正致力于从不同学科视角探索文化遗产的保护、传承与传播等问题。在图书馆情报与档案管理领域,为数不少的学者在数字采集、数字存储、数字处理、数字展示、数字传播等方面对文化遗产的数字化保护展开了不同程度的研究,形成了较为丰富的文献。有学者已经对非物质文化遗产数字化[2]、非遗数字资源描述与语义揭示[3]等研究现状进行了综述。
但应该注意的是,文化遗产数字化保护是一个与时俱进的研究课题,国内外图情档学者一直致力于寻找新技术与新方法在文化遗产数字化保护领域的应用研究。近年来,“互联网之父”Tim Berners-Lee提出的关联数据(Linked Data)是一套应用规范而不是难度很高的技术,很快被国际互联网协会(W3C)接受成为一种发布和联接各类信息、数据的规范,引起了国内外图情档学界的广泛关注。将关联数据技术应用于文化遗产数字化保护领域,不仅可以起到以统一标准的结构化数据对物质与非物质文化遗产数字资源进行描述,实现数字化保护的目的,还能以“数据”为单位揭示数字资源实体之间的关系,推进文化遗产的数字人文研究,实现文化遗产数字资源的传承与传播。图情档领域在基于关联数据的文化遗产数字化保护方面开展了较多的研究,形成了较为丰富的文献。系统地梳理国内外基于关联数据的文化遗产数字化保护研究的文献,可以为学者了解该领域的研究现状、开展后续研究提供参考。
1 文化遗产数字化保护与关联数据
1.1 文化遗产数字化保护
关于“文化遗产数字化”,早在2009年王耀希就给出了其概念,认为文化遗产数字化是指利用数字采集、数字存储、数字处理、数字展示、数字传播等数字化技术将文化遗产转换、再现、复原成可共享、可再生的数字形态,并以新的视角加以解读,以新的方式加以保存,以新的需求加以利用[4]。参考该定义,后续研究给出了“非物质文化遗产数字化”[5]等相似的定义。事实上,该定义已经包含了“文化遗产数字化保护”的含义,因为文化遗产数字采集、数字存储、数字处理、数字展示、数字传播等数字化的过程本质上就是对文化遗产进行保护的过程。但是,王耀希的定义也存在一些局限,例如:概念没有涉及文化遗产数字化实施主体、文化遗产数字资源用户等[2]。事实上,早在2007年美国的Gorman就曾提出“美国图书馆界要和档案馆、博物馆、美术馆、研究机构、表演团体等其他机构开展合作,共同制定文化遗产保护的标准、政策和工作流程等”[6]。后续一些研究也肯定了该观点,认为图书馆、博物馆、文化馆、档案馆等应该积极参与到文化遗产数字化工作中[7,8]。此外,也有一些研究认为:文化遗产所在地的居民也应该是数字化主体[9];信息化程度较高的社群和传统社群对文化遗产数字化有着截然不同的态度[10];等等。综上,可以认为文化遗产数字化保护是指为了实现对文化遗产中所蕴含的文化内核与精神传统的数字化保护、开发与传播,图书馆、博物馆、文化馆、档案馆等文化机构采用数字化技术(云计算、关联数据、本体、语义、虚拟现实、虚拟增强等)对文化遗产进行保护的过程。
1.2 基于关联数据的文化遗产数字化保护
2006 年7 月,万维网的发明者Tim Berners-Lee 提出关联数据(Linked Data)的概念:一种在语义网上发布、共享与连接各类数据、信息及知识的方式[11]。关联数据以HTTP、URL、HTML 等Web技术为基础,采用RDF 模型,可以将非结构化、半结构化以及各种结构化的数据转换成统一标准的结构化数据,实现以“数据”为单位的关联,以便机器理解[12,13]。与传统的数字资源组织方式(文件、超文本、超链接和数据库等)相比,关联数据可以处理复杂的信息单元,实现对数字资源实体间内在关系的深刻揭示,可以较好地实现对文化遗产的保护与传承。参考现有研究[14-16],本文认为基于关联数据的文化遗产数字化保护是指采用关联数据发布或者转换规范与工具,以具有标识意义的文化遗产“数据”为单位,采用资源描述框架(Resource Decryption Frame,RDF)数据模型,对文化遗产数字化资源实体及其之间的关系进行描述,以实现文化遗产数字资源的保存、开发、利用与传播之目的。
2 基于关联数据的文化遗产数字化保护研究现状
2.1 基于关联数据的文化遗产数字化保护理论
理论是指应用关联数据解决文化遗产数字化保护问题时涉及的文化遗产数字采集、数字存储、数字处理、数字展示、数字传播等相关的概念、特征、标准、体系、框架、模型等。这方面的文献较为丰富,国内代表性的研究有:非物质文化遗产数字化的元数据标准、数据分类体系标准、数据开放以及数据管理与保障体制等的理论研究[17];非遗多媒体资源内容和特征的语义化组织和资源的分类组织框架[18];基于关联数据的非物质文化遗产语义化组织框架、非物质文化遗产本体描述模型、非物质文化遗产知识元及其关联关系的语义化描述等[19];以情节、实体、活动、情境为核心对叙事型图像时空信息进行组织表达的叙事型图像语义标注模型[20];非遗视频数据的知识元提取、语义标注、关联数据发布等基本问题[21]。国外方面,影响力较大的非遗分类体系成果主要有《保护民间创作议案》(RecommendationontheSafeguardingofTraditionalCultureandFolklore)中的“十分法”、《人类口述与非物质遗产代表作条例》 (MasterpiecesoftheOralandIntangibleHeritageofHumanity)中的“十一分法”以及《保护非物质文化遗产公约》(ConventiononIntangibleCulturalHeritage)中的“五分法”[3]。此外,Bamo等[22]和Kando 等[23]的研究都对文化遗产数字资源的元数据描述进行了不同程度的探索。Lombardo等[24]、Kim等[25]以及Mallik等[26]的研究构建了文化遗产数字资源本体模型。可见,国内外学者对关联数据与文化遗产数字化保护领域的理论进行了较为系统的研究,在文化遗产数字化资源的元数据标准、分类体系、本体模型等方面形成了一些研究成果,可以为基于关联数据的文化遗产数字化保护的后续研究提供支持。
2.2 基于关联数据的文化遗产数字化保护技术
技术方面的研究主要涉及元数据、本体、关联数据、可视化等技术在文化遗产数字化保护领域的应用研究,这方面的文献较为丰富。
2.2.1 文化遗产数字资源描述的元数据标准
元数据是文化遗产数字化资源RDF描述和关联数据发布的基础。文化遗产数字资源关联数据的发布,需要一套专门的文化遗产数字资源元数据标准来对文化遗产数字资源进行描述。目前,国内外研究与实践中常见的复用于文化遗产数字化保护领域的元数据标准主要有:都柏林核心元数据(Dublin Core,DC)、艺术品描述类目(Categories for the Description of Works of Art, CDWA)、视觉资料核心类目(Core Categories for Visual Resources, VAR core)、国家图书馆视频资源元数据规范与著录规则等。代表性的研究有:熊拥军等提出应制定可以共享的非遗资源核心元数据集[27];张勇等指出非物质文化遗产数字资源元数据标准应具备面向语义的信息资源描述能力,信息资源的组织要面向非遗知识本身,注重以非遗知识为单位的知识标引[28]。实证方面,刘美杏、徐芳设计了一套古道文化遗产信息资源元数据标准,复用了VRA Core 4.0版本中的14个元素和DC中的10个通用元数据,并重新定义了这些元数据[29];许鑫、张悦悦以DC元数据标准为基础,构建了一套更具兼容性、互操作性和非遗特色的元数据规范体系[30];Bamo以口头传述作为传承方式的少数民族生活史诗为研究对象,制订了描述传统史诗的声音记录的元数据方案,包括19 个父元素和104 个子元素[22];Kando等介绍了日本Cultural Heritage Online项目,探索了多种来源和类型的物质和非物质文化遗产数据集元数据融合[23]。此外,杨红的著作《非物质文化遗产数字化研究》对非遗分类体系、核心元数据、标准体系等问题进行了较为系统的研究[31]。
2.2.2 文化遗产数字资源描述的本体
本体主要用于揭示领域知识概念及其之间的语义关系,强调数字资源的内容及其与领域知识概念之间的关系,是文化遗产数字资源语义组织的核心技术。邱均平等提出“只有以本体为核心思想的知识组织才能称为语义化,以揭示知识概念以及知识之间的语义关系为目的”[32]。目前,应用于文化遗产数字资源本体模型构建研究中比较成熟的本体方案有国际文献工作委员会(International Committee Documentation,CIDOC)的概念参考模型(Conceptual Reference Model, CRM)、CDWA以及艺术和建筑词表(The Art & Architecture Thesaurus, AAT)等。其中,CRM是CIDOC经过十多年努力而制定的面向文化遗产领域的通用本体模型,旨在为实现文化遗产领域信息的共同理解,涵盖了从实体物件、考古遗迹到人文历史、时间、地点以及人物等方面,共定义了89个类和151个属性。2006年9月,该模型被国际标准化组织(ISO)认定为国际标准[33]。国内外学者在这些常用本体的基础上,根据不同的应用领域对其进行扩展,提出了领域内更具针对性的数据模型和语义描述框架。代表性的研究有:(1)少数民族非遗的本体。隗昊、孙瑜以傣族泼水节为例,在CRM本体模型的基础上,研究包括民俗活动、行为主体、时间与地点4个大类、5个二级类和13个三级类的民族节日领域本体模型的构建[34]。(2)非遗项目的本体。黄永等以藏族的民间歌舞“锅庄”和“堆谐”非遗项目为例,研究非遗领域数据集构建、本体标注、本体关联等关键问题,设计并实现了文本标注与多媒体关联的非遗知识本体构建系统[35];徐雷、王晓光等以“敦煌壁画故事”非遗项目为例,设计适用于叙事型图像的语义标注本体模型,以情节、实体、活动为核心对叙事型图像的时空信息进行组织表达[20,36]。(3)传统文化的本体。Lombardo等研究设计了包括戏剧实体、数据结构、描述模板和外部引用四个核心类的Drama综合本体模型,为戏剧知识建立了一个关联的、可以自动推理的戏剧词汇集[24];Kim等研究设计了韩国文化遗产本体模型(KCHDM Ontology),定义了事件、人物、实物、时间、地点五个父类[25];印度学者Mallik等以印度传统舞蹈文化为例,设计了基于对现实世界因果概念模型的网络多媒体本体语言(MOWL),建立了多媒体属性与领域概念之间的感知模型[26]。此外,Noardo 和Spano在CRM本体模型的基础上,引入整合City GML等标准的空间属性和特征,提出了非遗空间语义模型;并根据非遗文物的地域分布分析非遗项目之间的相互关系,将其数据组织成可以在GIS系统中进行展示的标准化数据模式[37]。
2.2.3 文化遗产数字资源的关联数据发布与语义检索
文化遗产数字资源的关联数据实现需要满足两个条件:一是有一个数据模型,可以用来表示不同来源的、异构的文化遗产数字化资源,以元数据和本体为基础的RDF模型满足这个条件;二是有一些关联数据发布或转换工具,可以发布文化遗产数字化资源关联数据或者将资源数据转换成统一的关联数据格式,目前已经有一些较为成熟的关联数据发布或转换工具。发布关联数据的途径主要有三种:静态发布、批量存储以及调用时生成[38]。关联数据的格式转换工具则主要有:D2RQ[39]、Apache Marmotta平台[40]、OAI2LOD Server[13]。
这方面的代表性研究有:侯西龙等以湖北省的非遗项目为例,研究非遗资源实体RDF 化、实体关联、关联数据存储与发布等,构建了非遗知识关联数据集与知识服务平台[41];刘美杏、徐芳以线性物质文化遗产潇贺古道为例,构建了一个基于关联数据的古道线性文化遗产信息资源关联模型并进行实证研究[42];谈国新等以瑶族“度戒”的多媒体资源为例,实现了关联数据发布并对外提供语义检索和解析服务[18];董坤利用D2RQ平台实现了关系数据库与RDF关联数据的语义映射,将关系数据库中的数据发布为关联数据并提供语义查询检索接口SPARQL,实现了非遗数字资源的关联数据发布[19]。此外,Wu等人设计了中华传统医药语义本体,开发了基于本体的查询与搜索引擎[43];Lee等人介绍了韩国基于网络的非遗百科全书数据库和档案系统——Ichpedia的本体构建与语义检索功能的实现方式[44]。
2.2.4 文化遗产数字资源的可视化展示技术
文化遗产数字资源的可视化展示技术主要有3D技术、增强现实(Augmented Reality,AR)技术等。这方面的研究不多,代表性的有:陈文彦以蔚县剪纸为例,分别从派系传承一维关系、空间传承二维关系、派系与空间传承三维关系三个维度进行知识可视化表达[45];王伟等以湖口青阳腔为例,对基于时空维度的传承可视化进行探讨,实现了一种新的可视化表达方式[46];陈路遥、许鑫提出了一种基于关键事件技术的非遗信息可视化方案,并通过关键事件技术对信息进行结构化组织以及可视化展示[47];Damiano提出了基于本体的非遗可视化框架,利用语义关系结构来弥合数据复杂性和直接访问之间的差距[48]。此外,谈国新、孙传明利用三维技术实现了土家族“撒叶儿嗬”的道具服饰、舞蹈技法、口头经验、表现形式、舞蹈空间场所的原生态再现[49];Bustillo等则采用3D、CAD、虚拟现实等技术开发了一个用于文化遗产教学的半沉浸式系统平台[50];Carrozzino 等设计了一个3D 虚拟交互平台,用于展示意大利的传统技艺青铜塑像铸造古法的整个流程[51]。
2.3 基于关联数据的文化遗产数字化保护案例研究
案例研究方面的文献较多,代表性的研究主要聚焦于以下三个方面:(1)少数民族非遗的数字化保护案例。例如,谈国新等以 “度戒”(瑶族的一种宗教风俗习惯)为例,构建了非遗多媒体资源本体模型及资源语义描述层级,并对其多媒体资源进行语义组织及关联数据发布,揭示出“度戒”知识概念之间的语义关系[18]。(2)非遗项目的数字化保护案例。翟姗姗以非遗项目“楚剧”为例,对非物质文化遗产资源进行语义化标注,建立了基于关联数据的非物质文化遗产资源聚合与服务平台[52];仝召娟等以非遗项目“欧塑”为例,提出了基于关联数据的非遗数字资源聚合方案:元数据标引、关联数据创建与发布以及聚合应用等[53];滕春娥、王萍以“赫哲族”非遗项目为例,从赫哲族非遗项目、人物、机构、事件、事物以及文献等核心概念出发,构建出赫哲族非遗资源的本体模型[54];徐雷、王晓光以“敦煌壁画故事”非遗项目为例,对其进行语义描述,设计了适用于叙事型图像的图像语义标注本体模型[20];黄永等以西藏非遗项目“锅庄”和“堆谐”两种舞蹈为例,设计完成了一定规模的非遗知识本体库[35]。此外,印度学者Mallik等以“印度古典舞”非遗项目为例,在他们设计的网络多媒体本体语言(MOWL)框架基础上,构建了印度古典舞本体模型(ICD Ontology),同时通过概念识别建立领域本体模型,并对古典舞视频进行标注,将舞蹈知识与视频媒体资源进行关联[26]。(3)传统非遗文化的数字化保护案例。周耀林等以传统戏剧类非遗为例,参考CRM与传统戏剧类核心元数据,构建了包含人物、事件、地理位置、时间、剧种、剧目、舞台表演、音乐和传播等传统戏剧类非遗信息资源的本体概念体系[55];Raheb 和Ioannidis 以传统舞蹈数据为例,设计了基于拉邦舞谱概念的本体——DanceOWL,开发了舞蹈信息系统,通过机器可读与人类可理解的表现方式,支持语义检索和动作分析[56]。由上述内容可见,现有研究对关联数据在文化遗产(特别是非物质文化遗产)保护领域的应用进行了一些实证研究,积累了较为丰富的经验,一定程度上证明了关联数据在文化遗产保护领域应用的可操作性。
2.4 基于关联数据的文化遗产数字资源开发与利用
开发与利用方面的研究较少,主要涉及文化遗产数字资源的开发、共享、管理信息系统等主题。代表性的研究有:李姗姗、赵跃提出了基于关联数据的非遗档案开发模型[57];王蒙、许鑫研究发现主题图可以可视化地整合和展示非遗信息资源及其之间的关系[58];王耀希提出了一种基于关联数据的非遗数字化资源整合方案[4];施旖构建了非遗档案资源主题图[59];翟姗姗等研究发现利用语义出版技术能够实现非遗数字资源共享[60]。此外,Vassallo尝试建立了一个以主题图为基础的文化遗产信息管理系统,不同的部门可以通过这个系统来管理文化遗产信息,供用户浏览使用,同时还可以记录用户的导航历史、统计搜索数据,以此设定多样化的文化遗产名称[61]。
3 基于关联数据的文化遗产数字化保护研究述评
3.1 形成了较为系统的理论体系
文献调查表明,现有基于关联数据的文化遗产数字化保护理论方面的研究主要聚焦于文化遗产元数据标准、数据分类体系、数据开放以及数据管理与保障体制、非遗数字资源组织方式、基于关联数据的非物质文化遗产语义化组织框架、非物质文化遗产本体描述模型、非遗视频数据的知识元提取、语义标注、关联数据发布等基本问题,已经形成了较为系统的理论体系。但是,由于文化遗产种类繁多、各具特色,构建文化遗产通用的元数据标准、分类体系、本体模型有一定的难度。虽然现有研究在这方面做了一些尝试和探索,在非物质文化遗产数字化资源的元数据标准、分类系统、体系模型等方面取得了较为系统的理论成果,甚至形成了一些国际通用的元数据标准、本体模型,但物质文化遗产数字资源的元数据标准、本体模型等方面的研究还较为缺乏。特别是,同时兼顾物质文化遗产和非物质文化遗产数字资源描述的通用元数据标准、本体模型方面的研究还有待加强。
3.2 立足技术研究推进文化遗产数字化保护的理论研究
如前所述,基于关联数据的文化遗产数字化保护技术方面的研究成果较为丰富。元数据、本体、关联数据以及可视化展示、3D技术、AR技术等在文化遗产数字化保护方面的应用研究较多,已经产生了较为系统而全面的文献。这些技术几乎涉及了文化遗产数字资源描述、语义组织、关联数据发布、语义检索、结果展示等基于关联数据的文化遗产数字化保护的数字采集、数字存储、数字处理、数字展示、数字传播等全过程,为基于关联数据的文化遗产数字化保护的后续研究提供了坚实的技术基础。基于关联数据的文化遗产数字化保护研究是一个技术性很强的领域,技术与理论的关系非常紧密,后续研究应该立足技术研究推进文化遗产数字化保护的理论研究。此外,与理论研究类似,由于文化遗产种类繁多,统一规范的通用文化遗产元数据标准、分类体系、本体模型的构建、语义检索等方面的技术难题尚有待后续研究进一步探索。
3.3 注重非物质文化遗产数字化保护的实证研究
现有关联数据在文化遗产数字化保护领域的研究已经进入了实证阶段,主要有以少数民族风俗“度戒”、非遗项目“欧塑”“楚剧”“赫哲族”、“国内外传统舞蹈”“敦煌壁画物质文化遗产”“潇贺古道线性物质文化遗产”等为例,探索文化遗产的元数据标准、数字资源的分类体系、语义标注、本体模型构建、语义组织以及关联数据的发布、转换与检索、可视化展示等。而物质文化遗产数字化保护的实证研究非常少,尚处于初级阶段。其可能的原因是基于关联数据的物质文化遗产数字化保护涉及到物质文化遗产数据采集、仿真模拟、VR(AR)技术、3D 复原技术、可视化技术等专业性、技术性较强的工作,目前的研究条件还不完全具备。 如前所述,截至2019年7月,我国已有55项世界文化、景观和自然遗产列入《世界遗产名录》,关联数据在敦煌莫高窟、长城、陕西秦始皇陵及兵马俑、京杭大运河、丝绸之路、茶马古道、广西灵渠等线性物质文化遗产数字化保护方面的应用应该是一个大有可为的研究领域。
3.4 加强文化遗产数字资源开发利用研究
文化遗产数字化保护是为了实现对文化遗产中所蕴含的文化内核与精神传统的保护、传承与传播,因此,开发利用是文化遗产数字化保护的最终目的。文化遗产数字化保护是一项系统的工程,涉及到保护主体、保护理论、保护技术、保护制度、开发利用等方面。文献调查表明,现有基于关联数据的文化遗产数字化保护研究在理论、技术、案例研究等方面的成果较为丰富,而文化遗产数字资源开发利用方面的研究力度非常有限,只有为数不多的研究围绕文化遗产数字资源的开发、共享、聚合、管理信息系统等主题进行了一定程度的探索,研究力度有待进一步加强。事实上,文化遗产数字资源是一种非常重要的信息资源,文化遗产数字资源的开发利用、共建共享、长期保存等问题都是急需探索的研究领域。
3.5 重视文化遗产数字化保护主体研究
近年来已经有学者[2,7-9]意识到文化遗产数字化保护主体在文化遗产数字化保护过程中的重要性,但是文化遗产数字化保护主体方面的专门研究还比较鲜见,只有少数文献提到了该问题,这方面研究的系统性和深度都有待加强。文化遗产数字化保护主体应该包括档案馆、图书馆、博物馆等文化机构,以及文化遗产政府管理部门、社会组织、文化遗产所在地及其居民等,忽视保护主体方面的研究将导致文化遗产数字化保护研究只停留在理论层面,阻碍文化遗产数字化保护的落地实施进程。文化遗产数字化保护应该是一个由政府文化部门主导,图书馆、档案馆、博物馆等文化机构、社会组织、文化遗产所在地及其居民全员参与的过程。在保护主体的协调工作下,完成文化遗产数字化保护过程中的数字资源采集、组织、管理、共建共享、开发利用等。
4 结语
文化遗产数字化保护是一个历久弥新的课题。实践方面,国外“美国记忆”“俄罗斯记忆”“加利卡”“威尼斯时光机”项目,国内“敦煌莫高窟数字化”“数字秦始皇兵马俑博物馆”“圆明园遗址复原”“武陵地区文化遗址再现”“藏传佛教活佛查询系统”等项目都体现了元数据、本体等技术在文化遗产数字化保护中的应用。近年来,随着“丝绸之路”“京杭大运河”申遗项目的成功,文化遗产数字化保护日益受到国家、政府和社会各界的高度重视。以京杭大运河为例,2017年2月习近平总书记视察北京大运河森林公园时强调,保护大运河是运河沿线所有地区的共同责任[62]。自此,大运河沿线各省制定了大运河保护与开发的政策并且推动其落地实施。2018年4月大运河文化带建设研究院在南京成立,随后苏州、扬州、淮安和徐州分院纷纷成立[63],我国正聚力推动以大运河等为代表的文化遗产的数字化保护。
文献调查表明,关联数据技术具备统一标识、多维揭示、整合共享等功能,能够解决文化遗产数字资源面临的内容繁多、主体多元、数据异构、数据交换共享等问题[21],可以在一定程度上解决我国文化遗产数字化保护与传承中遇到的难题。该领域的研究已经引起了国内外不同学科、领域学者们的广泛关注,现有研究主要聚焦于关联数据在文化遗产数字化保护领域应用的理论、技术以及案例等,取得了较为丰硕的研究成果,为该领域的后续研究奠定了坚实的基础。但是,同时也应该注意该领域的研究尚存在一些局限与不足,有待后续研究加以重视。