非物质文化遗产视频资源描述与知识组织研究
2023-06-01谈国新孙传明
范 青, 谈国新,孙传明
(1.荆楚理工学院文学与传媒学院, 湖北 荆门 448000; 2.华中师范大学国家文化产业研究中心, 武汉 430079)
非物质文化遗产(简称“非遗”)是中华民族传统文化的灵魂,其保护与传承受到广泛重视.2021年8月,中共中央办公厅 国务院办公厅印发《关于进一步加强非物质文化遗产保护工作的意见》,强调运用现代科技手段对全国非遗资源开展调查、记录、整合与共享,构建更加科学合理的资源保护体系.在智能媒体时代,以视频为媒介的传播方式超越了文本、图像等传统媒介,改变了人们的阅读习惯.对非遗视频进行语义描述,形成计算机能识别和处理的资源库,以知识元建立关联关系实现视频资源的共享及智能应用,是当前非遗资源保护和传承的迫切需求.然而,以视频为主流的数字媒体时代,视频资源的利用和管理需求矛盾突出,传统的视频资源管理仅仅是对视频文件进行简单的标记和命名,缺乏知识组织和语义关系表述,资源碎片化严重,限制了海量视频资源的管理和有效传播.由于非遗视频属于非结构化数据,数据资源零散,必须通过建立视频之间的语义关联,满足智能时代视频资源检索及个性化推荐需求.
非遗视频资源丰富,数据量大,如何应用计算机进行科学管理是当下研究难点.目前,基于元数据的检索应用比较广泛,但基于视频内容的知识组织与管理还不成熟,特别是非遗视频包含传承项目、人物、事件和时空场景等多重要素,高效准确建立视频之间的组织关联还面临众多技术挑战,制约了非遗的智能化传播.语义关联是信息时代多源异构资源的聚合,能实现知识组织、共享与检索.基于语义关联的非遗视频知识组织,是将非遗视频以本体构建方式,结构化表达视频资源信息,并构建视频之间语义关联,进而达到视频资源的语义化和关联化目的.
本文利用信息组织学及本体论等相关理论,提出一种非遗视频资源的语义描述框架,包括非遗视频资源的采集、知识元、本体模型、语义关联与知识服务等过程.研究如何将非结构化视频资源转换为结构化数据,并构建视频本体,以知识可视化形式展现非遗视频之间的丰富关系.在理论研究的基础上,以湖北省非遗项目为例,构建非遗视频知识服务平台,向用户提供非遗视频资源检索及智能知识服务,实现非遗视频资源的共享和智能传播应用.
1 相关研究概况
1.1 视频知识组织
非遗数字化保护与传承的一项重要任务就是将大量的视频、音频、文字、图片等多媒体资源进行管理,利用语义描述这些资源的知识组织,并构建语义关联,建立知识库,以供用户检索及访问.对于早期的多媒体描述研究,Tamura等最早认为影像资源的描述是根据多媒体资源的内容以手工方式添加描述文本[1].这种描述提高了计算机对视频内容的识别,方便系统对资源进行检索,但该方法也存在一定缺陷.其一,对于分散的视频资源,手工描述因个人差异导致描述的词汇有所差异,并且还会出现漏标或错标,从而影响计算机检索的精准度.其二,对于小型视频资源库可以采用人工描述方式进行标注,但对于数量庞大的视频库,手工描述显然难以胜任.
为了提高视频内容描述的准确率和效率,学者们开始研究计算机自动标注方法,借助神经网络学习提取视频影像的底层特征,通过样本训练让计算机智能识别视频内容,从而实现自动标注和描述[2].自动提取即“共生模型”,其功能是在影像资源间建立语义关联[3],这种自动提取算法诞生于1999年.目前基于机器的自动标注准确性不高,造成了大量的信息歧义,无法满足用户检索要求,导致了语义鸿沟出现.
为了解决用户和计算机之间的语义鸿沟,语义标注的概念和方法被提出并进行了较多的研究与应用实践.视频本身不具备语义信息,只有被标注后才包含信息文本.语义描述是知识服务的基础,通过在不同层次之间提取视频特征并进行分析,形成视频的语义描述.鉴于此,Eakins提出三层模型,为资源语义标注提供了一个框架结构[4].王晓光等在Eakins的基础上提出一种影像语义描述层次模型,在高层语义中加入相关术语表及元数据,用于敦煌壁画的语义标注[5].彭太乐提出基于镜头的标注方法,通过视频的上、下帧关系提出视频分类算法[6].此外,谢潇等针对地理视频提出了一种表达视频变化的多层次语义模型,该模型通过变化的三域(特征域-行为过程域-事件域)定义层次结构,描述地理信息与视频内容的语义关系[7].Duong等采用基于本体的方法标注社交网络中的视频资源,达到视频标注的一致性和完整性[8].
1.2 非物质文化遗产本体
描述视频语义关系需构建本体模型.“本体”一词属于哲学范畴的概念,后来应用到计算机领域,用于知识表示[9].有文献表明,Studer等在1998年给出本体定义,提出本体是对领域知识的抽象和描述,是用于表达、共享知识的方法[10].一个本体包括术语和术语间的关系,其实质是规范概念模型,对领域概念标准化描述,实现知识共享和应用[11].本体作为知识组织层描述模型工具,在知识工程中广泛应用.基于本体的视频描述框架基本思想是通过本体模型对视频特征和信息进行描述,根据视频资源的相关属性及关联关系,建立资源分类,使庞大的视频媒体资源形成一个有效链接的知识库.基于本体的多媒体资源描述已成为当前研究热点,相关机构都对领域本体开展研究与应用,形成各具特色的本体模型.Kong等提出影像语义标注的顶层本体,该模型允许用户根据领域专业特点在顶层模型中建立个性化的本体[12].Vincenzo等提出了影视戏剧本体模型,该模型由戏剧数据类型、戏剧名称、戏剧内容描述、外部引用等四个模型组织,通过本体模型的建立,展现戏剧中人物情感、不同人物的关系,为戏剧数字化展示提供了智能应用.Ghosh等提出“现实世界因果概念的网络多媒体本体”,将现实中事件、概念与多媒体呈现内容建立关联[13].此外,夏立新等对非遗图片的社会化标签进行研究,从多维度揭示非遗数字化资源的特征[14].候西龙在设计非遗视频语义组织模型中,明确非遗视频的概念及语义关系,提出非遗视频领域共享的概念模型[15].
在本体模型构建方面,目前成熟的本体模型有DublinCore、IAFATemplate、CDWA、VRACore、FOAF、COMM、CIDOC-CRM等.VRACore是美国可视资源协会提出的本体模型,用于描述可视化作品及图片资源,包括17个核心目录,涵盖文艺作品、古建筑、照片等可视化资源[16];CDWA本体模型用于艺术品、文献资源及可视资源描述;COMM模型,扩展了MPEG-7概念表述,采用模型化结构定义数据格式,包括视频、媒体、文本信息等核心要素[17];CIDOC-CRM模型是非遗领域广泛采用的本体模型,该模型涵盖了实体、时间、地理位置及人物等要素,以事件为核心,对非遗描述比较全面.谈国新等人参考CIDOC模型,基于视频、图像、语音等影像资源构建了一种多层资源描述本体[18].
综上所述,目前国内外非遗知识组织的研究主要集中在文本、图片及档案数字化层面,并取得了一定的研究成果,但在非遗视频知识组织方面研究较少,视频知识组织的粒度不够细,资源之间关联度不强,智能服务质量不高.此外,缺乏有效的视频知识本体模型,没有统一的领域本体,难以对非物质文化遗产视频资源进行有效描述和规范.针对以上问题,本文围绕非遗视频知识组织和关联问题,从视频资源的知识元组织、本体构建及语义关联等方面入手,提出非遗视频的知识组织模型.该模型涵盖多维度的知识层面,让读者从可视化角度更加全面了解非遗信息,为我国非遗数字化保护和传播提供更加智能的服务方式.
2 非物质文化遗产视频结构与知识组织分析
2.1 非物质文化遗产视频层次结构
多媒体集声音、图像、动画等多种媒介于一体,经计算机加工后可以输出多种形式,实现媒体格式多样化.多媒体信息无论在空间还是时间上都存在着一定的联系,具有时空性、集成性、实时性和空间性.视频按其结构由帧、镜头、场景和故事单元构成,其中帧是视频基本单元,由每幅静止图片构成,多组帧在时间线上按序排列形成镜头,多种镜头形成场景.通常情况下,故事单元的场景由独立场景镜头按时间序列排列组成,相邻帧在视频特征上基本相同,相邻两帧特征发生变化则其镜头也产生变换[19].非遗视频的层次化结构,从上而下可以表示为视频层、故事场景、镜头层和帧,按非遗可以划分为人物、事件和时空等类别,其结构关系如图1所示.文中影像图片来自华中师范大学国家文化产业研究中心“湖北省非物质文化遗产综合展示平台”.
图1 非物资文化遗产视频层次结构图Fig.1 Hierarchy of intangible cultural heritage video
2.2 非物质文化遗产视频资源知识组织分析
非遗视频资源的知识组织实质是对资源的概念、关系及属性的描述.为保证非遗视频描述的准确性,需通过细致分析后以颗粒度更细的方式描述资源组织结构,更好地挖掘非遗本体之间的关联关系.本文根据非遗视频资源特性,参考Eakins提出的层次模型[4]和周知等提出的语义描述层次[20],采用自顶而下的方法确定非遗视频资源知识组织的层次模型,分为关系层、语义层、对象层和底层4个层级(如图2).层级越高,其语义描述的抽象程度越高,细粒度越好.
图2 非物质文化遗产视频知识组织层次模型Fig.2 Hierarchical model of knowledge organization for intangible cultural heritage video
底层是非遗视频描述特征层,包括视频的色彩、分辨率、时长、格式、大小、码率等基本数据.该层次知识描述是对其视频基本特征进行抽取,这种知识抽取可通过计算机自动完成.
对象层是视频所显示的影像信息,包括非遗相关的人物、物品和背景等.对象层描述内容包括三个方面:非遗项目的分类、属性及关系.除了视频元数据以外,视频对象可以是现实中反映非遗属性的信息,如视频中的非遗项目名称和传承人姓名等.此外,除了对象自身属性描述外,还可以描述对象之间的语义关系,如师徒关系、长幼关系等.对象属性可通过计算机识别自动提取一部分信息,更多的还需人工完成.对于对象的识别,不同的研究者对其采用的方法也不同,有些学者采用视频标注模型来判断视频对象的区域[21],以达到识别效果.
语义层包括非遗传承人的场景、动作技艺、情感.场景是非遗中特定的关系抽取,是对非遗的内容背景及事件所处环境的描述.视频中除对象、物品之外,都可以称为场景,包括非遗项目的历史演变、文化空间、地域.由于非遗环境位置与现实场景还有些区别,可以通过计算机来识别颜色、纹理等视觉特征.对于字画、艺术等非遗场景,计算机识别会存在一定误差.动作技艺是指传承人在特定环境下对非遗项目的展示过程,其含义比较广泛,包括事件、活动等行为.情感是视频人物在技艺活动中流露的动作、表情.视频的语义层采用两个维度描述情感:一是时空背景表达情感由于时空背景的复杂性,当前计算机还无法处理,因此不作为本文研究范围.另一个就是传承人所流露的面部表情,一般为喜怒哀乐.对于不同的传承人,其情感是不同的,因此人物情感的识别需根据现实情况进行描述.
关系层是根据非遗视频中对象之间的关系进行描述,包括人物、事件、人与物品、人与事件等关系描述,既有显性关系,也有隐性联系.通过语义描述,反映非遗视频在内容、类别、实体、概念等不同维度之间的关系.
3 非物质文化遗产视频资源的知识组织构建
通过分析非遗视频资源组织结构,本文构建了一套基于语义描述的非遗视频知识组织框架(如图3).该框架包括视频资源采集、资源描述、本体模型、语义关系、知识服务等五部分,以满足视频资源描述粒度从低到高的要求,详细描述视频资源的知识组织.该框架从底层数据采集到知识服务,采用统一的资源描述语言,通过关联数据互联共享机制,实现异构视频资源互操作.
3.1 数据的来源与获取
非遗视频来源于网络数据及实地拍摄,这些资源是知识组织与描述的基础.从数据编辑格式来看,有MAV、MP4、AVI、MOV等.非遗视频数据进行处理时,对于自行拍摄的非结构化视频数据,首先需要进行集中清洗,剔除无效视频,统一编码格式,利用元数据规范,对其统一描述,将其转换成结构化数据.对于网络视频数据,因其大部分是结构化或半结构化数据,只需对已有数据进行规范和补充,利用计算机自动采集即可.从非遗资源类型看,有舞蹈、民俗、传统艺术、传统手工艺、传统音乐、戏剧、曲艺等.这些不同类型的视频资源,其实质是不同帧按一定的序列排列在时间线的集合.在智能媒体时代,对视频进行逐帧描述的计算工作量非常庞大,无法满足用户智能检索服务.目前,非遗视频资源种类繁多、专业性强,语义检索和特征提取难度较大,因此,本文采用视频关键帧提取,将用户对视频的知识服务需求转换成图像搜索.
3.2 非物质文化遗产视频资源描述
3.2.1 非物质文化遗产视频资知识元提取 知识元提取即非遗视频以知识元形式化表示,是非结构化转换成结构化数据关键.知识元是对知识描述的最小单元,能准确表达知识的本质,是知识组织、检索和智能应用的最小单元.非遗视频知识元是非遗知识组织的基本单元,具有完整性、独立性、唯一性.一般视频知识元抽取包括视频分割、关键帧抽取和特征提取.
1) 视频分割是将视频划分为不同的视频片段,并识别视频知识元,其目的是抽取实体对象,通常这种实体对象也是非遗知识元的一部分.常用的视频分割有基于镜头的分割和基于故事内容的分割[22].在故事性非遗视频中,假设有N个场景,每个场景的边界集合为B={b1,b2,b3,…,bn-1},其中bi的边界用场景相似度来区别,相似度越低,说明存在故事视频分割,相似度越高,表明故事情场之间变化较小,其计算公式如式(1)[23].
(1)
式中,场景特征间距集合DC={d1,d2,d3,…,dn-1},di为bi的间距,V为最小值边界集合,P为最大值边界点集合,OT表示最小值和最大值以外情况,B=V∪P∪OT,如式(2).
(2)
其分割效果如图4所示.
图4 视频镜头分割效果Fig.4 Effect of video shot segmentation
关键帧抽取,指在分割视频中抽出反映主要内容的一帧或几帧图像,以准确表达分割视频的信息内容,通过关键帧消除视频帧冗余.关键帧提取有基于运动分析、基于聚类和基于HSV直方图特征分析[23].本文采用HSV直方图特征分析的方法抽取非物质文化遗产视频中的关键帧.首先计算镜头中每一帧的颜色的直方图,其次计算镜头中所有帧直方图的平均值,再次将每帧的直方图与平均值的直方图进行对比,找出最大和最小直方图作为关键帧.其计算公式如式(3).
(3)
其中,S(y)为镜头帧的直方图总和,A(y)为镜头的直方图的平均值,K(j)为关键帧[23].
2) 视频特征提取是描述视频资源的重要因素,包含基本特征和语义信息.在知识组织中,基本特征包括对象形状、纹理和颜色.形状特征是基于数学模型的描述,对图像空间感要求较高,对于变化的形状其特征描述精度较低,稳定性不高.颜色特征抽取的是全局特征,其原理是基于像素点的描述,优点在于能准确描述像素颜色在关键帧中所占比例.纹理特征是描述关键帧表面特征,对区域中的多个像素点进行计算.视频的特征包括重要的语义信息,如何完整提取视频特征信息将直接影响到视频语义关系描述的准确率.语义信息描述特征包括非遗人物、场景、动作、物体、声音、空间位置等.其中,场景是指非遗视频中传承人所处的环境及相关的人或事,人物特征是视频中传承人的面部表情和周围相关人员的姿态,声音特征是非遗场景中当事人的声音和周边环境的声音,运动特征是指视频中人物或对象的连续变化.语义描述特征是最核心的特征,其特征提取的准确度将直接影响非遗视频资源的描述质量.
3.2.2 非物质文化遗产视频资源描述 通过视频组织层次分析,本文从非遗视频资源的底层、对象层、语义层等三个方面建立资源描述框架,如图5所示.根据联合国教科文组织《保护非物质文化遗产公约》中非物质文化遗产分类,结合非遗视频资源实际情况,将其为两大实体,13个对象.在视频内容实体中,视频内容包含七个对象,主要表达与非遗的传承人、事件、起源、组织机构、时空、非遗项目、非遗类型等客观对象.考虑到语义关联及智能知识服务,视频内容描述必须对非遗所包括要素高度归纳和概括,针对不同的非遗类型细化,以达到通用性和可移植性.视频资源实体是资源描述的最底层,是对视频信息的描述,视频资源描述包括存储格式、时长、分辨率、标签、创建者、主题等信息.
图5 非物质文化遗产视频资源描述框架Fig.5 Description framework of intangible cultural heritage video resources
本文参考已有概念模型(CIDOC-CRM、FOAF、MPEG-7及VRA),通过从下而上的方式分析非遗视频知识、提取视频内容属性,元素精炼,提出适合于非遗视频描述的概念模型.该模型设计从非遗底层视频特征到内容特征入手,从视频资源信息、传承人、非遗类型、事件及地理空间信息等方面综合描述非遗对象,规范化主题元素.非遗视频资源包含13类属性,考虑非遗视频智能知识服务,视频内容的属性提取至关重要,因此元数据描述模型需要进行细分,使其粒度更细.此外,通过元素属性的定义及描述规范,便其通用性更好(见表1).
表1 非物质文化遗产视频对象数据属性表
表1(续)
3.3 本体层
在整个非遗视频知识组织框架中,本体模型是重要的中间环节,本体构建需要考虑视频资源的语义描述、语义特征及语义关系,也要考虑到视频知识组织的底部特征及语义关联关系,因此本体模型构建是建立在语义描述之上,是实现智识知识服务的重要环节.本文在充分考虑非遗视频资源特征要素及非遗知识抽取的基础之后,结合艺术、地理信息空间、数字人文等学科知识,提出非遗视频资源本体模型.该本体类包含传承人、地理空间、事件/活动、类型、组织机构、起源、视频资源等七个核心类.
3.3.1 传承人 传承人是非遗文化传播的主体,是非遗活态性保护的传承者,非遗本体的核心要素,是非遗知识组织的重要组成部分.本文的传承人是指非遗技能的传播者,包括个人和群体.个人属性包括姓名、性别、年龄、民族、介绍;群体指保护单位,如博物馆、文化馆等.
3.3.2 时空 在非物质文化遗产资源的时空类中,按其粒度可以为分时间和地理空间位置两个子类.时间类,是“非遗”内容中所涉及的时间表达,描述的是“非遗”事件或内容的发生时间、时长,而地理空间位置是记录事件发生地点,以及非遗资源分布的空间位置及时空变迁的过程.非遗时空类的语义关系如图6所示.
图6 非物质文化遗产时空类语义关系图Fig.6 Semantic relation diagram of space-time class for intangible cultural heritage
1) 时间.在非遗中的时空类用于描述与非遗事件、内容等存在时间要素.非物质文化遗产是一种活态性,在现实世界中依托人和事件的发生而存在,在非遗保护和传承过程中,时间扮演着重要的角色.例如,非遗的传承人在历史的变迁中代代更替传承,以至于非遗的表现方式发现了演化,尤其在动作技艺等方面;非遗的传承人的表现方式逐渐发生动态演绎.因而,时间类对非遗内容及事件是密切相联.在研究时间类的信息表示时,时间类可以分时间点、时间段.
现阶段虽然国内学者对时间的本体有一定的研究,但仍不成熟,难于在非遗资源的时空本体中应用.本文对非遗时空特征进行提炼,根据非物质文化遗产本体构建要求,综合考虑非遗资源的通用性和兼容性,避免非遗时间类的项目过于复杂,语义描述难度增大,不利于知识管理和应用.
2) 地理空间.非遗最大的特点就是具有地域性,不同的地域其语言、文化、生产技艺、风俗人情等各具特色,不同的区域非遗之间存在一定的关联.在本体构建中,地理空间描述了非遗的区域分布特征,另一方面,记录着非遗的事件及活动的空间信息.
本文的地理空间对地理场景的概念进行定义,参考了CRM参考模型与Geo Names本体模型中的有关内容,并赋予了我国的行政划分的位置,以更好表达非遗的空间位置.例如传统的《撒叶儿嗬》是清江流域土家人的一种民俗舞蹈,其地理位置可以是“清江流域”,也可以 “湖北省宜昌市长阳县”,后者更能准确描述其地理空间,以方便后续知识组织时对时空数据进行处理.另一方面,地理空间表达的是区域,比较宏观,往往是山川、河流、城市、村寨,对于更微细的空间表达,则无法实现.为此,通过复用CRM概念本体中的相关定义,用于描述具体的空间,比如房前屋后、广场、田间、草地等.地理空间的属性如图7所示.
图7 非物质文化遗产地理空间属性图Fig.7 Geospatial attributes of intangible cultural heritage
3.3.3 事件/活动 描述非遗传承人在特定时空背景下展示的事件或活动过程.事件/活动是非遗知识组织的核心内容,是对非遗视频内容的概述,描述非遗历史发展及演变过程.此外,非遗具有活态性,其发展和形成具有一定的外部环境和历史条件,是一种动态发展的过程.例如,湖北天门糖塑,也叫吹糖、糖人模,是中国传统民间手工艺品.在旧时,江汉平原的天门、沔阳一带,这里人多地少,地势低洼,汛期常闹水荒.为了谋生,人们被迫流浪在外地学手艺,学成后又回家乡发展,糖塑由此发展起来.旧时农闲时节,天门、沔阳的艺人们便分赴外地,甚至远到湖南、江西、河南等地卖艺谋生.
3.3.4 类型 描述非遗项目的类型属性,当下各国对非遗的具体分类并不完全一致,但参考联合国教科文组织颁布的《保护非物质文化遗产公约》,结合我国非遗现状,本文将非遗类型分为十大类,分别为:传统舞蹈、民俗、传统艺术、传统手工艺、传统音乐、戏剧、曲艺、杂技、民间文学、传统武术等.
3.3.5 组织机构 指非遗项目对应的管理机构,包括组织机构名称、联系电话等.这些机构承担着非遗发掘、保护和传承的职能,是非遗保护的主体,为我国非遗传播提供重要参考.
3.3.6 起源 非遗的发展起源与特定的时间、区域、人们的生活习惯及传承方式有关.正是这些因素才造就了今天丰富多彩的非物质文化.在特定的历史朝代,非遗的表现形式不同,表现的方式、动作技艺及生产方式不同,其依赖的文化空间也会随着时间演变而发生变化.历史演变就是非遗在时间演变过程中抽取的特征,包括非物质文化的起源时间、发展历程.分布区域展现非遗空间的演变,主要指同一非遗在不同区域的发展变化,包括呈现时间、表达方式等.例如,国家级非遗名录“端午节”,在不同的区域表现形式各异.在福建端午节当天有煮粽水洁身的习俗,在江苏是划龙舟比赛;在广东主要形式有扒龙船、食粽、插艾草、龙点睛;在湖北是挂艾叶、包粽子、饮雄黄酒等.相关人物是指参与非遗起源研究的相关人员或专家,提出非遗的重要的历史事件和演变的相关知识,包括人物、历史事件、重要的文献等.传承方式包括传统的言传身教和历史文献.其中历史文献包括对非物质文化的变迁、起源、历史人物.非物质文化遗产起源的属性如图8所示.
3.3.7 视频资源 采用DC元数据规范中的视频图像类,包括视频格式、分辨率纹理、颜色、形状,视频时长等进行描述.视频资源类作为非遗本体构建中唯一影像资源类,与非遗传承人、事件/活动、空间地理位置等产生复杂关联关系,丰富非遗的表现形式,为语义描述、知识关联、知识可视化提供应用基础.
3.4 语义关联
语义关联主要是描述非遗视频资源库中语义层隐性或显性关联关系,使零散的非遗视频资源汇聚、关联,形成计算机可识别的数据.因此,语义关联是以RDF方式将非遗视频数据建立关联,将资源库中庞大的视频数据以RDF链接融合成互为联系的有机整体,向用户提供智能化知识服务.语义关联可分为三个步骤,分别为:命名实体资源、实体RDF化、实体关联.
图8 非物质文化遗产起源属性图Fig.8 Origin attribute of intangible cultural heritage
3.4.1 命名实体资源 它是为每一个资源实体提供一个可解析的永久标识符URI(uniform resource identifier),其作用是为非遗视频资源中各对象赋予一个Web可以读取的地址,以规范网络空间命名.一般情况下,非遗视频资源中实体对象(如项目类别、传承人、组织机构、视频资源等)都必须采用唯一的标识符来命名,以确保在XML环境下这些信息资源能被计算机读取并访问.目前Web架构提供303URIs、HashURIs两种访问方式[24].303URIs采用带有“/”标识符命名资源,命名格式如“http://www.hbinc.cn/heritageproject/01”.采用303URIs会存在一定的延时,但对于大量的RDF资源库稳定性较好.HashURIs采用带“#”标识符来命名资源,一般命名小型RDF资源库,其命名格式如“http://www.w3.org/2000/01/rdf-schema#”.本文采用303URIs与HashURIs结合方式,即用303URIs命名实体资源,用HashURIs命名本体资源.
3.4.2 实体RDF化 该步骤以RDF方式描述非遗视频资源中实体对象,使其规范化和结构化.在RDF、XML环境下,通过实体对象描述形成领域共享词库,包括类和对象的概念、属性、领域和实例.下面以非遗视频《天门糖塑》内容中实体对象为例展示实体RDF化过程.
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdf="http://www.w3.org/2000/01/rdf-schema#" xmlns:inc="http://hbinc.com/tra/handicraftc/01#" xmlns:inc="http://hbinc.com/trahandicraft/02#"> rdf:about="http://hbinc.com/tra/handicraftc/01/TianmenSugarsculpture"> rdf:about="http://hbinc.com/trahandicraft/02/Tianmen">
3.4.3 实体关联 实体关联是将杂乱无序的实体对象以RDF链接,形成一个有序整体.实体关系是语义关联的核心.通过本体的构建可清晰梳理非遗类及属性,但本体与本体之间的关联关系无法拓展,无法在Web应用中实现实体对象关联.因此语义关联是通过RDF描述非遗视频资源的深层逻辑结构,形成不同资源本体链接,实现非遗视频资源的关联关系.通过RDF三元组描述,建立多维度数据链接,发掘隐藏的关系节点,增加非遗视频知识的关联维度和广度.在语义关系中,采用REF的URI模型描述实体对象,以实现非遗视频资源的规范,为不同的知识平台及资源库提供统一接口.本文通过已有本体及资源描述框架,对实体进行抽取、RDF化及实体关联,以呈现隐藏语义关系.根据资源描述模型及本体建构,本文主要抽取传承人、地理空间、资源类、事件、起源、组织机构等6个实体建立关联(如图9).
图9 非物质文化遗产视频资源实体关联图Fig.9 Entity association of intangible cultural heritage video resources
4 非物质文化遗产视频知识服务
本文以《天门糖塑》为例,对非遗视频知识服务应用进行描述,建立视频知识元与视频内容之间的语义关系,实现非遗视频资源描述与知识组织的融合.通过对非遗视频知识结构描述,使得非遗视频资源知识组织的粒度更细,知识更加清晰.同时,增加领域本体在非遗视频知识组织中的融合应用,为非遗的知识服务提供更加清晰的对象及属性描述.
4.1 非物质文化遗产视频结构化描述
对非遗视频资源结构化描述,是实现知识可视化的基础,视频知识组织是对实体进行语义描述为其建立关联关系的过程,以实现视频知识单位与视频内容的关联.非遗视频关联关系建立包括实体间关系及概念与属性之间的关联.根据资源描述模型,将零散的视频知识单元分割后,进行描述、链接,形成相互关联的知识组织,以实现异构非遗数据多维度、可视化展示.
图10以国家级非遗《天门糖塑》视频资源为例,对视频中相关镜头进行描述.图中对视频资源分两部分描述,一部分是资源本身信息,另一部分是视频内容描述.在视频内容中主要描述天门地域非遗传统手艺人罗照英熬制麦芽糖、制作“独占鳌头状元公”糖塑作品.通过对视频知识组织描述,展示了更多与非遗视频背景相关信息,如天门城市的曾用名,非遗传承人师承王培林大量关联信息等.这些不同的知识单元通过语义描述建立关联,向用户提供更多的隐性知识.
4.2 非物质文化遗产知识检索
知识搜索是计算机根据用户需求实现知识查找的过程,它是自然语言处理的一个重要步骤,也是知识可视化的前提.针对非遗视频资源的知识检索,本文将收集的非遗视频数据进行处理后建立非遗视频资源库,形成非遗视频本体,按照对象类及属性关系,将其转换为RDF结构化数据,再通过Drupal平台建立映射,并用SPARQL对大量关系数据进行遍历查找.在用户层面,用户通过浏览器输入自然语言检索的表达请求后,通过NLPIR分词工具进行分词处理和标注,将不同问题与SPARQL语句匹配,在本体库中遍历查找,得到用户匹配结果,并反馈到用户界面.在查询过程中,系统将与主题相关的非遗视频信息形成聚合,包括视频间隐性关系,并呈现在用户浏览器中.非遗视频资源库中RDF知识单元通过Drupal映射形成关联数据,对于具备计算机专业知识的用户,可以根据知识检索需求直接输入SPARQL语句,以更加精准实现知识查询,这些专业查询语句使非遗知识智能服务更加便利.针对普通大众的知识检索服务,用户可在浏览器查找窗口中输入关键词进行检索,系统自动对关键词进行命名实体识别、知识抽取、关系映射等操作,并转换成SPARQL语句,并将查询结果反馈给用户.
图10 《天门糖塑》视频语义描述Fig.10 Semantic description of Tianmen Sugar Sculpture video
SPARQL查询可以搜索RDF形式的非遗视频数据.本文以“天门糖塑”为例,通过SPARQL语句查询湖北天门地区的非遗视频资源,具体如下:
prefixrdf:
Prefixdft:
prefixdc:
FROM
WHERE
{
?titledftc:city?city.
?titledft:tag?tag.
?titledft:type?type.
Filterregex(?city,"∧TianMen")
Filterregex(?ty,"∧tangsu")
}
在查询语言中,非遗项目与区域、类型形成关联关系,使得非遗视频知识形成聚合,并展现非遗视频知识之间的关联,以满足用户对非遗视频资源不同粒度的检索需求.具体来讲,SPARQL查询就是以非遗视频资源对象为出发点,以实体URI为线索,实现不同知识元组织的遍历查找,并以可视化形式呈现.计算机用户可以通过设计SPARQL语言,更加精准的实现非遗视频知识查询,这为非遗视频智能服务提供了便利.
4.3 非物质文化遗产知识可视化
非遗视频知识关联的独特之处在于非遗视频内容以事件或非遗动作技艺为枢纽将零散的实体联系在一起.视频资源通过Drupal系统实现可视化,其最大优点是能够通过可视化方式向用户呈现站内搜索结果.基于SPARQL的Drupal平台可以实现RDF数据导航,自动匹配RDF三元组信息,并与其他数据库进行关联搜索.
图11是本文以非遗视频资源《天门糖塑》为例搜索结果及可视化界面,用户在页面中可以查找《天门糖塑》的视频,观看与“糖塑”相关的人物、动作技艺等视频内容.在视频信息中,列出该视频的标题、标签、简介等相关字段信息.此外,系统会根据用户观看内容及资源库中构建的关联关系,在下方推荐与所观看视频内容相关的其它视频,用户可以点击下方视频直接跳转感兴趣视频,以实现深层次语义关联信息挖掘与展示.
图11 《天门糖塑》关联视频Fig.11 Related video of Tianmen Sugar Sculpture
5 总结与讨论
非物质文化遗产是人类文明发展和自然演进的重要成果,非遗视频资源是促进世界文化交流的重要载体,高质量的开发设计和智能服务是人类文明和世界发展的必然要求.利用语义描述及数据关联构建非遗视频资源库,并通过互联网平台融合多源异构数据,有助于提高我国非遗传播的效果及影响力.本文针对非遗视频资源特征和知识组织进行深入研究,首先对视频镜头分割及关键帧抽取,其次描述非遗视频的语义内容,梳理出非遗视频知识相关概念及属性关系,构建非遗视频知识间的关联关系,以展示非遗视频之间的显性及隐性关系,再次基于这种关联关系为用户提供知识共享及智能应用等服务.
本文构建的非遗视频本体库,将本体内各实体对象形成关联,通过Web向用户提供智能知识服务.借助非遗视频知识库建设,让非遗知识得到进一步传承和保护.非遗视频知识组织的构建,向大众提供知识共享和智能应用,不仅能够促进非遗知识行业化和规范化发展,而且还能实现多源异构数据的互联、共享及创新发展.基于语义描述的知识组织研究为数字人文环境下我国优秀传统文化发展提供了新思路,为非遗知识组织和创新服务提供了借鉴.
虽然本文对非遗视频资源的特征分析、镜头分割、关键帧抽取、本体构建、数据关联及发布等内容展开研究,但非遗视频本体的相关概念、属性及知识元提取的颗粒度还需进一步细化,本体模型也有待完善.后续研究将搜集更多的多源异构非遗数字资源,包括文本、图像、音频等数据,扩展本体资源库,深挖非遗实体、概念及知识间的关联关系,进一步丰富非遗知识库,促进非遗的数字化保护与智能传播.