大数据环境中非物质文化遗产的信息分析
2015-02-13达妮莎,王爱玲
达 妮 莎, 王 爱 玲
(1.大连理工大学 建筑与艺术学院,辽宁 大连116024;2.大连理工大学 人文与社会科学学部,辽宁 大连116024)
人类日益普及的网络化行为、计算机技术的高速发展,引发了数据规模的爆炸式增长和数据模式的高度复杂化发展,世界进入了大数据时代。大数据是数据在新的处理模式下生成海量的、高增长率的、复杂与多样化的信息资产的代名词。大数据时代最核心的变革是人们可以关注更多的数据,而不是对个别数据的随机抽样;人们不再对因果关系过分渴求,而转为了关注相关的关系体系。
“非遗”的概念来源于日本提出的“无形文化财”(无形文化遗产),是经过艺人代代的、以口传身授的方式,通过声音、形象、技艺等形式传承下来的文化信息形态。大数据时代的到来,改变了信息的存在及处理模式,传统的代代传承的个体化模式显然已经不能适应信息社会的数字化生存了,尤其是当下面临着信息网络化生存与“非遗”原生态生存之间的矛盾冲突,这些都是新的历史条件下研究“非遗”保护和传承所面临的问题。在这种情况下,“非遗”的数据信息建设研究可谓是及时的、必要的。利用信息的数字化技术,对于“非遗”的数据信息系统建设是在现今“非遗”的严峻生存环境中应运而生的新方法。
大数据环境中的“非遗”数据信息建设,要以“非遗”相关信息的数字化处理为前提,通过揭示海量信息资源的内容与特征以及信息的相互关系体系,建构规范、开放的数据信息系统,为“非遗”的传播、保护、研究提供强大的信息资源支撑。同时,对“非遗”的信息资源描述模式的建设亦是其中的一项基础性工作。“非遗”数据信息资源的描述模型是对其各项信息及其信息关系体系的框架设计,通过“非遗”的元数据模型设计实现。
一、“非遗”的信息属性与数据信息建设
1.“非遗”的信息属性
“非遗”的存在是一种脱离了物质载体的特殊信息,在其原生环境中,信息更多的是以传统的、原生态的存在方式进行传播,这印证了麦克卢汉的观点[1](p16),媒介对信息具有能动性影响,它能够决定信息的结构和清晰度。原生环境中的“非遗”是一种低清晰度的信息形式,其传播效率较低。
数字化的传播方式、新媒介的运用,大幅度地提升了“非遗”信息的传播效率。与此同时,麦克卢汉认为,媒介作为人的延伸,与机械印刷技术、工业化生产把人引入非部落化、独干一门的人不同,口头媒介及数字媒介却是塑造人的部落化以及完整的人的媒介形态[1](p59-60),所不同的是,与口头媒介相比,数字媒介从哲学角度来讲是向更高级别的发展。而此时的“非遗”信息存在形态,是适合于数字媒介发展的数字形态,即“非遗”的数字信息形态。大数据环境中,“非遗”的数字信息应当以即时更新的、海量的、复杂关系模式的信息数据形式存在。
2.“非遗”的数据信息建设
“非遗”的数据信息资源是在大数据环境中包含的所有数据信息,而非个别的、案例抽样式的信息,主要以“非遗”信息的数字档案及数据信息建设为主。在“非遗”的数字档案建设方面,依据信息的差异性,可以有不同的划分形式,其内容至少应当包含[2]:“非遗”的发生、发展、演变的历史过程;“非遗”的活态遗存状况;“非遗”的标志性物质载体和表现方式;“非遗”传承人的情况记录;“非遗”工作的各项成果。同时,“非遗”的档案分类应从“大档案观”出发,可将其分为三个部分:实物档案,即“非遗”的产品、工艺品、媒介、工具等各类实物;记忆档案,即记录并反映有关“非遗”活动及其传承人基本情况的档案资料、文献记载,以及以各种载体形式存在的记录资料等;“申遗”档案,即与“申遗”活动有关的档案。除此之外,还应包括:各项“非遗”的网络资源,即以上各类信息的网络存在方式,以及在不同网络媒介中,如网站、搜索引擎、网络数据库、网络社区、自媒体平台中的所有网络信息资源的总和。
在“非遗”的数据信息建设方面,首要的任务是将原始数据进行分类,建立数据关系体系,以及对关系体系下的数据进行分析。首先,在“非遗”信息的前期调查中获取的大量文字、图片、音频、视频等信息,由于受技术条件、采访条件、偶然因素等影响,尚未形成标准化、系统化的组织形态。从“非遗”的数据信息建设角度,即是通过制订统一的技术标准,对原始信息进行批量的数字化处理。其次,对于海量的“非遗”网络资源,通过数据挖掘、数据分析,运用统计学的方法,建立各类关系结构,将会为“非遗”的深入研究奠定基础。
同时,“非遗”信息资源的归类方式也可以按照研究的性质来界定。在定性研究方面,对其划分依据“非遗”的名录门类,以研究领域中的具体内容进行划分。归类建立数据库时以“非遗”为一级目录,以名录的不同类别分别建立二级目录,如民间文学、民间音乐、传统舞蹈、曲艺、杂技与竞技(传统体育、游艺与杂技)、传统美术、传统手工技艺(传统技艺)、传统医药、民俗等,以具体的研究内容建立三级目录。另外,对于“非遗”的网络信息资源,通过信息内容分析、用户分析、传播效果分析等角度对其进行定性研究,关系体系依据不同的研究视角而异。
在定量研究方面,对于“非遗”的信息资源建设,则通过既定模型中各项数据分析来实现。如对于“非遗”的网络信息资源调查学研究中,通过横纵交叉分析方法,将横线(“非遗”的网络信息形态)与纵线(调查与分析角度)相结合加以解析。具体而言:首先,从横线来看,“非遗”的网络信息形态,如新闻头条、重要通知、文献资源、数字信息网络平台等,通过文字、图片、音频、视频等基本信息形态按不同的方式组合呈现。其次,从纵线来看,对“非遗”网络信息的调查及分析角度,可以是文献计量分析、信息内容分析,所处的自然生态、经济生态、社会生态分析,传承人及其责任人的信息分析,国家与地方制定的制度、给予的鼓励政策的网络传播情况分析,基于用户的需求与行为分析,传播现状及传播效果分析等。其量化方法,可以采用德尔菲问卷调查法、用户数据采集与分析法、层次分析法建立模型,并对数据进行权重计算,通过JAVA编程,对调查数据进行测算,得出分析结果。
二、“非遗”的信息资源描述体系分析
1.“非遗”的元数据标准及其研究现状
数据信息系统的建立是对“非遗”的信息进行组织、存储和资源管理的有效手段。比起传统的“非遗”信息存储方式,大数据环境中的“非遗”数据信息系统是以抽象知识关系体系与实体资源关系体系组成的综合信息库。这种数据关系体系正是大数据时代应运而生的数据存储模式。它具有较好的实用性,一方面能充分展示“非遗”的特征及价值;另一方面也能使其在数据信息系统中,发挥各类信息资源的交互性、可塑性,使之既具有收藏、展示、教育、研究等功能,同时便于管理者进行统筹管理。因此“非遗”数据信息系统的构建要体现“非遗”区别于其他文化现象的文化内涵、内在联系、自身逻辑结构,同时其建设标准要具有普遍性,符合国际、国内对于文化类信息建设的一般标准,要考虑在技术更新、技术变革、系统升级环境下与各地方“非遗”系统的对接问题。目前,对于“非遗”的数据信息系统建设中,较为核心的问题是关于其元数据的建设问题。
元数据(meta data)是通过对某种类型资源(或对象)的属性描述,通过对这类资源的定位及管理,来帮助用户实现数据检索的数据总称[3]。对于元数据的研究,国外通过8项元数据标准对不同的信息资源进行了描述。即由艺术信息任务组发布的艺术作品著录类目(CDWA)、视觉资源学会资料标准委员会发布的视觉资料核心项目(WRA)、联机图书馆中国与美国超级计算应用中心联合发布的都柏林核心元数据(DC)、美国档案工作者协会与加州伯克利分校图书馆发布的编码档案(AD)、美国行政管理和预算局发布的地理空间元数据内容(FGDC)、美国联邦政府发布的政府信息定位服务(GILS)、文化符号编码协会发布的电子文本编码与交换(TEI)、美国国会图书馆发布的机读编目格式标准(MARC)等。
在文化遗产的元数据制定标准方面,兰绪柳提出了以VRA Core作为核心格式,且加入CDWA元素的数字文化资源元数据格式[4]。VRA Core是美国视觉资源协会(Visual Resources Association)发布的VRA视觉资源核心类目(Visual Resources Association,简称VRA Core),它是参照艺术作品著录类目(Categories for the Description of Works of Art,简称CDWA)而设计的标准化类目;CDWA元数据是盖迪基金会(J·Paul Getty Trust)及艺 术 信 息 工 作 组AITF(the Art Information Task Force)制定的对于艺术作品著类目录的标准。对于“非遗”数字信息的元数据标准,李波提出了“非遗”元数据模型设计要考虑“非遗”的文化特征、相关文献、责任人、实物、网络资源、文化空间等核心元素[5]。在方允璋编著的《图书馆与非物质文化遗产》一书中提出了“非遗”的各类知识库元数据方案。他认为,都柏林核心元数据(DC)对于“非遗”的元数据规范化建设更为适合[6],其应用较为广泛,目前已经成为包括英国、澳大利亚、丹麦、芬兰在内的诸多国家推举的国际与国内标准。DC包含15个核心元素,即题名(Title)、主题(Subject)、格式(Format)、类型(Type)、日期(Date)、描述(Description)、创建者(Creator)、其他责任者(Contributor)、来源(Source)、权限(Rights)、标识符(Identifier)、语种(Language)、关联(Relation)、出版者(Publisher)、覆盖范围(Coverage)。同时,MARC元数据格式,可以被用于“非遗”的文献资源。MARC元数据是1996年美国国会图书馆正式发布的机读编目格式标准(Machine Readable Catalog,简称MARC),其形式从早期的磁带,发展到普遍应用于世界各国USMARC格式。目前,以XML格式的MARC元数据格式可以用于文献的网络传播。
2.“非遗”元数据的语义结构模型
语义是对信息的解释,通过对“非遗”对象的语义机构分析,来理解“非遗”对象所涉及的核心概念,为描述信息提供基础。“非遗”的信息结构,是一种集合资源的信息结构,由诸多的知识元素以及实体元素组成。其中既包括“非遗”的名称、类别、地域、历史、传承谱系、特征、价值等抽象知识体系,亦包括人、实物、网络资源等实体体系。对“非遗”元数据的信息描述,是对其不同体系以及相互关系的整体描述,并且通过划分清晰的描述结构以及体现不同元素的限定词加以实现。
从元数据的发展以及其核心元素规范来看,本研究主要采用以DC为基础,结合视觉资料核心类目VRA Core元数据、艺术作品著录类目CDWA元数据、机读编目格式标准MARC元数据描述方法,建立适合于我国“非遗”的元数据模型。通过对DC的分析,其中 的 题 名(Title)、主 题(Subject)、格 式(Format)、类型(Type)、日期(Date)、描述(Description)、创建者(Creator)、其他责任者(Contributor)、来源(Source)、语种(Language)、关联(Relation)等11个主题元素可以被规范化制定。将这11个核心元素进行范畴划分,最终将“非遗”的元数据模型语义机构分为本体信息、描述信息、关联信息三个核心体系,将“非遗”的各类碎片化信息元素分别纳入三大体系中,通过对元素限定词的规范化使用,缩小元素的涵义及描述元素的范围。关联信息大类中的“载体对象”使用VRA Core元数据、CDWA元数据的元素进行描述,关联信息中的“文献资料”则使用MARC元数据的元素进行描述。
依据以下方法进行规定,其内容具体包括:
(1)关于“非遗”的本体信息元数据语义结构。“非遗”的本体信息包括:题名、主题、格式、类型、日期、来源、语种7个方面。“非遗”的题名应当与“非遗”名录的名称及项目编号相对应,具体格式为:“名录项目编号+名录名称”;主题关键词在3~5个之间;“非遗”的信息存在格式可以是文字、图像、声音、影像,以及这四种存在形态的任意组合形态;“非遗”信息的类型主要以“非遗”的名录作为参照,包括其9大门类;创建“非遗”信息的日期描述要具体到年、月、日、时、分、秒;“非遗”的来源地要具体到省、市、县、乡、村;“非遗”信息涉及的语种包括国际(语种)、国内(语种)两类。
(2)关于“非遗”的描述信息元数据语义结构。“非遗”的描述信息参照“非遗”的申报书及名录描述制定,包括:内容、年代、级别、传承谱系、濒危状况、基本特征、主要价值等方面。
(3)关于“非遗”的关联信息元数据语义结构。“非遗”的关联信息,包括:人、机构、载体对象、文献资料、网络资源等元素。其中,“人”可以是创建人及其他责任者,其他责任者包括:申报者、传承人、研究者、其他从事“非遗”工作者,其限定词可以是:姓名、性别、地区、出生年月、学历、职业、民族、个人简介、联系方式(地址、邮编、电话、邮箱)等;机构包括:传承基地、文化部门、政府管理部门、民间组织、学术单位等,其限定词可以是:名称、责任者、简介、联系方式(地址、邮编、电话、邮箱)等;载体对象包括:实物、工艺品、古迹等;其限定词依据VRA Core元数据、CDWA元数据的语义结构进行限定;文献资料包括:图书、期刊、古籍、照片、影音资料,其限定词可以是:文字、图像、声音、影像及其任意组合形式,并以MARC元数据的描述方法描述;网络资源包括:发布在网络媒介(如网站、搜索引擎、数据库、自媒体平台等媒介)中的各类信息,如电子文本、电子图书、电子期刊、网站、网页、图片、音频、视频等,其限定词根据信息存在的方式,采用自定义形式填写元素。
表1 “非遗”的“载体对象”信息元数据模型语义结构表
通过对VRA Core元数据、CDWA元数据的分析,去除其中的与DC元数据语义结构相似的元素及元素限定词,可以用来对“非遗”的载体对象中所包含的实物、工艺品、古迹等进行描述。VRA Core元数据从VRA Core2.0、VRA Core3.0,发展为目前的VRA Core4.0。以VRA Core4.0为例,可以用来描述的元素限定词体系为:第一,对象类型(作品Work、作品集Collection、图像Image);第二,标记(Inscription);第三,材料(Material);第四,物理尺寸、形状、比例体积、重量、面积等(Measurements);第五,时代风格(Style Period);第六,制作步骤、技术及方法(Technique)。在CDWA元数据方面,去除DC元数据及VRA Core元数据中的相似元素,可以用来描述的元素限定词为:第一,创作(Creation);第二,附注(Descriptive Note);第三,相关作品(Related Works);第四,现藏地(Current Location)。
3.“非遗”数字信息的元数据语义描述
语义描述,是对“非遗”的数字信息资源的核心概念、属性的描述,其目的是便于用户在检索过程中,准确的发现其主题资源的集合。当前,对数字资源的描述从以可扩展标记语言Extensible Markup Language(简称XML)为基础的定义标记的“元语言”,转变为以Resource Description Framework(简称RDF)为基础的包含各类实体之间的多维关系的描述。
对于“非遗”的数字信息的语义描述,首先要以RDF/XML的语法来对“非遗”的诸多属性进行界定,所有核心元素采用以DC命名空间为主,结合VRA Core元数据、CDWA元数据、MARC元数据的语义描述方式。另外,在MARC元数据方面,可以采用CNMARC(用于中文文献)USMARC(用于英文文献)的描述,并采用RDF/XML格式的MARC国际统一标准。
XML是一种标记的通用元语言,但不具有表示数据信息语义的功能。RDF是W3C(万维网联盟)提出的用来描述Web信息的元数据模型。RDF的语义没有被限定在任何领域中,可被用户使用自定义的词汇描述信息,用户需要借助RDF Schema(RDFS)来对信息进行自定义描述。其中,RDF的描述对象包括,rdf:resource对于所有资源的描述;rdf:property对于所有属性的描述;rdf:statements对于所有陈述的描述。RDF文档由一个rdf:RDF元素组成,其内容是一系列的描述,可以通过RDF/XML的语法来使用描述。<rdf:RDF和</rdf:RDF用来指示描述之间是RDF语句,<rdf:Description和</rdf:Description来指定的每个声明中可以有一个或多个语句。
三、结 语
“非遗”信息资源的数字化存档、数据信息系统的构建是适应当今信息社会发展、适应新媒介传播模式的可持续发展方式。大数据环境中强调的“非遗”信息系统建设的方法是在不同数据关系体系下,构建规范的、开放的、多元的信息系统方法。同时,“非遗”信息的元数据描述,是构建数据信息系统的基础环节。“非遗”的信息语义结构具有自身的逻辑性,有着复杂的知识体系及实物体系,其元数据模型的设计要充分体现其复杂的语义结构关系,适合“非遗”数据信息系统的长期发展战略,适应数字技术的更新与变革,适应各地方“非遗”的申报系统模式。
[1]马歇尔·麦克卢汉.理解媒介—论人的延伸[M].何道宽译.南京:译林出版社,2011.
[2]何永斌,陈海玉.非物质文化遗产档案工作体系建设刍议[J].四川档案,2008,(6):32-33.
[3]冯项云,肖珑,廖三三.国外常用元数据标准比较研究[J].大学图书馆学报,2001,(4):91.
[4]兰绪柳,孟放.数字文化资源的元数据格式分析[J].现代情报,2013,(8):62.
[5]李波.非物质文化遗产信息资源元数据模型研究[J].图书馆界,2011,(5):38-41.
[6]方允璋.图书馆与非物质文化遗产[M].北京:北京图书馆出版社,2006.208-219.