基于社会化标签的非遗档案数字平台建设实践与分析
2023-05-29刘向红
一、引言
中共中央办公厅、国务院办公厅印发的《“十四五”全国档案事业发展规划》中指出:“从国家、地区多层面一体推进档案信息共享利用工作,建设以全国档案查询利用服务平台为支撑、档案查询‘一网通办的全国档案信息共享利用体系。[1]”非遗档案虽因非遗项目的特殊性,多数保存在非遗管理机构,但应隶属于档案大类,为了有利于非物质文化遗产传承,非遗数字档案建设和数字平台建设应以信息共享、广泛传播和充分利用为目的。
目前,各地非遗档案的数字化工作呈不均衡状态,有些地区的非遗档案未建成数字平台,长期蒙尘,无从面世;已建成的数字平台质量良莠不齐,有些平台维护不及时,数据更新滞后,大多数平台的非遗档案资料呈“粗线条”展示状态,无法满足现代非遗爱好者的知识服务需求。
二、非遗档案数字平台建设现状及存在问题
根据笔者所在的课题组对国内非遗网站的调研,发现目前非遗数字化平台存在的现状和共性问题如下:
(一)发展不均衡,非遗档案信息量不足
由于地方政府的重视程度不同以及对不同级别非遗项目重视程度的不同,各地各级的非遗数字化工作发展不均衡,非遗数字档案的内容丰富程度、更新频率等不均衡,很多非遗网站尤其是市级网站内容单一、更新不及时,所承载的非遗档案信息量低,造成非遗档案处于相对封闭状态,社会融合度低。
(二)非遗数字平台组织架构单一,无法揭示非遗项目的历史文化内涵
非遗的数字档案和数字平台一般以非遗传统分类的十类法为基础组织形式,按照民间文学、传统音乐、传统舞蹈、传统戏剧、曲艺、传统体育、游艺与杂技、传统美术、传统技艺、传统医药及民俗等十个类目进行分类组织和展示。十类法类目符合非遗项目的组织特性,参考了档案资料的分类方法,设置科学、规范。但是十类法目前还没有统一、标准的二级类目,分类粒度过粗,在组织种类繁杂、规模庞大的非遗资源前显得捉襟见肘。另外,十类法分类维度有限,比如对非遗项目而言,其存在的文化空间非常重要,是非遗生存的土壤,非遗文化表现形式与之息息相关,但由于文化空间表达晦涩、模糊,无法与十类法的其他类目成为并列类目,所以现有的非遗数字平台对非遗的文化空間存在描述缺失[2]。
(三)缺乏主题标引手段,无法揭示非遗项目之间的关联信息
依据国家标准《文献主题标引规则》,我国档案资源通常按“主体因素”“通用因素”“位置因素”“时间因素”和“文件类型因素”五要素来标引和体现主题内容[3],而由于非遗档案资源的特殊性,以这些因素对非遗数字档案进行主题标引并不适合非遗项目的特征,技术上难以实现,而且这五要素不能有效揭示各类非遗之间的关联信息。非遗数字化的目的之一是为便利相关人员以历史背景为依托,研究、挖掘各民族、各地区的历史文化。非遗项目由于其文化背景、地域背景等方面的异同,存在着大量的关联关系,这对研究非遗文化非常有价值[2]。中国非物质文化遗产网经过改版后对非遗项目的关联信息做了部分揭示,在每一个非遗项目下列出了相关传承人、相关项目、相关资讯、相关学术的链接地址,但是受版面限制,揭示的关联信息有限。
笔者所在的课题组通过对非遗数字平台的调研和对承德非遗项目的田野调研,掌握了第一手非遗资料,针对目前非遗数字平台存在的问题,建设了承德地区非遗档案数字平台,打破了传统非遗平台的信息组织方式,引入社会化标签,并进行改良,拓展了非遗档案的内涵和外延。
三、基于社会化标签的非遗数字平台的建设思路
(一)社会化标签用于非遗数字平台的可行性分析
社会化标签是一种灵活、开放并体现用户兴趣的信息组织方式,它兴起于Web2.0时代,多用于一些用户贡献内容的开放性网站,如del .icio.us,flickr,CiteUlike,目前Librarything、豆瓣等网站还在使用这种信息组织方式,知网研学平台、印象笔记等知识工具软件也在大量使用。使用标签的信息组织模式曾被图书馆界称为Folksonomy(分众分类法),是对网络信息资源组织与管理一种代价较小且有效的自由主题标引方法,体现用户对其兴趣资源的主题和内容的解读。
将社会化标签应用于非遗数字平台,作为非遗档案的一种主题标引形式,一是有利于将兴趣用户同非遗档案资源有机地结合起来,可以从用户理解和需要的角度来揭示和组织非遗档案资源,打破非遗档案资源信息量低、相对封闭的困境;二是解决十类法列类单一、分类维度少、分类粒度粗的问题,有效揭示非遗项目的文化内涵,还可以通过标签的主题标引作用,揭示十类法中无法列类的文化空间;三是对标签进行技术处理后,通过标签的聚类分析有利于将隶属不同类目的非遗项目关联起来,挖掘不同类目非遗项目历史和文化内涵的关联性。
(二)社会化标签用于文化遗产类数字平台的案例
文化遗产数字化保护工作由于数据资源庞大,标引工作量巨大,亟需志愿者的参与和协作,国外的文化遗产数字化保护工作都曾经通过引入众包模式,借助群体力量和智慧来解决数字文化遗产的主题标引工作。如史蒂夫博物馆项目(Steve.museum)通过开发一个在线平台,鼓励兴趣用户为数字藏品加注标签,来探索社会标签服务于艺术博物馆的可行性,提高公众对数字博物馆馆藏的访问量和参与度[4];美国的“公民档案工作者”(Citizen Archivist)项目[5]和英国“档案志愿者”(Archive Volunteer)项目[6]都支持兴趣用户为馆藏目录加标签,同时支持用户将档案资料图像上传至Flickr,并加标签、注释,一方面增加公众对馆藏档案的访问率,另一方面通过相对大众化的标签标引资源,增加馆藏的易获取性[7]。
(三)社会化标签用于非遗数字平台的建设思路
社会化标签虽然具有诸多优点,但是由于自由度高,不规范、歧义词汇(长尾标签)过多,同义词难以处理,容易产生检索噪音,所以Web2.0时代多用于开放的网络社交平台。现在开放使用社会化标签的网络系统如LibraryThing、豆瓣大多已进行了改进,多采用自由标签与受控语言相结合的混合信息组织模式,对同义词进行分组、定期清除长尾标签等,逐步克服最初不受控的自由标签产生的一系列问题[8]。
非遗档案资源不同于开放的网络信息资源,是经过加工整理而形成的资源,是有控制规范和标准的产物,在使用社会化标签标引资源进行内容揭示和主题标引时,可以借鉴社会化标签的标引理念,但需对标签进行规范与控制,并及时进行标签清洗,去除无效标签、合并同义标签,将社会化标签转换为限制性标签即受控标签,达到通过标签的聚类分析来揭示非遗资源之间关联性的目的。
课题组在建设承德非遗数字平台时,充分考虑了非遗档案资源的规范性及非遗项目的特殊属性,以一种混合式信息组织框架对非遗档案资源进行分类组织,并在试运行过程中根据出现的问题不断修整,在实践层面验证了社会化标签应用于非遗数字平台的可行性。
四、基于社会化标签的非遗档案数字平台的建设验证
(一)基于十类法和社会化标签的平台建设框架
承德非遗平台的建设框架采用十类法和受控标签混合的分类框架,如图1所示。平台主体组织框架按照十类法将非遗项目分为民间文学、传统音乐、传统舞蹈、传统戏剧等十个类目,即按照非遗档案的内容属性进行划分,属于纵向框架;辅助分类框架属于横向框架,一是按照非遗项目的外部特征如地区、传承人、获批批次、级别、获批时间等进行划分,二是按照非遗项目的内容特征分析形成的受控标签聚类。这样混合架构的组织模式有利于对非遗档案资料进行深入揭示,用户不仅可以按照非遗类目,还能够按照每种非遗项目所蕴含的文化、历史背景检索到感兴趣的项目。
(二)对社会化标签的改进措施
承德非遗数字平台在使用社会化标签标引资源时,为了规避其自由度过高带来的检索噪音和网络安全风险,借鉴文献主题标引的理念,采用经过规范处理的受控标签标引非遗资源,这种受控标签亦可称之为限制性标签。同时,为了获取足够的标签,设置用户分组,然后通过清洗标签、合并同义标签获取有标引价值的受控标签,如图2所示。
1.规范标签数据,构建基于5W+1H分析法的主题标引框架
根据“5W+1H”分析法[9],在对非遗档案资源进行标注时,通过分析非遗项目所承载的历史活动内容,使用“何人(who)”“何故(why)”“何时(when)”“何地(where)”“何事(what)”“何方式(how)”6个维度对其主题内容(对象)进行标注,从而充分体现非遗的文化空间和历史背景。例如,国家级非遗“丰宁满族吵子会”隶属于“传统音乐”大类,设置标签如下:who—陈安良(传承人),满族(所属民族)why,how—民间花会(其主要表演背景),when—乾隆年间,简化为乾隆(发源时间),where—丰宁,八间房村(发源地),what,how—唢呐艺术,吹打乐(表演形式)。省级非遗“蝴蝶舞”隶属于“传统舞蹈”大类,设置标签如下:who—满族,why,how—民间花会,吵子会(因其以吵子会为伴奏乐),when—康熙年间,简化为康熙,where—丰宁,八间房村,what,how—背歌(背杆);省级非遗“十番乐”,why,how—民间花会,庙会,where—滦平,张百湾,what,how—杠房音乐,吹打乐,等等,以上标签全部是在“5W+1H”框架下,经过规范处理的受控标签(如表1)。这些标签认知度高,成为网站平台的基础标签和用户加注标签时的推荐标签,可以引导用户使用和创建标签,随着平台的运行、用户的使用,逐渐成为网站的高频标签。
2.用户群体分组,获取标签数据
为了建设标签群,平台将用户进行分组,按照用户在设置标签时的作用权重分作 5 类用户,第一类用户是非遗传承人及非遗申报者,他们在申报非遗项目时,即可根据每种非遗资源的特征预设部分标签; 第二类用户是非遗项目相关领域的专家、数据库建库专家; 第三类用户是政府相关职能部门及从事非遗保护工作的专业人员; 第四类用户是非遗文化爱好者。
第一、二、三类用户属于高级用户,项目组邀请这三类用户根据5W+1H框架预设基础标签,他们所标注的标签相对规范性高,可以精准地反映非遗项目的文化特征, 第四类用户是普通用户,他们是网站的活跃用户,也能贡献部分有价值的标签,但是其贡献的标签规范性、准确性降低。
3.标签数据清洗
高级用户加注的标签相对专业和规范,能深刻揭示非遗项目的内容特征,但是由于不同用户对非遗项目的认知不同,同时这些用户对标签的组织原理理解不透彻,他们所加注的标签会产生大量不同表达方式的同义词,这也会产生检索噪音,普通用户的标签更甚之。所以要对标签进行清洗、合并、遴选(如图2),一是将普通用户加注的使用频率低、与资源相关度低、过于个性化的标签清洗掉。二是将高级用户加注的同义词标签合并、规范处理,形成基础标签库,基础标签将成为第四类用户加注标签时的推荐标签,随着标签的大量使用,逐渐成为高频标签。
清洗标签时,一是要考虑用户的使用习惯,尽量简明。二是标签要具有代表性和关联性。三是重点清洗同质标签,如将“民间花会”和“花会”合并为“民间花会”,将“丰宁县”和“丰宁”合并为“丰宁”,将“乾隆年间”和“乾隆”合并简化为“乾隆”等等。这些标签在承德非遗项目中广泛使用,被用来标注多个非遗项目,可以放入基础标签库,作为用户推荐标签备用,并逐渐成为高频标签。
(三)形成标签云图,标签聚合同质资源、同质用户
经过处理的规范标签积累到一定数量,平台将自动生成标签云、标签列表,高频标签在标签云中字体变大,在标签列表中依据标签点击数排序靠前(如图3)。标签的聚类作用开始逐步体现。
首先,标签揭示了十类法所不能表达的非遗项目的历史文化内涵,如发源地、发源时间、活动场所、活动时间、表现形式,即非遗项目的文化空间,文化空间在十类法中是无法列类的,而同样文化空间的非遗项目往往由于隶属不同类目而被人为割裂,标签则实现揭示了这种关联关系。
其次,同类标签聚合了具有相同主题特征的非遗项目,有利于用户发现非遗项目的关联性。如“民间花会”这个民俗表现场所标签聚合了“隆化满族二贵摔跤”“宽城背杆”“丰宁满族吵子会”“蹦跶会”“八大怪”“蝴蝶舞”“棉花鬼”等19个非遗项目,“丰宁”这个地域标签聚合了12个非遗项目,“满族”这个民族标签聚合了18个非遗项目等等,这些非遗项目分别隶属于十个非遗类目之下,这些标签将相同历史背景、地域背景、文化背景的非遗项目关联起来。又如,丰宁满族吵子会隶属于传统音乐,蝴蝶舞隶属于传统舞蹈,二者都是满族骑射文化的产物,文化空间类似,发源地同为丰宁八间房村,都是民间花会的表演项目,蝴蝶舞的伴奏音乐即是吵子会,二者看似不相关,但通过“丰宁”“满族”“八间房村”“民间花会”等多个标签被用户同时检索到,即可发现二者的高度关联性;丰宁满族吵子会与十番乐都隶属于传统音乐,用户通过“吹打乐”这个表演形式标签可以同时检索到两个非遗项目,揭示出二者表演形式的關联性。
第三,高频标签聚合同质用户。在标签云图中,被点击数量越高的标签字体越突出,而标签指向的非遗资源被点击率也较高,表明用户对该标签和标签聚合的资源关注度高,这类用户具有同质性。
五、结论和建议
以往的非遗档案展示平台,存在组织架构单一、主题标引手段单一、无法揭示非遗项目的历史文化内涵及其关联关系等问题,承德非遗数字平台进行了信息组织模式的变革,首次引入社会化标签,通过分析非遗项目的历史背景、文化空间、内容特征,参照5W1H框架,提炼出标签数据,然后进行标签清洗、合并,将其改进为受控标签,实现了对非遗项目的主题标引,同时基于标签聚合了不同类目的非遗项目和同质用户。試运行过程中,标签及其标注资源的访问量较大,标签云一直在动态变化中,从实践角度验证了社会化标签经改良后作为非遗数字平台主题标引手段的可行性。
平台建设过程中也出现了一些问题,首先,作为受控标签主要贡献者的高级用户,由于对非遗项目和5W1H框架理解程度的偏颇和对标签这种标引方式的不了解,加注了大量无效标签和同义不同形的同义标签,在对这些标签进行清洗、合并和遴选时,花费了较大的人力成本和时间成本;其次,出于网络安全和技术开发能力考虑,未能放开普通用户加注标签的入口,从一定程度上限制了普通用户的参与度,所以网站的受控标签有余,而自由标签不足,网站技术开发未考虑大量自由标签清洗的技术难度。
针对以上问题,平台还在持续完善,用户层面,要加强高级用户和志愿者用户加注标签的规范化培训;技术层面,通过机器学习和半监督学习,提高关键词向量特征提取,实现标签的有效清洗和同义词合并;安全层面,增加用户标签数据审核环节,保障开放标签数据后的信息内容安全。
参考文献:
[1]中办国办印发《“十四五”全国档案事业发展规划》 - 中华人民共和国国家档案局[EB/OL] [2023-2-2]. https://www.saac.gov.cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4.shtml.
[2]刘向红. 基于用户协作的非物质文化遗产数字资源分类模式研究[J]. 现代情报, 2017, (3): 21-25, 31.
[3]吕元智. 基于限制性标签的档案资源主题标引方法探索[J]. 档案学研究, 2020, (1): 59-66.
[4]Steve.Museum[EB/OL] [2023-2-2]. https://www.steve.museum/.
[5]Citizen Archivist | National Archives[EB/OL] [2023-2-2]. https://www.archives.gov/citizen-archivist.
[6]The National Archives[EB/OL] [2023-2-2]. https://www.nationalarchives.gov.uk/.
[7]闫静. 档案事业公众参与特点及新趋势探析——基于英国“档案志愿者”和美国“公民档案工作者”的思考[J]. 档案学研究, 2014, (3): 81-84.
[8]Bolanos-mejias Carmen. Folksonomy Indexing From the Assignment of Free Tags to Setup Subject: A Search Analysis into the Domain of Legal History[J]. Knowledge Organization: KO, 2018, (7): 574-585.
[9]5W1H分析法_百度百科[EB/OL] [2023-2-2]. https://baike.baidu.com/item/5W1H分析法/10091536?fromtitle=5W1H&fromid=6062002&fr=aladdin.
基金项目:本文是2022年度国家档案局科技项目计划《基于社会化标签的非遗数字档案主题标引方法研究——以承德地区非遗数据平台为例》(课题编号:2022-R-017)阶段性研究成果之一
作者单位:河北石油职业技术大学