APP下载

数字人文视阈下德国阿罗尔森档案馆档案众包项目探析及启示⋆

2023-11-30徐璐瑶陈建

山西档案 2023年3期
关键词:阿罗档案馆志愿者

徐璐瑶 陈建

(山东大学历史文化学院 济南 250100)

0 引言

在数字时代,“数字人文”是信息技术和人文学科之间的一个跨学科领域,作为一门新兴学科,可以追溯到20世纪中期出现的人文学科计算[1]。而档案众包指的是教育或文化遗产机构(主要是档案机构)依托馆藏丰富档案资源,借助互联网平台,将原本属于自身开展的部分数字档案资源开发利用工作通过任务细分给大量非特定网络大众,依托公众力量和智慧共同开展的行为。档案众包在数字人文研究中发挥着重要作用并具有特殊地位。从两者的具体关系来看,首先,档案众包有助于建立丰富而优质的档案资源,是数字人文项目知识挖掘、生产和传播的基础和依据。其次,档案众包项目中,用户的作用是根据项目的需要提供和转化资源,而数字人文的跨国性和包容性,在客观上推动了众包活动更开放的共享与合作。

目前我国学者对于数字人文与档案众包的研究关注较多,研究内容主要涵盖了数字人文与档案记忆功能[2],数字人文众包任务的绩效管理[3],用户参与数字人文众包的意愿和影响因素[4],众包任务的发布与实施[5]等方面,研究不足在于对于数字人文与档案众包的融合研究不够,对于档案众包项目中的数字人文特征阐述不足,对项目实际开展中的细节性问题的关注仍然有所欠缺。在档案众包实践领域,我国目前已开展的档案众包(或有众包色彩的)项目主要有上海图书馆:盛宣怀档案抄录项目[6]、中国人民大学:“我的北京记忆”互动网站项目[7]、沈阳市档案局(馆):家庭档案网站项目[8]、辽宁省档案馆:社会档案人栏目[9]等,国内项目任务主要集中于档案著录、抄录、征集等方面,但在档案开放性、众包管理机制、数字人文特征、数字技术参与、社会媒体激励等方面存在不足,对于个人、社会、数字人文三者相互融合的体现有所欠缺,对于信息时代数据广泛性和人文融合性的适应程度还需进一步加强。

调研发现,目前在数字人文与档案众包进行深度融合方面做的较为成功的案例是德国阿罗尔森档案馆(Arolsen Archives)(以下简称阿罗尔森档案馆)的档案众包项目,它拥有高度开放和共享的档案资源、便捷高效的智能与数字技术、周详完备的数据安全与隐私规范、多维多元的众包管理机制以及广延外展的矩阵传播模式,适应了数字人文时代的信息管理需求。作为交叉学科的数字人文积极参与阿罗尔森档案馆的众包实践,为档案众包提供理论与技术支撑,二者相互促进,相互推动。因此,本文以开展新兴众包项目的阿罗尔森档案馆作为案例对象,分析其如何与时俱进地将档案资源的历史性与数字人文的先进性巧妙融合,同时结合我国的众包实践现状,探讨该项目对于我国数字人文视阈下开展档案众包实践的启示。

1 阿罗尔森档案馆档案众包项目的背景、目标与内容

1.1 项目背景

阿罗尔森档案馆是纳粹受迫害者档案的国际保管中心和国际寻人服务组织(the International Tracing Service,以下简称ITS),拥有世界上最全面的纳粹受害者和幸存者档案,已被联合国教科文组织列入“世界记忆工程”名录。它收藏了各种纳粹政权受害者群体的文件,其中包含5000万张索引卡,保管了约1750万人的命运信息。

1998年,工作人员开始将阿罗尔森的档案数字化。在数字化过程中,需要细致扫描各种格式的问卷、索引卡和装订书籍。阿罗尔森档案馆为此设有专门的扫描站。在数字档案馆的建设中,阿罗尔森档案馆编制了适应于浏览的电子指南。电子指南用五个关键问题描述了谁在何时、为什么以及如何使用档案中的卡片和表格。指南中的交互式元素解释了各部分的缩写和符号。还提供了指向各种其他背景信息的链接,赋予其数字性特征。

该众包项目的开展有其特定的原因。从阿罗尔森档案馆在追踪和记录方面进行的工作来看,受害者姓名仍然是馆藏的关键。每一份单独的文件都经过适当的评估,这种评估为研究人员的工作提供了重要的视角。但是,追溯记录这些信息是一项耗时且艰巨的任务。为了支持和补充档案管理人员在现场进行的工作,阿罗尔森档案馆与Zooniverse众包平台和家谱门户网站 Ancestry 等私营公司开展合作项目,有助于快速便捷地搜索尽可能多的文档。在2020年,众包项目计划启动,让志愿者有机会帮助档案馆捕获数据,其中包括大量受害者名单以及迫害者的盟军文件。这对阿罗尔森档案馆有重要意义,同时学校和其他机构有机会参与,以一种对整个社会有意义的方式纪念纳粹迫害受害者的命运,借此来了解那段沉痛的历史。众包计划“everynamecounts”以其创新的技术方法获得了“数字参与创新”提名下的智能英雄奖,得到了世界各地的肯定。

1.2 项目目标与内容

2020年,阿罗尔森档案馆在Zooniverse众包平台上发布了名为“everynamecounts”的档案众包项目,旨在创建包含名称和所有者信息的数字记录数据库。

该项目的目标是为受纳粹迫害的人们建造一座数字纪念碑,使其后代能够记住受害者的名字和身份,以此来帮助受害者澄清过去的命运,帮助受害者的子孙研究自己的家族史。众包项目预计到2025年完成对所有数据的转录。“有了‘everynamecounts’,任何人都可以支持尊重、多样性和民主”。到2022年,该项目的目标有了新高度。下一阶段,除了呼吁公众直接参与并创建档案数字记录外,还呼吁人们采取鲜明的个人立场,同时档案信息可以进一步用于记录、研究或教育等社会目的。

该项目以个人记忆为主要研究视角,利用数字人文的方法,以个人记忆参与构建社会整体的战争记忆史,以受害者姓名和具体信息反证其受迫害的史实,以个人档案重筑集体和社会档案。该项目既是“众包性”的,又是“个人性”的,是档案记忆与人本情怀交织的产物,也是数字时代“人文性”的体现。项目致力于保存纳粹受害者档案并在全球范围内提供这些档案,以期帮助因大屠杀和种族主义而失散的家庭团聚。

“everynamecounts”项目的众包倡议也提供了一种新的、直接的、动态的联系历史的形式,提供了一个纪念纳粹迫害受害者并捍卫和平与团结的机会。同时,在该项目下,阿罗尔森档案馆的“东欧外展”部门将档案管理方式及其服务进行外延,带到中欧和东欧国家,并与当地公司合作开发新的教育和信息服务。

2 阿罗尔森档案馆档案众包项目的管理机制

2.1 业务开展与运行机制

(1)前期准备阶段——以众包平台为主导

在前期准备阶段,以众包平台为主导。作为第一步,Zooniverse提供独特的众包项目生成工具,项目开发人员可以使用区域标记和绘图工具等来免费创建自己的Zooniverse项目。阿罗尔森档案馆与Zooniverse平台合作,档案馆负责提供原始档案,这些档案将被扫描并以专题的形式上传至Zooniverse,供志愿者查看和选择。Zooniverse是一个世界各地的志愿者可以免费注册的平台。志愿者们根据项目分配的任务执行,他们提交的数据会被分类存储在Zooniverse的安全在线数据库中。审查员负责检查任务完成的准确性,平台也允许用户在线搜索资源。以平台为主导的前期准备阶段,为后续的项目实施奠定了良好的物质基础和保障。

(2)项目运行阶段——以志愿者参与为主导

在项目运行阶段,以志愿者参与为主导。志愿者的招募和选择是众包成功的关键。志愿者主导进行着文字和图片数据的转录工作及部分分析工作,该项目为志愿者提供了各种有利于开展工作的工具,例如在录入地理信息数据时,志愿者可以使用维基数据Q-Item和GeoNames ID来辅助输入正确位置的标识符。在Zooniverse网站上,还设立了一个专门的志愿者社区,社区由三部分组成:志愿者,志愿者论坛和采访调研。同时给予志愿者自我研究的空间,如果志愿者了解最新的街道地址或GPS坐标,可以在“研究信息”中分享。在志愿者的帮助下,研究人员可以更快更准确地分析既得信息,由此节省时间和资源,提高信息获取和分析的效率。

(3)成果保留阶段——以实体和数字档案馆为主导

在成果保留阶段,以实体和数字档案馆为主导。截至目前,该项目已经拥有22422名注册志愿者,510万份文件,同时在众包平台上处理了200153条信息数据。在Zooniverse平台上,现有26556个志愿者参与,886701个分类,共365632个科目,已经完成251956个科目。在众包项目后期阶段,实体和数字档案馆发挥作用,众包的大量成果会以数据形式存入阿罗尔森的实体和数字档案馆,供公众浏览和利用。实体和数字档案馆的建立为成果保留提供了重要基础。

2.2 质量与风险控制机制

众包的过程是将工作外包给互联网上不确定的群体,参与者可以自主行动,然而众包结果的质量难以标准化[10]。对于众包在数字人文领域的应用,一个关键问题是如何有效地消除虚假和劣质内容,提高结果的整体质量。阿罗尔森档案馆的众包项目通过监测和管理全过程,减轻识别偏差造成的质量不均情况,来控制项目风险,提高项目质量。

监测和管理过程主要由国际寻人服务国际委员会(ICITS)负责,ICITS由来自11个成员国的政府代表组成,负责监督阿罗尔森档案馆的全过程工作。自1955年《波恩条约》以来,国际委员会成员国每年轮流担任主席——在2022-2023年度,由法国尼古拉斯·奇巴夫担任主席。

风险在很多方面与收益相同。数以百万计的纳粹迫害受害者档案是否应该在互联网上免费提供,这是在线数据库投入开发后阿罗尔森档案馆激烈讨论的问题,问题主要集中在以在线方式发布文件是否会侵犯人格权和版权方面。阿罗尔森档案馆仔细考虑了这些问题:大多数专家和受害者的亲属都认为在线档案馆提供的效益远大于其风险。

在质量控制上,总体来看,对内容质量的审核方式分为人工审核与系统自动审核两类。“everynamecounts”项目设有检查员检查程序。检查员通常在项目开始时设置,仅选用具有相关经验的项目负责人或志愿者担任。质量控制的及时性和事后调节性并存,具体而言,每份文件至少转录三次,任何错误都将在质量控制阶段得到纠正。如果三次输入的结果不同,项目工作人员会检查并进行更正。如果遇到无法纠正的错误,可以随时使用“Doubts”标签在论坛中告诉项目负责人。另外检查员在最终检查时可通过“Report”标签向项目经理反馈志愿者的错误,以此规范志愿者的参与行为。

2.3 公众参与与激励机制

首先是公众参与策略。“everynamecounts”项目最突出的公众参与策略是利用社交媒体建立传播矩阵进行宣传,分为几个层级,即从个人社交媒体平台到公众新闻媒体平台,从传统纸质媒体形式到新兴数字媒体形式,从线上数字网站宣传到线下实体海报宣传,多维度多层面利用公众与社交媒体参与激励,由此构建公众参与策略上的传播矩阵。例如,利用Twitter和Facebook平台发布个人参与感受,在公众新闻媒体例如《纽约时报》上公开报道,上传新兴数字媒体如“Hadassa Magazine”网站,利用视频社交平台Youtube上传项目视频介绍,在法国驻柏林大使馆外墙上显示“everynamecounts”受害者名字的光投影等。媒体不再是单一的传播渠道,而是一种“矩阵”形式。新旧媒体的融合使得覆盖面更大,强调了通过矩阵传播的优越性。档案信息根据不同信息传播平台的特点进行编码,从而提高媒体的影响力和知名度,并根据传播矩阵的不同渠道改善媒体的聚合[11]。“everynamecounts”项目的公众参与方式很好地利用了媒体传播矩阵,使公众参与覆盖面更广,传播性更高,宣传力更强,适应了数字人文时代的要求。

其次是制定有效的志愿者激励策略,吸引和激励大量的一次性志愿者,减少或避免志愿者流失,保持或增加志愿者的贡献度和专业度,是众包成功的关键措施[12]。参与项目的志愿者们在项目前期和后期都会收到一份调查问卷,来探讨他们参与项目时遇到的问题和得到的感悟。志愿者们也可以在志愿者社区的“Talk”讨论区进行交流,收集和共享数据,分享参与项目的心得体会。同时在“Bookshelf”讨论区志愿者们可以自我发现、建议和链接,上传自己在参与项目过程中联想到的相关书籍和知识,同时可以利用平台内的相关信息撰写论文和出版物,达到双向共赢,项目给予志愿者充分的自由度以激励他们积极参与。

2.4 伦理诚信与法律机制

2011年的《柏林条约》为阿罗尔森档案馆的众包项目提供了法律基础,它取代了1955年的《波恩条约》,规范了联邦政府文化和媒体专员对阿罗尔森档案馆的管理。阿罗尔森档案馆不受国家数据保护指令的约束,但受特定国际规定的约束:国际寻人服务国际委员会(ICITS)负责监督该机构的工作,由ICITS所有成员国批准的国际条约第11条规定,“ICITS应独立颁布从阿罗尔森档案馆馆藏中公布个人数据的指令”。2017年,德国文化局决定在线出版期限为25年,这意味着档案中的所有保管期限在25 年之内的文档都可以访问和查询。

与此同时,在线存档需要严格遵守法律要求和隐私政策。阿罗尔森档案馆遵守《欧盟通用数据保护条例》(GDPR)中有关数据保护的规定。条例规定保护个人数据的权利必须从其社会功能中进行审查,并且必须根据相称性原则与其他基本权利进行权衡。在某些情况下,允许出于存档和发布目的处理个人数据。阿罗尔森档案馆根据GDPR条例在Zooniverse上详细列出了众包项目的免责声明、审核政策、版权及隐私政策、使用条款等法律规范。

多年来,由于法律的限制,特别是隐私法和版权法,档案馆中的材料无法访问。但随着信息时代到来,人们已经认识到,保护尊严的隐私法和保护财产的版权法不应该阻碍重要历史档案的公开。阿罗尔森档案馆通过公开历史档案,为人权事业和纳粹受害者的利益服务,通过众包项目支持反战争和反侵略意识教育,由此促进正义和真相。与大屠杀和种族灭绝有关的数据具有特殊的社会相关性,它们的公开有利于寻找真相和铭记受害者。根据以上法规和条例,阿罗尔森档案馆的众包项目已经获得授权,能够在在线数据库中提供包含个人数据的档案。

3 阿罗尔森档案馆档案众包项目的数字人文特征

阿罗尔森档案馆档案众包项目数字人文特征显著。主要体现在众包的数据类型与特征、数据众包任务特征、数字技术特征三个方面。数字技术参与阿罗尔森档案馆的众包项目,体现了数字人文时代对于档案众包的新要求,反映了一些适应信息社会发展的新特征。

3.1 数据类型与特征

3.1.1 文字数据的离散性

该众包项目需要转录数以万计的文字数据,文字数据是各种数据类型中最主要也是最重要的部分。文字的离散性意味着从语流或文字中极易析出,即具有可分析性。此外,离散的特点意味着文本数据非常独立,具有很高的自由度。文本数据作为意义单位被独立编码,但同时又总是可以作为结构单位进行重组。人们注意到文本数据的离散性,因为它可以以排列组合、替换、分割、插入及其组合的形式进行重组。在阿罗尔森档案众包项目的大量文本数据中,文本的语义和连续完整性是不确定的,可重组的,同时通过文本识别和转录技术,可以确定相关受害者文本信息的最佳组配。

3.1.2 图像数据的归一化

由于阿罗尔森档案馆众包项目包含了大量真实的纳粹受害者档案文件,且这些文件都是由图片的形式予以呈现的,因此需要对大量的图像进行归一化,分类并建立起统一的标准形式,以便于识别和转录。图像数据的归一化是指通过一系列的变换将待处理的原始图像转化为单一的对应标准格式,目标是找到一组参数,利用图像的不变矩,消除平移、旋转和缩放等微调变换对图像的影响。在后续志愿者参与的转录环节,也提供了对图像的翻转、缩放、染色等功能,依据不同信息将图像数据进行初步的模块化区分,便于志愿者使用。

3.1.3 信息数据的个人性与公共性

阿罗尔森档案馆众包项目拥有众多有关于纳粹受害者的个人信息和经历数据。这些数据天然具有私权属性和排他性。而在数字人文视阈下,信息成为重要的公共资源。首先,个人信息具有识别他人的工具性,这种工具性决定了个人信息的社会性和公共性。其次,关于个人数据的信息不仅是私有财产。个人信息往往是由他人的服务和管理系统产生的,在产生时已经处于与他人共享的状态。最后,个人信息是数字人文时代社会发展的重要资源,触及到广泛的公共利益。大量关于受害者的信息数据,既是受害者本人及其家族记忆的体现,具有个人性,更是广泛的社会记忆承载者,具有公共性,与公共利益密切相关。在这点上,要积极讨论个人信息的保护与知识产权的合规性问题。

3.2 数据众包任务特征

3.2.1 文本识别任务

对于内容易于索引的中小型馆藏,阿罗尔森档案馆通过“everynamecounts”众包项目取得了良好的效果。通过在线平台,志愿者可以识别信息并将其传输到在线数据库。在相关档案的转录工作流程中,众包平台要求志愿者输入囚犯及其亲属的个人数据。某些情况下,数据库中已经输入了文档中主要人物的姓名。但是亲属的姓名和地址并未登记过,输入他们的名字很有必要,因为囚犯的父母、兄弟姐妹和配偶也经常受到迫害,有关他们遭遇的信息有时只能在这些个人档案上找到。

3.2.2 数据转录任务

转录任务主要包括文档所有者的序号、名字、年龄、出生日期、出生地、国籍、囚犯类别等内容。在编制文字索引时,对于数据转录的任务格式也有特定的要求。如果没有关于特定条目的信息,需要输入连字符。如果信息难以辨认,需要输入“不清楚”。如果信息已被划掉,需要输入原始和更正版本,并用分号分隔。

受害者清单中记录了受害者进入集中营前后的“变化”,包括进入营地、转移、“释放”和死亡。囚犯在集中营中被分配到的拘留地和囚犯类别反映了不同的纳粹意识形态,因此需要志愿者在档案中找到所有带有“变化”性质的信息并进行数据转录。

在对转录文本的理解上,也有一定的任务要求。名单上的类别反映了特定的纳粹意识形态,志愿者不应只从字面上理解。例如,术语“ASO”代表“Asozial”(反社会),用于描述各种不同类型的人,包括失业或无家可归的个人、福利领取者、辛提人和罗姆人。如果根据纳粹种族主义和反犹太主义意识形态,囚犯则被视为犹太人,在转录任务过程中,诸如上述的情况也被要求加以注意。

3.2.3 标引分类任务

该众包项目要求志愿者对档案信息进行分类和标记,在基本信息栏中给每个档案标引上元数据和文件编号。标引任务要求志愿者使用描述数字信息资源属性的元数据,添加标签和评论来评估和跟踪资源,并支持高效的数据检索。大多数标引任务不需要志愿者具备广泛的知识,标引分类也不需要花费很多时间。

3.3 数字技术特征

3.3.1 数据采集技术

因为文本的识别和转录主要依靠图片识别,所以在数据采集上,众包项目提供了一些利于采集的方法。可以放大或反转图像,提高图像的对比度和像素,利用缩放和反转颜色工具可以加强数据收集与阅读的便利性(见图1)。如果遇到无法阅读的文档,可以利用刷新键来获取新的页面和文档并进行数据采集。

图1:反转图片颜色[13]

3.3.2 数据识别技术

(1)OCR识别技术

阿罗尔森档案馆的众包项目十分庞大,因此用于文本识别和分类的技术非常重要。OCR(光学字符识别)是成功文本识别的关键之一。从狭义上讲,OCR可以识别字符,但极易出错。从广义上讲,OCR是将图形信息转换为文本信息(即元数据)。但OCR只是工作流程的一个方面,阿罗尔森档案馆众包项目中的大多数档案都非常多样化,OCR只能在标准化程度很高的文档上产生良好效果。

(2)文档聚类技术

阿罗尔森档案馆对于需要进行识别的文档集合使用OCR的“特殊类型”。从根本上说,成功识别文本需要材料分析、方法的选择和定义、表单识别(聚类或分类)、图像准备、光学字符识别、数据检查传输等多种不同方法的组合。光学字符识别只是整个过程中的一部分。

阿罗尔森档案馆众包项目收集的一个特殊方面是利用文档聚类技术将不同类型文件的统一归档。聚类技术是将不同类型的表单分类为组,过滤掉特定的文档类型,包括了与囚犯有关的各种类型的索引卡、问卷和表格。档案工作人员使用纯文本识别来确定如何读取材料,以确保在OCR期间正确识别信息元素。文档聚类是布局和表单类型的一种OCR(见图2)。

图2:OCR识别与文档聚类[14]

对于大约50%的馆藏,OCR和聚类都发挥了作用。众包项目已经使用OCR 处理和数字化了约50万份文档,并且已经对超过800万份文档进行了聚类。

3.3.3 数据分析技术

在转录时,对于不同信息,“everynamecounts”项目采用不同的数据分析策略供志愿者使用。

在日期方面,如果文档包含多个或已更正的数据,需要志愿者分析并假定正确的日期同时在字段中进行更正。在出生地的转录上的要求有所不同,志愿者需要在字段中输入与文档中与档案完全相同的地址,且不能进行任何更正。对于不同信息的真实性要求采取不同的数据分析策略,能保证转录分析任务的原始真实性。

当遇到需要进行讨论或者输入错误的情况时。项目也提供了相应的数据分析技术。每张登记卡的数据可以输入三次。如果三次输入的结果不同,项目工作人员会检查输入并进行更正。输入完成后,志愿者可以使用线上“Talk”功能向阿罗尔森档案馆发送特定文档的信息或问题。志愿者还可以使用讨论板留下对项目的评论和想法,与其他志愿者进行讨论。

3.3.4 数据呈现技术

在数据呈现技术上,该众包项目将每份档案进行模块化区分,不同信息在图片上用不同区域进行标注,列出该份文档的名称、规格与档号进行存档。同时附有每份文档的详细介绍,利于志愿者进行转录(见图3)。

图3:数据模块化转录[15]

每份档案都提供数据库条目,有其特定的编号ID以供查询,在数据库中编号分配采用单次分配制,具有唯一性和专指性。利用字段呈现文档的元数据,包括收藏者的名称和文档 ID。

在对纳粹受害者的信息转录中,文件的每一页都包含有关30-40名迫害者的信息。为了便于志愿者工作,项目进行前端控制,将每个页面分为几个部分。每个志愿者仅转录文档中未被蓝色和灰色阴影覆盖的名称。同时阴影区域中的名称可见,以便志愿者可以看到所有相关信息,每个志愿者被分配到页面的不同部分,这样就不会丢失任何名称或信息。

4 数字人文视域下阿罗尔森档案馆档案众包实践对我国的启示

我国数字人文参与档案众包实践还处于初步发展阶段。现存的上海图书馆盛宣怀档案抄录项目和中国人民大学:“我的北京记忆”互动网站项目等档案众包项目在“选题与内容、平台与设计、管理与合作、法规和技术方面”存在一定特色和创新性[16]。但在诸如众包平台选择、项目管理系统建设、媒体宣传激励策略、数据开放共享程度、监督机制建立等方面还存在亟待解决的问题。特别是在数字人文时代,信息数据的广泛共享性对于档案众包项目提出了更高层次的要求,如何适应信息社会的要求,将历史档案资源、众包项目平台以及电子信息技术有机结合起来,从阿罗尔森档案馆的档案众包实践中我们能得到一些启示。

4.1 开放型数据库建设与众包平台选择

在数据库建设上,通过与Yad Vashem世界大屠杀纪念馆合作,阿罗尔森档案馆建立了开放型在线数据库,并将“everynamecounts”的数据信息录入其中,世界各地的任何访问者都可以通过在线数据库研究相关档案,借此了解受迫害者的苦难经历。开放型数据库提高了数据的可访问性,同时提高了信息文件的透明度。对比来看,我国上图盛档抄录项目平台仅开放全部盛档的0.3%,档案开放程度严重不足,信息文件不易于访问和利用,众包项目的效率因此得不到很好提高。效仿阿罗尔森档案馆的众包项目,我国的档案众包实践也应积极促进馆际互联,在项目前期建立开放型数据库,项目中期充分利用数据库处理信息数据,项目后期也要利用数据库保留众包成果。数字人文参与档案众包,开放型数据库的建设是基础和保障。

在众包平台选择上,阿罗尔森档案馆选择“Zooniverse”第三方众包平台发布任务和收集数据,没有选择利用自建平台,这是因为任务中需要处理的档案数据类别丰富、数据间相似性高。利用数字人文科学数据的众包平台可以分为三大类[17]:一是自建平台,二是非营利平台,三是商业性平台。就我国目前的档案众包实践而言,应该根据所要处理的档案数据类型合理选择众包平台,当众包项目对数据的专业性和完整性有特殊要求时,可以开发自建平台,借此保证数据的完整性和安全性;而在大多数情况下,数据要求不那么严格或者众包数据量很大,就可以选择第三方数据众包平台开展合作,合理分配资源来开展项目。

4.2 智慧化的档案众包管理机制

我国现存的档案众包项目较少,没有建立完善智慧的档案众包管理机制,更多地是依托助捐平台或高校开展,存在管理不完善、技术不健全、任务层次性不明显和与公众联系不紧密等问题。阿罗尔森档案馆的众包项目依托平台建立了一个智慧的档案众包管理机制,这得益于档案机构、在线平台和公众用户三个关键因素的共同参与。

同时,档案众包项目的实施是一个完整的过程,从档案馆作为发起者开始到平台项目运行再到最终档案项目的验收。在未来我国的档案众包实践中,可以借鉴阿罗尔森档案馆众包项目,确保发包方在全过程进行有效管理,其中的关键是建立一个智慧管理机制,完善项目运行、质量控制、公众激励、风险排查等管理机制。全过程的智慧化控制,既能监控众包项目的实施进度,也能及时保留众包成果,将成果以数字化形式保留下来。

4.3 传播矩阵构建与项目宣传

阿罗尔森档案馆的众包项目利用社交媒体建立传播矩阵,对我国档案众包项目的宣传也有着借鉴意义。

新的媒体时代,新的信息革命,给档案工作者的思维、业务和管理方式以及档案信息的传输方式带来了新的变化。社交媒体不仅可以为档案部门提供数量庞大、年龄结构合理、平台使用率高的潜在用户资源,还能够凭借其自身的交互性、分享性、参与性实现档案知识的快速广泛传递,又能让公众在获取档案知识的同时参与档案管理。数字人文视阈下,我国的众包项目宣传应该变革传播观念,打破片面的思维壁垒,要将受众置于传播的主要地位。利用去中心化的传播格局,使广大公众既成为信息接受者同时也成为信息传播者,适应受众群体的个体化、特色化、差异化、分众化发展。

4.4 身份认同与参与激励

阿罗尔森档案馆的工作人员说:“这不是工作,而是使命。我们的工作与人类历史上最黑暗的时刻之一有关。”这是一种强大的社会激励与公众呼吁——即利用身份认同与民族意识参与档案众包活动。

我国的众多历史档案资源,有些是个人家族史,有些是历史变迁记录,但归结起来,都是中华民族的集体记忆,其受众面是广大人民。与此同时,众包项目也充分强调“个人性”与“公众性结合”,它首先是一项基于个人参与的公众合作活动,因此有必要将个人的身份认同、公众的民族意识与与众包项目有机结合起来,焕发公众内心的共鸣,利用认同来唤起公众参与的积极性,因为这不仅是个人的参与行为,更是发挥个人力量创建民族记忆的过程,这是广大参与者最基本的共性因素。

同时,数字人文众包项目也需要灵活地在不同阶段提供不同的激励措施。例如初期问卷调查,中期的自由讨论与后期的研究出版,这些措施能够帮助参与者更好地认识到任务的效益性和目的性,并激励更多的用户参与到数据众包项目中。

在项目设计方面,也需要提高项目的参与趣味性,加强数据可用性和易用性,由此增强公众参与意识。

5 结语

档案作为承载记忆的载体,可以见证个人的生平经历和家族的兴衰存亡,也能反映国家的发展史和民族的抗争史。在信息时代,数字人文为档案学研究提供了新视角和新方法。在数字人文视阈下,阿罗尔森档案馆的档案众包实践发展成熟,同时我国的众包实践还有着很大的发展空间,我国应该积极与众包平台合作,构建智慧众包管理机制,同时利用媒体矩阵进行宣传,加强身份认同和民族意识,呼唤更广泛的公众参与,以数字人文参与档案众包,以档案众包适应数字人文,为现阶段和未来的档案众包提供新的发展路径。

猜你喜欢

阿罗档案馆志愿者
志愿者
我是志愿者
小小数迷泽西之阿罗的糊涂账
为志愿者加油
阿罗的好朋友
我是小小志愿者
关于县级档案馆馆藏档案开发利用的思考
全省部分档案馆新馆掠影
阿罗有支彩色笔
我的餐具