基于众包模式的荷兰阿姆斯特丹档案馆 “VeleHanden”项目探析及其启示
2023-12-10田艳罗陈建
田艳罗 陈建
摘 要:通过对荷兰阿姆斯特丹档案馆“VeleHanden”(众在参与)众包案例的调研发现,其在馆藏选择、用户激励、平台设计和质量控制方面有成熟完善的措施。我国档案众包实践目前存在政策支持不明确、社会关注度不足、平台管理不完善及档案开放工作滞后等困境,可以充分借鉴荷兰先进经验,从制度规范、档案开放、公众参与、平台建设、质量控制等方面着手进行改进,提高我国档案众包实践质量和水平。
关键词:荷兰;阿姆斯特丹;众在参与;档案众包;档案数字化;质量控制;档案开放
Abstract: The research on the case of 'VeleHanden' crowdsourcing in the Netherlands Amsterdam Archives showsthat it has mature and perfect measures in archival collection selection, user motivation, platform design and qualitycontrol. The current dilemmas of China's archival crowdsourcing practice include unclear policy support, insufficientsocial attention, imperfect platform management, and lagging archival openness. We can fully learn from theadvanced experience of the Netherlands and start to make improvement in terms of system regulation, archiveopening, public participation, platform construction and quality control to improve the quality and level of archivalcrowdsourcing practice in China.
Keywords: Netherlands; Amsterdam; Velehanden; Archival crowdsourcing; Archival digitization; Quality control;Archive opening
众包即“一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众网络的做法”[1],众包模式在档案领域的应用也有着许多成功的例子,形成了良好的示范效应。综合国内外学者的研究发现,对国外档案众包实践的关注更多集中在英语语言国家。荷兰的档案众包项目“VeleHanden”虽然具备开始时间早、參与人数多、平台设计完善等特点,但是因为项目网站和档案文字更多使用的是荷兰语,受到语言的限制并没有引起更多学者的注意。目前国内对于此项目的直接研究成果仅有一篇,即邓成雯从档案众包的角度对VeleHanden的运行、组织、法律、激励和质量控制机制进行了全面的介绍,也从规范、主体和客体3个层面提出了对我国开展档案众包的启示,[2]但其研究仅局限于平台本身,没有参考足够的外文文献,对平台的前期设计关注较少,并未分析我国档案众包的开展困境,其启示缺乏针对性。
本文对荷兰VeleHanden众包项目进行研究,分别从档案部门、众包网站设计、众包项目参与者等多个角度总结归纳出项目特点,寻找其项目开展及顺利运行传播的因素,在分析我国目前档案众包实践及其阻碍因素的基础上,根据项目研究及我国档案众包的现实情况提出更具针对性的启示。
1 荷兰“VeleHanden”项目的开展背景及内容分析
1.1 项目开展背景。阿姆斯特丹市档案馆成立于1848年,馆藏的各类档案材料排架长度超过55公里。阿姆斯特丹市的档案数字化工作开始时间早,数字化程度高。档案馆自20世纪90年代推出网络查档系统,2005年为公众提供按需扫描服务,截止到2020年,已经有3000万次的扫描。从2023年4月起,档案馆开始提供下载服务,利用者可以根据需求以多种格式下载档案。
“VeleHanden”的概念由阿姆斯特丹市档案馆首次提出,期望能够创建一个可持续的众包平台,档案馆对平台的不同部分应该以什么样的方式开展工作提出构想,由Picturae公司的软件工程师去具体完成。在项目准备期招募志愿者组建测试小组,提前参与档案众包的项目并提出反馈意见,[3]这也为之后吸引公众参与,维持VeleHanden项目的持续良好运行奠定了基础。
1.2 平台简介。VeleHanden众包平台归Picturae公司所有,负责网站的创建、日常维护和进一步开发以及参与者论坛的管理,并将档案馆提供的档案材料进行数字化后上传网站供众包参与者选择和开展任务。除阿姆斯特丹市档案馆之外,VeleHanden众包平台也欢迎其他档案机构参与进来,只需要支付一笔服务费[4]。档案机构是某个具体众包项目的所有者,提供馆藏物品负责具体项目的创建、管理和整体实施[5]。
VeleHanden的网站平台页面简洁,内容清晰明了,主要包括“首页”“项目”“参与者”“新闻”“关于我们”“帮助”6个模块。首页展示了项目、新闻、参与者采访的精选内容。项目模块统计了VeleHanden平台自2011 年创建以来所有的众包项目,其中已完成(结束)项目98个,用户还可参与的活跃项目19个。每个众包项目都有项目信息介绍、参与者可获得的奖励、详细的输入和操作说明以及可视化的项目进度,并设置了交流论坛可供管理者与参与者和参与者之间的交流互动,方便公众能够更顺畅地选择和完成项目任务。新闻部分更新十分频繁,是平台发布的关于众包项目的更新预告、平台维护说明、重要节日祝福等新闻。截至2023年5月,VeleHanden已经有22367人注册参与众包项目,累计完成了1300余万份扫描件的众包工作。[6]
1.3 众包任务分析。在VeleHanden众包平台上参与者需要完成的主要任务包括编制索引、著录照片和添加标签、校对人工智能的工作等。
为历史档案编制索引是平台上绝大部分众包项目的主要任务,档案馆馆藏的历史档案在经过数字化扫描后上传到平台,参与者需对文件中的手写文本进行识别并按要求输入,这就需要志愿者有一定的古文字水平和必要的外文能力。
为方便更多的初学者参与此类众包项目,档案馆提供了详细的输入说明和部分古代手写文字与现代字母的对比。2011 年VeleHanden平台建立之初的首个众包项目“民兵登记册1814—1941”是按姓名、出生日期和出生地编制民兵登记册索引,共吸引了1397名志愿者参与,项目历时三年多完成并于2022年12月存档。
照片档案是历史画面的生动写照,但是由于年代久远,照片背后的故事和人物信息已经随时间消逝,为了使这些照片档案被更方便地检索到,需要众包参与者对照片信息进行著录和添加标记。例如“格罗宁根的形象:新闻摄影机构 D.van der Veen”项目,格罗宁根档案馆保留了新闻摄影机构拍摄的格罗宁根市二十世纪六七十年代大小事件的底片,为了这些图片能够更好地被查找和使用,需要参与者对这些图片进行著录,如果参与者曾居住在格罗宁根市,或者是格罗宁根足球俱乐部的体育迷,那么将会对著录这些图片有很大帮助,对照片中的信息描述得越具体越有利于对照片的检索利用。
计算机通过深度学习能够识别早年的手写笔迹、可以对照片中的场景进行识别和简单分类,然而计算机的转录与识别并不是十分准确,这就需要众包参与者将原历史档案与计算机生成的文本进行比对并更正错误,经过纠正,计算机能够重新获得训练提升转录的准确性。2022年的“布鲁日奥尔德曼银行档案的证人证词”是一个更正类型的众包项目,参与者对计算机错误识别的文本进行更正并做好标记,能够帮助计算机获得广泛的文本语料库,为研究者提供十八世纪荷兰南部日常生活的信息。“摄影记忆:训练计算机”项目首次训练人工智能应用于识别照片中的场景,参与者从计算机提供的五个类别中选择出最合适的一个,人工的参与可以训练计算机更精确地识别出照片的主要主题。
2 荷兰“VeleHanden”众包项目的特点
2.1 选择合适的馆藏档案。所选择用来参与众包的档案包括各种与公众生活密切相关的信息登记册,参与者有机会从中找到自己祖先的相关信息,激发了公众的参与热情。平台上的众包项目除了历史、民政的类别,还涉及法律契约、证人证词、地图标记等,能够吸引到文史、政法、地理等多领域的爱好者参与进来。
2.2 低门槛与便捷的进入通道。VeleHanden项目是低门槛的,欢迎荷兰内外的所有人参与众包。大部分的众包任务简单易做,公众可以很容易地参与进来。除电子邮箱地址必须是真实信息,参与者的姓名、性别和地区等内容都可以虛构,充分尊重志愿者对个人隐私信息的公开权利。平台在设计时遵循的三个原则是确保快速、简单和尽可能地自动化,在参与者输入字段的过程中,扫描图像会自动定位到相应位置,方便用户操作提高效率和体验感。[7]
平台使用OpenID技术,用户可以通过Google、Facebook、Twitter等世界通用的社交媒体账号直接登录平台,这也方便了世界上其他地区的用户参与众包项目。每周三下午,志愿者还可以到阿姆斯特丹市档案馆大楼的信息中心,在线下与小组成员一起参与转录和输入数据。[8]
2.3 稳定的平台功能与活跃的平台氛围。开发档案众包任务依托网络平台,因此平台的稳定性和安全性至关重要。VeleHanden网站的开发商Picturae公司是荷兰专业的大规模文化遗产数字化服务机构,提供长期在线存储数字化藏品的服务,有成熟的软件开发技术和平台维护能力。为了在线用户良好的参与体验,平台有明文规定的个人信息和隐私保护细则,使用先进的技术维护用户在操作时的流畅性。
交流论坛和平台发布的新闻有效地维持了网站的活跃度。平台设计者很早就意识到沟通是平台成功的关键因素,在每个项目都设了留言和讨论区域,参与者可以在讨论区发布问题并分享自己的经验和发现,还可以就其他用户的问题给出自己的解答。活跃的网站给用户积极的反馈,使用户有较高的参与感和获得感,而不是像完成任务一样孤零零地输入数据,能够有效地增强用户黏性。
2.4 全过程的质量控制,保障众包项目的质量。阿姆斯特丹市档案馆很注重众包项目的质量,从前期设计、中期管理到后期审核做好了全过程的质量控制。
前期合理设计众包平台。“在没有公众的反馈下开发他们将要使用的工具是错误做法”,在VeleHanden众包平台的设计过程中,阿姆斯特丹市档案馆就招募志愿者组成测试小组[9],充分考虑参与用户的意见,开发更适合参与者操作的平台。在注册前,公众可以通过输入“索引示例”来判断自己能否胜任这份工作,平台也能筛选出更适合的参与者。
中期规范参与者的输入操作。平台上发布的每个具体的众包项目都有详细的具体操作说明,项目介绍能够让参与者快速了解项目从而选择自己感兴趣的部分,示例视频和PDF输入说明帮助参与者学习如何输入数据。在用户第一次操作时,在数据输入框下还会有自动的步骤引导。网站的自动检查程序能够对格式错误的输入提出警告,参与者如果发现异常情况可以通过沟通按钮直接向项目协调员发送邮件。[10]
后期的检查审核。VeleHanden使用复式系统,将同一份扫描文件派发给两个不同的人独立输入数据,完成后交由第三人进行审查,如果检查员不能确定结果的正误,可以提交给项目负责人进行处理。历史档案大部分为手写文字并且年代久远,档案原件会出现手写错误或模糊不清的情况,这给参与者的工作造成很大困扰,两个参与者较多的输入分歧也会影响检查员的审查。为了维护档案数据的真实性,学会与原始材料的错误与缺漏共处至关重要。民兵登记册项目的搜索系统设计得十分巧妙,在克服原始数据本身存在的错误的情况下,能够方便用户很轻松地检索到相应的信息。[11 ]
3 我国档案众包实践困境分析
为更好开发档案资源,我国已经进行了一些具有档案众包色彩的实践,经过调研发现,目前已开展的项目有“我的北京记忆”项目、盛宣怀档案抄录项目、籍合网古籍整理众包平台等。这些项目吸引到一定数量的众包参与者,能够有效地帮助保护城市记忆、提高档案转录和古籍出版效率,为我国档案收集众包、转录众包提供了优秀范例。但是我国的档案众包实践总体来说处于萌芽试点阶段,开展数量稀少,公众参与度低,社会影响较小,面临着诸多困境。
3.1 制度环境方面:缺乏明确的政策指导。开展档案众包缺乏明确的政策支持。2020年新出台的《中华人民共和国档案法》第七条增加“国家鼓励社会力量参與和支持档案事业的发展”的表述,然而对于何种社会力量以什么样的方式参与档案事业并没有具体的解释。档案众包作为社会力量参与档案事业的一种形式并没有专门针对性的规章制度进行指导,从前期准备、平台设计到参与双方的权责都没有统一的规范,只能依靠档案众包的发起方在实践中摸索。
3.2 档案开放方面:档案资源开放较滞后。丰富有特色的馆藏档案资源是公众积极参与档案众包的内在动机。然而《中国统计年鉴2022》的相关数据显示,2001年至2021年,我国综合档案馆的馆藏档案迅速增长,与之相比的开放档案数量增速相对缓慢,利用档案在开放档案中所占的比例越来越低,这说明我国的档案开放工作还有很大的提升空间,如表1所示[12]。而在档案资源的开放过程中,档案馆还应关注到数字化副本的开放问题。近年来随着档案数字化项目的开展,极大地提高了馆藏纸质档案的数字化率,但是由于档案专业人员有限,开放鉴定进程相对缓慢,数字化副本的开放速度滞后于数字化速度[13],影响了公众对档案的检索利用。档案未经开放也就不能上传到网站供公众浏览和参与众包工作,难以吸引到更多的众包参与者,影响档案众包的进程。
3.3公众意识方面:社会总体关注度不足。自2006年众包的概念被首次提出以来,众包模式逐渐在各行各业被广泛应用,但与营利性质的商业众包相比,知识文化类众包的关注度相对较低。此外,档案众包的特殊性也使其并没有获得足够的关注。首先,档案通常被封闭在昏暗的库房中,在社会大众的观念里档案是神秘严肃的。其次,档案部门没有很好地进行档案宣传。大多数档案馆官方公众号与公众的互动很少,对推文留言板块的留言不予回应,这也消耗了公众参与档案事业的积极性。[14]最后,档案相关信息的受众有限,传播范围小,公众在网络上和实际生活中通常没有机会接收到档案信息。这些因素阻断了公众对档案众包的关注,也使得其难以转化成档案众包参与者,为档案资源的开发贡献智慧。
3 . 4 平台建设方面: 平台管理不完善严密。与VeleHanden网站相比,我国现有的档案众包平台缺乏参与者与项目管理者便捷的沟通渠道、众包任务单一且未进行明确的难度分级、未能做好项目的全程管理。以盛宣怀档案抄录项目和古籍整理众包平台为例:第一,盛宣怀档案抄录项目和古籍整理众包平台均未设计交流区,用户与项目管理者沟通只能通过上一级的上海市图书馆或籍合网平台进行反馈,不能及时解决在参与众包过程中遇到的问题,影响参与者的体验。第二,盛宣怀档案抄录项目的任务是将手写历史档案抄录为现代汉语,对档案材料中的文本进行识别有一定困难,即便是专业人员也要花费大量时间。第三,平台的难度分级十分模糊,仅针对项目进行难度分级,而每个项目中的具体任务没有明确的难度说明,使得参与者不能较快地找到适合自己的任务,影响众包效率和参与者的积极性。第四,众包平台在全程管理方面有所欠缺,在已经截止的75个抄录项目中仅有23个项目的完成度是百分之百,部分项目甚至没有人参与抄录。注册的用户可以随意选择认领和删除认领抄录任务,已经过期的任务仍在任务列表中并未删除。随意的项目和用户管理会影响最终的档案众包结果,未及时更新的众包任务影响了用户的抄录效率。
4 “VeleHanden”项目对我国开展档案众包的启示
针对目前我国档案众包实践面临的困境, 借鉴VeleHanden项目的优秀经验,我国可以从制度规范、档案开放、公众参与、平台建设、质量控制等方面进行改进。4.1 完善相关制度规范。开展档案众包实践,要政策先行。档案众包涉及档案机构、平台开发者和公众等多方主体,流程复杂,运行管理有一定的难度,档案主管部门应当制定统一的制度规范指导档案众包实践更好地开展。在档案众包的开展过程中,需将档案资源上传到开放的网站平台上供大家浏览,存在信息安全风险;用户在众包平台上贡献内容属于个人的智慧劳动,涉及知识产权保护的问题[15];参与者在注册时一般需要填写较多的个人信息,关系到个人隐私的获取与保护。为了充分尊重各方主体的权利,保障众包项目的良好运行,VeleHanden平台制定了专门的信息政策,严格遵守荷兰的法律规范、欧盟的信息数据管理规定,明确了各参与主体的权责。我国也应当参考现有的网络安全法、个人信息保护法等法律法规制定更适合档案众包的制度规范,保障档案众包各参与主体的合法权益。
4.2 做好档案的鉴定开放。虽然我国的档案开放数量在逐年增长,但因为档案存量和增量巨大,档案开放率还处于较低的水平[16],难以满足开发档案众包项目的需求。此外,经过鉴定达到开放标准的档案是否能上传到众包平台供公众查看和转录,也是实际工作中需要考虑的问题。2022年8月开始实施的《国家档案馆档案开放办法》在档案开放主体和范围、档案开放程序和方式、开放档案利用和保护、保障和监督方面提供了新的指导。
档案馆可以根据本馆档案的利用现状,总结出用户对馆藏利用最多的内容,优先开展这类档案的鉴定开放工作。大部分公众首先对档案馆的馆藏档案感兴趣,然后才会参与基于本馆馆藏开发的档案众包项目。随着历史上行政区划的变迁,部分反映同一事件的历史档案分散保存在不同省市的档案馆,这时档案部门之间可以进行沟通交流,合作开发同一个众包项目。以长征档案为例,主体收藏在中央档案馆,另一部分存留在中国第二历史档案馆和云南、贵州、四川等省级档案馆,馆际之间的合作能够聚合更多的相关档案,达到更好的众包效果。
4.3 采取多种方式提高公众参与度。用户是档案众包的核心[17],为了吸引更多的众包参与者,我国可以采用线上线下两种方式进行针对性的宣传,而不仅仅依赖于线上平台。比如,可以在馆内的电子阅览室开设专门的档案众包工作区域,供来馆的参观者和查档者注册试用。再如,可在文化机构、学校等场所进行专题宣传,吸引对历史和文化感兴趣的参与者。
此外,档案众包平台可以适当添加中英双语切换的功能,吸引对我国历史档案感兴趣的外国人参与众包。简化注册登录方式,使公众能够较快地开始众包任务,提高效率。建立众包项目的互动讨论区、制定积分兑换规则、组织参与者的线下活动等用户激励方式能够有效地吸引新用户,留住已有的参与者。我国可以从这些做法中借鑒优秀经验,选择更适合我国国情和公众的激励方式。
4.4 选择合适的众包平台。众包平台的持续稳定是众包项目顺利运行的重要保障。VeleHanden自上线以来,已持续运行12年之久,这也说明了一个稳定长期的软件合作公司的重要性。因此选择合适可靠的软件开发商共同开发档案众包平台应当作为档案众包项目设计的首要任务,软件开发商应当兼具专业能力与人文素养。一个成熟的众包平台还应当包括详细的规则说明,对平台开发者、发包方和参与者的权利和义务进行明确的规定。国外的数字人文众包平台对用户个人的隐私保护十分重视,其关注点集中在信息内容、信息安全和信息存储等七个主要类别[18],尊重众包参与者的个人权利,同时也对用户的行为进行约束和规范,以保障其他用户和档案资产的信息安全。
4.5 做好众包全过程质量控制。对众包结果的质量担忧阻碍了部分档案机构开发众包项目的步伐,因此需要做好充分的准备,预防错误的发生。第一,在设计众包项目时,综合考虑本馆实际需要和参与者的能力,选取恰当的档案材料并按难易程度分类,便于参与者根据自身能力选择项目。同时需要为项目编写详细的输入说明和系统使用说明,必要时录制教学视频,为参与者的正确输入做好保障。第二,在参与者录入的过程中,设计自动程序识别错误格式并发出提醒,设置讨论区供参与者交流遇到的问题与经验体会,项目管理者通过讨论平台能够了解参与情况并及时解决参与者的问题。第三,众包任务完成后的审核过程,应对有经验的众包参与者进行审核培训,审核结果由档案员进行检查,以确保档案众包成果的最终质量。
5 结语
荷兰“VeleHanden”众包项目帮助档案馆切实解决了档案在线检索利用的难题,满足了用户快速检索档案的需求。对其众包平台设计、项目选择、用户激励和质量审核等方面进行分析探讨,对我国开展档案众包实践具有重要启发借鉴意义,对于促进我国档案信息资源开发利用模式转型升级,提高档案事业社会参与度具有重要参考价值。
*本文系2018年度国家社科基金青年项目──基于过程管理的历史档案开发利用众包模式研究(项目编号:18CTQ039)资助成果;山东大学2022年度教育教学改革研究一般项目《档案学概论》(项目编号:2022Y059)资助成果。
参考文献:
[1]HOWE J.The Rise of Crowdsouring[J].Wired,2006(6):176-183.
[2]邓成雯.荷兰阿姆斯特丹档案馆“VeleHanden”众包项目机制研究及启示[J].档案管理,2021(6):11 6-11 9.
[3][7][9] NEIIEKE,SIGNE.Participatorytranscription in Amsterdam and Copenhagen[C]//Edward Benoit III,Alexandra Eveleigh.ParticipatoryArchives:Theory and practice.London:FacetPublishing,2019:103-11 3.
[4][10][11 ] FLEURBAAY E,EVELEIGH A.Crowdsourcing:prone to error?[C]// International Council onArchives conference.2012.
[5]Gebruiksvoorwaarden VeleHanden.nl[EB/OL].[2023-05-01].https://velehanden.nl/Inhoud/paginas/index/id/gebruiksvoorwaarden
[6]VeleHanden.nl[EB/OL].[2023-05-01].https://velehanden.nl/.
[8]Ontdek de geheimen van het archief[EB/OL].[2023-05-01].https://www.amsterdam.nl/stadsarchief/agenda/vrijwilligers/
[12]中华人民共和国国家统计局.中国统计年鉴2022[M].北京:中国统计出版社,2022.
[13]马雪雯.我国纸质档案数字化工作研究[D].南京:南京大学,2020.
[14]马志颖.社交媒体时代档案领域公众参与研究[D].苏州:苏州大学,2020.
[15]祝一,陈建.参与共治与开放共享:新加坡国家档案馆档案众包项目实践及启示[J].北京档案,2022(10):43-47.
[16] 曲春梅,刘晓雨,王溶琨.档案开放促发展 数据共享惠民生:2022年中国档案利用体系建设发展报告[J].中国档案,2023(3):26-27.
[17]丁越.开放融合与参与共赢:美国国家档案与文件署的档案众包实践及其启示[J].档案与建设,2022(12):48-52.
[18]徐孝娟,赵泽瑞,贾海洋,史如菊.国外数字人文众包个人信息保护研究及启示:以网站运营者“隐私政策”为视角[J].现代情报,2023,43(2):168-177.
(作者单位:山东大学历史文化学院 田艳罗,硕士研究生;陈建,管理学博士,历史学博士后,副教授,硕士生导师,澳大利亚莫纳什大学访问学者 来稿日期:2023-06-01)