APP下载

英国国家档案馆网络归档的案例分析及其启示

2018-08-20周文泓陈怡张玉洁代林序王璠

档案管理 2018年4期

周文泓 陈怡 张玉洁 代林序 王璠

摘  要:本文旨在深度研究英国国家档案馆的网络归档行动与成果,从中汲取网络归档的可行策略,推进网络环境中档案管理理论与方法的研究。通过案例分析与文本分析的方法,本文对其网络归档方案及其成果予以总结,分析其优势与不足。由此,本文基于我国现状提出网络归档策略:加强网络归档的制度建设;建立多元主体协作框架;立足开放利用开展网络档案资源整合工作;以智力支持为导向构建业务与技术能力。

关键词:英国国家档案馆;网络归档;政府网站档案;社交媒体档案

Abstract: The paper undertook an in-depth study of The National Archives of UK aimed at providing suggestions for web archive work in China, which can further the study of archive management theories and methods in the Internet era. With case analysis and text analysis, we analyze the UKGWAs policies, summarize the implementation methods, explore the specific characteristics collection resources and present the achievements of the archive work. Based on the reality of China, the paper proposes countermeasures on the four aspects: strengthening the construction of web archiving system, establishing a multi-subject cooperation framework, conducting web archive resource integration work based on open and utilization, and building business and technical capabilities for intellectual support.

Key words: The national archives of UK; web archiving; government website records; social media records

1 引言

随着互联网+政务的持续推进,网站在政府业务中的功能日益凸显,社交媒体平台亦得到广泛应用,截至2017年9月1日,全国正在运行的政府网站有29431家[1],政务微博账户达到17万左右。由此,网络作为海量政府文件的形成环境日益得到档案理论与实践领域的关注,有待及时可信的归档管理,从而为国家、社会与公众留存重要的证据、记忆材料和政务信息资源。实践层面,国家档案局局长李明华在2016年国家档案大会的主旨报告中就提到制定重要网页和社交媒体的归档办法是“十三五”期间的重要工作内容。同时,这也意味着我国的政府网络归档工作缺乏明确的政策法规指导,政府网络归档行动未在全国范围内展开,政府网页和社交媒体面临失存与失范管理的风险,政府信息资产有待规范留存与管理。

网络归档的理论研究相比之下有更丰富的成果。除了档案领域以外,图书馆、情报学、博物馆等领域对此亦有涉及,探讨了网络归档的必要性、目标、原则、方法、流程、技术等,但这些领域的研究成果未能将档案管理理论与方法深入地融合于网络归档的策略与方案中。档案领域的研究则主要从案例出发对英国、澳大利亚、美国的网络归档成果予以介绍,突出对网络归档的历史演进[2]、归档范围[3]、网站档案资源特色[4]、网站功能[5]等进行分析,社交媒体文件归档的策略亦从司法、管理、文化、技术等方面得到探索[6],但同时还缺乏从不同国家的实践经验与不足的综合解析中获取更加完善的归档策略和方法。

因而,本文将以在网络归档方面引领世界的英国国家档案馆为案例研究对象,在已有研究基础之上进一步挖掘其归档方案与成果,从而明晰其归档特色、优势与不足之处,并立足我国现状提出可借鉴的网络归档策略。

2 英国国家档案馆网络归档概览

2.1归档工作策略。英国国家档案馆较早意识到网页是重要的电子文件,是档案信息资源不可获取的一部分,因而较早开展网络归档工作,为普通大众和各界学者、政府管理人员提供了高价值的资源库。基于其长久的网络归档经验,已形成相对统一的归档工作方法,具体策略如下:

首先,确定归档主体。英国政府网站档案馆项目由英国国家档案馆网站档案馆团队、互联网记忆基金会、MirrorWeb公司、《公共文件法》规定的公共文件主体机构的网站管理者和部门文件官员合作进行。其中,英国国家档案馆网站档案馆团队起主要领导、提供建议和协调监督作用,互联网记忆基金会对这一项目提供资金支持,主要技术工作则由MirrorWeb公司在网站档案馆团队的指导下协同网站管理者完成。部门文件官员则对所在部门或机构的档案鉴定、保护等工作负责。

其次,布局归档方案。英国政府网络归档工作方案主要涉及归档范围、归档频率、归档技术手段、向公众提供利用、维护档案质量等方面。归档工作的各责任方围绕归档工作的四个目标[7],结合各个网站的具体情况,确定归档范围,制定切实可行的归档时间表并选择最合适的技术方法来进行归档和维护。由于归档工作主体的多元性,共同协作制定的归档方案能较好地适应各方的实际情况,推动归档工作有序進行。

再次,实施归档方案[8]。在前期制定的方案的基础上,归档工作的具体操作分为以下步骤:

(1)锚定目标网站。英国国家档案馆网站档案馆团队根据《公共文件法》《文件收集政策》等政策法律,确定了网站档案馆归档范围,主要包括:所有的中央政府部门、非部委公共机构、执行机关、皇家委员会、国家医疗服务体系以及区域发展机构等所建立的网站以及它们在社交媒体平台上建立的官方账户发布的内容。MirrorWeb公司在开始捕获网站前依照各方协定,锚定目标网站,为下一步做准备。

(2)捕获网站。MirrorWeb公司主要依照时间表、通过爬虫远程获取目标网站的内容。目前大部分网站的捕获频率为一年两次,具体网站的捕获频率受网站的使用程度和重要性影响,计划关闭的网站则会在关闭前8周至6个月期间至少进行一次捕获。此外,对于某些网站存在的无法被直接爬取的内容,如音视频内容、Flash组件、依赖于HTTP POST请求的内容等,网站所有者或管理者需要提前告知网站档案馆团队并提供合适的替代方案,以维护网站档案的真实性。同时,为了减少此类情况的发生,英国国家档案馆建议新建立的政府网站尽量采用符合统一标准的技术设计和管理网站,并为MirrorWeb预留爬虫通道,以提高归档工作的效率。

(3)质量保证。通过捕获过程得到的网站内容将被置于一个临时URL内,以便进行检查和修正。最终归档页面将被呈现得尽可能与原页面一致,以保证网站档案的真实可靠性。

(4)提供利用。修复完成的页面将被转移到一个开放的永久URL下,通过编目和索引处理,正式成为英国政府网络档案的一部分。团队为公众提供了以下几种查阅网站档案的渠道:在某网站的原URL或现在可用的URL前增加前缀来查看该网页的所有被归档内容;通过英国政府网站档案馆页面搜索页直接搜索对应内容;在部分现行网站底部可寻找到网站档案馆入口,一键跳转到该页面进行检索;使用Memento插件查看档案;通过任何一种搜索引擎进行在线搜索。

最后,调整、维护方案。根据网站使用频率、内容呈现方式、用户群体偏好等因素的变化,英国政府网站的归档工作也会相应地进行优化。英国国家档案馆首页会分季度进行在线调查,收集用户的使用习惯、人群组成和对目前网站建设的建议和意见,从而调整英国国家档案馆提供的各项服务,以更加优质的内容和方式服务公众。

2.2 网络归档成果概览。通过上述归档工作,大量的政府网站历史页面内容被整合进入英国政府网站档案馆,并通过一个开放的网站平台——UKWGA网站呈现给公众。网站内的档案资源目前包含政府网站档案和社交媒体档案两种类型,涵盖了从1996年到现在,英国各政府部门、执行机构和公共组织为了实现政务公开、提高机构运行效率、向公众提供更便捷的公共服务、与公众进行互动交流、保障公民基本权利而在官网、博客、社交媒体上发布的涉及社会多个领域的网络信息资源。政府网站档案包括英国政府及公共部门、某一领域重要问题或重大活动的相关团体在独立网站上所产生的网络信息资源,截至目前有逾5000个网站被归档,并且还在不断增加;社交媒体档案目前主要包含推特档案和YouTube视频档案两类,主要是政府机构官方社交媒体账户、伦敦2012年奥运会与残奥会官方账户以及其他由政府机构主导的与政治、社会生活重要领域相关的账户所发布的公开信息。英国政府网站档案馆目前归档了80个推特账户和62个YouTube视频账户,共计推特334446条、视频13790支。每个账户内包含了该账户从开始被归档至2016年9月上旬所发布的文字、图片、视频、超链接等原创性内容,转发、评论等内容则未被归档。

英国政府网站档案馆对档案资源从横向和纵向两个层面进行组织[9]。横向组织包括字顺法、分类法2种组织方法。按照字顺法,英国政府网站档案馆将所有网站的名称按英文首字母顺序进行排列,得到一个A-Z 的列表,从语法层面对这些网络信息进行了有序组织;分类法方面,在英国政府网站档案馆的全局搜索中,所有的档案资源按照Word、Excel、Text、PDF、HTML、CSV6个文件格式进行聚类,同时,推特上的信息资源以及YouTube 上的视频资料则按照产生账户进行聚类,这种分类法的运用使得英国政府网站档案馆获取的网络信息资源更加明确清晰。纵向组织方面,英国政府网站档案馆按照时间顺序将同一网站在不同时间抓取的网页或者同一机构在不同时间抓取的推特内容或YouTube 视频进行排列,方便用户按时间顺序检索馆藏资源。

3 优势与不足:英国国家档案馆的网络归档解析

3.1多维度的归档优势

3.1.1规范的制度建设。一系列政策和标准确保工作的规范性,明确了归档范围与职能定位。英国政府网站档案馆严格遵照《文件收集政策(Records Collection Policy)》《知识产权法规(Section 163 of the Copyright Designs and Patents Act 1988)》等相关政策和标准,只获取属于公共文件且由政府掌握所有权的那一部分网络信息资源。其中,《文件收集政策(Records Collection Policy)》对国家档案馆是否要对收集的文件进行永久的保存、什么时间收集以及在哪储存这些问题做出了规定。《运行选择政策(Operational Selection Policy)》则旨在为参与公共文件选择的人员提供了工具。这一系列政策和标准的制定确保了归档工作的规范性,明确了归档范围与职能定位。

3.1.2可持续的主体协作模式。一方面,可持续的协作在于多主体的工作机制。所谓网络归档工作的多主体机制,就是说在网络归档的过程中,为了实现归档工作可持续的目标,政府并不是唯一的工作主体,还存在着包括企业(MirrorWeb公司)、非政府组织(互联网记忆基金会)、个人以及社群在内的多个工作主体,它们在档案馆的主体领导下,在一定的规则约束下,以相互协同的方式共同行使权力。具体来说,作为领导者、监督者的英国国家档案馆借助MirrorWeb公司的专业技术,利用互联网记忆基金会提供的长期资金支持,协同部门档案官员,构建了专业、规范、稳定的档案资源平台。英国国家档案馆通过建立与政府网站管理者或数字化领导的联系机制,及时获取网站信息、反馈档案资源采集情况,同时网站的管理者也可向檔案馆提出归档申请。这种双向合作、高效全面的网络信息资源获取方式使得英国国家档案馆能够将处于采集范围内的网络信息资源获取到位,减轻政府财政负担,保障归档技术可行性、归档工作的可持续性。另一方面,可持续的协作在于多维的权益保障机制。英国国家档案馆非常注重利益相关者的权益,其归档工作是在不侵犯非政府组织或个人版权的情况下进行的,归档内容应当遵守数据保护法、诽谤法和版权法。如果一个网站包含了皇家所有权之外的资料或第三方的版权,出版部门必须通知国家档案馆,提供已授权的证据并确保在归档网站上可以清楚地看到已授权的说明。如果版权所有者没有给予适当的许可,那么国家档案馆可能无法存档这个网站。与此同时,英国国家档案馆专门制定了删除方案(《Take Down Policy》),若有部门或个人向档案馆提交申请要求将相关资源剔除出收藏列表,由相关领域专家组成的评议小组就会严格按照方案中的条款决定是否将相关内容删除,以此来确保档案馆所保存的网络信息资源不存在争议,维护相关者的权益。例如,根据“1998年数据保护法”,持续地在线访问涉及在世的人的个人信息的文件,是构成隐私侵犯的违法行为,应删去相关文件。再例如,由于环境的变化,过去出于诚信的目的所公开的信息,若在2000年颁布的信息自由法(FOI)或2004年颁布的环境信息法(EIR)中被判定是属于非公开范畴,出于维护公众利益的要求将被删去。

3.1.3多元的网络档案资源深度建设。一方面体现为内容的多样化,英国政府网站档案馆的归档类型包括网页档案、社交媒体档案,资源内容涉及工商业与经济金融、中央和各级政府、民生工作、表彰委任、国际事务与国防、通信和科技等多个主题。这些丰富多元的档案资源为英国政府工作提供凭证与情报参考,并且有利于向公众提供更便捷的公共服务、保障公民基本权利。以伦敦奥运会与残奥会推特账户和YouTube视频账户为例,它们归档了大量关于伦敦奥运会赛前预热、比赛盛况、场外活动、公众引导和与公众互动的内容,对伦敦奥运会做了较详尽的记录,这些内容作为原生的社交媒体信息,在形式上、语言风格上具有贴近公众的时代特色,向公众传达奥运精神的同时也拉近了公众与奥运会的距离。同时这些社交媒体档案为他国提供了奥运会组织、宣传工作的借鉴,有助于提升英国的国际形象。另一方面则是通过深度整合,实现形式的多元,以促进资源的便利获取。通过英国国家档案馆的技术开发,公众可以通过站内搜索引擎、网站检索、Memento插件和在原链接或现链接前增加前缀多途径获取已开放的网站档案资源。简洁大方的页面設计与人性化的功能设置给了用户良好的使用体验。例如,在利用站内搜索引擎检索时,既可以直接输入目标进行检索,又可以在搜索结果页面中利用关键词、相关链接、文件类型和年份进行高级筛选。在页面顶端有“A~Z”26个英文字母和一个“0~9”共27个索引按钮,可以帮助用户快速找到想搜索的内容。点击进入其中一个网站名,下一级页面中展示出该站点的完整域名和捕获时间表,选择一个捕获日期就可以浏览该次捕获的网页版面内容。用户可以通过书签、备忘录等小工具使自己在下一次访问网站时能够更快地找到之前已经找到的档案资源。同时,资源库提供了具体的说明帮助用户获取和使用所需资源,在板块“如何使用网站档案”和“给网络管理员的指导”部分考虑到了不同角色的访问者,并给予指导,阅读这两个板块能够给使用者建议,使他们能够高效地使用网站档案。

3.2 有待完善的归档能力构建。尽管英国国家档案馆在网络归档方面卓有成效,但面临持续升级的网络环境,尤其是社交媒体等的新应用,其工作方法、资源建设、能力建构等方面还存在不足:第一,以国家档案馆主导的模式未能有效获取作为网页形成者的政府机构的参与,随着政府网站与社交媒体更加深度地用于业务活动中,海量信息的几何级增长将从数量、价值鉴定、噪音识别、保存空间、运营负担等方面对档案馆提出挑战。如果政府机构不能全面参与归档方案的制定和实施,既存在归档网页的选择难以真实呈现业务活动的可能,也会使档案馆在无法独立承担相应成本的困境中减缓网络归档行动。例如,截至目前仅提供至2016年的社交媒体档案。第二,网络档案的完整度需提升。尤其是在社交媒体信息归档中,英国国家档案馆目前只对Twitter和YouTube进行归档,Facebook等亦得到广泛使用的平台尚未纳入其中。此外,在已归档的信息中,仅政府发布的主体信息得到归档,而转发、评论等互动性信息被明确指出不予归档,这也破坏了档案微观层面的完整性。第三,英国国家档案馆技术能力建构尚不充分。尽管网络归档得到技术公司的支持,但不同技术架构的网站加剧了捕获、固化与整合的挑战,使其未能对所有重要网站实现归档。例如,英国国家档案馆在社交媒体归档中说明,政府的Facebook账户没有纳入项目是由于技术方面原因。

4 启示:网络归档的策略

目前,我国尽管在实践和研究领域均有一定成果,但总体上仍处于起步阶段。已有的项目为2002年北京大学网络实验室开发的“中国Web信息博物馆”和2003年启动的由国家图书馆主导的“网络信息资源采集与保存项目”、国家信息中心在“十二五”期间试点的政府网络归档项目,郑州市、青岛市等档案馆开展了政府网页归档的试点工作。然而,这些项目或者已处于停滞阶段,或只是对部分网站进行试点归档,或者没有将归档内容开放,或是归档网页数量较少且未建立一套完善的工作机制,并不能被视作完整的网络归档。此外,正广泛应用于政务的社交媒体归档更是未纳入文件与档案工作中。

因而,我国的政府网络归档工作总体表现为:缺乏科学的顶层设计,导致我国网络归档进展缓慢;未得到各利益相关者的充分关注与投入,难以开展统一行动;已归档成果尚未深度整合与开放,难以评估工作成效与实现档案价值。借鉴于英国国家档案馆的经验,我国可在如下方面拓展与深化网络归档策略:

第一,加强网络归档的制度建设。一方面,依照我国的档案事业体制建立从国家到地方的网络归档战略与政策,明确网络归档的目标、原则与方法,并对国家与地方的网络归档工作制定相应的行动计划,为各利益相关者如政府机构、档案馆、图书馆等主体参与网络归档提供基本的依据和合法合规的框架。另一方面,立足我国实际制定相应的标准与规范,可在协同网站清查即明确网站主体、运营机制、内容、技术架构等具体方面的情况下升级网络归档的标准,并根据不同业务部门、层级和地区的网站的具体情况形成具体的归档方案以明晰归档工作的主体、范围、采集频率、技术,等等。此外,还要深入促进现有相关法律法规的完善,识别归档工作所面临的著作权、采集权、保管权、利用权、隐私权等问题,并反馈于相关法律法规的修订与制订中。

第二,建立多元主体协作框架。鉴于网络归档兼具管理与技术的复杂性,且涉及不同利益相关者的权利与义务,因而多元主体的协作极为关键,我们需要通过技术、人员、资源等方面的贯通与互补,以实现优化配置前提下的最优网络归档。一是在我国现有体制下,需要在国家档案局的战略规划与指导下形成中央到地方各有分工的网络归档工作体系。一方面,各个地方层级归档相应的政府类网页资源,有效分解归档任务;另一方面,各个层级形成资源相互贯通的协作框架,致力于打造国家级的网络档案馆。二是政府机构与档案馆形成有效协作机制,档案馆可提供专业流程与技术方面的指导与辅助,由政府机构确认归档范围、开展实施归档,并及时纳入档案馆的资源体系中。三是还可通过档案馆、图书馆、博物馆建立记忆联盟的方式来共同形成网络归档的行动方案,基于各类机构已有的经验开展互补性行动。四是有效应用社会的力量与智慧,这也是响应国家倡导社会机构参与档案事业建设的号召。例如在技术能力不充分的情况下可通过咨询或外包的方式寻求第三方的支持,亦可通过众包等公众参与的方式利用不同领域的公众的专业力量来帮助明确归档范围、捕获、整合、开发网页等工作。五是我国亦可积极参与国际合作,从策略、方法、技术、资源上寻求与不同国家对网络归档的探索和合作,在学习发达国家网络归档工作的同时展示中国的成果与经验。

第三,立足开放利用开展网络档案资源整合工作。网络的重要特点是它的开放性,网络档案的开放利用亦是为了补足原始网页易逝的缺点,因而网络档案资源的落脚点是以用户为中心的开放利用。网络档案资源的建设要满足社会多元的利用需求,这就要求资源在内容与形式上实现多元化。内容层面,各个业务系统与层级的网络记录都应当在制定归档范围时予以考察,既要识别高价值领域,亦要考虑边缘性需求,更要将政府网站、社交媒体、政务APP等不同网络应用纳入其中,从而确保归档范围的全面性。在这其中,以用户为中心的利用统计、公众参与、调查与反馈都可以作为完善归档范围的方式。例如,对受众进行分析定位,从政府机关及部门、学者、普通民众三个方面来明确他们的需求,并在此基础上开展网络资源平台建设。另一方面,在內容挖掘和形式呈现上,虚拟环境中的多维整合和可视化设计应当得到充分重视,这些问题都应被纳入考虑范围。在打造网络资源平台时,应注重美观与实用并重,适当地添加flash动画、视频、音乐等元素和书签、备忘录等小工具;在资源检索方面,应提供主题检索、关键词检索、时间轴检索等多种检索方式。此外,网页上还应增添互动模块,例如小游戏、小视频等拉近与公众的距离,提升用户的体验。例如,英国国家档案馆对各类可视化页面与工具的开发就显著体现了这样的策略。

第四,以智力支持为导向构建业务与技术能力。从英国国家档案馆网络归档现有的不足来看,网络归档既从专业上要求深化对档案、档案管理的思考与转型,也相应要求技术能力的同步建构,这也是我国目前需在网络归档方面重点投入的方向。一方面,既要遵循现有的文件与档案管理的通用制度,也要在实践中明确网络档案的内容、形式、背景以及相应的特点,将其作为新形式的记录予以认识,从而探索管理的新方法与流程。这需要文件与档案管理员从专业层面加强应对新技术环境的业务学习,针对网络归档探讨政策法规建设、规范与标准制订、管理流程再造、管理系统开发、捕获方法与工具设计等。另一方面,拓展技术能力构建。网络归档以信息与通讯技术发展为前提,网络归档方案的实现需要技术的有效支持,这包括网页的捕获、整合、保管、开发与利用等一系列环节。技术能力的建构由此涵盖多方面,涉及开发针对各网站的API、抓取工具、爬虫软件;网络档案资源的固化、整合与语义挖掘;档案的真实性保障;资源的分布式存储;网络档案资源的可视化设计等。这些都需要文件与档案管理人员在能够积极识别、开发相应的技术并能够熟悉技术的前提下形成完善的技术应用方案。

参考文献:

[1]国务院.2017年第三季度全国政府网站抽查情况通报[EB/OL]. 2017-11-30 http://www.gov.cn/zhengce/content/2017-11/30/content_5243360.htm.

[2]王海欧,张萍.英国国家档案馆的建设[J].北京档案,2007(07):42-43.

[3]赵玉,王健.英国国家档案馆在线社交媒体档案库及其特色[J].档案与建设,2015(12):35-37.

[4]邓辉,李雪姣,蒋容.英国政府网站档案馆对我国数字档案馆建设的启示[J].北京档案,2014(06):36-39.

[5]刘开蒙,史武鹏.英国国家档案馆网站多元化信息服务特色及启示[J].四川档案,2016(02):55-57.

[6]高晨翔;黄新荣.我国社交媒体文件的保管政策研究[J].图书馆研究,2017(7):47-55

[7]The National Archives. The UK Government Web Archive: Guidance for digital and records management teams[EB/OL]. 2018-04-10 http://www.nationalarchives.gov.uk/webarchive/guidance/.

[8]The National Archives. Digital Strategy[EB/OL]. 2018-04-10 http://www.nationalarchives.gov.uk/about/our-role/plans-policies-performance-and-projects/our-plans/digital-strategy/.

[9]李莉.英国政府网站档案馆网络信息资源建设及其启示[J].机电兵船档案,2016(04):59-62.