英、美、加国家档案馆政府网页归档比较研究

2020-08-06赵屹

兰台世界 2020年7期

赵屹

摘要对政府网页进行归档是英、美、加三国国家档案馆工作的重要内容。网页归档是一个过程，所归的网页具有档案性质并保存在存档系统中。三个国家档案馆都发布了网页归档的法规，都进行了主体的拓展与合作。其归档范围不仅包括从内容上鉴定归档的广度，还包括从技术上鉴定归档的深度。社交媒体上政府网页的归档是归档范围之一。三个国家档案馆政府网页归档的时间有所不同，但归档程序大致相同，利用的主要途径是关键词检索、机构列表与URL列表。

关键词国家档案馆政府网页归档比较英国美国加拿大

Abstract Government web page archiving is an important part of the work of the National Archives in UK， USA and Canada. Web page archiving is a process in which the web pages are archived and stored in an archiving system. All three national archives have issued regulations for web page archiving， and all of them have expanded and cooperated. The scope of web page archiving includes not only the breadth of archiving in terms of content， but also the depth of the archiving in terms of technologies. The government web pages on social media are within the scope of archiving. The time of the government web page archiving of the three national archives varies， but the archiving process is roughly the same. The main ways are keyword search， organization list and URL list.

Keyword national archives; government; web page archiving; comparison; UK; USA; Canada

网络即世界。随着电子化、信息化的深入发展，人类社会的信息传播与信息获取大量转向网络，记载人类社会真实面貌的信息载体也日渐从纸张转向网络信息载体。此时，“一些新型的电子文件已经一浪接一浪地涌现并且带来了新的归档需求，产生新型的归档对象”[1]。网页就是新型归档对象之一。1996年，美国的IA（Internet Archive）率先对网页进行保存，被誉为世界范围内“第一个Web Archive实践项目”。IA是由布鲁斯特·卡利创立的公益网站。其功能是用卡利开发的收集工具定期收录（harvest，又译为“收割”）全球网站的信息并进行保存。目标是“实现全世界Web资源的收集、保存和永久获取”[2]。此后，Web Archive项目风起云涌，在世界各地如雨后春笋般出现。Web Archive项目主体多元，许多是以图书馆为主导，包括国家图书馆及大学图书馆。此外，还有高校、研究所、企业、非盈利组织、学术团体、网站制作者等。许多Web Archive（后文均译为“网页归档”）项目虽然记录了网络世界早期的样貌，记录了人类的文化文本，但其保存的内容鱼龙混杂，真正具有档案价值的比例并不高。它们虽以“归档（Archive）”命名，但却是对“归档”一词的泛化，很多网络信息并不值得保存。

那么，究竟什么样的网络信息更“值得”保存？答案也许很多，政府网页必是其中之一。随着社会的进步，网络成为政府信息发布的重要渠道、政务事项办理的重要窗口、政民交流的重要平台。许多政府网页具备档案的基本属性和保存价值，是网络时代的新型归档对象，也应该是网页归档的主要客体。针对政府网页这个客体，归档主体由谁承担？有研究者指出，图书馆并非政府网页保存的最佳责任主体，“信息形成者是政府网页短期保存的责任者”，“研究机构将是未来政府网页保存的重要补充”，“国家档案馆在政府网页保存上具有天然优势，是政府网页保存义不容辞的责任主体”[3]。

本文选择英、美、加三国的国家档案馆，对其开展的政府网页归档项目进行比较研究。

一、國家档案馆政府网页归档项目基本情况

英国政府的互联网网站始建于1996年。英国国家档案馆（TNA）对政府网页归档问题关注起步也比较早。1997年，英国国家档案馆与伦敦大学计算机中心数字档案馆（ULCC Digital Archives）合作建设国家数字档案数据集（National Digital Archive of Datasets，简称NDAD），将包括网页在内的政府部门数字信息作为数据归档保存并向社会开放利用。该项目一直持续至2010年[4]。2003年9月，英国国家档案馆又专门开展英国政府网页归档（UK Government Web Archive，简称UKGWA）项目，将英国中央政府网站归档保存。当前，UKGWA是世界上最大、使用最频繁的网页归档项目之一[5]。

美国国家档案局（馆）（NARA）通过建设国会与联邦政府网页收录（CONGRESSIONAL & FEDERAL Government Web Harvests，本文简称其为CFGWH）项目对国会和联邦政府的网页进行归档。NARA对联邦政府的网页归档始于2004年，对国会的网页归档始于2006年[6]。

加拿大国家图书档案馆（LAC）自2005年12月开始建设加拿大政府网页归档（the Government of Canada Web Archive，简称GCWA）项目，对加拿大联邦政府的网页进行归档保存[7]。

二、国家档案馆对网页归档的理解

英国国家档案馆认为网页归档与纸质档案、羊皮纸档案等传统档案归档一样是一个过程。它是从互联网上收集含有有效信息资源的网页，以档案形式保存的过程。它对网络信息资源进行选择、存储和保管，并使之可以被永久地获取和利用[8]。

美国国家档案局（馆）将网页归档命名为网页收录，也称为网页挖掘、网页抓取和网页爬取，认为它是从万维网页面和数据中自动地复制和组织非结构化信息的过程。在这个过程中，那些预收录的网页地址以URL“种子列表”的形式被标识。由此，这些网页地址所存或所链接的内容就被通过标识网址得以被捕获和复制[9]。

加拿大国家图书档案馆认为网页归档是对万维网上发布的数据进行获取、存储，在存档系统中保存，并使收集的数据对未来研究可用的过程。记忆机构和私人组织在国际范围内均可实践该过程，以安全保管出自万维网的文献遗产[10]。

三、国家档案馆政府网页归档的法规依据

三国国家档案馆执行网页归档都有明确法规依据。

英国国家档案馆执行网页归档的依据主要是该馆2012年l1月发布的《档案收集政策》（Records Collection Policy）和2014年4月发布的《操作可选政策第27则：英国中央政府网页资产》（简称OSP27）。《档案收集政策》明确了保存在英国国家档案馆中的永久档案的归档范围、归档时间和保存地点。英国国家档案馆有一系列操作可选政策用于公共档案的收集。其中，OSP27正式对政府机构网页归档项目的范围和内容做出规范和说明。

美国国家档案局（馆）执行网页归档的依据主要是2005年1月该局（馆）发布的《NARA网页档案管理指南》。指南包括一般背景、职责和要求，管理网页档案，网页档案保管期限表，附件四个部分。它将归档后的政府网页称为网页档案，并且明确了联邦机构使用网页的各种途径，机构成员在网页操作中的角色，管理网页地址基本的法定要求，机构成员如何管理其网页档案，网页档案保管期限表的制定，负责网页内容的计划官员等，并强调了联邦机构必须确认网页档案可靠性的步骤以及降低对网页进行操作风险的步骤。

加拿大国家图书档案馆执行网页归档的依据主要是2004年4月该馆提出并获得英国皇室许可的《加拿大图书馆与档案法》。该法将档案与出版物并称为“文献遗产”，允许LAC收集和保存加拿大具有代表性的文献遗产网页，并赋予档案馆、图书馆使用文献遗产的权利。

四、国家档案馆政府网页归档的主体拓展与合作

英、美、加三国国家档案馆作为主体，执行政府网页归档，但其归档过程均进行了主体的拓展与合作，以便充分利用各方的职能、技术、标准优势，确保档案来源、实现知识与技能的碰撞、叠加各种主体的影响力，全方位地实现政府网页归档。

UKGWA的主体向政府机构拓展。它要求作为归档网页所有者的政府机构关注本部门网页被收集的情况，与该馆保持联系。英国国家档案馆面向网页所有者发布了《网页归档与网页连续性指南》，介绍UKGWA网页归档的相关知识，要求政府机构确保列入馆藏范围的网页能够被顺利获取，告知政府机构如何获得UKGWA的网页连续性服务。将归档主体向政府机构拓展从源头上保证了归档网页的质量。UKGWA还展开了多方合作。项目在2003年建设之初最先与IA进行合作，共同完成所选择的约50个政府网站的网页归档工作。IA保存的一些1997年以前英国中央政府的网页得以通过UKGWA提供利用[11]。UKGWA最新的合作商是档案云存储方面的专业公司Mirrorweb，UKGWA的存储向云端迁移。

CFGWH同样是将主体向政府机构拓展。前文所述其发布的《NARA网页档案管理指南》明确了政府机构的网页归档责任，每个机构都需与美国国家档案局（馆）合作，确定该机构的网页档案的归档范围和管理要求。CFGWH主要与IA进行深度合作。CFGWH对联邦政府机构和国会网页的归档主要由IA实施。IA使用Heritrix搜索器代表美国国家档案局（馆）收录政府网页。

加拿大国家图书档案馆于2004年6月21日由该国原国家图书馆与原国家档案馆合并而成。在GCWA的建设中，该馆发挥了图书馆与档案馆强强联合的优势。加拿大国家图书档案馆是国际网络信息保存联盟（International Internet Preservation Consortium，简称IIPC）的成员，通过IIPC与多机构展开合作。IIPC成立于2003年6月，由法国国家图书馆牵头，成员包括11个国家图书馆和IA。其目标是研究网络信息保存的主要障碍，研发能够按既定策略定期自动收录网页的开放式工具。

五、国家档案馆政府网页归档的归档范围

1.从内容角度鉴定广度。信息越丰富，档案鉴定越困难，政府网页归档就是如此。国家档案馆对于政府网页归档，首先需要从内容角度鉴定广度。

英国UKGWA项目的政府网页形成者主要是英国中央政府机构、公共档案法认定的公共档案产生机构、重要的国家医疗服务机构以及区域发展机构。这些机构形成的网页归档范围经历了一个变化过程。在UKGWA建设之初，从2500多个政府机构网站中选择了80余个进行网页归档。而今发展到几乎所有网站都进行网页归档。UKGWA为这些网站制定了一个详细的网页来源清单。2013年12月，英国中央政府机构的网站开始由各自独立转向经由gov.uk集成。此时，UKGWA的归档范围是对“data.gov.uk清单上的數据集及data.gov.uk网站本身进行全面捕获和抓取”[12]。

美国CFGWH对于联邦政府网页归档的范围定义了一个“联邦网站相关档案”的概念。它包括两方面含义：一是网页内容档案，指在网站上显示的信息;二是网站管理档案，是有关网站管理和操作的证据。这些网站相关档案源自政府机构的网页操作，包括确保每个网站可信的操作以及用于记录机构职责履行的过程的操作[13]。CFGWH国会网页归档的范围非常明确：自第109届国会开始，每届国会闭幕时对其网页进行归档保存。现已存有第109届至115届国会的网页档案。

加拿大GCWA的归档范围是应用IIPC的“区域域名（Regional Domain）”策略，在加拿大域名范围内选择性地收集政府网站的网页。其收集的网页包括最初在网络上发布的联邦政府信息以及不再对公众开放的联邦政府网页。此外，2016年，大多数联邦网站也集中到了中心域canada.ca。GCWA将集中之前各联邦网站的网页全部列入了归档范围予以收集[14]。

2.从技术角度鉴定深度。网页档案不同于以往的传统档案，具有内容碎片化、档案关联复杂的特点。因此，政府网页归档还需要从技术角度鉴定深度，即结合内容鉴定归档信息的类型和边界。有些种类的网页信息，从技术上看归档难度大或是无法归档，则不能列入归档范围。

英国UKGWA项目早期只能捕获政府网站首页上的基本内容、导航与界面，由于技术实现难度大，图像不列入归档范围。但是，技术发展到今天，UKGWA“对许多网站的信息资源已基本实现100%的获取”[15]。在网页全部归档的情况下，英国国家档案馆制定了移除与封闭政策[16]。如果有机构或个人申请将归档的网页删除或使之不开放，英国国家档案馆会根据该政策进行评议。评议通过后删除相关内容或将原本公开的信息封闭，必要时将与内容相关的机构从前文所说的来源清单中移除。

美国CFGWH明确提出，由于技术限制，互动过程中的输入信息、表格、流媒体视频或复杂的java script不属于归档范围，动态数据库在归档时只能是静态信息[17]。另外，受URL来源清单完整性、URL是否成功解析、所使用的爬虫程序的功能、所爬网站的服务器环境等因素影响，归档范围内的信息未必全能归档到位[18]。

加拿大GCWA与CFGWH类似，明确提出交互信息和交互式技术、合并流媒体、数据库程序驱动和数据、依赖专有技术的信息、动态生成的内容及不同来源的内容，由于技术限制未能准确、齐全地归档。某些内部和外部链接、表单、搜索框和交互式元素（包括视频）归档后可能无法运行[19]。

3.社交媒体上政府网页的归档。

英国国家档案馆将社交媒体上的政府网页纳入归档范围。2014年5月，该馆启动在线社交媒体归档（Online Social Media Archive，简称OSMA）项目，对内阁办公室、国防部等中央政府核心机构在Twitter和Youtube上的网页以账户为单位统一进行归档。账户转发的推文、对其他账户的回复、互动对话不归档。OSMA是UKGWA的重要组成部分。

美国国家档案局（馆）同样将社交媒体上的政府网页纳入归档范围。该局（馆）2013年发布《社交媒体捕获最佳买践》，2014年发布《社交媒体档案管理指南》，明确将社交媒体上的政府网页信息纳入到联邦政府的档案管理体系当中。其社交媒体上政府网页归档的重点范围包括总统网页。

加拿大国家图书档案馆认为社交媒体上的网页是国家文献遗产的重要组成部分。该馆在2015年开展相关试验收集社交媒体信息归档保存[20]。这些试验持续至今。加拿大国家图书档案馆尚未开展社交媒体上政府网页归档实践。在加拿大政府《2020社交媒体战略》中，归档政府社交媒体文件并为社会提供真实可信的社交媒体数据，是其中一个重要内容[21]。

六、国家档案馆政府网页归档的归档时间

英国UKGWA的归档时间是针对网页归档来源清单中的网站，排名前十位的每月一次，其他的每四个月一次，公共机构的网站每六个月一次，部分社交媒体网站每八个月一次。平均每个月会有100个左右网站的网页被归档保存。选举期间等关键时期会随时归档。若有政府网站准备关闭或有重大变动，需提前八周告知国家档案馆，让其拥有充足的时间实行网页归档。

美国CFGWH中联邦政府机构在特定时间生成网站上所有网页的独立副本或快照进行归档。快照可以附网站地图显示页面间关系。至于特定时间具体是什么时候，由网站形成机构根据对网站运营进行的风险评估自行确定。国会网页的归档时间是一届会议结束时。

加拿大GCWA的归档时间是每半年一次。

七、国家档案馆政府网页归档的归档程序

归档程序主要包括归档策略的制定和归档操作的实施。归档策略用于明确归档的对象和方式。归档操作是一整套步骤，主要包括收集、保存，广义上还包括归档后的管理、利用操作，即索引、检索、显示。归档操作可以是人工操作或是软件自动操作。

英国UKGWA的归档对象是静态网页，归档方式是网站快照。归档操作是从客户端启动网络爬虫程序Heritrix远程主动收集网页。收集来的网页加密存于内部硬盘驱动器，并运送给亚马逊网络服务数据中心，该中心将其传输到云端，使用pywb显示存档网页。

美国CFGWH的归档对象是静态网页，归档方式是网站快照。美国国家档案局（馆）与IA签约由IA代为完成归档操作。IA使用Heritrix收集网页，Wayback Machine显示存档网页。

加拿大GCWA的归档操作是使用Heritrix收集网页。收集来的网页保存在GCWA的网站服务器上。用自行研发的索引工具IQ App对保存的网页做索引。使用NUTCHWAX检索存档网页，Wayback Machine显示存档网页。

三国国家档案馆的归档程序有共同之处，也各有特色。共同之处在于三者都与IA进行了合作，收集软件无一例外采用Heritrix爬虫程序。它是由IA及IIPC其他成員共同研发的开源软件，按照来源清单遍历其URL列表。

UKGWA和CFGWH都是对静态网页采用网站快照形式进行归档。网站快照技术相对简单，但必须同时捕获快照创建者、快照日期时间、网页URL等元数据予以保存。以静态网页为归档对象并不是不归档音视频，主要还是由于技术限制。UKGWA有一些视频可以利用。CFGWH在利用界面也显示有录像栏目，不过尚无内容。后台数据库动态生成的页面，因用户申请而生成的动态页面的归档问题目前处在研究进程中。

网页被收集后存档的格式有多种，例如ARC、WARC、CDX等。UKGWA早期是以ARC格式存储。现在使用Heritrix收集程序均以WARC格式保存网页，即英、美、加三国国家档案馆收集的政府网页均存为WARC格式。网页作为档案保存必须支持长期存储，目前网页归档的存储正在向云存储发展。UKGWA已经向云端迁移了。

相较于传统档案管理，网页档案的管理和利用相对简单，但对技术依赖较大。在制定归档策略时对技术的选择非常重要。UKGWA使用pywb显示存档网页。Pywb是以Python包的形式运行的一款最简单的显示软件。CFGWH和GCWA以Wayback Machine显示存档网页。Wayback Machine是由IIPC主导的采用Java语言专门开发的WARC格式文档的显示软件。

八、国家档案馆归档政府网页的检索利用

三國国家档案馆的政府网页归档都取得了较大成果。UKGWA保存了包括5000多个网站以及来自政府社交媒体账户的推文和视频。截至2018年，档案数据的保有量超过120TB[22]。当前，CFGWH仅国会的网页保有量就达到121TB[23]。截至2012年，GCWA所收藏的资源有1亿7千万个文件，占用空间7TB[24]。三国国家档案馆的网页档案都可以在互联网上公开检索、免费利用。

UKGWA对其网页档案提供了较为全面的检索途径。一是原URL复引。利用者要访问政府网页，可以直接在浏览器中输入网页的URL。如果该网页已经不存在但在UKGWA中归档保存，那么利用者会被复引至UKGWA中的该页面。只是此时页面顶端会附有英国国家档案馆的标识以示区别。二是通过国家档案馆网站访问。可以通过关键词、网站域名、URL检索网页;可以通过关键词检索推特、Flickr和其他社交媒体网页档案;可以通过政府社交媒体账户访问相关录像;还可以访问已存档网站的域名列表，按A—Z的字母顺序排列。三是设定特定时间访问特定网页。UKGWA使用了一种名为备忘录（Memento）的软件工具。该工具在网站中添加一个时间维度，用户通过拖动滚动条或直接选择某个特定时间来访问某一特定网页、特定文档或特定数据。

CFGWH的主要访问途径是关键词搜索。搜索可以专门针对特定范围如众议院或参议院，也可以不限定范围。另外，可以按照机构成员、领导、下属组织、下属委员会的字母顺序浏览相关网站的网页。

GCWA的主要访问途径同样是关键词搜索。此外可以按机构浏览或按URL浏览相关网站的网页。

通过以上对比研究，可以发现，对政府网页进行归档已经是英、美、加三国国家档案馆工作中的重要内容。三个国家档案馆对网页归档的理解几乎完全相同，即网页归档是一个过程，所归的网页具有档案性质并保存在存档系统中。三个国家档案馆都发布了网页归档的法规为该项工作提供了依据，都进行了主体的拓展与合作。其归档范围不仅包括从内容上鉴定归档的广度，还包括从技术上鉴定归档的深度。社交媒体上政府网页的归档是归档范围之一。三个国家档案馆根据各自考量确定的政府网页的归档时间有所不同，但归档程序大致相同。三者全都选用Heritrix爬虫程序远程收集网页，但也通过主体拓展给政府机构提要求，要求作为归档网页所有者的政府机构关注本机构网页被国家档案馆收集的情况。三个国家档案馆都对政府网页提供了检索利用。利用的主要途径是关键词检索、机构列表与URL列表。这些内容可以给予我国档案机构以启示，在现有经验基础上做好我国的政府网页归档，做好网络时代的档案馆藏建设。