政府网站网页归档体系建构研究*

2022-03-08吴琳周丽霞

山西档案 2022年1期

吴琳周丽霞

（黑龙江大学信息管理学院哈尔滨 150080）

网络化背景下海量信息以数字化形式存在且不断增加，新型的文件形式产生新型的归档对象，也必然带来新的归档需求[1]。近年来，网页作为一种新型的归档对象成为热门讨论问题，而随着电子政务工作的推进，政府网页归档也逐渐得到重视。2018年国务院发布了《进一步深化“互联网+政务服务”推进政务服务“一网、一门、一次”改革实施方案》,加快推进全国范围内政务服务“一网通办”改革的进程[2]，随之而来的是数量快速增长的政府网页应该如何归档的问题。

近年来我国已开始重视网站网页归档工作。2018年，国家档案局确定四家单位开展网站网页归档试点，分别为北京市档案局、宁波市档案局、自然资源部信息中心和国家电网江苏电力公司。但是截至目前，我国政府网页归档工作仍然没有一个统一的归档体系，在本文中，笔者汇总整理与现有政府归档项目有关的文档，根据国外和国内的归档实践，试图构建一个政府网站网页归档体系，梳理归档体系中各要素之间的关系，并就归档体系中的问题提出政府网站网页归档的发展策略。

1 政府网页归档理论与实践发展

政府网页归档是有必要的，一方面，政府网页作为电子数据具有作为法律证据的资格[3],2019年10月14日，最高人民法院审判委员会第1777次会议通过了修改《关于民事诉讼证据的若干规定》的决定，《规定》第十四条表明电子数据包括网页、博客、微博客等网络平台发布的信息可作为民事诉讼证据[4]；另一方面，政府网页具有学术研究价值，政府网页记录政府部门、机构团体或社会组织的官方信息发布、办事服务、互动反馈等过程，这些权威数据和电子记录已经成为各领域学者学术研究的重要引文来源[5]；当然，网页信息也是社会记忆的组成部分。如果没有依据合理的标准对政府网页信息及时归档保存，这些原生性网页失效或意外丢失后就再也无法找到，其损失是不可逆的。

1.1 政府网页归档理论研究回顾

在中国知网（CNKI）数据库中以六种检索式对政府网站网页归档相关主题进行检索，力求检索结果全面精确。截至2020年底，经过筛选共得到相关中文文献40条（如表1所示）。从检索结果看，与检索主题相关的研究从2007年开始，最早开始研究的学者是唐琼，她认为政府网络信息资源保存应该注意的问题包括收集策略、抓取周期、知识产权和隐私权保护几个方面，并根据美国相关项目的发展情况对我国政府网络信息资源长期保存提出建议。该文献被引12次，为后续该主题的研究提供学术方向的引导[6]。检索结果在2017年出现第一个发文量高峰，共有6篇，2020年达到发表最大值7篇。2020年发文量增加可能与2019年国家档案局最新发布的《政府网站网页归档指南》（以下称《指南》）有关，这是我国首次官方发布的政府网站网页归档标准，在2020年发表的相关主题的文献中，有两篇是对《指南》的解读。从所有检索结果的内容来看，目前学者主要从以下几个方面开展研究：一是从国外政府网站网页归档实践中获得对我国应用实践的启示，在这里多数学者选择总结英国政府网页归档经验，可见英国政府网页归档工作相关的指导标准以及法律规范已经比较完善，值得我国借鉴学习；二是基于新的信息技术对政府网站网页长期保存的研究，包括云计算、大数据、区块链以及数据起源技术等；三是构建政府网站信息资源保存体系，但是其中大部分文献都是在《指南》还没有发布的情况下构建的政府网站网页归档体系，总体来看还比较笼统模糊，本文将根据《指南》具体要求和标准构建出一个更加合理的政府网站网页归档体系，以期为政府网站网页归档实践提供参考。

表1 年度发文量统计

1.2 政府网页归档国内外实践概览

最早开展网页归档实践的机构有英国国家档案馆、澳大利亚国家图书馆、美国国家档案馆等，这些机构在网页归档方面的经验较为丰富。

1.2.1 国外政府网站网页归档实例

（1）英国政府网页归档

自2010年起,英国国家档案馆开始对政府网页以及社交媒体进行收集和保存。UK Government Web Archive(UKGWA https://webarchive.nationalarchives.gov.uk/*/http:/www.hefce.ac.uk/)主要对发布在网络上的英国中央政府信息进行捕获、保存并提供访问。该网页档案包括1996年至今的视频、推文以及图像等[7]。用户可以直接在英国国家档案馆网站中找到入口链接，并通过进入链接获取多种检索方式，包括搜索整个英国政府网站存档和按字母从A到Z的顺序浏览网页存档，也可以直接选择社交媒体档案、Twitter档案、视频档案、Flicker档案等分类目录检索方式检索。归档的网页内容包括社交媒体推文、图片、视频等多种类型。英国政府网页归档对象不仅来自网页，社交媒体信息也是重要的一部分，社交媒体信息既包含政府网站发布的公告和新闻资讯，又有与公民的直接互动，为学术研究和政务活动的开展提供基础凭证，因此非常具有归档价值。

（2）澳大利亚政府网页归档

澳大利亚国家图书馆收集并保存那些记录和反映澳大利亚社会和文化的网站快照，以供长期访问。图书馆的网站和网络文档集合被称为澳大利亚网络档案馆（AGWA），澳大利亚政府网站网页档案可通过Trove公开访问（https://trove.nla.gov.au/）。在Trove浏览页面的网站检索栏中限制到gov.au网络域名后即可检索到澳大利亚政府网站档案，检索时可以限制一些信息（如检索词组以及快照的日期范围等）以获得更精确的检索结果。此外，国家图书馆还与Internet档案馆（IA）合作，通过一项名为Archive-It（https://archive-it.org/）的服务来选择、收集和归档亚洲/太平洋网站的副本，其中就包括与中国有关的网页收藏，有关中国的最新网页收藏是“2019香港反引渡法案抗议”，这些存档内容在未来会具有重要的研究价值。

（3）美国政府网页归档

美国国家档案管理局（NARA）在2004年对联邦机构的公共网站进行了网络搜集（又称网络捕获）。从2006年开始，NARA在每次国会结束时都开始对国会网站进行网络搜集（https://www.webharvest.gov/）。国会收集的网络存档包括会员（Members）、委员会(Committees)、组织（Organizations）和组织者（Leadership）网站，现在国会收集范围扩大，还可以捕获许多社交媒体网站上的内容，其中包括总统社交媒体网页。对联邦政府机构和国会网页的归档主要由IA使用Heritrix搜索器代表美国国家档案局（馆）收录政府网页，通过Wayback Machine显示存档网页，目前收获馆藏包括121TB的存档网站。美国国家档案局（馆）在2005年1月发布了《NARA网页档案管理指南》[8]，为执行网页归档工作提供依据。

1.2.2 我国政府网站网页归档实例

相较于国外，我国政府网站网页归档工作仍处于起步阶段，发展相对缓慢，但是已经得到重视。国家档案局在2016年印发的《全国档案事业发展“十三五”规划纲要》中指出要“研究制定重要网页资源的采集和社交媒体文件的归档管理办法”[9]，在“十三五规划”的指导下，我国开展了一系列试点工作，并且积极研究推出《政府网站网页归档指南》（DA/T80—2019），为我国政府网站归档工作提供标准，我国也做了很多努力，进行了相关的探索和实践。

（1）自然资源部信息中心试点

作为国家档案局网站网页资源归档试点项目，自然资源部信息中心积极投入网站网页归档实践，2013年起对归档采集范围、归档机制、归档文件格式有了明确规范并展开网页归档工作。归档采集范围限定于mnr.gov.cn域名下的网页，采用网络爬虫技术实现多种类型网页资源的抓取，归档流程是从网页采集到建立副本生成网页归档文件再到定期汇交部档案室最后长期保存。自然资源部信息中心将归档分为三类，分别为风貌、内容和专题。除了内容，网页归档格式也是需要考虑的问题，对于归档文件格式有WARC和OFD两种选择，权衡利弊后自然资源部信息中心选择OFD格式，OFD格式有很多优势但是还存在影响网页交互性等问题，所以会保存一份WARC格式的网页副本备用。归档后的文件既可以在线浏览，也可以脱离系统支撑直接由OFD阅读器离线阅读。自然资源部信息中心的网页归档探索实践比较成功，相关技术也被其他政府部门参考作为网站网页归档要求和规范[10]。

（2）浙江省档案馆抗疫网页归档

浙江省档案馆在2020年2月及时开展抗疫网页档案采集工作，参照相关标准起草制定新冠疫情防控专题网页档案收集与归档工作方案，明确职责分工、采集范围以及移交接收等规范，并指出采集工作应该注意的问题。采集工作主要是围绕政府及相关部门和重要媒体官方网站网页开展，对指定网站自2020年1月新冠肺炎疫情发生之后发布的有关各地疫情防控工作的通知、公告、通报、新闻报道等内容进行采集，注重多种形态内容的留存。抗疫档案采集需贯穿整个疫情防控的工作周期，不断补充采集内容，实现抗疫专题网页信息采集的完整。到2020年11月为止，已对25个重要门户及官方媒体网站共采集有关抗疫网页文本计132543页，对中国疾控中心、浙江省卫生健康委员会官网、新蓝网等11个网站采集多媒体文件13599个。这些网页信息都是各大网站公开信息，目前在互联网上都能搜索到[11]。

2 政府网站网页归档体系建构

基于国外与我国网站网页归档项目实践以及最新发布的《指南》，归纳构建我国政府网站网页归档体系参考框架，如图1所示。该参考框架主要由三个环节构成，分别为选择采集、组织保存、开发利用与访问检索，该参考框架分别对三个环节的具体工作步骤展开阐述，指出归档对象的类型和备份格式，同时分析了在整个归档体系中涉及的归档主体之间的关系。

图1 我国政府网站网页归档体系参考框架

2.1 归档主体

政府网站网页归档工作涉及的主体主要包括形成网页的政府网站和对网页长期归档保存的档案部门，学界普遍认可的是“谁形成谁归档”[12]，也就是说，不论是中央政府还是地方政府及相关政务的网站管理部门，都应对自己网站的网页信息作归档处理，政府网站的管理部门应依据2019年发布的《指南》中的归档标准实施网站信息的采集、分类、著录、鉴定。《指南》已经给出了政府网站归档范围与保管期限参考表，根据对政府网站保存价值的鉴定明确其保管期限，并定期移交到档案部门。档案部门除了接收和保管政府网站移交的网页档案，还负责制定相应的规章制度并监督网页归档工作。明确政府网站归档主体权责后，应由政府信息化部门根据官方提供的标准和实际情况设计网页归档功能模块,提供信息化支持。

2.2 归档对象

很多学者在讨论政府网页归档问题时都模糊了归档对象，我们必须明确的是政府网站网页归档不仅仅是网站的信息资源，还包括元数据。一方面，单纯的信息资源独立保存很容易丢失，需要元数据来描述，两者结合后归档保存可以使网页更安全；另一方面，通过元数据对归档网页进行描述分类，可以为后期检索利用带来便利。《指南》也给出了网页归档基本元数据参考表，必选的元数据有网站名称、网站域名、标题、发布时间、来源以及采集时间和采集人。同时，明确具体归档对象后，还要针对归档对象的不同形态和类型给予相对应的归档标准和规范，包括一些可视静态内容，如文本、静态图片等，页面中的动画、音视频等类型的内容的归档格式也需要规范化。

2.3 归档流程

根据国内外政府网页归档实践，笔者将政府网站网页归档流程大致分为三个环节，分别为选择采集、组织保存、访问检索与开发利用。在这三个环节中，最重要也是最难的一步就在于网页采集范围的确定，最后的访问检索步骤涉及的法律问题也是阻碍政府网站网页归档工作的一个难题，组织保存环节在《指南》中已经给出明确的标准，只需按照要求并结合实际情况组织保存即可。

2.3.1 选择采集环节

选择采集实际上包括两部分工作，即选择和采集。选择就是对网页采集范围的确定，这里的选择就像是档案管理的鉴定工作一样有难度，档案是否具有保存价值很难有一个明确的鉴定标准，同样，政府网站网页是否具有保存价值也是没有明确的选择标准。有的部门对网站的所有网页全部采集，又叫广泛式采集，中国 Web博物馆项目和 WICP等项目采取的就是全面网页采集方式，这种方式可以避免选择网页采集的范围，容易操作，但是同时反映出的问题也很明显。根据第46次中国互联网络发展状况统计报告，截至2020年6月,我国共有政府网站14467个,各行政级别政府网站共开通栏目数量29.4万个，各行政级别网站首页文章更新量较2019年底增长20.1%，在线政务服务用户规模达7.73亿[13],可见政府网站网页数量增长速度惊人，在这种情况下对政府网页信息全部采集会非常耗时耗力，而且并不是所有的网页都具有保存价值，如果对归档网页内容不加以鉴别和筛选，就可能导致无用网页信息堆积，占据大量存储空间[14]。《指南》已经给出了网页归档范围的参考目录，范围包括网站首页及栏目首页,信息发布类页面、解读回应类页面、办事服务类页面、互动交流类页面以及其他具有保存价值的页面。在实际归档工作中，政府网站应综合分析网页信息的重要程度制定相应的网页信息归档范围，根据归档范围选择性采集。

采集方式分两种，对于归档范围确定的网页直接利用爬虫工具进行自动采集；而对于其他没有明确规定的内容则需要人工采集。一般比较常用的爬虫工具包括由IA、IIPC成员图书馆开发的Heritrix工具、法国图书馆开发的HTTrack工具以及Heritrix的升级版Smart Crawler工具。《指南》没有指定具体的采集工具，但是对采集的文件格式有所限制。国际归档格式标准是WARC，WARC格式是由ARC扩展而来的，国外对网站网页和社交媒体归档普遍采用WARC格式，WARC格式的特点包括采集资源描述详细、支持资源内容分割重组、支持外部语义关联、便于存档和压缩等[15]。因此我国一些试点单位采用WARC格式归档。

2.3.2 组织保存

利用爬虫工具采集信息后要对采集到的网页进行归档保存，因此接下来的组织保存工作更为关键。这个步骤同样包括两个环节，即整理分类和内部存储。和纸质档案归档工作一样，采集到的信息须进行有序地整理分类后再归档保存，这样才能方便后期的检索利用，如果不分类整理，后期将很难检索到满足需求的网页内容。网页分类可包括栏目首页、信息发布、解读回应、办事服务或其他等，政府网站主办单位应根据本单位具体政务活动内容制定个性化的分类标准，如自然资源部门户网站网页归档分类就包括风貌、内容和专题三类。分类后根据归档时间、年度、分类名称、保管期限等信息参考《指南》中提到的编号标准为网页档案编号，完成编号的网页档案就可以采用层级文件夹的形式存储。上文提到采集到的网页格式是WARC格式，WARC格式虽然有很多优势并且得到普遍应用，但是它也存在一些不足：各种静态和动态的网页格式在不同时期或不同版本的浏览器上会出现显示的差异，因此单纯地归档WARC格式很难保障网页长期保存的可用性[16]，对归档网页双格式备份保存很有必要。我国自然资源部信息中心试点就是采用OFD格式对归档网页备份，这样更能保障归档网页的可用性，OFD格式也会损失一些动态网页，具有一定局限，未来还需要探究和发掘更适用网页归档的格式，但是目前还是需要采用双格式备份以保障政府网页归档的真实性和可用性。另一方面，政府网站主办单位应定期向档案馆移交网页档案，确保政府网页档案更好得到利用。在保存方面，我们也应注意到，政府网页数量飞速增长，网页档案的存储空间需求剧增，除了普遍的存储环节，还应积极利用云存储空间为政府网站网页归档提供支持和保障，同时也可以确保未来各类网站网页归档拥有充足的存储空间。

2.3.3 开发利用与访问检索

政府网页记录政务公开与政务服务工作，具有凭证和保存价值。对于归档保存的政府网页应充分地开发与挖掘，为用户提供利用服务。英国国家档案馆网站首页设置一项功能栏为“帮助您的研究（Help with your research）”，其中的英国政府网站档案就是帮助学者研究的信息资源的一部分，可见政府网站档案对于学者来说是研究的重要来源。开发与利用是政府网页信息资源的深层次挖掘，而允许用户访问与检索已归档的政府网页是网页归档的根本目的和价值所在。在访问与检索环节，将会面临权限和法律等的限制。一方面，归档的网页涉及的采集权、保管权、利用权和隐私权等都需要严格符合法律标准，以确保访问检索的权限范围；另一方面，影响政府网页资源开发与利用的因素还有涉及呈缴制度和知识产权等法律问题，这些客观问题则需要对法律权限有严格的控制，保护各方的利益和权利。政府网页内容涉及的主体多样，内容来源复杂，因此涉及某个机构或个人的权利时需要遵循各方意愿。例如英国国家档案馆的移除与封闭政策就规定，要对机构或个人提出的对某个网页不开放或删除的要求进行评议，通过评议后封闭或删除相关内容[17]。

3 我国政府网页归档体系发展策略

随着电子文件数量的增长和对电子文件长期保存问题研究的深入，政府网站网页归档在近些年逐渐受到关注，我国对政府网站网页归档工作的实践不够成熟，还没有科学系统的政府网页归档体系，除了按照《指南》和前文所构建的政府网页归档体系的流程实施外，要想使体系更加成熟可行，需要从以下几个方面完善优化。

3.1 多方合作

政府网页归档工作单独依靠档案部门是无法顺利开展的，因此必须积极与外界合作，共同实现政府网页归档。通过合作获得包括资金、技术以及理念的支持，可以学习英国政府网页档案馆，立足自己的需求，寻求与技术供应商、研究所、基金会、用户等组织和个人开展广泛合作[18]。网页归档后需要定期对系统进行维护，同时还要确保网页信息的安全，技术维护和系统运行都需要一定的资金支持，这就需要政府机构申请用于已归档政府网页的后续维护和保存的资金。同样可以参考各个国家和试点成功部门的经验，结合实际需求和现实状况制定归档策略。当然，从利用的角度出发，政府网页归档还需要用户需求调研，为网页归档采集范围提供参考。只有多方协同合作，才能使政府部门不断适应理念和技术的更迭,保持技术先进性和活力,为利用者提供最佳用户体验。

3.2 法律完善

阻碍政府归档网页开放利用的主要因素就在于法律权限问题，主要涉及呈缴制度和知识产权等相关法律。我国对政府网页归档的法律法规制定不完善，因此在工作执行过程中缺乏法律保障，开放范围也会受限。美国已经通过立法规定图书馆或其他机构有权力保存和开放利用这部分资源,为网页归档项目的实施和发展提供了法律支持。同时,美国版权法支持的“合理使用”和“默示许可”，逐渐成为普遍的网络资源保存和利用的适用法律准则,许多网页归档项目的实施主体也在研究“免责条款”以规避法律风险[19]。我国也应该积极建议立法部门针对政府网页内涉及的权利主体完善法律规定，保障各方权益。例如，很多国家已经将政府社交媒体的内容划分到政府网页归档部分，这里应对政府社交媒体中的网民评论的采集权、利用权、隐私权等作出明确规定，对于侵权部分，公民可以依照法律法条维护自身权益，提交撤销相应内容的申请。法律法条先行，才能让政府网页归档工作有法可依，从而确保政府归档网页资源的开放与利用。

3.3 利用为王

虽然国外网页归档工作先于我国并取得一定的成绩，有很多成功案例和经验，但是我国在借鉴经验的同时也要走出自己的特色，符合我国国情，不应照搬照抄。基于国外爬虫工具和法律制定经验，针对采集内容和范围我们要遵循“利用为王”的原则，政府网页归档最终目的是利用，因此对于最复杂最困难的采集工作以及开放范围的确定，应做好前期工作，调研用户利用需求，优化政府网页检索与利用界面，丰富归档资源类型。这些工作除了需要用户配合调研外，离不开技术部门和信息部门的支持，对于不同类型的信息资源，还没有全部具有稳定的技术保障，这就需要政府部门联合技术研究部门，提供足够的资金保障技术研发。这个过程不是一蹴而就的，而是需要不断实验和调整优化的进步过程，这一切都是为了最终用户的检索利用体验，实现网页信息资源的价值。

4 结语

政府网站网页归档在国外研究和应用较早，随着网络时代网页数量的增加，我国网页归档工作提上日程，政府部门政务工作形成的网页和网页资源具有研究价值、凭证价值，同时也是社会记忆的重要组成部分，应当对其长久保存。本文参考最新发布的《政府网站网页归档指南》，通过国内外网页归档实践构建了一个比较清晰的框架体系，体系包含的网页归档工作内容较为全面，为我国实际网页归档工作提供借鉴。但是由于篇幅限制，没有将云存储在政府网页归档工作中的应用展开研究，这也将是该主题未来的研究热点。事实上，构建的政府网页归档体系只是参考框架，实际应用还需要各个政府部门借鉴成功经验，根据本部门的实际情况构建适合自己的归档体系，积极展开合作，推动相关法律的完善，这是一个循序渐进的过程，需要多方共同努力促进政府网页归档体系的完善。