国家图书馆互联网存档现状研究与启示

2021-08-23杨云鹏

新世纪图书馆 2021年7期

摘要互联网存档技术可以利用采集软件从实时网络采集，保存和重放有价值的内容，并可以对其进行独立管理和保存，以供科研人员研究使用。论文介绍并讨论了国家图书馆网络存档计划和存档技术方法，概述了国家图书馆互联网存档现状和问题，讨论了网络存档立法情况、收集策略、程序局限性、真实性、完整性和质量保证等关键技术问题。国家图书馆互联网存档技术虽然已经成熟，但是在存档立法、长期保存、质量保证等方面仍然面临着许多挑战。

关键词互联网图书馆互联网存档互联网采集

分类号 G258.1;G253.1

DOI 10.16810/j.cnki.1672-514X.2021.07.011

Research and Enlightenment of the Current State of Web Archiving in the National Library of China

Yang Yunpeng

Abstract Web archiving technology can use collection software to collect， save and replay valuable content from the real-time network， and can independently manage and save it for research and use by scientific researchers. This article introduces and discusses the National Library web archiving plan and archiving technical methods. After that， this article summarizes the current status and problems of Web archiving in the National Library， discusses the legislative situation of online archiving， collection strategies， program limitations， authenticity， integrity and quality assurance and other key technical issues. Although the Web archiving technology of the National Library has matured， it still faces many challenges in archiving legislation， long-term preservation， and quality assurance.

Keywords Internet. Library. Web archive. Web collection.

0 引言

互联网作为通过计算机通信网络连接在一起的巨大网络，经过许多年的发展在其网络上广泛分布和存在的信息是一种独特的信息资源，其资源在当今生产和生活中起到了越来越重要的作用，同时，如今生产和生活中越来越多的资源都在网络中发布。互联网发展速度是空前的，截至2019年6月，我国互联网网民规模达到8.54亿，互联网普及率达到61.2%[1]。互联网的内容也涉及到商务交易、网络金融、网络娱乐和公共服务等各个方面。然而，互联网从来不是静止不动的，网址网页，包括网上的照片、博客文章、视频、新闻报道、消息、评论等内容都会消失，因此互联网的快速发展也为互联网采集和保存带来了难题。

面对互联网存档问题，世界各地的机构，尤其是图书馆相关机构，都对开发和研究支持解决大规模存档的相关方法进行了大量人力和物力的投资。我国图书馆也一直在积极开发新的互联网存档工具和技术，解决由于网络内容的短暂性而无法访问的问题。针对这项工作，本文概述了中国国家图书馆Web归档技术的最新状况及涉及的主要问题。

1 为什么要存档互联网网站

互联网存档的主要原因之一是网站信息只有相对较短的寿命，在一定时间后内容可能或已经丢失。网络无处不在，但网络内容是短暂的。与传统的信息相比，网络资源具有数量多、更新迅速及易逝性的特点，每天都有海量有价值的信息在消亡。通过对网页的采集使我们了解网页的平均寿命在1年左右。页面上的特定内容会更频繁地消失，尤其是在新闻和社交网站上。一些网站会用最新的内容覆盖旧内容进行更新，导致原内容无法访问。一些网站隔一段时间会进行改版，将一部分旧内容舍弃或者将内容的网址改变，导致无法访问的情况出现。现今，互联网内容无法访问和“404找不到页面”的错误可谓与图书馆丢失图书文献资料的性质相当，但是前者更为常见。

互联网存档是出于社会利益，具有历史价值，其记录下互联网的演变和内容并供人们浏览。例如，国家图书馆的政府信息公开采集项目能将政府公开的信息集合为政府和个人提供服务。互联网存档具有学术意义，在线和在普通出版物框架之外出版的学术作品通常不属于图书馆的收藏政策，但应该保留和使用，作为学术研究的一部分。大数据时代的到来，让学术研究越来越依靠数据，网络存档是一段时间内的数据集合，是学术研究必不可少的一部分。

网络存档的用处目前看来只是冰山一角，因此无论是历史价值还是在发挥其学术意义方面，越早进行网站存档就能够越好地发挥其作用。

2 国家图书馆互联网存档计划

迄今为止，大多数大型互联网存档工作都是由世界各地国家图书馆和档案馆推动的，Internet Archive（IA）是一个例外。IA是已知最大的互联网存档内容集合的所在地，截至现在拥有PB级别的压缩数据，保存了3300亿个网页和网页快照[2]。其成立于1996年，是一个非营利性组织，标志网络信息资源保存研究的开始。2003年IA提出全球互联网存档解决方案需要全球协作，其中11家与IA联合组成了国际互联网保存联盟（International Internet Preservation Consortium，简称IIPC）。国际互联网保存联盟（IIPC）成立后，主要的貢献是标准的开发，例如WARC标准，以及围绕元数据使用，保存工作流程，访问和质量保证的研发工作[3]。

2003年，中国国家图书馆开始开展网络信息资源采集与保存试验项目（Web Information Collection and Preservation，简称WICP），实验性地对中国境内的互联网资源进行采集与保存;2007年正式成为国际互联网保存联盟（International Internet Preservation Consortium，简称IIPC）成员单位，并与联盟内其他成员交流互联网存档经验;2009年成立“国家图书馆互联网信息保存保护中心”，对国内外经济、文化、科学、技术、政治等领域主要网站和重大事件进行收集存档，统筹规划国内互联网存档工作;2012年开通互联网存档网站公共服务，将存档的互联网资源通过国家图书馆局域网进行集中展示，供学者研究使用;2014年依托“网事典藏”项目，联合全国公共图书馆共同开展互联网资源的保存和服务;2018年研发并推广部署“网络资源保存与服务系统”，实现互联网资源高效和规范化的采集、编目、回放、发布和服务。截至2018年底，全国各级公共图书馆累计采集网站23 000余个，实现了涵盖政府公开信息及国内外重要网站网页等互联网资源的保存与保护[4-6]。

3 国家图书馆网络归档的技术方法

互联网归档的技术方法根据操作规模而变化。国家图书馆对于大规模归档，主要有三种技术方法：客户端存档、交互存档、服务器端存档。

客户端存档是最常使用的方法，其能根据需求灵活修改采集参数，操作少，成本低。国家图书馆通过Heritrix作为客户端（即浏览器），直接使用HTTP协议来收集服务器传递的内容。这种方法的关键是尽可能提高资源发现率并更好地将原始内容保存。搜寻器遵循“种子”指令，并将与该种子相关的所有链接搜寻到指定的深度，从而采集所有可用文件的副本。这些都将在开始采集前提前设置成模板发送给采集工具进行相应处理。

交互存档作为一个特别的采集方法，主要是采集客户端访问记录而不是直接采集服务器上所有的内容。网络抓取工具（例如SiteStory）根据一段时间内的实际客户端/服务器交互记录进行采集和保存，它支持用户对网站访问内容的更全面的不断增长的网络存档。交互方法的存档会采集浏览器正在请求的资源的每个版本，因此可以提供指定日期和时间的内容呈现给用户。交互存档的实现代码需要部署在托管内容的Web服务器上，因此主要由内容所有者或托管者使用，而不是由外部收集机构使用。

服务器端存档需要发布机构的积极参与，目前国家图书馆与新浪微博达成了合作协议，新浪微博将其服务器上内容直接提供给国家图书馆存档。文件直接从服务器复制而无需求助于HTTP协议，但是内容回放时经常会遇到问题，特别是内容由数据库驱动或创建与原始实时网站类似的托管环境时使用的绝对链接。但是，这是一种用来收集存档程序遗漏内容的有用方法。

上述三种方法中的每种存档的内容略有不同，并且需要不同等级的技术要求来访问原始内容。主要采集外部内容有关的网络存档通常会选择客户端存档，因为其提供了最广泛的支持。服务器端存档最常用于无法通过HTTP收集内容的地方（如数据库或地图服务器）。交互存档被用于特殊的情况，如在为财务或商业交易进行存档时，需要用户执行操作和输入数据。国家图书馆实际存档主要以客户端存档为主，服务器端存档为辅，国家图书馆存档的目的是尽可能地保存所有网站资源，因此交互存档不符合要求。

4 国家图书馆存档现状和问题

4.1 合法存档

合法性通常是网络存档面临的最大的非技术性问题。在所有者没有明确许可的情况下，是否拥有复制内容和提供独立于原始网站访问的合法权利，还是侵犯了所有者的版权？一些网站明确地标出了版权许可或版权授权信息，例如知识共享或官方版权，可以部分解决网络存档合法性问题。但是，在大多数情况下很大程度上取决于有关国家规定和存档机构的职权范围。

在我国，电子出版物和网站的法定存档相关法律尚未实施。这意味着在我国，没有任何一家存档机构能够在不侵犯版权的情况下，对整个中国的网站进行存档。国家图书馆正在积极准备互联网存档相关法律的提案，当提案被通过时，国家图书馆将能够对互联网信息进行复制、编辑、长期保存和公共服务。在此之前，国家图书馆一直在运行选择性的，基于权限范围内的互联网络存档。尽管如此，仍然会出现问题，因此国家图书馆有明确的删除侵权条目政策。

4.2 存档收集策略

国家图书馆互联网存档的收集策略，主要有两种类型的收集方法，这两种类型都有明确的范围[7-9]。

（1）网站域名收集：以网站的采集和存档为重点，主要采集反映所在行政区域的政治、经济、文化发展等信息的网站，整站采集。

（2）选择性专题收集：以专题的采集和存档为重点，主要采集反映所在行政区域当年政治、社会、文化、科技等领域的热点专题，例如：省级地方两会、洽谈会、民族节日等。

互联网存档收集的主要问题是采集施加的人为限制，即使是网站域名收集也是如此。互联网不受采集主题和网站的限制，这些存档中的网站将经常链接到未作为搜集存档一部分的其他网站，因此将不可避免地会遇到无法访问的链接。

两种类型的存档各有优缺点。

（1）网站域名存档是最全面的，但受当前网络归档技术的限制导致域名集合采集的网站通常不完整：文件没有被存档或已经被存档但无法重放，或者未搜寻到网站的所有鏈接。网站越大越复杂，不完整的可能性就越大。但是，域名集合由于采集范围固定，因此相比选择性专题归档与其他站点和外部链接内容的关系更容易维护。

（2）选择性专题存档的采集重点是寻找认为有价值的专题资源，并在一定的收集范围内进行采集。这种价值衡量标准虽然有争议，但通常要求存档站点的质量达到服务标准。因此，网页采集是“完整的”，即所有文件都可以正确显示和呈现，即使指向外部站点的链接也能访问。选择性专题存档的另一个潜在弱点是它们有可能或无意导致未经确认的选择偏差。专题网址选择通常是一个手动过程，反映了选择网址收集的人的特定兴趣或知识。互联网的庞大规模、网站的数量及信息发布的速度，都使得人工选择者很难及时了解新的来源，尤其是基于事件的存档。因此，选择性存档存在无意中对网络存档问题及其研究价值产生偏见的风险约束。保存与选择者相关及其感兴趣的信息有助于缓解这种偏见造成的问题。

中国国内的采集机构主要有国家图书馆、北京大学、台湾图书馆和台湾大学图书馆。不同的机构虽然采集的策略不同但是还是有重合的地方，会形成对一个站点重复存档的问题。这对用户有什么好处？对网站所有者有什么影响？一个清晰的国家级别存档策略可以控制这些问题并以一种互利的方式解决它们。

4.3 存档程序的局限性

国家图书馆互联网存档主要是通过部署互联网采集程序来抓取和保存网站内容的副本。在过去十几年中，虽然在采集技术上取得了长足的进步，但是部分采集内容仍然存在被限制的情况。例如：（1）数据库/动态驱动的内容（即响应用户请求时通过数据库生成的网页）;（2）流媒体文件;（3）只能通过本地站点搜索访问的内容——爬虫程序几乎无法分析的脚本代码;（4）受密码保护的内容——如果提供了密码，则抓取程序可以采集内容，但如果没有密码，那么内容则无法被采集;（5）一些由Javascript驱动的内容——例如由动态机制生成的网址;（6）手机移动端数据内容。

其他阻止或阻止采集程序取得进展的问题包括：采集大小的操作限制（采集发现的站点或者网址数超出了主机存储空间范围）和采集程序陷阱（如具有动态页面和没有固定结束日期的网页）。但值得注意的是，操作限制不是对爬网程序的限制，而是限制爬网大小的实际措施。国家图书馆有关该领域的研究和开发正在进行中，以解决下一代采集程序的这些限制。

4.4 归档手机移动端数据

截至2019年6月，我国手机网民规模达8.47亿，较2018年底增长2984万，网民中使用手机上网的比例由2018年底的98.6%提升至99.1%。越来越多的人通过手机客户端来上网获取信息，同时越来越多的资源也都只是通过手机App发布而普通电脑网站上却没有。移动客户端应用程序普遍具有封闭性的特征，这导致采集软件无法快速搜寻到数据地址。同样重要的是，移动端例如微信公众号和抖音短视频与传统网站的更新方式也不同，因此也应该以不同的方式进行存档。微信或抖音App的每篇文章或视频都是对当前内容的一种补充，旧的内容或视频仍然可用，而不是覆盖。因此可以适当降低爬网频率，每隔一段时间进行一次存档。国家图书馆研究发现，移动端内容的特征是“流动性”，这使得存档很难确定内容已完成的点。

另一个问题是权限问题。诸如微信、抖音、社交网站和媒体共享客户端之类的移动App，通常包含大量的多个用户生成的内容。对于基于权限的集合，存档任何包含用户生成内容的资源都会带来挑战，要么要求App所有者提供许可，要么从所有贡献者那里收集权限。这是一项耗时且有时几乎是不可能完成的任务。

尽管这些问题中有许多尚未解决，但仍然值得尝试在丢失某些内容之前对其进行存档。

4.5 时间连贯性

网络存档具有复杂的时间维度。存档所跨的时间段越长，其时间值越大。不幸的是，存档和其中的站点越大，其时间连贯性破裂的风险就越大。时间连贯性被描述为“一组存档页面的一个属性，表明在某个时间点上所有已存档的网页都同时存在于网站上”。当软件完成采集所需的时间中网站的部分内容已更新导致种子网址顶层（例如首页）中的内容在时间上不再与下层中的内容匹配时，就会发生时间不一致。即使对于中等大小的网站（例如50MB），这也是一个潜在的问题。对于网站域名级别的集合，采集变得更加困难，受域的大小影响，完全爬网可能需要几天或几周才能完成。所得的集合不能视为指定日期的网站的代表性副本，而只能视为给定的一段时间的副本。但是，这对于希望了解指定时间点历史用户可用的信息的未来研究人员而言至关重要。尽管确保单个站点时间一致性的工具正在出现，但是对于许多用户和收集机构而言，这仍然是一个概念上和实践上的挑战。

4.6 重复数据删除

“重复数据删除”是指消除相同内容的多个副本，以便保留较少的副本。这既包括技术上相同的内容（即位和字节）的重复数据删除，也包括内容级别上细微的重复数据删除。重复数据删除对于互联网存档来说是一个重要的问题，因为随着时间的流逝，相同内容的多个副本经常会在网站的不同采集中收集。

在某些情况下，可以实施重复数据删除，直到仅保留一个文件副本为止。在其他情况下，部分减少重复数据删除会带来一些好处（在存档中保留一个文件的多个副本，但仍会减少总体上保留的副本数。）这样既可以降低存储成本，又可以在以后出现问题或文件损坏的情况下，用重复的数据恢复损坏的文件。国家图书馆存档的WARC存储格式支持重复数据删除。

在某些情况下，重复数据删除与收集机构的保存意图和业务案例相冲突，因此不希望重复数据删除。例如，用于归档法律和政策相关记录的Web归档应避免重复数据删除，因为站点的每个版本都必须能够独立存在，并且所显示的每个对象都与站点中其余对象一起采集。如果不这样做将不被承认，因为法律和政策相关的文件不能做人为删减，即要完整记录，只有完整记录才能体现其价值。

4.7 真实性、完整性和质量保证

网站的真实存档版本应该是什么样？它是否应该在所有方面都与原始“实时网站”相同？国家图书馆在项目成立初期，存档及呈现的网站与实际网站一致，当时的网站更简单，网站会显示信息通知用户他们的网站针对哪个浏览器做了优化，但是随着项目的发展，为了获得个性化的浏览体验，识别“原始站点”的内容及其在存档中的外观变得越来越困难。不同的浏览器不仅会影响网站的整体外观，甚至会影响呈现给访问者的内容。“原始网站”的概念已变得毫无意义。那么，如何将网站的存档版本验证为“真实”呢？“重要屬性”概念是一种验证保存方法是否成功，确定原始网站与内容、上下文、外观、结构和行为是否相关的方法。验证采集的质量还必须考虑到采集的网站打算捕捉的是什么“保存意图”。而进行这种评估并不简单，但是能确保工作人员能够评估和验证所捕获站点的真实性和完整性。

国家图书馆验证存档完整和真实性通常在质量保证（QA）流程中进行。手动QA可由受过训练的专家执行，以评估爬虫收集了什么及存档的网站如何在标准浏览器中呈现。这确保不仅捕获了目标文件，而且确保了目标文件根据国家图书馆建立的保存意图进行了可接受的渲染。人工的视觉质量检查非常耗时，自动化的质量检查工具提供了一种更有效的方法来检验非常大规模的爬网质量，尽管它们无法达到与训练有素的人眼相同的水平。目前，开发中的工具着眼于一些可能指示爬网问题的关键指标，例如明显的爬网错误（在爬网日志中已指出），缺少链接，数据下载大小和未知的MIME类型。

5 结论和建议

在过去的十几年中，国家图书馆Web存档技术已经非常成熟，对所涉及问题的理解也是如此。国家图书馆通过以客户端存档为主，服务器端存档为辅的方式对互联网资源进行了大量存档，同时开发了许多的工具和服务，使我们能够存档和保留在线文化记忆的各个方面，并符合获取和保存在线记录的法规要求。这项工作一直在进行中，只要互联网继续发展，互联网归档技术就必须不断发展以跟上步伐。令人鼓舞的是，国内外许多研发项目正在利用现今网络技术开发出各种的解决方案，尤其是提高和促进存档的采集和使用。

尽管付出了努力，但网络档案仍然面临着巨大的挑战。受存档工具的限制流媒体文件、受密码保护需要登录的网站、移动端App内容和动态交互类的内容目前无法通过工具进行大量采集，只能采取具体网站具体分析，根据网站的特性用不同的方法进行探索性采集。网络存档还面临着时间连贯和准确性的问题，存档时间的准确对未来的研究和学习具有重要的价值和意义。国家图书馆目前正在通过自身研发和对外合作的方式逐步解决这些采集和存档上的问题。

在过去十几年中，确保网站档案收集和存档所有内容的质量保证是技术进步最小的领域之一。需要将更多的注意力和资金用来开发提高存档可靠性方面，让爬网不仅能捕获所有必要的文件和内容，而且可以完整地呈现它们。更智能的采集工具可以通过提高爬网的可靠性并减少当前已知的“风险”来解决此问题。没有这些，我们将面临收集和存档网站不完整的风险。这将导致存档资料无法发挥出真正的价值，学者们无法从不完整的存档中得出有关领域研究的权威性结论。

最后，互联网存档绝对不能忽视立法问题。立法仍然是国家图书馆网络存档面临的最大问题之一，其不仅限制资源的收集而且限制存档的公共服务。在解决这些问题之前，网络资源将会继续消失。由于没有合法的存档立法，导致国家所有大型活动事件只有很少的内容得到了保存，降低了未来互联网存档的研究价值。执行机构和政府是解决这些问题的关键，但必须以该领域机构和专家提出的实际需求和要求为基础。互联网资源的采集、存档和发布都涉及许多方面的法律問题，为保证互联网存档工作今后的发展，可以在借鉴国外法律法规的基础上，尽快完善有关互联网存档方面的法律，确定国家图书馆和其他相关领域机构从事互联网存档的合法权利。互联网归档的立法不能也不应孤立地解决，需要相关机构、专家和政府多方合作共同解决。

参考文献：

中国互联网信息中心.第44次中国互联网络发展状况统计报告[EB/OL].[2019-08-30].http：//www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201908/t20190830_70800.htm.

Internet Archive[EB/OL].[2020-09-07].https：//archive.org/about/.

IIPC[EB/OL].[2020-09-07].https：//netpreserve.org/.

国家图书馆将启动互联网信息战略保存项目[EB/OL].[2019-04-12].http：//www.xinhuanet.com/book/2019-04/12/c_1210106680.htm.

张炜，张文静.中国网络信息采集工作研究现状分析：以国家图书馆为例[J].图书馆建设，2008（7）：43-46，51.

刘青，孔凡莲.中国网络信息存档及其与国外的比较：基于国家图书馆WICP项目的研究[J].图书情报工作，2013，57（18）：80-86，93.

安兴茹.欧美国家图书馆网络信息保存的收集策略研究及启示[J].图书馆杂志，2007（9）：52-55.

聂云霞.国内外数字遗产长期保存实践与推进策略研究[J].信息资源管理学报，2013，3（1）：38-45.

黄尤精.论图书馆数字资源采集与保存[J].中国管理信息化，2018，21（7）：136-137.

杨云鹏中国国家图书馆馆员。北京，100083。

（收稿日期：2020-07-26 编校：曹晓文，谢艳秋）