国家图书馆网络信息资源采集与保存平台关键技术实现

2021-04-15魏大威季士妍

图书馆 2021年3期

魏大威季士妍

（国家图书馆北京 100081）

1 引言

网络信息记录和反映了一个时代的发展和变化，互联网是一个社会信息大平台，亿万网民在上面获得信息、交流信息，特别是伴随5G网络和智能终端的发展普及，网络信息资源已成为人类社会重要的信息载体，与传统文献相比，其承载的文化内容更加丰富多样，而且体量庞大、格式异构，呈现出明显的大数据特征。中国互联网络信息中心（China Internet Network Information Center，CNNIC）发布的第45次《中国互联网络发展状况统计报告》显示[1]，截至2020年3月，我国网民规模达9.04亿，较2018年底增长7 508万；互联网普及率达64.5%，较2018年底提升4.9个百分点；网络视频（含短视频）用户规模达8.50亿，较2018年底增长1.26亿；短视频用户规模为7.73亿，占网民总数的85.6%。与网民用户数量逐年递增的趋势相比，我国网站数量则呈逐年下降的趋势。截至2019年12月，我国网站数量为497万个，较2018年底减少5.1%，而同期的网页数量是2 978亿个，较2018年底增长5.8%。网络信息资源的易变性、不稳定性、流动性、不可再生性以及对软硬件环境的强依赖性，决定了其存在的短暂性，导致长期保存难度极大。据统计，平均每周大约有2%的网页会消失[2]。如果不采取积极有效的保存措施，不仅会造成信息价值的严重浪费，同时也不利于文化和文明的传承。要更好地留存时代的记忆，及时完整地保存网络信息资源非常重要。

保存与利用网络信息资源是互联网时代国家图书馆传承与保护网络文化成果、了解和掌握时代发展、促进科学研究与应用的重要工作与研究重点。国家图书馆从2003年开始探索网络信息资源保存实践，2009年成立了“国家图书馆互联网信息保存保护中心”[3]，一直致力于网络信息资源的采集、保存、管理与利用。

2 国家图书馆网络信息资源保存工作的发展与突破

2.1 国家图书馆网络信息资源采集与保存发展历程

国家图书馆的网络信息资源采集与保存工作始于2003年，年初国家图书馆成立网络文献收集与保存试验小组，正式启动“网络信息采集与保存”（Web Information Collection and Preservation，WICP）试验项目，利用网络机器人自动收集与存取的方式，开始尝试对互联网上关于中国发生的具有较大影响力的重特大事件进行专题收集。2005年国家图书馆网络信息采集成果服务网站上线，提供热点专题和政府网站存档资源浏览服务[4]。2007年国家图书馆正式加入国际互联网保存联盟（International Internet Preservation Consortium，IIPC），基于国际通用的标准和技术体系，开展国内网络信息资源采集与保存工作，进而促进了该项工作的国际化和标准化进程；2009年成立国家图书馆互联网信息保存保护中心；2014年开始联合全国图书馆，共同开展网络信息资源的采集与保存工作。经过近二十年的持续研究探索与发展建设，国家图书馆建立起了较为完整的网络资源保存体系，将全面保存与重点保存有机结合，在保存的基础上面向不同用户和群体提供网络资源的整合与揭示服务。

2.2 应对互联网信息更新频率高、更新量大的难题，逐步完善采集保存策略

随着网络技术的普及与发展，网站及网页资源呈爆发性增长，这对网络信息资源的采集、存储与管理提出了巨大挑战。通过对中国互联网络信息中心多年来发布的《中国互联网络发展状况统计报告》[5]的对比分析可见，从2006年开始，我国网站数量呈现快速增长趋势，从2006年的84万个增长到最高值533万个（2017年）。虽然网站数量在2010年出现了大幅下降，从2018年开始缓慢下降，但是与之相对应的年份网页数量却保持持续稳定增长态势，由2006年的45亿增长到2019年的2 978亿。网站及网页数量变化对比最强烈的是2010年，网站数量较上一年减少40%，而网页数量却较上一年增长78.5%。由此可见，网络信息资源体量庞大，面对海量的网络信息资源，如何克服存储空间、时间限制以及经费人力等因素的影响，合理有效地制定网络信息资源采集策略和保存管理方案，是对网络信息资源采集机构的一个重大挑战。

图1 历年中国网站数量

国家图书馆通过多年的采集经验积累及规律摸索，结合多角度检测等方式，逐步形成了一套采集策略——全域采集与领域采集相结合、存档采集与内容采集相结合。国家图书馆针对国内外网站采用全域采集策略，通过固定时间段内多次采集的模式保证采集数据的完整性，减少数据缺漏，以形成完备的国内外网站资源库；针对专题类网站采用领域采集策略，通过实时采集、固定时间段内多次采集、单次采集等相结合的模式，形成精准化的专题网络资源库。在全域采集以及领域采集中，国家图书馆通过存档采集将网站的原貌全部采集保存下来，实现目标网站的完整存档级保存；针对特定内容的采集，采用内容采集策略精准地将网页中的文字及相关的图片、文字类附件进行采集和保存，实现目标网站的精准化内容保存。

图2 历年中国网页数量

截至目前，国家图书馆的网络信息资源采集与保存业务，已形成涵盖国内外政治、经济、社会、文化、科技等领域重要网站和重大专题网络资源的特色化网络资源保存体系，累计采集保存国内外网站超过5万余个/次、专题网络资源超过300个，保存数据量达到300TB。

2.3 应对快速更新的互联网新技术，持续进行技术研发和功能升级

网络信息采集与保存涉及较为复杂的技术问题，包括网络资源多版本管理、网络资源重要性评估、网页资源的深层挖掘等，因参与采集的各个机构的技术架构不同，其采用的基础技术策略和采集方法均不相同。国家图书馆从2005年开始即基于开源软件Heritrix进行了采集、编目和保存。Heritrix是基于JAVA语言开发的开源网络资源采集获取工具，是IIPC一直在研发、优化、推广的开源工具，支持网络资源采集的爬虫定义和网页过滤技术，具有较为高效的可配置功能。在实际工作中，国家图书馆根据采集目标网站多类、采集策略多样、更新频率不一致以及存档网站保存的需要，对Heritrix做了定制开发，对中文网站、专题网页以及政府公开信息采用普遍性采集与定制化采集相结合的方式。

随着全国范围内多个图书馆参与网络信息资源保存工作，业界迫切需要一个规范性、开放性、共享性的软件平台，以适应不同基础硬件环境的图书馆的网络信息采集业务需求，支撑多个图书馆基于同一软件平台共同开展网络资源采集和保存工作，共同促进我国网络资源保存事业的发展。因此，国家图书馆利用虚拟化技术，扩展采集服务器组成服务器集群，形成大规模的分布式采集架构，提升采集效率；利用分布式文件技术实现数据的存储管理，使用弹性HASH散列分布算法解决单点故障问题，实现多节点的负载均衡随机可控，提高采集系统的吞吐量，进而整体提升网络资源采集和保存系统的性能；建设了一个云共享式“网络信息资源采集与保存平台”，支持国家图书馆与多个图书馆（机构）开展共享式、分布式、协同式的网络采集业务，进而整体提升网络信息资源采集与保存的能力与规模。

2.4 应对互动化、移动化、视频化的互联网发展趋势，通过定制开发与突破创新提升网络资源采集能力

近年来互联网资源的发布方式和服务形式出现互动化、视频化、移动化的趋势，多种新式、复杂的资源服务技术被采用，图书馆需要持续地对采集技术进行更新和升级，来应对复杂网络架构的解析、大数据网络信息的抓取、混合多维业务请求的解构以及网络技术的高速迭代等挑战。因此，国家图书馆持续地对“网络信息资源采集与保存平台”进行技术更新，创新了网络资源采集和资源管理的算法及策略，实现了网络资源全站采集、增量采集（精准采集发生变化的网站内容）的功能；通过精准化时间节点管理，实现对采集到的网络资源的节点化控制；通过复杂关系控制以及结构重构，实现精准化时间节点的网络资源增量回放功能。此外，国家图书馆通过对移动互联网应用的分析以及应用视频分析和视频抓取技术，定制实现了互联网WAP资源、网络资源中各种格式的音视频的采集、本地保存和流畅回放，以此应对当前互联网资源移动短视频化、“视频+”的趋势，更好地凸显了网络信息资源保存的意义和价值。

3 国家图书馆网络信息资源采集与保存平台关键技术实现

国家图书馆基于自有的网络信息资源采集和保存的业务特点和业务管理需求，在网络资源增量采集、数据管理以及精准化时间节点控制的增量回放等功能上进行了特别的程序定制开发，设计了平台的系统架构和功能实现，在平台的技术实现路线上，采用IIPC采集框架进行定制化功能开发。

3.1 平台实现的功能特点

3.1.1 既能全流程管控、又能一键化操作

IIPC框架提供的基础性网络信息资源采集和保存的整个业务流程，包括采集网站种子链接的部署、采集结果的汇总、采集完整信息的编目、索引文件的建立以及采集内容的质检、采集网站的回放设置以及回放发布链接的配置等操作，这些均需业务人员进行手动操作和干预，并且这类工作经常需要重复操作。随着业务的持续发展，在网络信息采集各个业务环节中产生及需要处理的数据量大幅增长，手动操作已经无法满足业务发展的需求。此外，图书馆中参与操作的业务人员的计算机操作水平相差较大，有些业务人员甚至不具备计算机操作基础，在网络信息资源采集和保存的工作中存在很大的困难，严重阻碍了图书馆网络信息资源采集和保存业务的推进和发展。

国家图书馆构建的网络信息资源采集与保存平台，很好地解决了网络信息资源采集的完整业务流程控制和管理自动化问题，通过模块化的形式，实现了将网络信息资源采集和保存的完整流程切分成多个合理的、彼此有关联的、个体相对独立的业务模块；通过可视化的操作界面，让即使不具备网络信息资源采集能力或计算机知识的业务人员也可以操作和完成工作，进而最大程度降低平台的操作难度，让业务人员更专注于网络信息资源的采集策略和内容管理，明显地降低了操作难度、规范了业务流程、提高了工作效率。

3.1.2 既能遵循国际标准、又能实现特定功能定制

网络信息资源采集与保存平台的资源采集、数据管理以及资源回放的功能实现均在遵循国际标准的框架下实现。这不但便于与业界进行数据交换和共享，而且便于采集与保存技术的互通开放。此外平台的技术架构还具有延续性、发展性和开放性的特点。国家图书馆的网络信息资源采集一直基于Heritrix架构实现采集功能、基于OpenWayback实现网站回放功能。因此，平台在技术升级和功能定制化开发中，继续坚持并沿用原有的开源框架，选用了该开源框架的最高版本（Heritrix 3.4版本）；在此框架基础上，采用SpringCloud微服务架构进行了多项功能定制开发，可以在不影响完整架构的基础上随时根据业务需要进行新的定制功能开发与实现。

网络信息资源采集与保存平台的完整架构实现层次化和模块化构建，可以根据不同机构的网络信息资源采集业务的需要，实现采集流程配置、采集参数管理以及采集、编目、审核与发布的完整流程的业务逻辑配置，能较好地满足不同机构的网络信息资源采集需求。平台的完整架构采用开放架构和流程模块独立架构，可以适应不同机构的服务器集群性能和网络环境，对网络信息资源采集机构具有较好的普适性。此外，流程模块独立架构为采集机构提供了灵活的管理空间、个性化的采集策略定制以及定制化的存档资源保存管理功能，能较好地满足网络信息资源采集的机构个性化需求。

3.1.3 既能完整采集、又能精准采集和增量回放

为了应对网络信息资源体量庞大、格式异构、更新频繁等挑战，网络信息资源采集与保存平台实现了技术突破，在采集技术、采集算法、存档资源控制策略、网页回放展示逻辑管理、存档网站结构重构等方面均实现了创新。

该平台在网络资源采集功能上，既实现了对网站内容的全站采集、完整采集，也实现了针对发生变化的网站内容的增量采集，以及对指定网站或网页的定位采集和精确采集；在采集资源保存方面，既实现了对每个网站不同版本的完整保存，也实现了对同一网站不同采集时间节点的增量保存和增量索引管理；在采集资源的保存格式上仍旧遵循国际标准，采用WARC（Web Archiving File Format）[9]格式，但是突破了WARC格式打包文件的限制，将采集到的网站（网页）资源以结构化、索引化的模式进行存储和管理，实现了基于采集时间节点的存档资源分布式存储管理；在网站回放功能实现方面，在保持存档网站完整内容整体性回放的基础上，创新实现了增量采集网页内容的完整、准确回放展示，即所谓的增量回放功能。该功能通过复杂网页层级关系控制以及结构重构，实现了精准化时间节点的网络资源增量回放展示，不但达到采集和回放展示出来的网站中多层级、多链接的有效性和完整性，而且保障了增量回放展示的网页没有丢失、混乱、错误的情况发生。

3.2 平台构建的技术架构

网络信息资源采集与保存平台，采用分层架构进行构建。对外服务层为面向用户服务的UI交互界面层，为网络信息资源采集管理业务人员提供方便快捷、可视化的使用界面，最大化降低平台使用的技术要求；展示层进行业务请求渲染和交互，采用异步 JavaScript 和 XML技术，实现网页异步更新；平台服务层实现任务管理、性能优化管理、参数配置、个性化定制等模块化功能，并通过接口模式为其他层提供数据交互和功能支持；采集层应用Heritrix爬虫软件，负责处理采集策划设置、信息资源抓取、采集队列管理、采集状态监测等核心业务；存储层负责对采集完成的数据进行数据校验、数据保存以及采集时间节点的控制；运行环境层则负责整个平台的服务器资源和网络资源的综合性管理。

3.3 平台突破的关键技术

网络信息资源采集与保存平台实现的增量采集功能，是在完整采集网站内容的基础上，以采集新出现的网页、变更的网页为目标的采集。这种采集模式可以有效节省采集服务器的存储空间资源和网络带宽资源，缩短周期性采集整站的采集时间，大幅提高采集效率。增量采集业务有完整的工作流程，从采集源分析、采集目标定位、采集种子队列管理、增量采集资源保存管理到时间节点控制、增量采集片段化回放展示等一系列业务管理，均需要完整规划和统一实现。

图3 网络信息资源采集与保存平台架构

网络信息资源采集与保存平台在Heritrix 3.4版本基础上进行了程序定制开发。依靠Heritrix 3.4的自有功能，实现网站内容的完整采集和管理；依靠程序定制开发，实现网站内容增量采集和节点化管理，实现面向主流网站更新网页的识别和采集，并保障增量采集内容不重复、不遗漏、不混乱。所有采集到的网站内容均以WARC格式进行保存和管理。平台使用默认的WARCWriterProcessorwen文件处理器进行网络资源采集，并在此基础上做增量采集文件的定制化开发，平台实现的增量采集业务流程如图4所示。

图4 增量采集业务流程图

在采集源分析业务中，平台首先判断是否需要开展增量采集操作，如果不需要，则直接进入全站完整采集业务流程中。如果判断为增量采集业务需求，则要进行采集目标定位业务操作。首先获取增量采集目标网站中需要进行比对的版本号，通过计算对当前的CrawlURI和版本号内的采集目标进行对比，如果文件存在，并且大小无变化，则说明这个采集对象不需要增量采集，直接返回结束状态并跳过，这样可以大大节省采集时间和存储空间；如果文件不存在，或者文件存在但是与目标相比较运算结果发生了变化，则说明该采集对象需要进行增量采集，下一步要明确采集对象和采集目标，后续将需要采集的URL放入采集队列中，并且将当前版本和URI等对象信息痕迹进行保存。增量采集判断的业务逻辑会根据采集源的情况循环执行，直到采集源分析全部完成，进入下一个采集操作流程。

平台基于OpenWayback实现存档资源管理和网站回放展示的完整业务管理，特别针对增量采集的特殊性进行了功能定制开发，实现增量采集资源保存管理、时间节点控制、增量采集片段化回放的定制功能。

图5 增量回放业务流程

平台采用索引机制对采集到的每个网站及网页进行管理，颗粒度包括网站整站、网页以及页面中的链接等；通过URL+采集批次标记的方式实现时间节点化管理；在索引机制中，运用算法和逻辑结构定义等方法管理增量采集、增量保存的存档资源，也实现了基于采集时间节点的存档资源分布式存储管理。

在网站内容回放展示的功能实现上，采用精确化索引管理匹配增量采集网页资源的模式，可以保证全站采集的网站内容完整回放展示；独创实现的网页层级关系控制以及结构重构功能，可以实现任意时间节点增量采集网页的回放展示；索引机制与时间节点相匹配的模式，可以大量减少存档网站的冗余数据，明显提升网站回放展示的效率，保障增量回放展示网页的准确性、高效性。

表1 不同采集方式的采集效率比对

在实际采集业务操作中，针对同一网站采用全站采集和增量采集两种不同的采集模式，平台在采集容量和采集时长上有着明显的差别；两种采集方式所对应的平台的运行时间和运行效率也明显不同，可以较为清晰地看出增量采集效率远远高于全站采集效率，较为显著地缩短了采集周期，进而可以保证采集内容的时新性和时效性，能有效解决存储空间不够以及网络带宽有限等问题。

4 网络信息资源采集未来发展思考

随着技术和时代的发展，互联网的信息传播呈现出不同的态势及特点，新型的传播架构极大地激发了社会活力。特别是伴随5G网络的普及和智能终端的发展普及，移动短视频高流量、高承载量和快速传播的特点使得“视频+”逐渐渗透到互联网各行各业，知识获取轻量级、内容消费娱乐化，催生出了多样化的网络信息载体形态，对网络信息资源的保存与保护提出了更高的要求。国家图书馆要持续地发挥多年来网络信息资源采集和保存的实践经验，在网络资源采集策略、采集范畴、采集技术、知识挖掘以及服务模式等方面进行创新和发展，进而提升网络资源“保存”与“应用”的价值。

4.1 用技术创新强化平台的技术先进性和普适性

技术创新的具体手段包括：对网络信息资源采集及保存的关键技术进行研究和追踪，创新业务流程，提升工作效率；优化算法和速度，提高并发数和系统的响应速度，支持并满足大规模用户的同时操作。平台在采集功能上要扩充采集范围，对移动互联网和音视频的采集应具有普适性，能满足日益增长的移动化资源的保存需求。在技术创新的加持下，网络信息资源采集和保存的范畴在现有网页资源为主的基础上，将显著增加音视频资源、移动互联网资源的采集范畴以及采集比重，实现对重点网站网页资源的一年多次增量采集、对体现中国文化传播的原生性音视频资源的专题性采集、对只有移动服务的移动互联网资源的普遍性采集。

技术创新手段的应用，可以显著提升国家图书馆网络信息资源采集与保存平台的适应性和云服务性。具体包括：以云服务的模式支持多节点的接入，支持不同服务器规模的部署，支持多节点、多用户的互联互通；以微服务的模式，支持不同采集需求的技术实现，特别是可以对技术各异的移动化资源采集进行针对性功能实现；最终构建覆盖全国各级图书馆的网络资源分布式保存与服务，引领全国多机构共同参与网络资源采集事业。

4.2 用智慧化提升网络信息资源的保存价值和服务能力

将语义分析、知识关联、内容挖掘等方法运用于网络信息资源的管理，可以明显提升网络信息资源的规范化管理、内容化挖掘以及知识化建设能力；将网页资源、政府开放信息、社交媒体资源以及开放获取资源作为网络信息资源的多来源，统一进行组织管理和整合建设，有助于整体建设多内容、全载体、分主题的网络信息资源全内容体系。

变革网络信息资源应用与服务方式，提升网络信息服务效果，通过资源推荐、快照保存、信息检索、资源分类浏览等功能实现资源的有序组织与呈现、信息发现与检索，通过知识库向用户介绍网络信息保存相关知识和内容，能够有效增强服务能力，提升用户体验。充分利用现代信息技术，通过时间轴、地域轴、地图、知识图谱等可视化手段进行资源展示与用户交互，以热门关键词实现资源推荐检索，可以丰富和优化网络信息资源的服务模式。

4.3 用互鉴与共享促进行业间、国际间的合作与共进

以5G为代表的新基建兴起、发展并日渐普及，通过高带宽、低时延、万物互联的方式应用于人们生活的方方面面。视频的使用更加普及、视频的内容及其呈现方式更加丰富；移动互联网的应用和服务将大大超越传统互联网应用，甚至部分应用与资源只在移动互联网端呈现；VR（虚拟现实）、AR（增强现实）等应用广泛普及。这些发展与变化都对网络信息资源的采集与保存提出了新的要求。国家图书馆要持续强化科技创新突破，加快对网络信息资源采集核心技术和应用技术的协同攻关；持续地关注与跟踪国际互联网界的技术发展和趋势，通过参加业界年会、技术论坛交流、邮件互信、项目合作等方式与国内外业界进行紧密的联系与合作，深入了解开源软件Heritrix、OpenWayback的版本变化、技术功能以及功能定制开发的方法和技术；在提升自身技术能力的同时，积极分享本馆在这些软件框架下的探索和实践经验。

在数字时代，5G和大数据、人工智能、云计算、边缘计算等技术紧密结合，会为网络信息资源采集与保存带来新的发展思路和智慧化的工具手段。国家图书馆将在技术架构构建、采集策略智慧化管理、采集格式与管理、机器学习辅助自动编目和内容管理、视频内容采集与保存、质量监控等方向，以多样化的沟通和合作方式开展国际性、行业性交流，不断完善网络信息资源采集与保存体系建设。

国家图书馆会持续跟踪国际互联网采集技术的发展，着力加强在标准互联互通、技术创新升级、服务智慧共享等方面的交流合作，从技术、策略、规范及智慧服务等方面多角度、多维度、多渠道地促进中国互联网信息采集与保存事业的发展与进步。

（来稿时间：2020年11月）