WARC标准推广策略研究*
2019-06-24黄新荣
曾 萨 黄新荣
(西北大学公共管理学院 西安 710127)
随着网络技术的应用发展,网页、社交媒体已经成为社会生活中不可或缺的内容,网络资源不断丰富。根据社会记忆理论,网络资源是社会记忆的重要组成部分,具有重要的数据挖掘、数据分析价值。但网页、社交媒体的特性使得其多变、易失,因此,网页归档、社交媒体归档等数字资源保存的研究和实践逐渐增多,网络资源的保存格式、保存方式受到重视,WARC格式也逐渐被人所知。
WARC(Web ARChive)是一个将多个数字资源(数据对象)和相关信息一起聚合到一个文件中的一种方法,是一种适用于网络爬虫资源的存储文件格式[1]。为使网络资源保存格式与国际标准接轨,国家标准局于2017年7月12日发布了由ISO28500:2009翻译而成的《GB/T 3394—2017 信息和文献WARC文件格式》,2018年2月1日正式生效。但是WARC 标准发布后在国内知晓度不高,没有引起重视。为解决这一问题,文章从WARC及其标准的概况出发,探讨WARC的国外应用广泛的原因,分析国内应用WARC的困难,并制定相应的推广策略。
1 WARC概述
1.1 WARC格式及其标准演变
WARC由ARC扩展而来,ARC是由System Enhancement Associates (SEA)在1985年开发的无损数据的压缩和归档格式[2],该格式后来被ZIP格式所取代。20世纪90年代,Internet Archive(互联网档案馆 IA)将ARC格式用于网页资源存档,将网页上抓取的内容存储为内容序列块并保存在单个文件中。在ARC文件中,包含已经存档的各种内容(html、ps、jpeg),每个文件之前都有一个单行标题信息,包括:文件格式、文件大小、文件包含的外部链接等[3]。每一个ARC文件都有一个相应的DAT文件,只包含标题信息。用户访问取决于ARC文件语料库的大规模索引或记录标题的单独副本(例如Internet Archive DAT文件)。索引DAT文件可以支持用户通过URL和日期访问,如同在Wayback Machine中检索。
2003年在IIPC(国际互联网保存联盟)成立后,开始改进ARC格式,将ARC格式扩展为WARC格式。WARC记录包括一个记录标题,后跟一个记录内容块和两个换行符,内容块可包含任何格式的资源,包括嵌入或链接到html页面的二进制图像或视听文件[4],一个WARC文档包含若干WARC记录。WARC格式兼容ARC格式,以更好地支持归档组织的收集、访问和交换需求。除了ARC记录的主要内容之外,WARC还可以容纳相关的辅助内容,例如分配元数据、缩短重复检测事件、后期转换以及资源分段等[5]。WARC的应用范围更加广泛,可用于构建收集、管理、访问、挖掘、交换内容的应用程序,虽然是用于网页存档的标准格式,但已经超越了网络应用范围,可用于存储数字资源或数字化材料。
为了统一格式、开放标准,IIPC主持开发相应工作,2005年5月通过作为工作项目提交的ISO TC46/SC4。自2007年2月开始形成第一版标准草案,草案经过10余次修改完善[6],2008年11月最终确定,2009年5月正式发布,成为国际标准——ISO28500:2009信息和文献—WARC文件格式。随着实践发展,在ISO信息技术委员会ISO /TC46(信息和文件)的监测下,经过IIPC的不断修订,ISO28500:2017在2017年8月正式出台,取代了前一版本[7]。由法国国家图书馆召集的ISO TC46/SC4/WG12是负责维护的工作组,推动WARC格式的持续演进。
1.2 WARC格式的特点
1.2.1 收割资源描述详细
WARC文件由一序列的WARC记录组成,WARC记录可记录大量数据信息,记录的内容或者是一次检索的直接结果(网页、内嵌图片、URL转向信息、DNS主机名查询结果、独立文件等),或者是为存档内容提供附加信息的综合资源(如元数据、转化后的内容)。WARC定义了8种记录类型:对应不同种类资源的描述,详见表1。
表1 WARC记录类型及描述资源
从表1可以看出,WARC对收割资源的描述十分详细,从资源的原生环境到采集过程,从资源自身内容到采集产生的附加信息,WARC都有所记录,可最大程度的记录数据背景信息。
1.2.2 支持资源内容分割重组
WARC规定当记录过大以致超出单个WARC文件所能允许的最大容量时,记录会被分解成独立的片段(称为分段),可使用“continuation”记录,保持原始记录逻辑完整。记录中的“Segment—Origin—ID”字段负责将各内容片段记录与起始片段记录关联起来,“Segment—Number”字段负责对每一内容片段按先后顺序进行编号[8]。分割片段的大小可控,同时也适用于其他数字资源的分割。
WARC还支持资源重组,面向同一主题、同一事件需要从不同WARC文件抽取资源时,可以利用“Warcinfo—ID”字段,“WARC—Warcinfo—ID”指示与该记录的关联‘warcinfo’记录,找到资源所在的原始位置,从而保证合并记录时的关联真实性。
1.2.3 支持外部语义关联
WARC并不是一个完全闭合的文件,利用“metadata”记录可指向另一特定记录,支持资源间相互关联,也支持对关联的语义描述。“metadata”记录存储着原始收割或转化的内容,可指向任何记录类型。网络资源数量巨大,针对同一事件可产生大量WARC文件,利用“WARC—Concurrent—To”标头关联同一抓取事件的其他记录,利用“WARC-Refers-To”标头关联记录描述的其他资源,方便对收割资源的进一步描述、解释。
1.2.4 便于存档和压缩
WARC的多种记录类型实现了对资源的多种描述以及关联外部、拆分重组等功能,WARC自身虽然没有MIS、JAR、RPM等支持软件打包和分发的格式复杂,也不似Boot image、Card image、ROM image等磁盘映像(Disk image)格式,能够完全复制存储设备的结构和内容,但是WARC格式十分便于存档和压缩,可以打包、压缩、加密文件,也支持自解压和自扩展,适合对数据量大、内容复杂、交互性强的网络资源的存储。
1.3 WARC格式应用情况
1.3.1 国外WARC应用实践
WARC为网页资源的保存而产生,1996年到WARC出现之前,一些率先开展网页保存的国家,如:美国、澳大利亚、瑞典、埃及等利用ARC格式存档网页资源。在IIPC成员的共同努力下,ARC扩展为WARC,应用范围逐渐扩大,一些应用ARC的项目,也逐渐将数据格式转换为WARC,通过梳理应用WARC的网页存档、社交媒体文件存档项目(见表2),可以发现WARC是国外在网页存档、社交媒体文件存档中应用最普遍的格式。一些国家图书馆也认可WARC格式对保存数字收割资源的可行性,并投入实践,如:德国、新西兰、新加坡国家图书馆等。
此外,Archive-it(网页存档服务组织)对“WARC文件的本地数字保存活动”进行了年度调查,以50多个合作机构(有网络归档计划的大型或小型图书馆)为调查对象,发现WARC已经得到了普遍采用,过半的机构会将WARC下载到本地进行保存,部分机构利用开源或自主研发数字保存系统本地存储WARC 文件,部分机构研究适合WARC数据传输的API,以促进本地摄取WARC文件,一些机构在进行从WARC提取元数据描述网络资源的研究[9]。这一调查表明,国外机构对WARC的应用并非停留在网页归档项目层次,也并非止步于仅仅将资源存储为WARC文件,而是对WARC进行了更深层次的分析,对WARC更广范围的、更加细致的利用做出了更多的探索。
表2 WARC国外项目应用列表
1.3.2 国内WARC应用情况
相对于国外的应用而言,我国的WARC应用匮乏。国内大型的网页归档项目有Web信息博物馆和WICP(Web Information Collection and Preservation),WICP项目应用WARC作为网络数字资源的保存格式。WICP是中国国家图书馆在2003年启动的网络信息资源采集与保存实验项目,该项目对静态网页和动态网页采取不同的保存策略,在项目的发展过程中,2010年国家图书馆开发出网络资源获取系统,系统将网页资源保存为WARC格式[10]。此外,郑州市档案局在进行政府网站归档时将网页资源保存为WARC并压缩保存[11]。
利用百度、搜狐等搜索引擎对WARC的相关信息进行检索,有关WARC文件格式信息少,多为介绍类;WARC标准仅有少量报道性新闻;WARC相关实践未有检索结果,说明WARC在国内没有被广泛应用。
2 国外WARC标准应用广泛的原因
2.1 标准由实践而来
回顾WARC与ISO28500的产生和发展历程可以发现,WARC标准之所以被广泛采纳,是因为有深厚的实践基础。在ISO28500产生之前,IIPC相关工作组在网页归档的实践过程中,逐步扩展ARC形成了WARC,这表明WARC在产生之初就已经有了实验群体、对比对象。在不断实践过程中,发现问题、解决问题,并扩大应用范围,有更多实践数据支撑,最终证明WARC最为适合网络资源存档。
在标准的准备过程中,IIPC成员间不断进行讨论和论证,在两年时间内WARC标准草稿经历10余个版本,确立了ISO28500:2009。在标准正式颁布之后,随着时间推演、实践变化,IIPC联盟中的一些成员提出标准的修订意见,在2015年、2016年出台欧洲方面的关于ISO28500改进的建议,最终ISO28500:2017出台。
以实践为基础,进行WARC标准的产生和修订,WARC的优势和劣势都有直观反映,在实践基础上的WARC标准,应用风险低,接受范围更广。WARC面临的问题得到有效解决。
2.2 完善的政策标准体系
根据网页归档生命周期模型[12],WARC存档格式是存档环节中重要的组成部分,完善的政策标准使得WARC的标准与其他环节标准的衔接更为流畅。国外WARC政策标准的完善性表现在:
一是得到网页存档相关政策的支持。网络资源作为重要的数字资源,许多国家已经认识到归档保存网络资源的重要性,制定网络资源存档的相关政策,如澳大利亚《2020数字连续计划》、英国《政府网页存档:重新定义政府部门技术指导》、美国《社交媒体文件捕获最佳实践白皮书》等。作为存储的重要组成部分,在政策文件中存储载体的安全性、存储格式的适用性、数据的可迁移性以及存储的方式和位置都被强调,进而引起对存储格式的重视。
二是存档标准体系完善。国外网页从收集到保存整个生命周期都有具体标准和规范。在网页形成之前,具有网页设计标准,如ISO/IEC40500—Web内容可访问性指南〈Web Content Accessibility Guidelines (WCAG) 2.0〉、美国网页设计规范等。在对网页资源进行组织时,具有一系列的元数据标准,如:OAIS(开放存档信息系统)、METS(元数据编码和传输标准)、澳大利亚政府记录元数据标准(AGRkMS 2.2版本)。在网络资源存档时,有网络存档元数据集(Web Archiving Metadata Set),网页信息存档统计与质量标准ISO/TR 14873,也有存档介质标准ISO11799与ISO18938。这些标准为WARC标准的推广和实施起了助推作用。
三是具有详细的标准实施指南。在2009年ISO28500发布后,IIPC随即编写了WARC Implementation Guidelines—2009(WARC实施指南)[13]。IIPC指出ISO28500是一个说明如何有效编写WARC文件的规则,但是对特定情况下WARC文件的编写方法缺少建议。在此情况下,IIPC编写了WARC实施指南,提出了对于WARC文件命名、记录识别、记录信息处理的建议,详细阐述了WARC数据捕获、ARC转向WARC等数据包装的具体措施,对载荷识别、WARC文件重新包装、病毒检查提出了具体的操作性建议。
2.3 形成了WARC生态系统
国外为了方便WARC文件的收割、存储和利用,形成了一系列相关的工具和格式,Archive-team将其称为WARC生态系统[14]。WARC的支撑工具可分为4类:数据捕获工具、存储组织工具、索引工具、分析利用工具。这4类工具都具有相应的程序、软件或者系统支撑:
捕获类工具,主要用于从网络获取网络资源,常用的有Heritrix、GNUWget、Grab-site、WarcMiddleware、WARCreate等,如WARCreate是面向个人网页存档的谷歌浏览器插件,可将用户浏览的网页保存为WARC文件[15]。
存储组织类工具,主要用于对收割资源(WARC文件)进行保存、转换、验证、切割、元数据抽取等处理,常用的有WARCIO、Jhove2、Megawarc、WARC to ZIP、Java Web Archive Toolkit(JWAT)、Pylibwarc、ArchiveSpark,如Megawarc 可将多个小型WARC文件合并为一个大型WARC文件,并且检查WARC文件是否可以在将其添加到Megawarc之前解压缩[16]。
索引类工具,用于对WARC文件的检索,常用的有cdx_writer、Wayback Machine、Apache Solr、Lucene 等,如cdx_writer通过Python脚本从WARC文件创建CDX索引文件。WARC支持外部索引,ARC/WARC的索引通常称为CDX文件,CDX文件中包含大量的归档信息,利用CDX索引文件可以生成档案的概要文件[17],CDX格式及CDX文件的出现,极大方便了对存档WARC文件的利用。
分析利用类工具,主要用于对存档内容的审查和分析以及浏览等,常用的有Pywb-Web Recorder、WARC viewer、Web Archiving Integration Layer (WAIL)等,如WARC viewer用于浏览WARC文件。
WARC相关工具包的不断催生,使WARC标准有了实践的支撑,也正是因为WARC相关工具和格式的不断发展和成熟,又反过来促进WARC标准的推广和完善,使得WARC格式和标准与时俱进。
2.4 组织的推广与保障
WARC与ISO28500的产生和发展,都离不开IIPC。在IIPC成员的共同开发下WARC产生并推广;在IIPC的支持下,成立专门的标准工作组,由法国国家图书馆带头编写草案,最终成为国际标准;标准发布后, IIPC又成立WARC利用任务工作组(WARC Usage Task Force),负责WARC实施指南的撰写。此外,为进一步促进主流Web开发社区利用WARC格式,IIPC还成立了WARC工具项目,负责开发WARC相关工具包,此项目目前已经进行到3期,提供了一系列开源的免费的WARC工具,如Libwarc、Openway Back等[18]。IIPC作为最大的国际互联网保存联盟,为WARC提供了智力、资金、组织等支持,使得WARC不仅仅是一个文件格式,还是一个保存体系,最终成为一个完整的生态系统。
推进WARC发展的团体还有许多其他联盟组织、志愿团体、财团等,如Archive-it。
3 我国应用WARC标准的困难
距离GB/T 3394-2017发布已经一年有余,但WARC标准在国内并没有被广泛应用。分析发现由于我国与国外应用WARC的历史、环境不同,网络资源存档进展不同,使得WARC标准应用困难。
3.1 缺乏网页和社交媒体归档相关实践
WARC是网页存档格式,国内缺乏网页存档和社交媒体存档的实践,使得WARC无“用武之地”。国内网页存档实践,大型项目只有Web信息博物馆、WICP,且产生了一定成果,余下为类似郑州市档案馆的机构或个人进行的小型网页归档实验,不具备社会影响力。对于社交媒体文件归档,由于隐私权、知识产权等还存在争议,存档机构与数据平台之间还在博弈,我国目前还没有图书馆、档案馆或者公司等采用爬虫方式大批量收割保存社交媒体文件的项目。网页归档和社交媒体文件归档实践匮乏,使得WARC格式缺乏实践机会和情境,对WARC缺乏相应的了解,WARC标准自然也应用困难。
此外,缺乏实践,WARC会产生“水土不服”现象。相比国外丰富、持久的网页存档经验,我国的网页归档实践不是很成功,无法提供持久有效的链接与回放。国家图书馆在2007年成为IIPC的成员,WICP项目后期很大程度上采用IIPC推荐的框架与流程,包括存档格式WARC。因此,我国对网页归档的实践还停留在较为宏观的“选择—收割—存储—利用”流程阶段,对网页归档的一些细节,如存档格式等缺乏持久的实践研究,WARC及其标准在国内都是真正意义上的舶来品。在国外却不同,WARC为网页归档而产生,在网页归档实践中应用,WARC的应用和发展有实践基础,经得起实践检验。
3.2 缺乏对WARC格式以及相关格式的研究
在理论层面,WARC的研究也比较匮乏。笔者在CNKI检索发现,有关WARC的研究屈指可数,只有5篇,其中,4篇属于WARC格式介绍,1篇属于应用WARC格式的索引系统架构。在4篇介绍论文里,钟华翻译了IS028500对WARC的相关介绍[19]。李睿、郭世月的文章在较浅层面对比了WARC格式与主流网络资源存档格式标准VERSVEO、LANL MPEG-21、MET的历史、适用性与可持续性[8],在另一篇文章里深入介绍了WARC的特征与功能以及部分应用情况[20]。曲云鹏分析了WARC格式的优点、WARC格式的结构和内容、介绍WARC的生态环境[21]。
推广WARC及其标准,上述研究数量少且太过浅显,进一步需要采用实验论证为什么WARC格式适合中文网络资源归档;也应深度对比WARC格式与其他归档格式,如JSON、XML、PiSi、Disk cloning、OFD等,找到WARC应用于保存网络资源的适用性与优势。在上述研究的基础上,如果发现WARC不适合中文网页或社交媒体归档,可以研究如何对源代码进行改进,设计实验进行论证。
3.3 缺乏相关政策标准支持
政策支持上,国家档案局在《全国档案事业发展“十三五”规划纲要》[22]中指出,要研究制定重要网页资源的采集和社交媒体文件的归档管理办法,但截至目前还没有任何政策出台。
WARC在国外是整个网页生命周期的一部分,是网页归档生命周期的一部分,国外做到了全周期管理。在国内则没有网页生命周期或网页归档生命周期的概念。在网页生成阶段,网页设计缺乏规范;只有电子文件发布了归档元数据方案,缺乏网页归档、社交媒体归档的元数据方案。在WARC文件的存储方面也缺乏相关实践,没有完全成功的案例。相关标准的缺乏使得WARC只是一个单独的个体,而不是作为体系中重要的组成部分。整体的脱节使得标准推广困难,标准推广困难又使得网络归档实践推进困难,陷入囚徒困境。
在标准支持上,在引进WARC标准后,相关部门缺乏对标准的解读,相关的长期保存机构未制定实施细则。对于广大的非计算机专业的网络资源保存人员,WARC具有一定的专业性,并不能深入理解并使用WARC格式。
3.4 缺乏软件工具支撑
网页归档整个流程都需要软件、系统等工具的支持,国外已经围绕WARC格式形成了生态系统,我国在开发和引进网络资源归档软件方面还处于空白。现在网络资源存档通用工具都为国外研发,国内一些研究人员主要做相关介绍工作,部分技术人员通过设计实验提出利用国外已有的开源软件对国内社交网络(微博、微信公众平台)信息进行归档保存、回溯利用,但是没有大型项目试验这些软件是否可以应用到批量数据的归档、是否可持久应用于存档、在中文环境下是否存在特殊性等问题。
4 我国推广WARC标准的策略
长期保存网络数字资源,相当于建立了一个具有历史价值、凭证价值、信息价值、文化价值的庞大的数据库,为以后的发展提供数据集积淀、保留数字记忆。目前,国内一些机构已经逐步试水,广州市和青岛市要求归档政府微博、微信公众平台信息,部分机构主动采取手工归档方式保存单位自己发布的社交媒体信息。为推进网络资源存档进程,需要自动化归档的探索,采用WARC格式存档,推广WARC标准,可以借鉴国外相关项目的发展经验,利用WARC生态系统的开源工具,和国外进行数据共享资源互换等,这在一定程度上能为网络资源存档营造环境、创造条件。
4.1 制定标准使用指南或实施细则
在已经发布GB/T 3394-2017的情况下,目前最为迫切的是制定标准使用指南,增进大众对WARC及其标准的理解。翻译而来的GB/T 3394-2017,对WARC的字段、类型、以及部分代码做了介绍。在中国制定的实施细则中,则可以对WARC历史、WARC与WAT/WET/CDX等格式的关联和区别等进行对比介绍,增加用户对WARC的理性认识,增强认同感;进一步,介绍WARC的生态环境,明晰WARC格式的使用依赖于哪些工具、有哪些成熟的开源软件可以利用,增加用户对WARC整体性的理解;另外,需要包含WARC实施的若干细节,由于中国WARC的用户体验较少,可以借鉴已经应用过WARC的项目经验,参考WARC Implementation Guidelines—2009,或者自行进行WARC文件捕获的相关实验,补充WARC标准实施时一些必要的细节,如:WARC文件捕获、数据封装、WARC记录的加工、WARC文件的命名及修改、WARC文件元数据、网页数据和非网页数据的打包等,给用户提供操作性建议。
实施细则的指导,不仅能给用户提供全方位的应用向导,也增加了用户对WARC的认识,使WARC中国化的程度加深,相关归档实践增多,从底层催生网络资源存档项目。
4.2 形成网络资源存档政策标准体系
要推广WARC标准,需要形成完善的政策标准体系,同时要和已有的标准相衔接。
在制定新政策方面,应考虑到数字资源保存的长期性和特殊性,应制定资金可控、风险可控、可实施的政策。政策要规定何种类型的网络资源应该被优先保存、对于不同的资源采取不同的保存策略。对于存储空间、存储设备、存储格式等政策应该加以引导。对于网页存档制定政策应注重顶层设计,否则会出现大规模保存网页的重复,产生冗余数据。在社交媒体文件归档时,由于动态、交互等特征使得社交媒体存档更加复杂,政策需要多加考量。在赋予归档主体保存权利的时候,应注意平台、个人等的知识产权和隐私权的保护。在整个归档流程中还涉及到目标、资源评估、访问利用、风险管理等具体政策。
在标准制定方面,与数字资源长期保存相关的有:电子文件元数据标准、电子文件归档光盘技术与应用规范、民国档案数据采集标准、口述史料采集与管理、照片类/录音类电子档案元数据方案等。在制定网络资源存档元数据标准时,可参考国内这些标准进行部分衔接,如:音频、照片的元数据、数据交换格式等。可以引进部分国外相关标准,如网页存档元数据标准、数字资源描述元数据框架、存档资源数据交换规范等。由于国情不同,部分标准无法引进,可以重新制定标准,如:网页设计规范、捕获行为规范、社交媒体存档系统架构、数据转换标准等。
4.3 引进开发相关软件
WARC标准已经正式实施,国内并没有开发专门的软件,一方面是因为网络存档目前还没有受到政府与社会重视,没有应用市场;另一方面,认识到存档重要性的人不懂技术也缺乏资金与志愿者支持。在这种情况下,可引进国外已有的网页归档软件、网络资源存档的框架以及参考社交媒体文件多线程归档实现路径。在引进软件的基础上对软件进行改良,使之成为国内适用的网络资源存档工具。
从长远角度分析,如果只是引用缺乏研发,则会受制于人,失去网络资源存档领域的话语权。在初期归档实践开展顺利后,可着手开发适用于我国网络资源存档的软件,将微信公众号信息、微博评论点赞信息长期保存,还原归档信息原生环境,利用云计算进行网络资源归档存储,手动归档数据转换等方面,开发出适用软件,并推向国际市场。与IIPC其他成员一起共同解决网页存档、社交媒体文件归档的技术难题,从而在互联网信息长期保存方面占有话语权,逐步在数据高地上占据一席之地。
4.4 成立网络资源存档部门
WARC标准推广和实施需要专业人员的支撑。国内已经有应用WARC格式的先例,可在参与人员中选取关键人员成立网络资源存档部门,负责参加国外网络资源存档项目会议、与国外项目建立长期合作关系,积极借鉴国外存档相关经验。在此基础上,借助自身项目经验,开展实验网页存档、社交媒体文件存档项目。如果实验项目成功,可在全国范围内培训,传播网络资源存档的专业知识,推动网络资源存档实践的开展。由专业组织的保障和推广,WARC就能被广大存档人员所知、所用。
综上所述,WARC格式是整个网络资源归档生命周期的重要组成部分,WARC标准的认可度不高、推广艰难,一定程度上也反映了国内不重视网络资源长期保存。推行WARC格式,旨在加速数字资源长期保存的进程,要想成功推动WARC标准的实施,必然要网络资源存档得到发展,所以说WARC标准推动不是独立事件,而是一个系统工程,需要多方配合推进。
(来稿时间:2018年9月)