APP下载

全球网页存档项目发展状况研究:以国际互联网保存联盟(IIPC)成员为例

2016-05-16闫晓创新华社办公厅

浙江档案 2016年8期
关键词:检索

闫晓创/新华社办公厅

网页存档(Web Archive,下简称WA)是对互联网上的信息资源进行收集、保存并确保其能被长期安全使用的活动。2003年7月,美国、加拿大、英国、法国等国家的十几个机构联合成立了国际互联网保存联盟(以下简称IIPC)[1],目前该联盟已拥有超过40个成员机构,这些机构涵盖世界上著名的图书馆、档案馆、大学、非营利组织以及商业服务供应商,成员机构的多元化极大地促进了国际上关于网页存档的合作和交流共享。IIPC还在结构、元数据、标准规范等诸多方面建立了一系列技术规范,并资助成员机构开发能够实现网络资源采集、管理、存储、利用等功能的高质量、具有较高易用性的开源性软件工具[2]。

1 IIPC成员基本情况分析

IIPC的成员包含了目前世界上绝大多数在WA领域具有极高研究水平的机构。这些成员机构共有32个,分布在世界各个大洲,其中亚洲2个、非洲1个、欧洲20个、大洋洲2个、北美洲7个,成员机构主要WA项目及基本情况如表1。

表1 IIPC成员及其WA项目基本情况

国家 负责机构 开始时间存档语言 获取方式 收割方式西班牙 加泰罗尼亚图书馆 2005加泰罗尼亚语、西班牙语、英语URL检索、关键词检索、字母顺序浏览、主题浏览、热门搜集区域内域名收割、大量收割、选择收割、事件收割、主题收割法国 法国国家图书馆 2002 法语URL检索、关键词检索、全文检索、热门搜集全国域名内收割、大量收割、选择性收割、事件收割、主题收割法国 法国国家图书馆 2009 法语URL检索、关键词检索、字母顺序浏览、主题浏览、热门搜集选择性收割、主题收割爱沙尼亚爱沙尼亚国家图书馆2010爱沙尼亚语URL检索、关键词检索、局部浏览选择性收割、事件收割、主题收割克罗地亚克罗地亚国家图书馆2004克罗地亚语、英语URL检索、关键词检索、高级检索、字母顺序浏览、主题浏览选择性收割、全国域名内收割、主题收割荷兰 互联网记忆基金会2005英语URL检索、关键词检索全国域名内收割、选择性收割、事件收割冰岛 冰岛国家和大学图书馆1996冰岛语、少量英语URL检索全国域名内收割、选择性收割、事件收割芬兰 芬兰国家图书馆 2006芬兰语、瑞典语、英语URL检索、全文检索全国域名内收割、区域内域名收割、事件收割、主题收割瑞典 瑞典国家图书馆 1997 瑞典语 URL检索全国域名内收割、大量收割、选择性收割丹麦丹麦皇家图书馆、奥胡斯州和大学图书馆2005丹麦语、英语 URL检索全国域名内收割、大量收割、选择收割、事件收割挪威 挪威国家图书馆2001挪威语关键词检索全国域名内收割、事件收割斯洛文尼亚斯洛文尼亚国家和大学图书馆2007斯洛文尼亚语URL检索、字母顺序浏览、全文检索选择收割、事件收割英国 英国国家档案馆 1996 英语U R L检索、全文检索、字母顺序浏览、主题浏览、热门搜集选择性收割、事件收割、主题收割英国 英国国家图书馆 2005 英语URL检索、字母顺序浏览、全文检索、主题浏览选择性收割、事件收割、主题收割荷兰 荷兰国家图书馆2007荷兰语URL检索、字母顺序浏览、全文检索选择收割捷克 捷克国家图书馆2000捷克语URL检索、主题浏览全国域名内收割、事件收割奥地利 奥地利国家图书馆 2008 德语 URL检索、热门搜集全国域名内收割、大量收割、选择收割、事件收割、主题收割瑞士 瑞士国家图书馆 2008德语、法语、意大利语、英语URL检索、关键词检索、全文检索、主题浏览、热门搜集选择性收割、事件收割、主题收割拉脱维亚拉脱维亚国家图书馆 2005拉脱维亚语、俄语、英语URL检索、关键词检索、热门搜集选择性收割、事件收割、主题收割新西兰 新西兰国家图书馆 1999 英语URL检索、关键词检索、字母顺序浏览、主题浏览选择收割澳大利亚澳大利亚国家图书馆 1996 英语URL检索、关键词检索、字母顺序浏览、主题浏览、全文检索选择收割、事件收割

国家 负责机构 开始时间存档语言 获取方式 收割方式韩国 韩国国家图书馆2005韩语URL检索、关键词检索、主题浏览选择收割日本 日本国会图书馆2002日语关键词检索、全文检索、热门搜集大量收割、选择收割埃及 亚历山大图书馆 1996 英语 URL检索 大量收割

2 IIPC成员开发的WA工具和软件分析

目前全球范围内IIPC成员开发的WA工具和软件的功能涵盖了网络资源采集、保存、检索、利用这几个方面,是比价成熟的开源软件。表2从软件名称、简要情况说明、开发情况等进行了较为详细的说明。

表2 IIPC成员开发的WA应用软件[3]

JHOVE2开源的格式描述工具,主要用于描述ARC、WARC和GZIP等格式加利福尼亚数字图书馆、斯坦福大学图书馆、法国国家图书馆及NETARKIVET.DK MediaWiki Memento Extension存储和保管(Collection storage and maintenance)用于MediWiki的插件,它支持用户找到过去某一时刻MediWiki 所呈现的内容美国奥多明尼昂大学和美国洛斯阿拉莫斯国家实验室Site Story针对事务性文件的存档工具,该工具可选择性地获取和存储分别对应在web浏览器和服务器中的内容美国洛斯阿拉莫斯国家实验室WebArchive Transformation(WAT) Format用于网络资源存档的格式 互联网档案馆(Internet Archive)WebArchive Transformation(WAT) Utilities用于从WARC格式的文件中提取元数据进行数据分析的数据集互联网档案馆(Internet Archive)WarcManager 用于检索WARC格式文件内容的工具 美国马里兰大学WARC Tools用于读取和操作WARC格式文件,并将ARC格式文件转化为WARC格式的工具集美国半藏档案公司和互联网档案馆( Internet Archive)TimeTravel Portal通过输入原始的URL、时间等来查找存档网络资源的检索入口L y u d m i l a B a l a k i r e v a,HariharShankar,Ilya Kremer,Herbert Van de Sompel Time Travel APIs用于降低检索存档网络资源时所遇到的障碍并实现对存档网络资源自由利用的APIs Lyudmila Balakireva,Harihar Shankar, Herbert Van de Sompel Memento Time Travel chrome的扩展程序,它支持网站的时间浏览,并能够规避死链接。该程序使用Memento协议,发现分布式网络档案资源,以此方式规避死链接Harihar Shankar NutchWAX(Nutch with WA eXtensions)获取和检索工具(Access and finding aids)利用Nutch搜索引擎和扩展程序来检索网络资源的工具互联网档案馆(Internet Archive)和北欧国家图书馆联盟WERA (WEbaRchive Access)网页存档的搜索和导航应用程序,利用NWA工具集进行构建,可通过一个网络归档程序进行网页存档并且允许全文检索互联网档案馆(Internet Archive)和挪威国家图书馆Wayback Machine ARC或WARC格式的网络存档资源回放工具,允许对网络存档资源进行临时浏览互联网档案馆(Internet Archive)Xinq (XML INQuire)用于XML数据库检索和浏览的工具 澳大利亚国家图书馆

2.1 IIPC成员开发WA工具

采集获取工具。从功能角度看,采集工具中的Heritrix支持复杂的爬行定义和过滤,具有丰富的可配置功能,如抓取频率可设置为每天、每周、每月等。它采用广度优先算法,用来抓取完整的、精确的站点内容,并进行深度复制;在重新抓取相同的URL时,不删除之前的版本,实现多个版本的同时保存。从开发角度看,该应用程序采用模块化设计,用户可以在运行时选择适用的模块。Heritrix由核心类和插件模块构成,核心类可以配置,但不能被覆盖;插件模块可以由第三方模块取代,所以用户可以用第三方模块来取代默认的插件模块,满足个性化需要。其他几个采集工具在不同的机构也都有相应应用。该软件适合大规模的网络存档。目前北欧国家图书馆联盟采用该采集工具,并取得较好成果。

采集管理工具。IIPC提供的采集相关的工具包括Building Collections on the Web(BCWeb)、CINCH、Net archive Suite、WebCurator Tool(WCT)。其中BCWeb是一个允许图书管理员来定义选择性收割(正在进行的和主题事件)的管理工具,主要由法国国家图书馆负责运营和维护。Net archive Suite和WCT都是通过底层调用Heritrix进行资源采集的,其中Net archive Suite是一个可以让图书管理员定义和控制网络材料收割的管理工具,支持主题采集、选择性采集和国家顶级域名采集;WCT主要用于实现选择性采集,支持图书馆和其他收藏机构管理web收割过程,并且支持非技术用户对收割过程实现完全控制。

存储保管工具。在存储和保管工具方面,IIPC提供了HTTrack2ARC、Java Web Archive Toolkit(JWAT)、Site Story、WARC Tools等9个相关的工具。这些工具主要用于对采集的数据进行格式转换、内容抽取、内容识别验证。数据的封装有AFF、ARC、WARCIP等格式,各种格式几期特点如表3。其中WARC格式是运用较为广泛的存档格式,它在平台独立性、易用性、支持更新、标准化、开发性等八个方面均占优势,更适合对网络资源进行长久保存。

表3 数据封装的格式与特点

获取检索工具。IIPC提供的获取检索工具主要有Time Travel Portal、NutchWAX(Nutch with WA eXtensions)、Wayback Machine等,其中使用最广泛的为Wayback Machine。该工具主要由IA研发,集索引、摘要、呈现等多种功能于一体,可实现WARC文档的增量索引,并提供基于URL的检索访问WA资源的服务。

2.2 IIPC成员所开发工具和软件的特点

开源性。这些软件都具有良好的开源性,在互联网上可以获取这些软件,并且可以结合实际做多次开发,以适应自身情况。WA项目中各环节的开源软件均可在开源网站Source Forge上找到[4],并且可以找到同一个功能软件的若干版本。

功能齐全。IIPC成员所开发出来的软件包含了WA项目的各个环节,这些环节包括了资源的获取、管理、存储和保管、获取和检索等,各个环节都有配套软件程序来实现相关功能。

3 IIPC成员进行WA项目研究的情况分析

3.1 IIPC成员在WA项目研究上取得的成果

IIPC在WA项目的发展中做出了相当重要的贡献。具体来说,IIPC作为国际组织,为相关发展WA项目的机构提供了一个平台,各个机构在此平台开展充分的交流和协作,从而极大地促进了WA项目的发展。IIPC针对WA项目的各个环节成立不同的协作组,并针对相关难题进行公关,同时资助项目成员开展新的研究项目。IIPC成员针对WA项目的采集、管理、存储、利用等环节开发了大量的软件,这些软件基本都为开源性,各个成员可以针对自身的实际情况进行个性化调整。

互联网档案馆(Internet Archive,下简称IA)是IIPC的代表性成员,它作为一个全球性的非营利组织,在WA领域中的发展较为深入,是IIPC成员中唯一个面向全球网页进行选择性采集、存档的机构[5]。IA作为一个非营利性的公益组织,它的发展较为全面、深入,对其他国家、机构发展WA具有很强的引领和指导作用,如为方便较小的组织机构开展WA项目,IA开发了ARCHVIE-IT软件,仅需通过简易的设置,就可对一定范围内需要存档的网页进行相关操作[6]。

3.2 IIPC成员进行WA项目研究的价值分析

WA项目的价值会随着时间变迁显得越来越重要,未来的世界必定是互联网高度繁荣的世界,WA项目在互联网上进行存档以备未来查考,因为通过互联网查阅相关资料,将会是未来查考历史的主要手段,这正是互联网时代发展的必然结果。较之于传统的史料,WA项目可更为真切地反映历史事件,且通过WA项目我们可以在未来的任何一个时刻更为全面地了解一个重要历史事件,以及这一事件的前因后果。此外,IIPC的成员机构为图书馆、博物馆以及高校等,它们通过发展WA项目,能够实现对现有业务的补充与完善。

3.3 IIPC成员进行WA项目研究的特点

合作性。中国互联网信息中心(CNNIC)发布的《第36次中国互联网发展状况统计报告》显示,截至2015年6月,中国的网站总数为357万个;国家在线数据统计网站于2014年9月16日更新的数据显示,全球互联网网站数量已经超过10亿,且仍在急速增长。面对如此庞大的数据资源,仅仅依靠某个机构的力量完成历史记忆记录,显然是不可能的。必须加强国家之间、机构之间的密切协作,成立专门的协调组织来完成此项工作。IIPC作为一个国际范围内的互联网保存联盟,对于推动相关机构间的国际合作起到了非常重要的作用,如,IIPC的成员机构针对Web Archive项目的各个环节成立了若干工作组,包括标准组、收割组、获取组、保存组、结构组、研究人员需求组、获取工具组、内容管理组、深层网页组、度量和测试平台组、互操作性工作组,等等。这些工作组针对所负责的领域进行深入探讨研究,极大推动了世界范围内WA项目的发展[7]。

开放性。网络的一个最大、最明显的特征就是自由(在相应的法律规范之下)与多元,这样的特性能够便于成员机构对接工作、开展研究。

技术性。WA项目具有较强的技术性,项目中网页资源的采集、网页资源的保存、网页资源的查找、网页资源的深层次开发等都会牵涉到非常多的技术问题。如WA项目的存档策略在各个项目之间有不同的实现方式,IA是基于外部索引的压缩存档,PANDORA是基于多文件服务的存档,NWA(瑞典、芬兰、冰岛、挪威四国合作的web资源存档项目)是基于格式迁移的存档,ERA(美国国家档案馆开展的一项对电子记录进行保存和访问的研究项目)是基于特征抽取的存档等。其他如WA的采集流程、检索利用等也都有很强的技术性。

公益性。WA项目是功在当代、利在千秋的事业,正是由于其公益性且实践工作耗资巨大,因此在国内该项目的进展非常缓慢,进行项目研究的只有几家公共单位。在国外,该项目由于拥有资金扶持,加之公众具有较强的资源保存与开发利用意识,因此进展速度较快。如,Internet Archive作为一个非营利组织,它依靠捐款开展研究工作,从1996年至今它已近保存了超过1600亿个网页资源,为人类留下了宝贵财富。

4 IIPC成员开展WA项目研究对我国发展WA项目的启示

4.1 进一步强化理论研究并突出重点主题

WA项目研究主题非常丰富,包括存档技术、系统、工作流程、法律规范、人员、组织、项目评价等,其中法律规范、人员、组织与项目评价的相关研究成果最能体现一国或地区的特色,不容忽视。目前,国内关于WA项目的研究尚处于初级阶段,国内的研究大部分局限于对国外研究的浅层次介绍和分析,很少有对WA相关的技术、法律等问题进行深入讨论的。因此,我们要进一步强化理论研究,并且突出研究主题。

4.2 将网络存档纳入国家战略

如何存储和保存海量的网络资源,需要从国家层面加以统筹考虑。网络存档是一个功在当代、利在千秋的伟大事业,我国需要尽早将这项工作纳入国家战略之中。建议国家成立相应的机构负责统筹工作开展,可参照设置国家电子文件管理部际联席会议办公室管理电子文件[8]的模式,成立国家层面的机构负责网络存档工作。此外,还要加强国内图书馆、档案馆、博物馆等单位的沟通与合作。

4.3 建立我国网络资源存储联盟

目前,国内对于网络资源存储的研究较为分散,亟需建立一个联盟性质的机构把相关机构单位统一起来,实现优势互补与资源的合理利用,不断提升研究水平。国内WA项目做得较好的国家图书馆、北京大学、中科院文献情报中心等,可联合起来建立联盟,并吸引国内其他有兴趣、有实力的机构参与进来,共同推动WA项目的开展。在此基础上,可建立工作试点单位,试点单位应从联盟内部进行挑选,优先选择工作起步早、工作基础扎实、立足工作前沿的单位进行试点,开展试点工作时注意总结经验、发现问题,并及时推广试点经验,为早日实现全国范围内的网络资源存储做出贡献。

4.4 建立健全与网络资源保存相关的法律法规

目前,国内对于网络资源归档的工作仅限于学术研究领域,政府并未出台相应的法律法规。随着网络存档实践的不断发展,必须建立健全相关的法律法规,规范网络资源保存的相关内容。制定法律法规应当循序渐进,要充分借鉴相关行业的工作做法,如参照图书馆领域的呈缴本制度、考察网络资源的版权保护问题,还要主动学习国外的相关做法,确保法律法规的完备与齐全。

注释与参考文献:

[1]IIPC [EB/OL]. [2015-12-05]. http://netpreserve.org/.

[2]张松岩.以IIPC为中心的全球Web Archvie项目研究[J].数字与缩微影像.2011(3):36-38.

[3]Tools and Software[EB/OL]. [2015-12-05].http://netpre-serve.org/Web-archiving/tools-andsoftware.

[4]S O U R C E F O R G E.h t t p s://sourceforge.net/projects/archive-crawler/?s ource=directory[EB/OL].[2016-2-15].

[5]InternetArchive[EB/OL].[2015-12-05].http://www.interne-tarchive.org/.

[6]About the Internet Archive [EB / OL].[2015-12-28].http : / /archive.org / about /.

[7]林颖,吴振新,张智雄.Web Archive存档策略分析[J].现代图书情报.技术.2009(1):16-21.

[8]闫晓创.国外Web Archive项目对我国的借鉴和启示——以澳大利亚的PANDORA项目为例[J].档案学研究.2012(5):79-83.

猜你喜欢

检索
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
护理科研中的文献检索概述测试题(单选题)
英国知识产权局商标数据库信息检索
浅议专利检索质量的提升
基于黎曼流形稀疏编码的图像检索算法
基于提高查新员检索效率的PubMed检索案例分析