Web Archive保存研究:现状、意义与发展策略
2009-11-30周林兴
周林兴
摘要:分析了WebArchive保存问题的国内外研究现状,阐述了研究的意义并提出了相应的发展策略。
关键词:Web Archive;现状;意义;发展策略
类似经历应该不会感到陌生:打开一个URL,网页上显示——The pase can-not be found或The Servicc Invalid.ablc。巨量的web Anhive在不断地增加的同时,一边也在不断地消失,按照Ntoulas等人的研究,网页每周以8%的速度在更新之中,即每周大约有3.2亿个新网页产生,数据量相当于3.8TB,网页之间的链接关系也在不断地发生着变化,每周大约新产生25%的新链接:而根据另一项研究r2)则表明,一个Web Archive的平均寿命只有44天。
Web Archive作为全球最大的信息资源库,存在着大量对文化遗产、学术研究、社会经济与政治具有重要价值的信息,但其产生的“自发性”与存在的“流逝性”的双重特点,使其成为一种珍贵而又脆弱的信息资源。而设置各种馆库选派专人进行管理各个时期所形成的档案信息资源,这是人类自古以来就形成的惯例,在网络环境下也不例外。因此,如何保存并让其成为后世不可缺少的智慧遗产,就成为当今人类社会信息管理中越来越重要的课题与研究领域。
1研究现状
1996年,互联网档案馆(The Internet Archive)产生,标志着人类对web Archive保存研究的开始,它是一个非赢利性的WebArchive数据库,面向全球用户,免费、公开其收集的全部WebArchive信息资料;同年,澳大利亚国家图书馆开展了名为PANDO-RA项目,其主要是保存该国的在线出版物:同年,瑞典成立了Kulturarw3的web信息资源采集项目;2000年,美国国会图书馆提出了NDIIPP计划,webArchive作为其六个收集范围中的主要组成部分;2003年,由12个成员机构发起的国际网络保存联盟IIPC正式成立,其成立的目标就是:保存来自全球的web Archivc内容,使其能够持续地提供访问。到2008年,该联盟已吸纳了37个成员机构,其中也包括亚洲的日本。各种相关项目还在不断地出现,其研究的内容与深度在不断地拓展,并且,已开始将成果转化到实际应用和商业化操作的服务模式,如Hanzo Archive公司提供为企业级存档服务以及商业化服务应用(Archive-it)。
相对于国外而言,我国的研究要晚些,中国“Web信息博物馆”自2002年1月18日第一次搜集以来,已保存了30多亿页的中文Web资源:国家图书馆“网络信息采集与保存”项目,保存了自2003年以来.cn域名下的网站和所有中文网站的Web信息。
2研究意义
网站已经成为机构在网络空间开展业务活动的主要平台,根据CNNIC2008年发布的《中国互联网络发展状况统计报告》,中国网站数量已达到1919000个。WebArchive中存在着大量的具有原始记录性的信息资源,其对于组织机构本身与社会来说都具有保存的意义。
2.1Web Archive保存是网站复原的保障。网站复原也就是使保存起来的网页内容以原来的样貌呈现给用户,这其中包括其链接。比如,现在您想看看2000年时的新浪网站是个什么样子,上面有哪些信息?那么它将完整地展现在您的眼前,就犹如在访问原始网站一样。在这个意义层面,百度做得比较成功,它考虑到某些网站提供的信息可能由于内容更新或更换URL地址而无法显示,百度将搜索到的绝大部分内容都存放在自己的cache.baidu.com中,即百度快照,当原始的链接无效时,用户可以通过它查找到相应的信息,从而满足用户的信息需求。
2.2Web Archive保存保证了社会记忆的完整性,网页信息资源同样也是社会活动中直接形成的原始性信息记录,就如同我们所有的社会活动形成的原始记录一样,它准确地反映了我们的社会现实,如网络日志、博客(Blog),等等,它就犹如传统意义上的日志一样,成为个体的社会关系、日常活动等各种资源的汇聚节点。在网络环境下信息来源、自主跟踪关键字,以“自我”为中心,把最快、最高价值的信息聚合起来,实现所有互联网信息的“一站式”阅读体验,这种全新的社会记忆方式,充分反映了信息技术发展给人们间交流带来的便利。另一方面,对于组织机构来说,网页信息是组织机构业务活动过程的最直接证明。对于整个社会来说,网页信息更是构成社会记忆不可缺少的组成部分,是沟通历史的桥梁。数字文化遗产概念的兴起其实也是充分地反映了人们对这个问题的重要性有了进一步的认识。
2.3Web Archive保存是研究Web及相关技术发展的最有力证据。Web技术的发展经历了从静态文档到动态网页,再到Web2.0时代,网页URL的后缀从,htm、.html、.shtml、.xml等静态网页的常见形式,到以.asp、.jsp、.php、.perl、.cRi等为后缀的形式,再到以Blog、TAG、SNS、RSS、wiki等社会软件的应用为核心,依据六度分隔①、xml、ajax等新理论和技术实现的互联网新一代模式。我们可以通过分析与查看保存完整的WebArchive来分析Web及相关技术的发展,而且还可以通过了解相关技术的使用时间、版本信息从而来分析、追踪相关技术的使用范围与生命周期。通过跟踪文件格式、相关标准等来分析某项技术的使用程度,以后决定某项技术是继续使用还是淘汰。
总之,每个用户都可以在开放的网站上通过简单的浏览器操作而拥有他们自己的数据,人们可以更加方便地进行信息获取、发布、共享以及沟通交流和群组讨论等。每个人都成为新闻或者观点的发布人,通过各种手段,如Tag、关联、链接等,网站能够以最大限度展示个人的作用,进而激发个人的积极性,人们成为Web上社会的人,Web也有了社会性,成为社会化网络。从这里可以看出,关注Web Archive的研究,也是与时下关注民生档案研究的方向是一致的、相吻合的。
3发展策略
3.1明确web Archive的保存责任。Fahrenheit认为“我们想做的一切就是保护我们认为我们以后还需要的知识的完整和安全”,保存Web Archive的意义就犹如我们传统时期保存档案的作用一样是为了保证这个社会记忆的完整。在
过去,这项工作基本是由档案部门来完成,但在当今,层出不穷的新类型的信息,特别是巨量的Web Archive信息资源已经超出了档案部门的保存能力,如果仅仅依靠档案部门单独的力量,这肯定是一个无法完成的使命,因为Web Archive信息的来源渠道实在是太多,有政府、商业企业、研究机构、教育机构、社会组织等形成的各种社会团体以及网络上海个普通的社会成员,而且信息内容从高质量的权威研究信息到数字化的图书报刊、从社会时事到小道消息、从学习资源到娱乐资源应有尽有。Web Archive信息的这种社会化特点,自然也就决定了在网络时代,传统的信息保存机构如图书馆、档案馆已经不能单独承担Web Archive信息资源长期保存这项长期并且艰巨的任务。因此在数字时代,传统的信息生产、流通、保存截然分开的分工机制正在被打破,保存主体必然要求重新定义。当然保存WebArchive的重责依然要由档案馆与图书馆来承担,它们应该承担起作为保存那些具有全国意义的、具有研究价值的、对国家主权认定有帮助的需要长期保存的WebArchive资源的主体责任:而对于那些只具有一般意义的webArchive资源可以由形成者负最初保存或短期保存责任:出于经济利益的考虑,商业类网站也应该对某些Web Archive信息资源负保存责任,如前面所述的百度就是一个典型的案例;最后,我们也应该鼓励个人出于公益的目的承担起保存Web Archive的责任,如一个名叫A.D.Williams的美国人所收集与保存的与“9·11事件”相关的Web Archive资料甚至比很多专业机构收集的还齐全。
3.2明确Web Archive的保存范围。由于互联网网页有着海量的信息,不但有书籍和文档等文本文件。也有电影、动画片、演讲等视频文件,还有音乐、录音、广播节目等音频文件以及隐蔽网中的数据库文件。等等。对于这些网页信息,我们是不是全部把它们作为Web Archive来保存与处理,这个问题应该有待考虑,因为单靠目前我们的技术、设备与资金都是无法做到的。在对待那些网页信息应该作为Web Arehive保存起来,我们可以考虑参考传统时期的归档原则,在传统时期我们也不是有文必档,而是有所选择。因此,我们在选择网页信息采集时可以采用选择性采集方法,即采集那些对我国人民、国家与社会具有重要重大意义的网页作为我们的保存目标,具体内容可以从政治、社会文化、社会经济、健康到艺术、人文等方面。在具体操作方式上,我们可以采用“以网站为单位进行保存,同一个网站的所有网站文件保存在一起构成该网站的全宗,网页与网页之间的链接关系和网页与程序文件的依附关系也不能被破坏”。但由于网页信息数量巨大且内容重复率高、更新频繁,这种方式在保存时会碰到好多问题。另一种操作方式是以主题或事件的形式来保存,即基于主题事件为专题来进行保存,如针对“9·11事件”、非典、北京奥运会等重要专题来确定Web Archivc的保存范围,这种方式更具有操作性,缺点就是完整上会受到影响,但从目前的实际情况来讲,它更具可行性。
3.3明确Web Archive保存的政策法律。到目前为止,除了挪威、丹麦等少数国家明确制定法律规定Web Archive信息资源纳入到呈缴法中外,世界上大部分国家都还没有制定政策法律来规范如何对Web Archive信息资源进行保存。因此,在没有法律保障的前提条件下,如何解决Web Archive著作权问题、编辑权问题、采集权问题、隐私权问题、公布权问题等相关法律问题将是一项耗时、费力的工作。
这些问题不解决,要想做好Web Archive的保存工作是不现实的。因此,制定相关的政策法律必须提上日程。
3.4配置合理的档案人员。合理的档案人员的配置包括两个层面:人员数量与人员知识结构。因为无论信息以什么样的形式出现,即不管是传统的形式还是Web Archive的形式出现,信息组织的关键就是深入分析信息与人可能产生的各种关联,实质上是对各种信息关系的分析,这种关系包括人与信息、信息与信息、人与人之间的关系。只有有效地把握了关系,并依此理解来建立信息组织模式,信息才能被有效地利用与保存。而且在对这些网页信息进行采集与质量控制时,都对档案人员提出了更高的要求。因此,我们在为WebArchive制定保存方式时一定要依据自身的人员数量及人员知识结构来选择适合的策略。
Web Archive保存是一个复杂且人力、物力耗费巨大的工作,其成本不仅有采集成本还有维护成本,对于人员的素质、法律的完善要求都非常高,而且对于WebArchive信息质量的控制也是非常重要的,因为只有高质量的WebArchive信息才能真正达到保存的目的。
(作者单位:南昌大学历史系来稿日期:2009-06-19)