浅析国外网页档案实践及其对我国的启示
2020-07-29张林华徐维晨
张林华 徐维晨
摘要:互联网不断发展的今天,网页已经成为重要的数字档案资源,对网页进行合理的歸档利用具有重要意义。文章通过对国外网页档案实践进行调查,了解其法律规章环境营造的同时,将其实践流程归纳为网页档案采集、整理、利用三个方面,并对此进行探讨。最后从完善法规、主体合作、立足用户、打造平台四个方面提出对我国的启示,以期我国网页档案实践得到更好的发展。
关键词:国外网页档案实践;政策环境;实践流程
分类号:G279
The Practice of Foreign Webpage Archives and Its Inspirations to China
Zhang Linhua, Xu Weichen
(Department of Library, Information and Archives of Shanghai University, Shanghai, 200444)
Abstract:With the continuous development of the Internet, webpages have become an important digital archive resource, and it is of great significance to archive and utilize webpages reasonably. Through the investigation of the practice of foreign Webpage archives, we can understand the policy environment deeply, and at the same time, we can summarizes its practice process into three aspects of Webpages archives collection, collation and utilization, and discusses this. Finally, from four aspects of improving policy, keeping the main body cooperation, basing on users and building a platform, this paper puts forward the enlightenment to our country, in order to develop the practice of webpage archives in our country better.
Keywords:PracticeofForeignWebpageArchives;PolicyEnvironment; PracticeProcess
网页归档是由美国互联网档案馆(Internet Archive,以下简称IA)在1996年发起的[1]。网页是社会组织或个人在社会实践活动中直接形成的文字、图像、音频视频等多媒体数字信息,是对以往社会活动的清晰、确定的原始记录,具有鲜明的原始记录性和凭证价值,将网页纳入归档范围,是数字档案馆建设的重要范畴[2]。
当前,在我国档案界,有关网页档案实践的研究主要集中以下几个方面:第一,国外网页归档具体案例研究。主要包括美国[3-6]、英国[7-8]、法国[9]、加拿大[10]等国家的网页归档项目。第二,项目对比研究。文振兴对比了东亚地区四个网页档案项目,为我国开展网页归档项目提供了借鉴[11];王静则从法律环境、参与单位、采集策略、网站分析了中美网页归档项目[12]。第三,网页归档对策研究。有的学者重点研究了网页档案的采集策略[13-14];有的学者提倡将云计算[15]、云存储[16]等技术应用于网页归档;黄新荣等人则从生态系统的视角提出了网页归档推进策略[17]。
在具体实践方面,我国有两大具有代表性的网页档案实践项目,一是由北京大学主持开发的Web信息博物馆项目,二是由国家图书馆主导的WICP项目。在档案界, 2018年,北京市档案局、宁波市档案局、自然资源部信息中心、国家电网江苏电力公司4家单位的网站网页资源归档试点工作方案通过了国家档案局组织的专家评审,成为国家档案局网站网页资源归档试点单位[18]。2019年12月,国家档案局在其官方网站上公布了《政府网站网页归档指南》,详细给出了网页归档范围及保管期限表[19]。
综上所述,我国档案界有关网页档案实践的研究较少,且大多集中于简单介绍国外的具体项目,而关于网页档案的具体实践也还处于探索阶段。鉴于此,本文通过分析国外网页档案实践的政策环境,对其实践流程进行划分,提出对我国的启示,以期我国网页档案实践得到优化和升级。
1国外网页档案实践的法律规章环境营造
网页档案实践活动的展开需要法律规章的支持和引导。良好的法律规章环境是保障网页档案资源得到有效的采集、共享利用的前提条件之一。由大英图书馆董事会经营的UK Web Archive(以下简称UKWA)项目遵循英国2003年颁布的《法定呈缴图书馆法》,将现行的呈缴范围扩大到了电子出版物,其中包括网站。此外,进一步遵循2013年颁布的《呈缴图书馆(非印刷作品)条例》,该条例规定六个法定图书馆有权收集所有的英国网站,但所收集的网站在获得许可之后,才能在图书馆内查看[20]。在服务方面,大英图书馆遵循专门的网络服务条款,来自英国各地的精选网站必须依据该条款提供给用户使用。针对网页档案资源,该条款对利用者的利用行为进行了限定,明令禁止利用者出于商业目的利用网页档案,同时对自身的权限也进行了明确规定[21]。苏格兰的National Records of Scotland(以下简称NRS)成立于2011年4月1日,是在苏格兰总登记处(GROS)和苏格兰国家档案馆(NAS)合并后成立的,目的是收集、保存有关苏格兰人民和历史的记录,并使之能够为后代提供利用[22]。其开展了Web连续性服务项目,网页的归档利用是其中一部分。NRS依据1937年、2011年的《公共记录(苏格兰)法》、2007年的《查询(苏格兰)规则》等法律来保障其服务的有序开展,该项目制定了专门的《采集指南》,指南中明确了存档网站的范围和类型[23]。
2国外网页档案实践流程分析
笔者通过梳理國外关于网页档案的实践项目,发现其网页档案实践流程可划分为三部分:网页档案采集、网页档案整理、网页档案利用。
2.1网页档案采集
网页档案采集工作就是通过各种方法对具有保存价值的网页资源进行收集与归档,以备利用。网页档案采集主要涉及三个方面:采集范围、采集频率和采集工具。
(1)采集范围
网页档案的采集有不同的采集策略,不同的采集策略决定了不同的采集范围,可分为完整型采集、选择型采集以及混合型采集[24]。
完整型采集是对特定网域的全域进行自动化采集,采集范围广、内容多。美国的IA宗旨是保存互联网的全面记录,对全球公开的网站进行定期采集。每两个月,网站页面快照都会被互联网存档,自IA项目启动以来,互联网存档已经存储了2730亿个网页[25]。
选择型采集是有针对性地捕获特定的网站,通常是根据事件、主题进行选择采集,采集范围小,需要借助人力。例如,澳大利亚的PANDORA项目只采集与澳大利亚相关,且具有文化意义的网站[26];美国国会图书馆的Library of Congress Web Archives(以下简称LCWA)项目,重点采集与国家利益主题相关的网页资源,包括美国选举、伊拉克战争和911事件[27];苏格兰的NRS网页档案项目,事先制定指南,根据指南采集其范围内组织创建和拥有的网站,包括苏格兰政府、苏格兰议会、苏格兰法院等[28]。
混合型采集是将两种策略相结合,先大范围地对网站进行完整采集,再有重点地针对某些特定的网站进行深度、频繁的选择性采集。英国的UKWA项目,首先爬网内容是在英国发布的网站,如那些在英国顶级域名上的网站.uk、.cymru和. scot,以及可以手动识别出在英国发布的网站,再由工作人员定期关注、收集有关特定事件、主题或兴趣领域的网站[29]。
(2)采集频率及采集工具
采集频率的确定需要考虑网站的更新速度和网页内容的重要程度,一般认为自动获取每半年采集一次比较合适[30]。“对于更新频率高的网站要提高采集频率,如新闻网页、社交媒体网络;对于更新频率较低的且信息量稳定的网站可以延长采集频率,如机构的官方网站。”[31]采集频率的高低还与采集范围的确定密切相关。完整型采集范围广、内容多、耗费时间长,因此采集频率较低;选择型采集范围小、内容少,因此采集频率相对较高。英国的UKWA项目每年至少完成一次对英国所有网站的自动收集任务,但是对一些重要的网站(通常是新闻网站)会进行更频繁的采集活动,有时甚至一天一采集。
在采集工具的选择上面,大部分网页档案项目都会运用到网络爬虫技术,在此基础上设计的Heritrix和HTTrack是使用较多的两种采集工具[32]。
2.2网页档案整理
相对简单的整理方法是根据网站标题的首字母从A到Z的顺序排列,苏格兰的NRS项目网站按照这种方法整理网页,之后再就是按照采取时间排列[33]。除此之外还有其他整理方法:
(1)按主题整理
大部分网页档案采集完毕后,为了方便用户利用,会按网站的主题进行整理。例如,英国UKWA项目网站上的“Topics and Themes”[34]板块汇集了100多个网站集合,按照各个网站的主题将其分门别类。在“19世纪英国文学”的主题下汇集了与19世纪英国文学和文学人物有关的网页资源,收藏包括专门介绍作家协会的网站,主要文学活动、周年纪念活动和其他新闻报道性、转发性、介绍性网站,博物馆和粉丝网站以及学术网站;在“脱欧”这个主题下包括了利益集团、企业和工会、新闻机构、慈善机构、政治家、金融组织的网站。此外,还有单独的集合网站涉及脱欧对苏格兰、威尔士、北爱尔兰和爱尔兰的影响。按照网站主题对所归档的网页进行分门别类,可满足不同类型用户的多样化需求。
(2)按所属机构整理
网页档案还可以按照网站归属机构进行整理,美国的LCWA项目的存储成果,包括国会的网页档案、立法机构的网页档案、国会法院图书馆的网页档案等[35]。
2.3网页档案利用
为了更好地发挥网页档案的价值,越来越多的国家由最开始关注网页的归档转向网页档案的利用,绝大多数网页档案项目提供在线公开访问和利用。美国的IA一开始只是进行数据存档,支持线下利用,后来打造了“Way Back Machine”,更注重用户的多样化需求,提供原始页面在线访问服务[36]。苏格兰的NRS项目依托网页存档提供Web连续性服务,该服务可以将用户从其活动网站的丢失页面带到NRS Web存档中,并在其中搜索丢失页面的最新存档版本。如果找到存档版本,则会直接向用户提供该版本,并显示页面是存档版本的横幅[37]。
网页档案项目还提供多种检索途径,主要有URL检索、目录检索/高级检索以及全文检索[38]。在NRS网站上,可以浏览A—Z索引以查找要查看的网站,也可以使用页面顶部的搜索栏按其URL搜索网站(或特定页面)。访问者单击任何存档的网站标题都将进入该网站的“索引”页,索引页列出了该特定网站的存档快照,按捕获日期排列。同时,还包括一个实时网站的链接,这个链接可以帮助用户获取网站的最新网页信息。
3对我国网页档案实践的启示
3.1完善法规,贯穿始终,保障项目运行
网页档案从采集到共享利用涉及诸多方面,需要完善的法律法规来保障其实践项目的有序开展。在网页档案采集方面,英国的UKWA项目遵循其法定呈缴法,划定了采集范围;苏格兰的NRS项目依据多部国家法律法规制定了自身的《采集指南》。在网页档案共享利用方面,大英图书馆依据其网络服务条款对网页档案利用者的行为进行了明确的限定,同时明确指出只有获得了网站所有者授权,才可将网页档案资源公开利用。
在网页档案实践方面,我国的法律法规还不健全。目前,在档案界具有针对性的法规是国家档案局于2019年12月16日发布的《政府网站网页归档指南》(DA/T80—2019),指南自2020年5月1日起实施。该指南引用了《电子文件归档与电子档案管理规范》(GB/ T18894—2016)、《电子文件存储与交换格式版式文件》(GB/T33190—2016)、《版式电子文件长期保存格式需求》(DA/T47—2009)[39]。“这些引用标准内容丰富、覆盖面广,涵盖电子文件格式、电子文件归档、电子档案管理、电子文件信息系统建设、电子档案信息系统建设等多个方面,围绕政府网站网页归档标准共同构成标准体系,体现出体系性。”[40]在具体内容方面,指南对网页档案、网页归档、网页归档功能模块术语进行了明确定义,规定了政府网页归档的总则,网页的归档范围和网页档案的保管期限,给出了网页归档收集、整理、移交接收以及网页归档功能模块建设的一般方法。该指南的发布为我国开展网页档案实践活动提供了有力的支持。依托指南,我国应尽快完善多种类型网站网页归档的相关政策,不仅限于政府网站。借鉴国外的相关经验,在网页档案采集方面,我国可依据当今的《中华人民共和国著作权法》对采集者权限进行具体规定,赋予采集者相应的合法权限,明确指定采集范围和采集种类,以确保后续活动的有效展开。在网页档案共享利用方面,针对不同类型的网页档案资源,对利用者的共享利用行为进行具体的限定,不同的网页档案实践项目可依托现今的法律法规,制定适合自身的标准规范。在法律法规不完善的情况下,项目的主要负责人应积极主动地与网站所有者进行沟通,通过签订协议、合同,来获取相关的网站所有权限,依法对网站进行采集和利用,为项目开展营造良好的法律环境。
3.2善于合作,多元主体协同推进实践开展
网页资源数量庞大,只有积极地开展合作才能有效地完成网页归档利用工作。国外开展网页档案实践项目的机构具有多元合作的特点,涵盖图书馆、档案馆、政府、个人等。例如,美国的IA为了全方位地收集互联网的记录,与其他国家的图书馆、档案馆、大学等机构联合成立了国际互联网保存联盟,极大地促进了国际上关于网页存档项目实践的合作和交流共享[41],有效地推動了其对全网范围内网页档案的采集工作;而前文所提到的UKWA项目,是由包含大英图书馆在内的十个成员合作开展的,其中英国国家档案馆也在其范围内,该项目成员各有侧重地完成网页档案采集工作[42]。
我国网页档案实践与国外相比,在项目主体多元合作方面有所欠缺。目前,已落实的两个主要网页档案实践项目均未有档案馆的参与,国家档案局开展的实践项目还处于试点阶段。网页档案作为重要的数字档案资源,理应作为档案馆工作的一部分。档案馆在长期的实践过程中累积了大量的档案收集、整理、利用经验,可为网页归档利用项目提供重要的理论和方法指导,其内部馆藏资源也可作为网页档案资源的补充信息配合使用[43]。因此,我国档案馆应积极主动地开展网页档案实践,把握机遇,借力现今国家档案局开展的网页归档试点工作,依托数字档案馆建设,有效发挥自身的优势,积极促成与政府、图书馆、高校等组织机构合作,充分利用人才、技术等资源,结合项目外包或者技术外包等形式协同推进项目的展开。
3.3立足用户,注重交互式体验,提升服务质量
为了更好地实现网页档案资源的价值,国外的实践活动非常注重用户的体验,尽可能为用户提供更为便捷的服务。各个项目都对所采集到的网页档案资源进行整理,并提供多种检索途径,用户只需简单操作便可找到自己想要的网页档案资源。苏格兰的NRS项目还依托所采集到的网页档案资源开展Web连续性服务,将存档的网页与实时网页相关联,极大地提升了网页档案资源的利用率,有效减少用户在访问实时网页时“404页未找到”或者网页丢失的现象,为互联网用户带来了更好的体验效果。此外,国外的一些项目还十分注重与用户的互动。英国的UKWA项目专门为用户开通了网站推荐渠道,民众可主动提供其认为应该存档的英国网站,借助公众的力量补充其网页档案采集范围。同时,该服务网站下设“Contact us”[44]板块,用户可以采用填表的形式将网页存档的一些问题及时反馈给工作人员。
我国网页档案资源在开发利用的过程中,也应做到以用户为中心,关注用户的利用感受。只有优质的利用服务,才能引起用户对网页档案资源的关注,提高网页档案的利用率,有效实现网页档案的价值。我国网页档案实践项目可以充分利用微博、微信公众号等社交媒体平台,与用户进行有效互动与沟通。例如,UKWA项目就开通了博客,主动推送一些与网页档案资源有关的博文,吸引用户关注,用户也可以在其博客上面发表评论,表达看法。
3.4打造平台,开放利用,有效发挥档案价值
国外大部分的网页档案在采集整理之后,都会通过其建设的服务平台公开地提供给用户使用。UKWA项目的服务网站由大英图书馆委员会监管,该平台承诺其展示的材料是合法的,如果访问者对网页档案中的任何材料有异议,可通过其开通的投诉渠道进行投诉。在使用其平台的过程中,访问者可以根据需要更改对比度级别和字体,既可放大到200%防止文本从屏幕溢出,也可只使用键盘或语音识别软件浏览大部分网站、使用屏幕阅读器收听大部分网站(包括Jaws、Nvda和Voiceover的最新版本)。使用者如果有技术上的问题可通过访问“Ability Net”来解决问题。此外,笔者发现其服务网站兼容性很强,用手机客户端打开时,能很好地适应屏幕。
一个有效的开放利用平台,是连通用户和网页档案资源的枢纽。我国在开展网页档案利用项目时,应积极主动地打造平台,充分利用互联网的优势,将可公开的网页档案资源通过合法渠道及时提供给用户利用。我国的Web信息博物馆,此前面向公众开通了服务网站,有效地开发了网页档案利用功能,广受好评,为今后我国网页归档利用实践活动打下了良好的基础。
4结语
随着互联网的深入发展,以及网上政务工作的持续开展,在网络活动中产生的大量网页将会成为我国重要的数字档案资源。而我国网页档案实践项目尚处在起步阶段,面对数量众多的网页档案资源,如何有效采集、管理和提供利用成了亟待解决的问题。国外网页档案实践项目的成功给了我们启示和参考,我们应该在吸收和借鉴国外成功经验的同时,结合本国国情,积极主动地探索出一条适合我国网页档案实践活动开展的有效路径,充分采集我国的网页档案,并立足用户提供相关网页档案共享服务,更好地发挥网页档案资源的价值。
*本文系国家社会科学基金项目“基于区域性远程服务实践的档案资源共享研究”(项目编号:15BTQ073)阶段性研究成果。
注释与参考文献
[1]Feise J. Accessing the History of the Web: A Web WayBack Machine, Berlin, Heidelberg, 2000[C]. Springer Berlin Heidelberg, 2000.
[2]毕云平,谢海洋.档案学视角下网页归档与保存研究综述[J].档案学研究,2015(4):74-78.
[3]张莉,颜祥林.美国网页归档项目发展的新动向——基于NDSA2016年和2017年调查报告的分析[J].档案与建设, 2019(10):39-42+33.
[4][35][38]曹玲,颜祥林.美国国会图书馆网页归档项目的新动向[J].档案学研究,2018(2):125-128.
[5]王烁,丁宇.美国网页归档项目Web Citation发展状况研究[J].档案,2012(4):42-44.
[6]王烁.美国网页归档项目——Internet Archive发展研究[J].兰台世界,2012(17):18-19.
[7]何玉颜.英国政府网页归档与开发的新实践及其启示[J].档案与建设,2018(9):22-25.
[8]王烁.英国国家图书馆网页归档项目(UK WA)研究[J].湖北档案,2012(4):25-27.
[9]王烁.法国国家图书馆网页归档项目发展状况研究[J].陕西档案,2012(3):46-47.
[10]王烁,丁宇.加拿大图书馆网页归档项目研究[J].档案学研究,2012(6):83-85.
[11]文振兴.东亚重要Web Archive项目建设比较研究[J].浙江档案,2013(12):22-25.
[12][43]王静.中美网页归档项目的对比研究[J].档案与建设,2015(7):19-23+14.
[13][31][32]周祺.网絡信息档案化采集管窥[J].档案, 2019(7):48-51.
[14]王烁,魏虹,于丽曼.网页归档项目中的“采集策略”研究[J].办公室业务,2013(3):157-158.
[15]黄新平.基于云计算的政府网站网页在线归档管理平台构建研究[J].北京档案,2019(12):16-20.
[16]徐飞,郑秋生,高艳霞.基于云存储的网页归档方案的研究[J].计算机时代,2017(4):21-24+28.
[17]黄新荣,曾萨.网页归档推进策略研究——基于网页归档生态系统视角[J].图书馆学研究,2018(16):63-70+16.
[18]国家档案局[EB/OL].[2020-03-17].http://www.saac.gov. cn/daj/daxxh/201807/b7ee27b2500a4a3cbda3c8cb5a787bda.shtml.
[19][39]国家档案局.政府网站网页归档指南(DA/T80—2019)[EB/OL][2020- 03- 17].http://www.saac.gov.cn/daj/hybz/ 201912/5e653e193bd747659d78783c8c4c8818.shtml.
[20][29]UK Web Archive[EB/OL].[2020-02-13].https:// www.webarchive.org.uk/.
[21]Websites and online services[EB/OL].[2020-02-13]. https://www.bl.uk/about-us/terms-and-conditions/websites-and-online-services.
[22][33]National Records of Scotland Web[EB/OL].[2020-02-05].http://webarchive.nrscotland.gov.uk/#!/.
[23][28]National Records of Scotland. Selection Policy for the National Records of Scotland Web Continuity Service[EB/ OL].[2020- 2- 13].https://www.nrscotland.gov.uk/files/research/ web-continuity-selection-policy.pdf.
[24]刘兰,吴振新,张智雄,徐麒.Web Archive的采集策略研究[J].现代图书情报技术,2009(1):10-15.
[25][26][27][36]Thouvenin F, Hettich P, Burkert H, et al. 4 Web Archives[M]//Remembering and Forgetting in the Digital Age. Cham: Springer International Publishing, 2018:84-101.
[30]杨道玲.Web资源采集与保存研究[D].武汉:武汉大学, 2005.
[34]Topics and Themes Topics and Themes[EB/OL].[2020-2-13]. https://www.webarchive.org.uk/en/ukwa/collection.
[37]National Records of Scotland. National Records of Scotland Web Continuity Service Model[EB/OL].[2020-2-13]. https://www.nrscotland.gov.uk/files//research/web- continuity- servicemodel.pdf.
[40]金凡.《政府网站网页归档指南》(DA/T80—2019)内容解读与思考[J].北京档案,2020(3):21-25.
[41]闫晓创.全球网页存档项目发展状况研究:以国际互联网保存联盟(IIPC)成员为例[J].浙江档案,2016(8):10-14.
[42]王烁,丁宇.网页归档项目重点问题研究[J].云南档案, 2012(8):42-43.
[44]Contact us[EB/OL].[2020-2-13].https://www.webarchive.org.uk/en/ukwa/Contact.