基于Web生命周期管理模型的美国网页归档项目政策分析
2022-03-11李彩容王熳莉
李彩容 王熳莉
摘要:科学有效的网页归档项目政策能够指导机构组织规范开展网页归档工作,促进实现网页信息的有序归档和长期保存。基于Web生命周期管理模型,以11个美国网页归档项目政策为样本,通过查阅政策文本分析美国网页归档项目政策的优势与不足,并对我国网页归档项目政策提出建议。分析结果显示,美国网页归档项目政策存在归档目标明确、重视前端控制、科学设置资源和工作流程、网页档案获取途径多样合理、综合使用保存策略、实施风险管理等优势,同时存在未主动跟踪用户检索利用情况、未深入开发利用网页档案和未全面开展质量分析等不足之处。基于以上分析,对我国网页归档项目政策提出了五点建议。
关键词:网页归档 项目政策 Web生命周期管理模型
美国是网页归档实践领域的领先者。2017年美国国家数字化管理联盟(Nationl Digital Stewardship Aliance,简称NDSA)的一份调查报告显示,在美国开展网页归档项目的组织中,高校占比61%。[1]分析美国网页归档项目的经验和教训,结合我国国情取长补短,可为我国开展网页归档项目提供建议。
国外学者自20世纪90年代开始研究网页归档项目,主要从国外高校和政府网页归档项目的法律法规[2]、资源挖掘[3]、归档政策[4]、和元数据[5]等方面进行研究。如Margaret E.Phillips和Paul Koerbin[6]介绍了澳大利亚网页档案PANDORA的筛选标准、采集技术、版权和呈缴问题、元数据、目录、项目员工、可发展性和馆藏。国内学者自2012年开始关注网页归档项目,研究领域涉及国外网页归档项目的归档政策[8]、法律环境[9]和生态系统[10]等。如黄新荣和曾萨[10]认为相较于国内网页归档,国外网页归档项目形成了一个良好生态系统,提出我国应从多方入手构建网页归档生态系统。综上所述,国内外学者对网页归档项目的研究,分析角度较为多样,但缺少對网页归档项目政策的系统分析。
Web生命周期管理模型是由Web归档生命周期模型演变而来。Molly Bragg和Kristine Hanna[11]在Web归档生命周期模型将网页归档的政策分成愿景与目标、资源和工作流程、获取/利用/再利用、保存和风险管理五大部分。吴硕娜和黄新荣[12](2018)在该模型的基础上,在明确机构的归档愿景和目标后,增加对网络资源生成进行前端控制,对机构资源进行审查,制定网页归档计划,并在风险管理后,加入对网页档案的利用、处置,最后将该模型命名为Web生命周期管理模型。
本文选取了11个具有一定影响力的美国网页归档项目作为样本,这11个项目中高校、政府和公共图书馆的占比较为贴近NDSA的调查结果。其中,大学图书馆所在大学在2021年US News排名位于前40,国会图书馆和医药图书馆是美国国家级图书馆,蒙大拿州立图书馆是美国的州立图书馆之一,北卡罗来纳州政府网站档案访问项目是由北卡罗来纳州档案馆和北卡罗来纳州图书馆开展的项目,阿莱夫档案馆(Aleph Archives)是一家私人公司,专门从事网页和社交媒体归档。基于Web生命周期管理模型,分析其项目政策,指出其优势与不足,为我国网页归档项目制定政策提供参考。
2017年美国NDSA对美国119个网页归档项目开展调查,其调查报告显示,在美国开展网页归档项目的机构中,高校占比61%,公共图书馆占比13%,政府占比14%。在这些机构中,有71%隶属于美国档案工作者协会网络存档部门,54%隶属于数字图书馆联盟。81%的组织开展的网页归档项目正处于运行阶段,12%的组织开展的网页归档项目正处于试点阶段。
通过阅读整理密歇根大学图书馆、哈佛大学图书馆、斯坦福大学图书馆、康奈尔大学图书馆、纽约大学图书馆、哥伦比亚大学图书馆、蒙大拿州立图书馆、阿莱夫档案馆、北卡罗来纳州政府网站档案访问项目、国会图书馆和医药图书馆开展的网页归档项目相关政策文件,笔者按照Web生命周期管理模型对各个政策条例进行分类,总结出美国网页归档项目政策的特点。
(一)归档目标明确
美国网页归档项目以网页资源的价值性和稳定性为中心,有明确的归档目标。如,密歇根大学本特利历史图书馆认为网页归档有两个目的:第一个目的是支持和加强密歇根大学的各项教学、研究和服务活动;第二个目的是为人类共同利益做出贡献。蒙大拿州立图书馆认为,它的网页归档项目可以促进政府之间的合作,同时鼓励图书馆充当政府的政务信息中心的角色。
(二)重视前端控制
网页归档项目的前端控制可分为遵守行业标准和制定网页生成指南两部分。
美国网页归档项目已明确表明,网页管理者在制作网页的过程中需遵守相关行业标准。如,阿莱夫档案馆则遵循ISO28500国际标准和WARC标准。
美国网页归档项目在政策中提供网页生成指南,以便于网页管理者制作更规范、可归档性更高的网页。虽然各大网页归档项目的指南内容有所差异,但是它们会为网页管理者提供一些通用建议。在指南中,稳定性高、易捕获的HTML和XHTML文本格式是它们所推荐的网页归档格式。它们为网页管理者提出四条建议:一是在站点地图中列举需要归档的资源,帮助抓取工具发现资源,提高抓取效率;二是合理利用Robot exclusion,帮助抓取工具避开无须归档的资源;三是保持网页URL结构的稳定性;四是在网页代码中正确标识字符编码,帮助抓取工具捕获网页。
(三)科学设置资源和工作流程
资源上,美国网页归档项目设置了专职工作人员,并为这些工作人员进行专业分工。例如,密歇根大学本特利历史图书馆的网页档案隶属于特殊馆藏,而特殊馆藏中心的员工以馆长和档案工作者为主,不具备解决技术问题的能力。因此,在技术问题层面,图书馆会寻求外部伙伴的帮助,而档案工作者则可以专注于对具有归档价值的网页进行评估,选择和描述工作。[13]
工作流程上,美国网页归档项目采取多方合作的工作模式来完成网页归档项目。它们的共用合作伙伴是美国互联网档案馆(Archive-It)。部分项目也有其他合作伙伴。如哈佛大学图书馆是常青藤网页存档项目成员之一。此外,哈佛大学图书馆参与网页归档咨询组和网页归档讨论组。美国国会图书馆与夏威夷大学马诺阿分校的夏威夷和太平洋收藏馆、新西兰国家图书馆和澳大利亚国家图书馆合作,开展太平洋岛屿网络归档项目。国会图书馆还与国际互联网保护联盟和联邦政府网络归档兴趣小组合作,开展网页归档工作。
(四)多样、合理的网页档案获取途径
美国网页归档项目有多种网页档案获取途径,这些途径可分为两大类。第一类是通过内部门户网站直接访问,第二类是访问外部链接。相较于采取单一的获取途径,美国网页归档项目更倾向于结合多种网页档案获取途径。例如,哥伦比亚大学图书馆为用户提供ArchiveIt的网站、图书馆官网和图書馆在线目录或OCLC的Worldcat数据库三种获取网页档案的途径。
同时,美国网页归档项目对其网页档案设置三种利用限制,第一种是在Archive-It免费开放利用,第二种是在内部网站或平台开放利用,第三种是设置适当的禁运期。有的会结合两种利用限制,例如,康奈尔大学图书馆的网页档案既可以由Archive-It提供开放利用,也可以由其内部网站或平台提供开放利用。国会图书馆对档案中的所有内容设置一年的禁运期。
(五)综合使用保存策略
美国网页归档项目的网页档案保存策略可分为两种。一种是存储于Internet Archive的数据库,另一种是存储于图书馆的数据库。有的网页归档项目采取单一策略,例如斯坦福大学图书馆将网页档案存储于图书馆数据库。有的网页归档项目会结合使用两种策略,例如美国国会图书馆以WARC和Internet Archive ARC容器文件格式创建和存储网页档案,其副本由国会图书馆存储和管理。网页归档项目会综合考量馆藏网页档案和自身工作资源,决定采取何种保存策略。
(六)实施风险管理
在网页归档项目中,许多机构会考虑他们愿意接受的与版权相关的风险等级以及如何管理这种风险。美国网页归档项目的风险管理措施可分成三类,一是主动获取网页管理者许可,二是删除侵权网页档案,三是遵守相关法律法规。
有些美国网页归档项目会在网页归档之前主动获取网页管理者的许可。例如,在网页归档之前,哥伦比亚大学图书馆会遵循“非侵入式获取”原则,在归档前告知网页管理者归档目的,并获取网页管理者的许可。
删除侵权网页档案也是美国网页归档项目采取的风险管理措施之一。美国网页归档项目删除侵权网页档案的方式有两种,一是从数据库中删除侵权档案,二是从提供利用范围中删除涉嫌侵权的网页档案。北卡罗来纳州政府网站档案访问项目和国家医药图书馆采取第一种方式,它们会依据网页管理者的诉求,从已经归档的网页中删除管理者不希望归档的网页。而密歇根大学本特利历史图书馆则采取第二种方式。在密歇根大学本特利历史图书馆,如果图书馆无法决定网页档案是否被允许公开利用,那么它将停止向用户提供该网页档案。
美国网页归档项目在风险管理的过程中会考虑法律法规。例如,密歇根大学本特利历史图书馆在规范版权许可时,对网页档案的划分标准是以法律中规定的合理使用范围为基础。斯坦福大学图书馆规定,在归档有关学生课程成果的网页时,档案工作人员需要遵守《联邦家庭教育权利和隐私法案》[14]。
美国虽然在网页归档项目中存在优势,但也存在未主动跟踪用户检索利用情况、未深入开发利用网页档案和未全面开展质量分析等不足之处。
(一)未主动跟踪用户检索利用情况
相关反馈(即显式反馈、隐式反馈和伪反馈)可跟踪用户对信息的检索利用情况。显式反馈要比隐式反馈和伪反馈可信度高,但隐式反馈和伪反馈基本没有影响用户的检索过程,用户友好性强[15]。在网页档案的利用环节,美国网页归档项目采取显式反馈的技术手段跟踪用户对网页档案的利用情况,即用户主动向图书馆反馈使用体验。这会导致三个后果。其一,用户难以通过语言表达自身的内隐信息需求和意识到的信息需求,图书馆不能依据用户需求改进网页档案服务。其二,图书馆无法了解用户在利用网页档案过程中存在的侵权行为,无法进一步降低侵权风险。其三,显式反馈被动性强,能否获得足量样本取决于用户是否愿意主动反馈信息。
(二)未深入开发利用网页档案
相较于纸质档案资源,网页档案的开发程度稍显不足。目前,美国网页归档项目针对网页档案的开发利用仅停留于主题分类和浏览频次统计的层面,对于主题间的关联层面并未进行深入开发。这种缺失导致用户在检索网页档案时,需要额外花费精力进行信息加工。
(三)未全面开展质量分析
质量分析一方面可以帮助网页归档项目组评估前期工作的质量,为后续图书馆改进网页归档工作提供决策基础,另一方面可以帮助网页管理者优化网页设计。然而,美国网页归档项目的质量分析有待完善。如斯坦福大学图书馆的质量分析报告包含按主机或者MIME类型分类的URL数量、URL列表、数据卷、出站主机以及由于robot.txt指令而无法抓取的资源清单,这份报告可以帮助网页管理者了解网页上的内容,准备更新主要站点,并在可归档性等方面评估搜索引擎优化。但其分析层面并未涉及到网页归档项目中网页档案完整性、可读性、与原网页的相似性、访问深度等层面,难以全面评估网页归档工作质量。
我国曾经有网页归档实践经历。北京大学计算机系网络与分布式系统实验室曾于2001年开展网页归档项目,创办中国Web信息博物馆。同时,2019年12月16日,国家档案局发布了《政府网站网页归档指南》,自2020年5月1日起实施。[16]相较于美国网页归档项目,我国网页归档项目实践经验相对较少。我国可借鉴美国网页归档项目的案例,在未来开展网页归档项目。
(一)夯实前端基础
归档目标和网页生成指南是网页归档项目政策的前端基础部分。
归档目标是指引网页归档项目进展的方向标,是机构制定网页归档项目政策时面临的首要问题。我国应在制定网页归档项目政策的过程中明确归档目标,具体指引归档范围,规划并建设多个专题网页档案。明确的归档目标既可以有效引导收集方向,还有利于强化网页档案之间的有机联系,形成相对完整和主题集中的档案资源,实现完整地“存”、更好地“用”。[17]
与此同时,我国也需要为网页管理者提供网页生成指南。网页生成指南从网页可归档性的角度告诉网页管理者如何制作网页,需要注意哪些元数据等问题,并为他们提供一些相关的优秀案例,最终达到控制网页档案质量的目的。我国未来既应该遵循行业标准,也应该依据实际情况,定制网页生成指南,实现网页档案管理中的前端控制。
(二)合理设置人力資源与工作模式
网页归档项目工作任务复杂,对跨专业知识有需求。在专业方面,网页归档项目的员工可分为档案管理员、图书管理员、数字项目成员、信息技术人员以及其他人员五大类。这些员工的专业刚好匹配项目任务需求。我国可在政策上扩展员工专业范围,鼓励相关专业人才加入网页归档项目,并按照员工专业特长合理设置岗位,推动内部员工跨专业合作,以便于高效高质完成网页归档工作。
在工作模式方面,档案多元论鼓励档案机构牵头开展多样化、多主题、跨机构、跨部门的合作,为未来档案工作奠定馆际合作的理论背景。[18]目前,相较于我国网页归档项目,美国网页归档项目一大成功之处在于,其具有良性合作关系。我国目前缺少类似Archive-It这种长期在网页归档领域开展实践的专业组织。与此同时,在地理、政治、文化差异等因素的影响之下,我国网页归档项目与国外的档案服务组织的合作可能会遇到交流困难等问题。因此,美国网页归档项目的第二种合作模式更适合我国网页归档项目。可以组成多机构联盟,共同探讨网页归档的各种问题,可以与政府或者机构合作,共同构建专题网页档案,还可以与技术服务商合作,共同开发网页档案管理软件。
(三)多种存储策略结合
多存储策略结合的模式既可以扩充存储空间,也可以保存副本,确保档案的安全性。虽然我国没有类似In? ternet Archive数据库这样通用的网页档案数据库,但是可以与国家图书馆、云存储服务商等机构合作,借助其存储资源,也可以利用图书馆的数据库对网页档案进行本地存储。
(四)尊重网页管理者意愿与版权
虽然我国的法律与美国法律有较大区别,但我国仍可以遵循“非侵入式获取”原则,在归档前告知网页管理者归档目的,并获取网页管理者的许可。当网页管理者发现网页档案中存在其不愿归档或者被公开的内容时,我国也应遵循网页管理者反馈的意愿,删除相关内容,或者限制用户利用相关内容的权限。
(五)完善后期分析和开发利用
后期分析包括质量分析和相关反馈两个方面。我国可采取三个措施加强后期工作。
一是全面开展质量分析。对网页归档项目而言,质量分析既可以帮助网页归档项目组发现前期工作的问题,改进网页归档工作,也可以帮助网页管理者评估网页设计的效果,改进网页设计。我国应采取多种手段对已经归档的网页进行全面的质量分析,利用分析结果,发现问题,改进工作,为长期开展网页归档项目奠定基础。
二是综合利用多种相关反馈方式。相关反馈可以帮助信息服务机构提高信息检索服务质量。显性反馈可信度最高,但它无法像隐性反馈和伪反馈一样对用户检索过程几乎没有影响,且无法获得深入性的结果。只有综合利用三种相关反馈方式才能最大程度提高信息检索服务质量。我国在未来的网页归档项目中应综合利用这三种相关反馈方式,以保证反馈结果可信度、深入性以及减小对用户检索过程的影响。
三是推进网页档案开发利用。开发利用网页档案是实现网页档案价值的重要途径。我国应当从政策层面重视网页归档项目的后端开发利用环节,推进网页档案开发利用。
综上所述,我国网页归档项目政策需夯实前端基础、合理设置人力资源与工作模式、多种存储策略结合、尊重网页管理者意愿与版权、完善后期分析和开发利用,实现网页归档。
参考文献
[1] Farrell M, McCain E, Praetzellis M. Web Archiving in the United States: A 2017 Survey[EB/OL]. (2018-10-05)[2021-03-03].https://osf.io/ht6ay/.
[2]ZabiCka, P, Mat[ebreve]jka L. Czech Web Archive Analysis [J]. New Review of Hypermedia and Multimedia, 2007,13(1):27-37.
[3]Aubry S. Introducing Web Archives as a New Li? brary Service: the Experience of the National Library of France [J]. Liber Quarterly: The Journal of European Re? search Libraries, 2010,20(2):179-199.
[4] Brayner A A. UK Web Archive Programme: A Brief History of Opportunities and Challenges [J]. RDBCI: Revis? ta Digital de Biblioteconomia e Ciência da Informacao, 2016,14(2):318-333.
[5]Dooley J M, Farrell K S, Kim T. Developing Web Archiving Metadata Best Practices to Meet User Developing Web Archiving Metadata Best Practices to Meet User Needs[J].JournalofWestern Archives, 2017,8(2):5-15.
[6]Phillips M E, Koerbin P. PANDORA, Australiaa’s Web Archive [J]. Journal of Internet Cataloging, 2007, 7(2): 19-33.
[7] Maches T, Christensn M. Web archiving: Policy and practice[J]. Journal of Digital Media Management, 2020, 8(3),201-214.
[8]王烁,丁宇.加拿大图书馆网页归档项目研究[J].档案学研究,2012,(6):83-85.
[9]刘青,孔凡莲.中国网络信息存档及其与国外的比较——基于国家图书馆WICP项目的研究[J].图书情报工作,2013,(18):80-86.
[10]黄新荣,曾萨.网页归档推进策略研究——基于网页归档生态系统视角[J].图书馆学研究,2018,(16):63-70.
[11] Archive-it.The Web Archiving Life Cycle Model[EB/OL].[2021- 06- 09]. https://archive- it.org/static/ files/archiveit_life_cycle_model.pdf.
[12]吳硕娜,黄新荣. Web归档生命周期模型的发展研究[J].数字图书馆论坛,2018,(10):41-45.
[13]Bentley Historical Library.Campus Case Studies[EB/OL].[2021- 06- 09].http://files.archivists.org/pubs/ CampusCaseStudies/Case13Final.pdf,2021.
[14] Stanford University Library. Policy[EB/OL].[2021- 06- 09].https://library.stanford.edu/projects/webarchiving/policy, 2021.
[15]《数据库百科全书》编委会.《数据库百科全书》[M].上海:上海交通大学出版社,2009.
[16]金凡.《政府网站网页归档指南》(DA/T80—2019)内容解读与思考[J].北京档案,2020,(03):21-25.
[17]刘婧.我国新冠肺炎疫情防控档案征集现状调查与分析——以省级综合档案馆为对象[J].档案学通讯,2020,(5):21-28.
[18]李子林.档案多元论在我国的研究与应用[J].档案学通讯,2017,(6):36-41.
作者单位:1.湖北大学历史文化学院2.中国人民大学档案事业发展研究中心