政府网站网页归档方法的研究与思考
2020-12-07■陶冶
■ 陶 冶
互联网自诞生以来,为全世界信息化带来了极大的便利,自此,人类社会从工业文明向信息文明转变,同时,互联网也为云计算、大数据、人工智能的快速发展提供了契机。近年来,中国在互联网领域的发展速度让世界惊叹。中国互联网信息中心报告显示,截至2020年一季度,中国互联网用户总数达9.04 亿,占世界网民总数的1/5,居全球第一。截至2019年底,中国网站数量达497 万家,“.CN”下网站数量341 万个,中国网页数量2978 亿个。我国“互联网+ 政务服务”也不断深化发展,信息公开工作不断推进,据《2019年中国政府网站绩效评估报告》指出,80%的政府网站积极公开机构职能和政策文件、动态要闻等基础信息;86%的政府网站积极开通政策解读专栏,对政策进行解读。各级政府还依托网上政务服务平台,推动线上线下集成融合,实时汇入网上申报、排队预约、审批审查结果等信息,通过“数据多跑路”,实现“群众少跑腿”。
“互联网+ 政务服务”工作不断推进,让亿万人民在共享互联网发展成果中拥有更多获得感,随之而来的网页发布的信息呈指数型增长,这些网页都真实记录和反映了机构运行的轨迹,是各方面活动的真实写照,许多还有凭证价值和作用。如何及时存储并高效利用网页电子文件特别是重要的党政网站网页信息,已成为当前档案工作的重要课题。如果收集不全、存储不善,将导致大量具有追朔凭证、记录历史、提供决策参考、教育后人的,具有归档保存价值的真实记录丢失。特别是在机构撤并、网站改版、整合迁移、主题更换等重要节点,如果不对政府网站网页作及时归档处理,许多重要网页档案有灭失的危险。
2017年,国务院办公厅印发了《政府网站发展指引》,要求各级政府网站做好网页归档工作。2019年,国家档案局发布档案行业标准DA/T80- 2019《政府网站网页归档指南》,对政府网站网页归档的归档原则、归档范围、责任主体、保管期限、收集时间、收集内容、归档格式、整理和移交接收方式以及要求都作了具体明确,为各级机关及其档案部门开展网站网页归档工作提供了坚实的理论支撑。
归档方案的制定
政府网站网页资源是各级机构各种网络活动的真实记录。由于各自的网站构架、运行模式、内容设置等都存在较大差异,网站主办单位的档案部门开展网站网页资源的归档前,需要在本区域档案管理部门的指导下,对目标网站进行全面梳理,形成较为可行的采集、归档预定方案。方案用以明确网站网页资源采集、归档的主体责任,科学界定网页分类,细化采集、归档策略,包括元数据和网页电子文件的保存方式,数据采集方式、采集范围、采集频率、编号方式、存储格式、归档时间等一系列策略。优化的方案,不仅保障了归档文件的质量,还将之后的科学安全保存和开发利用打下基础。
元数据的保存
网页电子文件具有可分离性、可操作性、不稳定性和流动性,为保证网站网页资源采集归档过程中归档文件的真实性、可用性、可靠性和完整性,实现对网页文件长期安全保存,满足之后的调阅和开发利用,网页电子文件元数据的保存和关联就显得尤为重要了。
网页归档时,按照《政府网站网页归档指南》上的标准,可以将网站名称、网站域名、标题、副标题、栏目、发布时间、来源、关键词、作者、摘要、网址、采集时间、采集人等基本元数据进行保存。还可以根据具体需要,将资源类型、图片文件ID、音频文件ID、视频文件ID 等其他元数据也做相应保存处理。
基于XML 的标准开放、可扩展性强、可跨平台等多种特点,可以选择XML 做为元数据保存的方式,将需要保存的元数据整体置标为一个XML 文档。另外,也可以考虑选择JSON 作为数据保存格式,JSON 也有较强的可扩展性,而且JSON 是一种轻量级的数据交换格式,层次和结构更加简洁和清晰,易于阅读和编写,同时也易于机器解析和生成,可以有效地提升网络传输效率。保存后的元数据可以选用嵌入式、链接和封装等多种方式进行关联。封装是较为合理和常见的方式,可以将网页电子文件和元数据打包做为自我包含的实体,形成网页电子文件信息总体封装包来安全保存,而且也比较方便管理。
网页电子文件的保存
为充分满足网页归档后可长期保存的要求,我们应尽量选用开放式通用保存格式,比如WARC、OFD 等格式。WARC(Web Archiving File Format)格式是一种比较理想的网络资源归档格式。该格式由互联网档案馆等机构在IIPC 资助下共同开发,并以ISO28500 国际标准发布。
WARC 是ARC 格式的延续和扩展,对ARC向上兼容,它将多个数据对象和相关信息聚合到一个文件中。WARC 由一系列WARC 记录组成,记录大量数据信息。除了记录静态网页、图片、URL、音频文件、视频文件等内容,还可记录如网络爬行信息、服务器信息、请求信息、访问信息、响应信息、分段信息等背景信息或者资源详细描述。通过这些信息可以重现当时的网络环境,对于网络资源长期安全保存和开发利用具有重要意义。WRAC 格式还十分便于存档和压缩,可以打包、压缩、加密文件,也支持自解压和自扩展,适合数据量大、内容复杂、交互性强的网络资源。便利的打包压缩并保存,降低了长期保存的空间开销和处理小文件的计算开销,方便存储后的文件管理。
数据采集方式
(一)主动采集与被动采集
从目标网站的主管部门或归档工作的主管部门视角出发,对网站网页数据的采集可分为主动采集和被动采集。
主动采集是通过目标网站的内置归档功能模块完成目标网页的采集。内置网页归档功能模块在网站建设之初就已经在系统规划设计和安装部署,或者在后期补充设计制作,集成部署进去。如果采用内置网页归档功能进行采集归档,采集策略设置简便,采集质量和效率较高,人工干预需求较少。
采集策略又可以分为定期不定期两种,或者定期不定期相结合。定期采集可以设置采集的时间频率,即多长时间触发一次采集归档任务,设置的频率过高,将加大数据的存储的空间和开发利用时对比数据时产生的麻烦,设置的频率过低,又难以保证网页数据的安全,影响该网站网页采集归档系统的有效性。另外,网站网页的更新速度和网页内容的重要程度也是决定采集频率的重要参数。鉴于政府网站的更新速度和重要程度,每月一次应该是较为合理的设置采集频率。或者设置内容发生一定规则的变更后进行自动采集归档。对已归档的网页,还应置标该网页为“已归档”并且标注真实归档时间,避免重复归档,也为之后的查找提供便利条件。
被动采集通过外置程序进行采集。例如使用Python 等脚本语言编写的爬虫程序,定义带参的页面爬取函数,通过requests 库的gets 函数爬取所需页面内容。爬虫程序通过预制规则,自动从海量网络资源中爬取所需信息,程序通过模仿浏览器对网页的URL 地址访问的方式,不需要人工操作即可获得所需数据。被动采集由于是通过外置程序进行采集,外部程序的规则最后实现的结果仍然受到目标网站相关功能的制约和限制,所得到得网页资源的可用性和完整性难以保证,后期需要人工检验,采集效率不够理想。
(二)完全采集与部分采集
完全采集是对目标网站网页的完整采集,完全采集不对网页内容进行判断,直接进行整体保存,包括全部的静态网页、文本、音频、视频等文件。如果小型网站使用完全采集,可以提高采集速度,提升采集效率。
部分采集以价值判断为基础,主要采集目标网站的核心板块和项目中的重点领域,或者以特色主题或者重要事件为线索开展采集,这种采集方式保存的资源主题鲜明,指向性较强,价值较高,对之后的开发利用较为有利。另外,还可以把完全采集和专题采收结合起来,首先完成最重要指定目标的网站的完全采集,在此基础上对特定范围内,目标不是特别确定的网站使用部分采集,做为首次采集的补充,既能提高采集效率,又能兼顾资源质量,最终保证采集的可用和稳定。
(三)专题采集
专题采集是指在国家和社会遇到自然灾害、事故灾难、公共卫生事件和社会安全事件等突发事件时,对一些重点指定网站的专题收集。比如2020年初,浙江省档案馆以抗“疫”为主题开展了网页档案采集归档,对指定网站自2020年1月新冠肺炎疫情发生之后发布的有关各地疫情防控工作开展的通知、公告、通报、新闻报道等内容进行了专题采集。共采集视频文件总时长3316 分钟,图片文件2826 张,静态网页11528页,数据量达51GB。
除此之外还可以对国家和社会发生的重大影响事件作专题收集,例如“改革开放40年”、“建国70 周年纪念”、“脱贫攻坚”等。有些网站网页内容在国家和社会发生的重大影响事件时产生大量有价值,可反映当时社会的原貌,保存利用好这些档案,能充分发挥档案部门“存凭、留史、资政、育人”的作用。
(四)专门采集
在目标网站产生主题或者展现形式发生重大变化之前,例如网站改版、网站撤销、网站核心板块撤换、网站数据结构变更、网站服务迁移、网站运维部门变更等发生重大变化,处于关键节点,发生重大变更时,需要进行专门采集。专门采集时要注重数据的可用性和完整性。如果未能及时采集,将造成数据资源的灭失,难以再现网站网页的原貌。重要节点和发生重大变更时所进行的专门采集最好为完全采集。
归档整理
所采集网页的网页资源在归档整理之前,应该根据关键字提取元数据信息,并将网页转换为开放式通用保存格式,确保电子文件不绑定软硬件,具有显示已知悉、可转换、易于利用等性能。经转换完毕的电子文件应根据分类排列方案进行编号,按照《政府网站网页归档指南》规定,一般以“全宗号- 档案门类代码- 网站代码-年度- 保管期限代码- 类别代码- 顺序号”或《全宗号- 档案门类代码- 网站代码-年度- 类别代码- 保管期限代码- 顺序号》格式进行编号,如2020年某厅局官方网站抗“疫”专题板块网页“云南省首批援鄂医疗队出征”可按“0001(全宗号)- WY- 01- 2020- Y- KYZT- 云南省首批援鄂医疗队出征- 0001”。全宗号、档案门类代码、网站代码、年度、保管期限代码、类别代码、顺序号编码规则均在该指南上有详细介绍,本文不再赘述。
编号完成后,在网页档案存储时,可以简便地以按编号时使用的所对应的“全宗号、档案门类代码、网站代码、年度、保管期限代码、类别代码、题名、顺序号”等组成分段元素作为文件夹层级使用,层级文件夹建立后,将网页档案放置于相应的文件夹下。如果索引建立得比较完善,网站数据量不大,也可以更为简便地以“网站顺序号+年度”作为文件夹进行网页档案的存储,后期开发利用效率更高。为了实现采集网页的长期安全保存,如果条件允许,可以采用在线或者离线的方式,将采集好的目标电子文件和元数据迁移至本单位档案部门的电子档案管理系统进行存储保存。
困难与挑战
随着信息技术的不断进步和互联网科技的飞速发展,互联网已深入我们工作生活的每一个角落,网上政务相关工作也持续不断地推进,随之产生的大量网站网页将成为我国的重要档案资源。但是,我国网站网页归档研究工作起步晚,实践项目少,相关规范和管理办法还不够完善,许多问题亟待我们去研究解决。在未来的实践中不断探索,我们还需要解决好一些关键问题。
一是保障档案资源的真实性和完整性
互联网信息是公开的,但是由公开的互联网信息向网站网页档案转变过程完成之后,数据变成了电子档案,还必须保护数据抵御外界环境的影响,保障数据的真实性和完整性,以确保文件的法律效力和保存价值,最终实现档案的凭证价值。常用的方法有电子签名、时间戳、数字摘要等技术。近年来,区块链技术日益发展,由于区块链技术从本质来讲,就是一个共享的“数据库”。数据存储其中,就具有了“不可伪造”“公开透明”“可以追溯”等特征。基于这些特征,也奠定了区块链技术坚实的“可信任”属性。区块链技术通过网络中所有节点共同参与计算,待写入数据在全网互相验证的基础上,方才被允许写入,这样就保证了数据的真实性。另外,区块链技术采用去中心化的分布式存储方式,这样还可以有效解决网站网页数据存储时各类数据相分离的问题,维护网站网页档案的完整性, 其分布式的特点也将数据丢失的可能性大大降低。且区块链技术的核心是实现了沿时间轴记录数据与合约,数据一旦通过验证被写入区块并加入区块链中,就只能读取,不能修改和删除,这样又确保了数据的安全性。因此,区块链技术可以为网站网页档案数据的真实性和完整性提供坚实的技术支撑。
二是建立网站网页档案开放数据共建共享机制
信息资源开放与共享是建设阳光政府的重要途径,是提高社会生产力、保障公平正义的重要前提,是促进信息消费、发展新兴产业的重要支撑。数据开放利用程度越高,信息知识作为生产要素的作用就会越强。
即使各单位已完成各自网站数据采集,但是这些数据仍然处于分散状态,仍然存在安全风险。如果档案部门可以整合区域内网站网页档案资源,汇聚区域内各行业党务数据、政务数据、经济数据、行业数据、企业数据、社会组织数据、自然资源数据、个人数据等各类公共数据资源,逐渐形成“海量数据”,才能更安全地保存好数据,更好地发挥数据资源的价值。目前,虽然我国在政府开放数据共建共享协作领域已有积极探索,但实际实践中普遍仍然“各自为战”,存在严重的数据分散重复、标准不一、使用效率低下等问题。所以,在现有理论基础上,围绕各主体要素间的协同关系,逐渐构建政府网站网页开放数据共建共享框架,设计共建共享平台,能有效推进政府服务,有效提高资源使用效率和质量。一方面可以突破公共数据从源头到采集、整合、传递等过程中组织界限壁垒,消除信息孤岛,实现信息的共享、创造与有效利用。另一方面,可以为国家云计算、分布式处理技术、存储技术、数据库技术和感知技术等众多技术的孕育发展提供数据支撑。
三是网站网页档案的开发利用
档案的最终目的是利用,只有利用好网页档案,才能更好地发挥档案的价值。尤其是网站网页档案,蕴藏着巨大价值。网页档案资源数据量巨大,内容丰富,基本可以囊括社会各行业方方面面,且一般都为社会发展最前沿的内容,是社会各行业快速发展中最直接的记忆。互联网技术的飞速发展,也使这类数据井喷式增长。如此海量数据,如果只是存储于存储阵列之中,作用毫微。但是若搭配大数据技术,掌握数据间的相关性,利用数据的相连关系,使用数学模型计算分析,将使这些数据焕发巨大的能量。应用大数据分析,对网站网页档案中的民生、经济、智慧型城市建设等热点信息进行数据深度挖掘、趋势分析,在科学决策、维护社会稳定和解决历史遗留问题等方面,为政府决策提供客观依据,发挥好档案信息“思想库”、“信息库”的作用,服务党委政府中心工作。还可搭建“政府网站网页档案馆”,开发网页历史数据开放查阅平台,提供多种检索途径,提供用户对历史政府网站网页数据进行查询。
结语
互联网技术发展迅速。政府网站网页资源呈指数型增长,网页归档的重要性日益显现,归档工作日益得到重视。随着政府网站网页归档相关法律法规不断出台,相关行业标准规范不断制定,相关理论实践探索在不同领域逐渐开展,必将带动各级各单位网站网页归档工作快速发展,更好地实现网页档案的科学、安全管护,发挥网页档案的历史价值、文化价值、研究价值和经济价值。