数字时代网络信息保存相关问题刍议
2016-09-23付超
付超
(阜新市图书馆,辽宁 阜新 123000)
数字时代网络信息保存相关问题刍议
付超
(阜新市图书馆,辽宁 阜新 123000)
通过对网络信息存储的现状、可行性以及必要性的分析,指出我国当前网络信息存储工作存在的问题,并针对问题提出意见和建议。
数字化 网络信息保存 大数据 公共图书馆
中国互联网络信息中心(CNNIC)在2016年1月22日发布的第37次《中国互联网络发展状况统计报告》显示,截至2015年12月,我国网民数量已经达到6.88亿,互联网普及率为50.3%,手机上网的人数为6.20亿[1]。根据英国著名的调研机构NETCRAFT统计,2015年全球网站数量已突破10亿大关,数字信息的作用早已经不再局限于计算,而是关乎着人们的生产和生活的方方面面。网络信息影响力越发凸显,随之而来的网络信息安全和网络信息存储也成为全世界关注的焦点。
相比较而言,自互联网产生以来,网络信息安全就被各国高度关注,而网络信息的存储以及相关问题是于上世纪90年代开始为人们所认识的,近几年有了进一步的发展。笔者现就我国网络信息保存的必要性和紧迫性以及存在的问题进行研究,以期对公共图书馆的数字资源建设和网络信息保存工作有所借鉴。
1 网络信息采集与保存的必要性与可行性
1.1 网络信息保存的必要性分析
1.1.1 网络信息资源量巨大
在网络技术发展日益迅速的今天,网络已经成为大众信息交流的重要平台,具有不可替代性。网络信息涵盖政治、经济、文化和社会等方方面面的内容,全面影响着社会发展和人类生活。以最高人民法院的网站为例,最高人民法院网站设有9个栏目,每个栏目下设若干子栏目。每个子栏目平均每年更新30余条信息,像“法院新闻”仅2016年3月份就更新了20余条内容,由此该网站的信息量可见一斑。但最高人民法院的网站属于专业性较强的网站,相对于搜狐、网易等综合性的门户网站而言,无论是信息量的广度还是更新的速度,都不能同日而语。据统计,截至2015年12月中国网站总数为423万个,较2014年增长了88万,年增长率达到26.3%。同时,中国网页数量首次突破2000亿[1]。因此我国境内的专业网站和综合性网站涵盖的信息非常丰富,是无法用数字进行衡量的。如果再加上国外重要网站的信息,我们要存储的网络信息量是非常巨大的。
1.1.2 网络信息是重要的文化遗产
随着互联网技术的普及和发展,网络成为人们查找信息的重要途径。网络信息资源较之于纸质资源,除具有节省存储空间和容易被检索的特点外,还能够更加立体和全面地记录时代信息,展现人类生活的全景。网络信息不仅用于交流,同时也是对历史的记录,因此网络信息被越来越多的人定义为人类文化的遗产。对此,联合国教科文组织在发布的《数字遗产保存宪章》中强调,数字资源应被理解为有利于子孙后代活动的遗产和资本[2]。在这个网络无处不在的社会,如果网络信息不能被有效保存,那么人类历史上很多重要内容极有可能就此消逝,造成永久的遗憾。
1.1.3 网络信息载体的弊端
网络的功能如此强大,影响如此之广,却无法掩盖和否认网络信息易逝性特征。互联网开始应用至今,已经有大量的信息因没有进行有效的储存而消逝了。网络资源的寿命非常短暂,究其原因,综合网站的功能是提供具有时效性的信息,而不是存储信息,随着信息的不断更新,有限的存储空间无法继续保留比较久远的信息,这就必然表现出网络信息易逝性的特征。据统计,由于网页不断更新,其寿命一般较短,平均为44天左右。如果不采取相应的措施,网络信息一旦消失,人们便无法再次获取,更妄谈信息的利用。
1.2 网络信息保存具有可行性
1.2.1 国家政策的大力支持
早在2007年4月5日,国务院就发布了《中华人民共和国政府信息公开条例》,在提升政府工作透明度的同时,也促进了政府信息的利用。时隔8年,为进一步解决政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后等问题,2015年9月5日,国务院又发布《国务院关于印发促进大数据发展行动纲要的通知》。在同年10月召开的十八届五中全会上,明确提出了“实施网络强国战略,实施‘互联网+’行动计划,发展分享经济,实施国家大数据战略。”的内容,肯定了互联网络在中国经济社会发展的地位和作用,同时也为今后互联网络的进一步发展指明了方向,提供了有力保障。
1.2.2 具有较为成熟的技术支持
当前,网络存档warc标准已经制定,多数网络机器人可以生成warc格式典藏数据,比如Heritrix、libwarc、wget、curl、HTTrack等。就我国而言,主要采用的是Heritrix网页采集软件。对于存储的网络信息,通过waybackMachine网络发布软件可以进行发布和浏览。就技术层面而言,网络信息的储存和发布技术都是相当成熟的,不存在任何障碍。这为我国开展网络信息存储工作提供了必要的条件。
2 网络信息资源保存的现状
2.1 国外发展概况
网络信息的重要性早已得到世界范围内的广泛认可。在20世纪90年代,有些国家就已经开始启动网络信息保存项目,收到了很好的效果。美国是最早进行网络信息资源采集与存档工作的国家,1996年美国互联网档案馆开始了Wayback(时光机)项目,首开互联网信息资源存储工作先河,不仅为美国本土的信息资源存储做出了巨大的贡献,对世界各国重要的信息资源存储都有着十分重要的意义。目前,很多国家都可以在这里检索到本国早期的网络信息资料,这不仅仅是一项工程,更是一笔巨大的文化遗产和财富。除此之外,英国的UKWAC项目、澳大利亚国家图书馆的Pandora项目等,都在网络信息存储工作领域取得了很好的成绩。具体情况见表1。
表1 国外科研和文化机构网络信息保存项目一览
2.2 国内网络信息储存发展现状
在国内,“中国web信息博物馆”是北京大学网络实验室开发建设的中国网页历史信息存储与展示系统,从2002年1 月18日上线运行至今[3]。2003年初,中国国家图书馆开展了网络信息资源采集与保存试验项目(WICP),6年后,国家图书馆成立了国家图书馆互联网信息保存保护中心,并于2012年开通网站。该中心的成立是中国互联网保护事业的里程碑,开创了中国互联网保护工作统筹规划、合作共建的新局面。2015年国家图书馆的网络存档范围包括国内网站、国外网站和国内专题3部分。为保存具有重要价值的互联网资源,数字图书馆推广工程全面开展网络资源采集与长期保存工作。在推广工程资源联建工作中开展网事典藏项目。网事典藏项目是承建公共图书馆采集并保存反映所在区域的政治、经济、文化发展等内容的网站资源。现在网络信息保存工作已初具规模。
3 我国网络信息保存工作存在的问题
近年来,我国相关部门加大了对网络信息保存工作的重视程度,但该项工作的实施进度和覆盖程度还不能满足互联网信息存储的需求。这主要体现在以下两个方面:
3.1 社会重视程度不够
尽管网络信息的重要性得到了政府和广大网民的认可,但是全社会对于网络信息的采集和储存工作的认识程度还远远不够。很多基层机构对于互联网信息重利用轻保护,缺乏互联网信息的存储意识,保存工作自然无从谈起。
3.2 信息的采集和保存主体集中在高校,公共图书馆尚未大规模开展信息资源保存工作
当前我国信息资源保存工作的开展并不充分,一方面当前我国该项工作的开展主体以“学院派”为主,而且也只是一小部分名校的图书馆在进行这项工作;另一方面,公共图书馆的参与程度不高,截至2014年底,我国共有公共图书馆3117个[4],2014年参与网事典藏项目有5家省级公共图书馆,每馆100个网站。2015年参与网事典藏项目有77家省、市级公共图书馆,还有很多基层公共图书馆没有参与互联网信息保存项目。已经开展网事典藏工作的公共图书馆主要集中在经济较为发达的地区,经济欠发达地区则寥寥无几。
由此可见,我国网络信息保存工作的开展,无论是广度还是深度,都存在一定的局限性,这必然导致网络信息保存不完整,很多重要的信息无法纳入到保存工作体系,不仅影响网事典藏项目的深入和持续发展,更会让很多珍贵的资料永久性消失。
4 网络信息资源保存对策
4.1 提高对网络信息资源保存重要性的认识
在国内大力宣传网络信息保存工作的必要性和重大意义,让每一位使用网络信息的主体,认识到保存信息的重要性。与此同时,要求各级政府、文化事业相关机构以及重点的专业网站和信息网站管理者提高认识,营造良好的网络信息存储工作氛围,有助于提升网络信息存储工作的效率和专业化程度。
4.2 加快立法授权,便于信息的收集和存储
当前,我国的《著作权法》等相关法律法规对于网络信息存储过程中涉及的知识产权问题还没有规定,这是法律滞后性的表现,但这与网络信息保存工作开展较晚不无关系。开展好网络信息存储工作,进行立法授权是必经之路。日本作为网络信息保存工作开展得较好的国家,为我们提供了成功的经验。日本在2010年修订了《国立国会图书馆法》和《著作权法》,为信息保存工作提供必要的法律支持[5]。我国要开展好网络信息存储和收集工作,在满足各项“硬件”要求的前提下,不能忽略相关立法工作。借鉴日本的成功经验,推动相关法律法规的修订,允许具有保存国家文化遗产职责的法定保存机构采集互联网上向公众开放且无获取限制的网络资源并进行长期保存。
为了信息的采集能够全面且有序,对《出版管理条例》等系列呈缴相关规定进行必要的修订,围绕缴送范围、缴送方式、缴送期限、缴送格式、利用条件等问题进行详细的制度设计。
4.3 搭建国家性网络信息采集平台,建设完善的网络信息保存中心
现在很多基层图书馆采集保存本地域的互联网信息后,先将信息存储到移动硬盘,再通过快递递交国家图书馆,这个过程不仅耗费人力、物力和财力,且数据在传递过程中的安全性也得不到保障,容易导致硬盘的损坏,造成数据的丢失。我国急需搭建一个全国性的网络平台,借助该平台,各级公共图书馆和相关部门不仅能够在本地浏览器平台上进行网络信息资源的上传,还可以实现存储信息的共享下载和利用,为公共图书馆及业界联合搭建互联网信息保存和服务体系。
4.4 积极推动数字化图书馆项目建设,为网络信息资源存储提供良好的技术环境。
当前我国信息资源保存工作的主体还集中在高校图书馆,尽管高校图书馆的专业性较强,技术有保障,但是高校图书馆与对信息收集具有局限性,这不利于网络信息的全面保存。因此我国应该大力推动公共图书馆开展网络信息存储工作。当前我国的公共图书馆实现了县(区)全覆盖,全国所有省、市、县(区)都有公共图书馆,由各级公共图书馆开展该项工作,有利于全面收集信息。为保障公共图书馆顺利开展网络信息储存工作,应该做好以下几方面的准备:
第一,在公共图书馆推行数字化图书馆项目,以此带动网络信息存储工作的开展。信息存储工作不是简单的保存,还涉及系统的维护和技术支持等工作,专业性强,工作量较大,必须有专人负责。因此建议公共图书馆设置专门的信息存储负责部门,加大人力物力的投入,特别是注重计算机专业人才和图书情报人才的招录和培养。对于条件不具备的公共图书馆,根据《国务院办公厅转发文化部等部门关于做好政府向社会力量购买公共文化服务工作意见的通知》(国办发〔2015〕37号)文件精神[6],可以采取购买网络服务的方式,尝试引入社会力量参与网络信息保存项目,积极开展网络信息存储工作。
第二,按照行政区域的划分,对存储工作所针对的网络信息所在地域范围进行严格划分,明确存储地域的边界。同时,对高校图书馆和公共图书馆的存储信息范围也要进行界定,通过以上做法,避免资源的重复储存。
第三,信息存储的负责部门经常与信息发布主体沟通,对于专业网站或者特殊单位的网站,存储工作负责人员要与网站负责人经常沟通,在保证经常性存储的基础上,对于特殊信息进行及时存储,防止遗漏重要网络信息。
第四,对于网络信息的存储进行必要的信息分类。信息分类包括信息等级和种类的分类。通过信息等级的分类,加强对重点信息的存储工作。通过对信息种类的划分和科学标引,有利于提高信息检索和利用效率。
5 结语
人类社会已经进入数字化时代,网络信息全面记录和反映着社会的发展进程。它不仅是21世纪人类生活的侧写,更是人类社会一笔巨大的文化遗产,我们有必要也有能力对网络信息进行保存。希望全社会都能高度重视网络信息保存工作,特别是公共图书馆要切实承担起网络信息存储的重任,以此改变对网络信息重利用轻保护的局面,促进公共图书馆数字化建设工程的深入开展,实现数字信息保护和图书馆数字化业务的全面发展。
[1]CNNIC发布第37次《中国互联网络发展状况统计报告》[EB/OL].[2016-01-22].http://cnnic.cn/gywm/xwzx/r dxw/2015/201601/t20160122_532 283.htm.
[2]聂云霞.国家层面数字资源长期保存策略研究[D].武汉大学,2014:6.
[3]赵丽琴.我国网络信息保存研究述评[J].图书馆学研究,2011(2):5-7.
[4]截至2014年底我国共有公共图书馆3117个[EB/OL].[2015-05-14].http://www.gov.cn/xinwen/2015-05/14/con⁃tent_2862182.htm.
[5]陈瑜.日本国立国会图书馆网络信息资源采集保存项目介绍研究[J].图书馆杂志,2014(3):91-94.
[6]国务院办公厅转发文化部等部门关于做好政府向社会力量购买公共文化服务工作意见的通知[EB/OL].[2015-05-05].http://www.gov.cn/zheng ce/content/2015-05/11/content_9723.htm.
付 超 男,1980年生。本科学历,馆员。研究方向:数字图书馆建设与服务。
G250.73
2016-04-26;责编:徐向东。)