APP下载

基于信息生命周期的网络信息资源长期保存研究

2014-02-12赵增和

图书馆研究 2014年4期
关键词:生命周期网页阶段

赵增和

(天津市静海县图书馆,天津 301600)

1 网络信息资源及其特点

网络信息资源是指通过计算机网络可以利用的各种信息资源的总和,即所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。与其他信息资源相比,网络信息资源具有以下特点:(1)数量巨大。网络信息资源尤其是internet环境下的信息资源分布广泛,存在政府、研究结构、大学、公司、社会团体、个人等网页中。据中国互联网络信息中心(CNNIC)发布的《第33次中国互联网络发展状况统计报告》显示,截至2013年12月,我国域名总数为1 844万,网站总数为320万个,比2012年同期增长19.4%。 网页数量为1 500亿个,相比2012年同期增长了22.2%。2013年中国单个网站的平均网页数和单个网页的平均字节数均维持增长,平均网站的网页数达到4.69万个,较2012年同期增长2.3%,平均每个网页的字节数为50 KB,增长19.0%。我国域名总数、网站数、网页数等呈现明显的增长态势,表明我国网络信息的发展态势良好,极大丰富了网络信息资源的类型和数量。(2)信息质量的良莠不齐。网络信息发布的随意性以及缺乏必要的质量控制和管理体制,导致网络信息质量可靠性降低。网络中存有学术价值高、内容新颖的信息资源,是人们在生产、生活、学习、工作中可以参考利用的信息资源。随着博客、微博、微信的兴起,互联网已成为全民“织网”的天地,网民不仅是网络信息的获取者,更是网络信息的发布者。一些思想内容不健康的垃圾网络信息堆积在网络环境中,腐蚀人们的心灵,而大量有价值的网络信息却因网络信息环境的污染问题而使人们难以找到。(3)存在状态无序性和不稳定性。网络信息资源经常变动中,很多网页基本上是每天都有更新,随着时间推移很多网页慢慢被淘汰。另外,网络信息的存储介质引受到环境、磁场、温度的影响,很容易被损毁,而网络黑客的攻击以及病毒的侵袭,使得网络信息资源保存难度加大。

2 网络信息资源生命周期的含义

美国著名信息资源管理专家霍顿认为,信息生命周期是指信息运动的自然规律,它一般由信息需求的确定以及信息资源的生产、采集、传播、处理、存储和利用等阶段所组成。依据霍顿的观点,业界一般把信息生命周期划分为创建、保护、访问、迁移、归档、处理6个阶段。网络信息生命周期是指网络信息从产生到失去效用价值所经历的各个阶段和整个过程。网络信息增长迅速、不断更新,其信息生命周期所经历的阶段与一般信息生命周期不同。马费成、夏永红通过实证研究,将网络信息生命周期划分为成长期、成熟期、衰退期3个阶段。网络信息形成之后,很快进入成长期,表现为其访问量迅速上升。接着进入成熟期,即网络信息的访问量达到最大值,这一阶段价值将被充分利用。然后进入到衰退期,此时网络信息的访问量将逐渐降低,趋近于零。马费成等是从用户的角度来探讨网络信息生命周期,揭示了一般意义上网络信息的生命周期的基本规律和特性。1997年国际档案理事会电子文件委员会在 《电子文件管理指南》中,将电子文件的生命周期划分为概念阶段、形成阶段、维护阶段。概念阶段是指电子文件管理信息系统的研制、设计和安装阶段,是电子文件形成的软硬件系统,是电子文件管理的基础;形成阶段是指电子文件在电子环境中产生的阶段,并作为真正的“文件”保管起来;维护阶段是指文件产生之后直至销毁或永久保存的整个过程。

网络信息与电子文件有相似之处,即需要依靠软硬件系统才能产生、利用。结合上述观点,笔者认为,网络信息资源生命周期可划分为概念阶段、形成和使用阶段、维护和保存阶段、消失阶段4个阶段。第一,网络信息资源概念阶段。概念阶段即网络信息资源系统的研发、设计和安装调试阶段。比如网站信息资源是网络信息存在的主要形态,建设网站,通过网站发布网络信息资源,需要建立网站管理系统和配置相应的计算机设备。第二,网络信息资源形成和使用阶段。网络信息资源产生后,储存在网络信息系统中,供网络用户检索利用。通过网络资源的使用,其价值得以彰显。这一阶段是网络信息资源成熟期。第三,网络信息资源维护和保存阶段。随着网络信息访问量的增加,网络信息超负荷运转,加上网络信息自身因素、网络信息所处的软硬环境等,网络信息处于不稳定状态,需要对之进行维护和保存。网络信息资源的维护包括信息资源本身的维护和运行系统的维护。第四,网络信息资源消失阶段。这一阶段是网络信息生命的最后阶段,网络信息或从系统中被移除,不能再被访问和利用,或受到网络病毒及黑客的攻击,无法被用户利用。因网络信息的价值和访问途径等原因,并不是每条网络信息生命周期都会经历这四个阶段。有的网络信息利用次数不多,就被删除。有研究表明,68%的网页1年内将被从网上移除;12.2%的网站和20.5%的网页6个月后不能再被访问到,1年后分别上升到17.7%和31.8%。

3 网络信息资源长期保存的对策

网络信息异常丰富,取之不尽,用之不竭。尤其在Web2.0时代,网络信息资源数量呈几何级速度增长,在分散、无序及对浩如烟海的网络信息面前,人们要寻找到有价值、可利用的网络信息资源并非易事。网络信息资源生命周期长短不一,大量有价值的网络信息资源随时产生也随时消失,保存网络信息资源,成为各国图书情报界、档案界一项重大的历史任务。中国国家图书馆于2003年启动了网络信息资源的采集与保存试验项目(WICP),对表层网页(静态网页)和深层网页(动态网页)信息资源进行采集和保存。这个项目在保存网络信息资源方面发挥了积极的作用。但目前,在网络信息资源长期保存方面,我国还存在规模小、保存标准不统一等问题,笔者从网络信息资源生命周期的角度,提出以下网络信息资源长期保存对策。

3.1 建立由图书馆、档案馆组成的网络信息资源保存协调机构

在我国,图书馆与档案馆是保存纸质文献、电子文献,为用户提供文献查找的服务机构。这些机构长期进行文献的收集、保存,具备保存网络信息资源的基础和条件。建立由图书馆、档案馆组成的网络信息资源保存协调机构,统一网络信息资源采集标准、范围,运用统一的网络信息资源管理系统保存网络信息资源,可提高网络信息资源保存效率。如可建立由工业和信息化部直接领导的跨系统、跨地区、全国性的网络信息资源保存协调机构,明确图书馆、档案馆是网络信息资源保存的责任主体,规定图书馆、档案馆网络信息资源保存的种类。如国家图书馆与国家档案馆联合负责各个国家层面的网络信息资源保存,各省、市、区图书馆、档案馆负责保存本地区各级政府机构网络信息资源,高校图书馆负责科研院所、高校、各级学会等学术性强的网络信息资源的保存,行业图书馆或信息中心负责保存行业网络信息资源。在明确分工的基础上,制定网络信息资源元数据标准、数据存储转换格式标准、网络信息资源长期保存技术规范、网络信息长期保存操作规程、网络信息资源管理规范等,以保证各个责任主体能在统一的标准框内有序进行网络信息资源保存,避免因标准不统一而导致各保存项目信息无法共享。

3.2 制定网络信息资源长期保存的管理策略

图书馆、档案馆等信息资源保存机构要建立相应的工作机构,配备技术人员,明确网络信息保存的工作责任,使网络信息保存工作有序开展。通过宣传网络信息资源长期保存的重要性,提高全民网络信息资源保护意识,使国家层面的《图书馆法》中能增加保存网络信息资源的条款,以保障网络信息长期保存经费的及时到位。建立网络信息资源呈缴制,图书馆、档案馆等信息资源保存机构要积极主动与网络出版者、技术公司、商业机构等合作,及时接受网络信息生产者呈交的大量有参考价值的网络信息资源。同时,构建网络信息保存的资源开发与赢利模式,吸引商业公司的介入,利用商业化机制运作网络信息保存项目等。

3.3 采用现代技术保存网络信息资源

网络信息资源长期保存技术,是指长久保持网络资源信息内容和功能形式的可存取性的一系列技术策略和手段。目前,我国主要采用的长期保存技术有:更新、数字迁移、仿真、管理工具和自动存储技术等。一是更新技术。更新技术是指在原来的技术环境下实时重写数据,将数据流从旧存储介质转移到新存储介质上,防止由于存储介质理化性能变化而引起的信息丢失。采用更新技术,复制网络信息资源,将旧存储媒体上的信息转移到新的媒体上。如可将网络信息资源拷贝到光盘、磁带等耐久的载体上,或将数量大的网络信息资源用SATA磁盘阵列、DVD-RAM光盘塔、光盘库和数据流磁带等载体进行保存。更新技术只适合于简单、独立的网页内容信息的长期保存。二是数字迁移技术。数字迁移技术是根据软、硬件的发展将网络资源迁移到不同的软件或硬件中以便被识别、使用和检索。数字迁移技术适合对网页中与软件无关的格式产生的文本文件或简单、通用的平面文件等信息资源内容进行长期保存。三是仿真技术。仿真技术主要是在新的系统环境下重新建立一个兼容原始数据、设备及其相应系统的信息利用环境。仿真技术的用户交互、程序和计算机平台之间的交互等功能就具有优势,适合多媒体资源、数据库以及PDF格式文件的长期保存利用。四是管理工具。针对网络信息资源范围的难以确定,节点或链接中出现的变化难以控制以及某些重要信息易丢失的问题, MOM spider、Web:Look out等管理工具具有跨越Web网站,并指明已变动和修改的信息及链接无效的信息维护功能,能对信息维护进行有效监控。五是自动存储技术。直接连接存储(DAS)技术、网络连接存储(NAS)技术、存储区域网络(SAN)技术、ISCSI技术和内容寻址存储(CAS)技术可以实现存储容量的可扩展性,能改善网页数据的可用性及网络性能,并能对网络中分散的网页信息进行集成和筛选,这样就有助于改变目前网页信息保存成本高、可靠性差等缺点。

4 结束语

网络信息资源的脆弱性和易逝性决定了对其保护的必要性。网络信息资源长期保存需要众多的图书馆、档案馆的参与。建立统一协调的全国性网络信息资源长期保存机构和完善的合作保存机制,制定相关的标准规范,利用现代信息技术对网络信息资源进行分级保存,改变目前网络信息资源保存无序状态,尤为迫切。

[1]第33次中国互联网络发展状况统计报告[EB/OL].[2014-05-14].http://old.comon.cn/listinfo-142721.html.

[2]马费成,夏永红.网络信息的生命周期实证研究[J].情报理论与实践,2009(6):1-7.

[3]段宇峰.网络信息资源老化规律研究[J].图书情报知识,2005(4):28-31.

猜你喜欢

生命周期网页阶段
全生命周期下呼吸机质量控制
关于基础教育阶段实验教学的几点看法
基于HTML5与CSS3的网页设计技术研究
在学前教育阶段,提前抢跑,只能跑得快一时,却跑不快一生。
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用
企业生命周期及其管理
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究