网格技术在现代档案信息化管理中的应用
2011-04-01赵顺梅
赵顺梅
(天水电气传动研究所有限责任公司,甘肃天水741020)
1 引言
随着互联网技术的飞跃发展,其每一次的进步都对社会、生活各个方面产生着巨大的影响。档案工作是国家信息资源建设的一个重要部分,已经从不同层面、多方位地利用互联网技术为自身建设服务,期望实现国家档案资源的有机整合和充分利用。如今,一种新的互联网技术-网格的出现,在网格技术发展的影响和推动下,网格技术越来越逼近实际生活,档案工作也不可避免地受到碰撞和冲击。如何利用网格技术的优势管理档案信息资源将是档案信息化管理的一个重要课题,它必将引起档案工作的时代变迁。
2 网格技术的内涵
计算机和Internet发展到今天,对社会发展产生了巨大的影响,从根本上改变了人们的工作方式、生产方式和生活方式,使整个社会进入了“信息时代”。信息的产生、加工、传播和获取随着计算机技术和网络技术的应用逐渐朝着数字化、信息化、自动化和网络化方向发展,信息的种类、形式、范围大大拓展,从传统的印刷型文献过渡到数字化信息,纯文本信息逐渐被文本、图像、声频、视频等多种媒体数字信息所取代,信息共享正在逐步实现。
在信息时代,Internet使得信息共享成为可能,但由于人们对信息的渴求程度大大提高,不再满足于现有的网络和共享模式,而要寻求更加广泛的资源共享,于是一种可以将地理上分散的资源集成起来的基础设施-网格(Grid)被提了出来。关于网格,美国科学家伊安·福斯特(Ian Foster)曾这样描述:“网格是构筑在互联网上的一组新兴技术,它将高速互联网、计算机、大型数据库、传感器、远程设备融为一体,为科技人员和普通老百姓提供更多的资源、功能和服务。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格的功能则更多更强,它能让人们透明地使用计算、存储等其他资源”。网格是一个一致、开放、标准的计算环境的信息基础设施,支持聚合地理上广泛分布的高性能计算资源、大容量数据和信息存储资源、软件和应用系统、高速测试和获取系统、以及人力等各种资源的合作问题求解系统的构造。网格的出现让人们看到资源无缝共享的前景,因此人们常常用“下一代因特网”、“国际互联网2”、“下一代万维网”等词语来描述网格。
网格是借鉴电力网的概念提出来的,也称网格计算或网格技术,它是伴随互联网的发展而发展起来的新型科学计算模式。这种计算模式利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机都是一个“节点”,整个计算系统是由成千上万个“节点”组成的“一张网格”,这种计算方式数据处理能力超强,能充分利用网上的闲置处理能力,并像电力一样随处可得。
网格所连接的资源相当广泛,可以是计算机的软硬件,也可以是其他的仪器设备,甚至是操作计算机的人。网格的目的就是将这些可用资源连结起来,实现计算资源、存储资源、数据资源、信息资源、软件资源、通信资源、知识资源、专家资源等的全面共享。
3 网格技术的特点
网格是因特网应用的新发展,因特网实现了计算机硬件、网页等的连接,而网格具有比因特网更强的功能。首先,网格比因特网具有更大的带宽,欧美的网格计划都使用更高速度的主干网;第二,网格能将更多高性能计算机资源连接共享,它的计算速度、数据处理速度可以大幅度提高;第三,网格的体系结构将比因特网更能有效地利用网络信息资源。网格采用广域缓存技术,能够自动把用户最需要的信息放在离用户最近的服务器上;第四,网格将促进更多、更大规模的网络社区的出现,这些相互联结的社区最终构成一个庞大的网格社区。
网格是一个在地理位置上广泛分布的基础设施,用户数量巨大,资源千差万别,需求种类繁多,应用功能各异,要给用户提供安全、高效、高质量的服务,网格技术应具有如下基本特点:
(1)网格具有分布与异构性。网格系统由分布在Internet上的各类资源组成,包括各类大型机、工作站和个人计算机,它们是异构的,可运行在UNIX、Windows、Linux等各种操作系统下,也可以是上述机型的机群系统、大型存储设备、数据库或其他设备。
(2)网格具有集成与共享性。网格把地理位置上分布的各种资源集成在一起,成为一个有机的整体,协调分散在不同地理位置的资源使用者。同时,解决异构机器之间资源与任务的分配与调度、安全通信与互操作、实时性等问题,实现对各种资源的充分共享,从计算资源、设备资源到服务资源,多个用户不仅可以共同使用网格总的一个资源,网格中的一个用户也可以同时使用多个网格资源,从而实现在非集中控制的网络环境中协同使用资源。
(3)网格具有动态性。组成网格系统的资源不是一成不变的,而是动态变化的。随着时间的推移,原先不在网格上的资源有可能连接到网格上,原先在网格上的资源由于故障或者其他原因有可能不再可用。针对网格资源的动态变化性,资源管理必须能动态监视,实现任务的动态迁移,从可利用资源中选取最佳资源服务。
(4)网格具有自治性与多重管理性。网格上的资源是属于不同的组织或个人的,资源的拥有者应该拥有对资源的自主管理能力,可以随时允许其资源进入或退出网格而不影响整个网格的使用。但网格资源也必须接受网格的统一管理,否则不同组织的资源就无法建立联系,无法实现共享和互操作,消灭不了信息资源的“孤岛效应”。
(5)网格具有开放性与标准性。网格系统面向所有的设备开放,只要遵守网格规则,任何设备都可加入网格。网格提供的接口是标准的,不依赖于接入的具体设备和管理系统,设备接入阈值低。
4 网格技术在现代档案信息化管理中的应用
网格技术作为新一代的网络技术,具有分布性与异构性、集成性与共享性、动态性、自治性和多重管理性、开放性与标准性等特点,有利于档案的信息化建设和档案信息资源的管理,能进一步推动档案工作的发展。
(1)在资源建设方面,网格可以实现数字档案信息资源的全面共享。
档案部门在档案信息资源建设时,需要处理大量的数据,由于现有技术条件、经济条件的限制和档案信息安全的制约,现有网络无法对各个数据库之间的数据进行连通和数据交换,各个档案馆之间的档案信息资源还处于分散和孤立状态,没有能够实现全面关联,“信息孤岛”、“信息烟囱”现象严重,在很多情况下用户并不知道档案信息资源存储位置,不利于档案信息资源跨地区、跨部门之间的利用,极大地影响用户的利用需求。这些档案信息资源各自为政、互不相通,造成了十分严重的人力、物力、财力浪费。
网格的本质特征是共享利用,与目前的计算机网络不同,实现资源全面共享是网格的出发点和目的。网格能实现应用层面的连通,它主要关注的是如何消除“信息孤岛”,为用户提供“一站式跨库”检索,实现信息资源的智能共享。档案是一种十分重要的信息资源,利用网格的共享性,可将分布在不同地域、不同部门异构档案信息资源集成起来,不仅能在各档案馆、各档案部门之间实现档案信息资源共享,还能为用户提供统一的访问接口,选择适当的访问协议来实现用户提出的服务请求。网格技术在档案信息资源管理中的应用,可以提高档案部门的管理水平和服务质量,提高数字档案信息资源的利用效率,有助于国家综合信息系统的组建。“衡量一个国家信息产业发展程度的一项重要指标,就是这个国家所组建的信息系统的完善程度和综合程度。而国家信息系统主要涉及全部学科领域的文献、图书馆和档案服务。由此可见,完善的国家信息系统,也依赖于档案信息系统的建立和完善。”网格技术的应用必将极大地增强整个档案信息系统的功能和与其他信息系统的联网能力,从而有利于构建完善的国家综合信息系统。
网格技术的优势在于不仅能实现档案信息资源的共享,还能实现计算机硬件及其他电子设备的共享,利用网格中其它档案馆闲置计算机的计算能力为用户查询和数据处理服务;也可以利用存储虚拟化技术进行网络存储,整合闲置的存储资源。“存储虚拟化是指将物理的存储设备以逻辑的形式呈现,将网络中的存储设备视为一个或多个存储池进行数据存取,而不用考虑信息具体存放在哪台设备上。利用虚拟化技术来改善数据管理所带来的好处是简化管理,降低管理的复杂性,提高存储设备的利用率,提高数据的高可用性。
(2)在资源管理方面,网格能为数字档案信息资源构造统一的管理平台。
数字化档案信息异构现象严重,信息有文本、图形、图像、影像等形式,存储工具千差万别,数据库类型各不相同,档案管理软件品种繁多,不同计算机使用的操作系统也不相同。如何整合这些异构的载体、软件和管理系统等问题成为档案信息化建设的重要内容。
在分布式的异构环境中,网格技术能够精确定位所需的数据集,并且能对分布在广域网环境中的信息资源进行抽象描述,支持网格应用对资源访问的透明性,为用户提供一体化的智能信息平台。在这个平台上,信息处理是分布式、协作和智能化的,用户可以通过单一入口访问所有信息。而不像目前的因特网那样,需要用户自己在大量的、凌乱的、不统一的网页信息中寻找自己所需的信息。
网格技术可以提供一个统一的、可以相互访问的接口或者协议标准。网格的许多平台和资源只要满足这些标准,就可以将分布在各地的计算机、知识、数字档案信息等组成一个逻辑整体,在此基础上运行各自的应用网格,为数字档案信息资源管理提供软硬件基础设施,使网格中的档案资源被统一管理和使用。
(3)在数据处理方面,网格有利于数字档案信息资源的海量数据处理。
随着档案信息化进程的加快,档案馆中需要处理的档案数据越来越多,如果为了处理这些数据而添置大量的计算机或其他电子设备,显然会加重档案馆的经济负担。而网格能够充分利用现有资源,更好地解决海量数据的计算处理和分析问题;它能将分布在不同地域的计算机连接在一起,用户只需通过客户端发出要求计算的指令,网格就能把这些任务调配给各个计算机执行,然后将各个计算机计算出来的结果汇总反馈给用户,连接的计算机规模越大,计算能力就越高。此外,网格用户还可以在较短时间内把需要的数据从不同的数据库中找出来,综合在一起实现“一站式检索”,这种检索方式向用户提供了统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发的检索本地和互联网上的多个分布式异构数据库,并对检索结果加以整合,在经过去重和排序以后,以统一格式将结果呈现给用户,而且这一过程用户只需要以单一身份、单次登录和单一的检索方式就可以实现。省去了用户多次访问不同数据库的麻烦,可直接调用网格中的算法和程序等资源,避免了许多重复性的工作。
网格可以智能地分配和优化计算资源,更快地解决档案馆数字档案信息资源的数据处理和检索利用问题,能将应用程序的每个部分调整到最适合它的系统中去;从而以更短的时间、更低的成本实现海量数字档案信息资源的数据处理。
(4)在资源利用方面,网格可为档案用户提供知识服务。
目前用户查阅数字档案信息大多是采用Web方式,由于Web在技术方面的不足,未能解决当前存在的信息泛滥但知识贫乏的困境。虽然Web上采用了不少对信息进行学习与挖掘的尝试,如智能搜索引擎、知识发现等,但是这些努力并没有从根本上解决知识利用率低的难题。因此,人们开始寻找一种新的技术平台,希望从根源上打破这种瓶颈,此时网格出现在人们的视野中。
网格不仅能将各种资源连接起来,还能根据用户的要求自动生产知识。在知识生产的过程中,高性能计算机将起到关键的作用,能将从数据源中得到的各种原始数据运行特定的程序加工成信息和知识。网格技术可根据用户需求,利用高性能计算机自动地寻找有关的数据源进行综合分析和知识发现,形成新的知识,传送给需要的用户。这种量体裁衣的模式与知识管理系统管理知识是不谋而合的。由此可见,随着网格技术在档案信息资源管理中的应用,将会增强数字档案信息资源的知识服务能力,全面提升数字档案信息资源的作用,从而使数字档案信息的服务功能更加完善。
(5)在资源安全方面,网格能保障档案信息资源的安全。
目前Internet的安全保障主要提供两个方面的服务:访问控制服务,用来保护各种资源不被非授权使用;通信安全服务,用来提供认证,数据保密性与完整性和各通信端的不可否认性服务。这两方面的安全服务不能完全解决网络环境中的安全问题。网格环境中,各种资源都动态连接到Internet上,不同网格节点之间的通信是通过Internet连接的,用户向网格计算环境提交任务和监控管理任务也是通过Internet来完成的,并且所有主体都是可以动态加入或撤离网格中的虚拟组织。因此,网格对安全的要求要高于Internet。
网格通过网格安全基础设施保障网格计算环境的安全。这种安全基础设施支持网格环境中主体之间的安全通信,防止主体假冒和数据泄漏;支持跨虚拟组织的安全;支持网格环境中用户的单点登陆,包括跨多个资源和地点的信任委托和信任转移等。网格安全基础设施为网格计算环境提供了一系列的安全协议、安全服务、安全SDK和命令行程序,如安全应用编程接口、相互安全身份鉴别技术、单点登录(single sign-on)技术等。通过使用这些安全技术,可有效地保证网络计算环境的安全性和方便性。这样就能保证网格中档案信息资源的安全存取和通信,保证不同用户对档案信息资源的不同访问权限,满足档案信息资源的特殊安全要求。
5 结论
网格技术是一种新兴的互联网技术,它有着传统Internet所没有的优势,将给世界带来前所未有的改变,是一次深刻的互联网革命。虽然目前网格技术还处在试验和初步应用阶段,但很有发展前景。对于大量产生的电子文件和数字化档案信息资源,目前无法解决的技术难题,如异构环境的管理、海量数据的处理、共享和协作等,网格技术将在这些方面有着巨大的优势。因此,应该关注网格技术的发展和应用,使之成为档案信息化管理的重要手段。
[1]Ian Foster,Carl Kesselman,editors.The Grid:Blueprint for a New Computing Infrastructure.CA.Morgan Kaufmann Publishers,1999.
[2]黄晓斌,邓爱贞.网格技术的发展与数字图书馆建设[J].情报资料工作,2003(5).
[3]都志辉,陈 渝,刘 鹏.网格计算[M].北京:清华大学出版社,2002.
[4]傅荣校.从技术革命本质看电子文件的两面性[J].档案学通讯,2000(3).
[5]卞昭玲.基于网格应用的企业信息管理模式之创新[J].档案学通讯,2006(6).
[6]高 丹.知识网格资源管理研究.中国优秀博硕士学位论文全文数据库,2005.
[7]都志辉,陈 渝,刘 鹏.网格计算[M].北京:清华大学出版社,2002,61-62.