关于网络信息资源聚合技术及其标准化的探讨
2017-07-19万玮
万玮
摘 要:当前已有网络资源具有海量性、多源性、异构性、多模态、不确定性、动态性、复杂内联等特征。这些特性对网络资源聚合处理与服务提出了巨大挑战。因此,必须突破现有聚合技术,满足聚合应用需求,解决多源异构资源的集成问题。
关键词:网络信息资源;聚合;标准化;数据标准
1 网络信息资源概述
(一)网络信息资源的定义
截至目前,何为网络信息资源并没有明确的定义,但是就普遍意义而言,我们可以做出如下的基本定义。第一,网络信息资源是指通过计算机网络可以利用的各种数据信息资源的总和。第二,网络信息资源是指所有以电子数据形式存储在磁、光等非纸介质载体中的图像、文字、声音、动画等多种形式的信息,可通过网络通信、计算机或终端等方式再现。第三,网络信息资源可用于满足用户的各种需求,但并非全部的网络信息资源均为有效资源。
(二)网络信息数字资源标准使用现状分析
1.网络信息资源海量化
当今网络数据资源呈现出海量化的特点,即在网络上充斥着各种形式、各种含义的信息,严重浪费了网络用户用于搜索有效信息的时间和精力。而且有很多数据信息未经过标准化和集成化的处理就被放置到网络上,可称之为垃圾信息,严重干扰了网络用户的正确选择。
2.网络信息资源多样化、异构化
当今网络数据资源呈现出多样化、异构化的特点,即同一含义的信息以图像、声音、文字等不同形式被重复放置到网络上,数据冗余量大,对网络用户的唯一性和高效性选择带来了一定程度上的阻碍。
3.网络数据标准的使用存在误区
现如今这个网络信息技术高速发展的时代,充斥着各种各样的数据标准,几乎针对不同的数据层次甚至不同的使用环境、不同的用户都有其自适应的标准。并且伴随着每一次的技术革新,都会有一些形式的数据被抛弃闲置,相应的就会有针对新一代的数据形式的标准出现。所以,纵观整个网络环境之中,尚未形成一个高效的、合理的、统一的数据标准,这也是造成网络数据资源海量化、多样化、异构化的原因之一。
2 网络数据资源描述标准化必要性分析
(一)避免或者减少“数据孤岛”的产生和影响
“数据孤岛”指的是各种类型的数据相互之间功能不能有效连接、信息不能合理共享以及数据信息与应用流程之间不能很好耦合的情况。如果网络继续允许多重数据标准的冗杂存在,那么各类数据之间便会出现不能进行有效的沟通与建设、不能得到及时的更新、大量垃圾信息比比皆是、信息存在极大冗余的情况,为网络用户的使用和选择造成极大困扰。
(二)网络资源的时代特性
当今社会,信息技术飞快发展,网络更新换代非常迅速,網络资源具有了异构性、多源性等特性。网络信息资源数量庞大繁杂,包涵各行各业、各个时期的知识,从中找出所需的信息是非常麻烦的;网络信息资源参差不齐,各种精华糟粕都充斥其中,辨别出正确信息是非常艰难的;网络信息资源的存储格式、标记格式、编码标准等等,在不同时代、不同国家、不同企业多数是不同的,使得信息无法兼容共享。以上的种种问题使得我们对于。
(三)网络资源标准化有利于信息管理
21世纪是“大数据”的时代。网络上海量的信息资源面临的最大的问题就是数据的管理。国内、国际上各种各样的信息资源描述标准,就需要各种各样的管理方式。信息的管理既有人工管理,又有机器管理。信息资源的管理要求我们用更加标准化的描述方式来建立更加标准化的管理方式。
(四)网络资源标准化有利于数据挖掘
网络信息资源不仅仅需要整合、聚集和分类,还需要从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。这些信息对于研究某些事物的内在规律并预测其未来趋势有着极大的帮助,这也是网络给人类社会带来的巨大好处,这是传统的信息存储、传播方式所做不到的。
(五)我国网络资源利用现状不佳
我国的数据标准化还在不断发展之中,比之国外仍有不足之处。以教育资源为例,国外关于教育资源标准化的研究起于二十世纪九十年代末,各标准互相借鉴、互相兼容,不断完善。而我国起步较晚,于二十一世纪初起步,现在也有了一套自己的体系。但是教育资源不止一套标准,各种标准容易混淆,产生混乱,有时兼容起来还会出现错误。很多网上的信息难以为我们使用。
3 聚合技术简析
(一)聚合的定义
在信息技术领域,聚合主要指的是内容的聚合。能够从各个网站或服务器收集资源,并有效率地提供给用户的一种数据集成手段。
(二)聚合的手段
1.人工搜集:由网站管理员通过各种渠道收集信息
2.半自动搜索:对人工搜集和自动化搜集的一种补充,介于两者之间。
3.自动化搜集:完全由网络自动索引软件完成的一种数据搜集方式。
优秀的聚合方式是一种以自动化为主,人工和半自动为辅的聚合方式。
(三)资源聚合应注意的问题
不同领域,不同背景的用户对于信息资源有不同的需求和目的。对某些领域的用户而言,他们关注的信息数据恰恰是另一领域用户认为不重要的数据,因此,怎样制定标准,以什么标准为标准成为了资源聚合的一大难题。资源是为了用户服务的,只有让用户感到满意的资源聚合才是优秀的资源聚合方式。
互联网数据的不断发展使得数据形式多样化复杂化,缺乏成熟统一的数据标准,混乱的标准造成了相同数据的冗余,比如在搜索引擎上会搜索出许多内容完全相同的属于不同服务器或网站的数据。随着信息资源的火箭式增长,大量的数据会对整个网络造成难以想象的负荷。
知识产权问题,对于网络数据的产权归属难以判断。由于网络的开放性和匿名性,网络信息资源的所有者很难标明,当前不成熟的网络体系也造成了知识产权被侵犯的现象。要解决这一现象,一方面就要从制定网络信息资源的标准入手,让网络信息资源能标明版权所有者,最大限度的保证知识产权不被侵犯。
4 建议
(一)异构性网络融合
网络设备的不断更新换代,使得网络资源具有了异构性。因此网络建设过程中需要考虑异构网络间的相互关系以及未来网络和设备的发展。规划设计中应当灵活部署,同时还需要考虑合理利用现有网络资源,提高网络效率和性能。
异构网络整体运维、优化所涉及到的数据量极大,这些数据的存储和管理是非常繁琐的工作,需要进行合理的数据组织和建立相应的网管支撑体系。异构网络必须加强优化与融合,使网络资源的利用率最大化。
(二)各种数据标准互补化发展
当今网络资源描述的标准是多种多样的,国与国之间不同,不同领域之间不同,同一领域内部也有不同。有时候一些组织为了体现自己的特色,实现“创新”二字,过分追求标新立异,使得描述标准朝着越来越远的方向发展。我们要摒除这些不必要的特立独行,各种数据描述标准互补化发展,努力实现最大的兼容,使得资源的利用率得到提高。
(三)建立全面完善的标准化体系
1.资源分类的标准化
将原本零散分布的不成体系的网络资源按照统一的标准进行编碼,使之成为有自己特殊标识又能够统一分类的完整体系,但是并不改变各资源的实际物理存储路径。现在的各种描述标准在细节上往往没有详细规定,使得标准的一致性程度不够。所以应当采用统一的分类标准。
2.资源描述的标准化
资源描述的标准化是指将已经具有标准化分类属性的资源进行进一步的元数据层面的标准化描述,使之具备更为统一的元数据结构,同时仍不影响其内在内容的多样性。
3.资源包装的标准化
资源包装的标准化过程即对资源库内的资源进行组织结构标准化的过程,即在元数据标准化的基础上,将已经具备一致性特征数据格式的小粒度资源根据其需要,进行组织和封装,成为一个标准化资源包,从而在并不影响资源内在特征的前提下,完成对一个较大课程的整体标准化内容描述和结构组织。
5 结束语
近来随着网络技术的高速发展和网络用户群的急剧扩大,当前的网络聚合技术面临着极大地挑战。如何在整个网络中形成一个系统的、高效的标准化过程必定是一个艰辛的摸索过程,但是其效益必将是巨大的。相信随着技术的革新和标准化工作的推进,广大网络用户必将享受到更为高质量的服务。
参考文献
[1] 基于关联数据的数字图书馆资源聚合与服务研究_伍革新
[2] 网络环境下数字信息资源的标准与共享_牛胜元