面向信息共享的科研单位信息分类编码体系研究
2014-10-18耿庆斋王冠华张伟兵
耿庆斋 王冠华 张伟兵 林 林
(1.中国水利水电科学研究院,北京 100038;2.北京中水科信息技术有限公司,北京 100038)
随着现代信息技术的发展,越来愈多的企(事)业单位认识到信息化应用水平的高低是增强企(事)业竞争力的重要因素之一。在信息化建设中,信息资源的开发和利用是信息化建设的核心内容,要充分将这些信息资源利用起来,就必须开展信息分类编码的标准化研究工作。信息分类编码的研究如果仅限于某个领域,就会出现“信息孤岛”的现象,因此,需要进行全局考虑,建立统一的面向共享的信息分类编码体系,才能将孤立、分散的各类信息资源变成网络化共享的信息资源,将众多“孤岛式”的信息系统进行整合,实现信息共享和交换[1]。
信息分类编码是信息存储、处理、交换及共享的基础[2],是建立各种信息管理系统的重要技术基础和前提。信息分类编码标准化可以实现名称、术语以及编码的一体化和规范化,对信息系统和数据库的建立起指导作用。本文以中国水利水电科学研究院(简称“水科院”)为例研究科研单位的信息分类编码体系,水科院具有大量的信息资源,信息分类编码的标准化可以统一协调水科院各部门信息资源的采集和加工处理,使其既符合水科院信息管理系统的整体要求,又满足水科院各部门的业务需要,同时,还可以减少信息资源的重复采集、加工、整理和存储,最大限度地消除因分类和编码不一致造成的信息资源命名、描述时的误解和分歧,避免出现诸如一物多名、一名多物或者同一信息内容具有不同分类编码等混乱现象。为了科学管理和合理使用水科院的信息资源,实现对信息资源的有效管理、查询、共享和使用,需要建立面向共享的信息资源分类编码体系。
信息分类编码是对信息进行科学、系统的分类并对分类结果赋予特定代码的过程,信息分类编码结构设计的好坏,将直接影响各信息系统间信息共享和交换的质量和效率[3],因此,要确保信息分类编码结构适用于不同的信息系统,必须研制统一的信息分类编码体系。
1 信息分类与编码研究现状
发达国家非常重视信息分类编码工作,美国从1945年起就开始开展信息分类编码的标准化研究工作,陆续研制了一系列分类编码标准[4]。我国信息分类编码的研究工作始于20世纪70年代末,30多年来,我国标准化研究工作者从理论研究、应用实践等诸多方面开展了一系列研究和探索,一批批信息分类编码的译著、资料和标准文本相继问世。《信息分类编码通用文件格式》是我国最早信息分类编码技术的基础规范,它首次提出了信息分类编码标准化的概念、特点、作用、信息分类编码的原则和方法,以及信息分类编码标准体系及设计应用[5]。水利行业在信息分类编码领域也进行了大量研究工作,制定了一系列与分类编码相关的行业标准,如:《水利工程基础信息代码编制规定》(SL213-98)、《水文数据 GIS分类编码标准》(SL385-2007)、《土壤侵蚀分类分级标准》(SL190-96)、《中国河流名称代码》(SL249-2012)等等[6]。
水科院信息资源涉及的内容非常复杂,主要包括:与科学研究相关的科研合同和科研成果,与对外交流事务相关的国际交流和国际会议,与园区基础设施建设相关的基础地理信息,以及在业务工作中产生和生成的信息资源等。经过十几年的信息化建设,水科院完成了信息化基础设施建设,制定了信息化工作发展的整体规划,先后建成了公文管理系统、财务管理信息系统、科研管理系统和新闻管理系统。随着水科院信息化工作的不断推进,如何实现各信息系统之间信息共享和交换是亟需考虑的问题。
水科院于 2004年编制了首部信息分类编码标准《信息系统编码》(Q/IWHR 1~10-2004),完成了区域编码、部门编码、人员编码、合同编码、课题编码、成果编码、证书编码、行文编码、房屋编码、基建工程管线及附属设施编码等 10项编码标准[7,8],该编码基本涵盖了院内各业务范围,为水科院信息系统建设和信息共享提供了技术保障。但是,经过近十年的发展,该编码已不能适应水科院信息化发展的要求,部分编码之间出现了不统一现象,有些新增信息也需要重新编码。本文在已有信息分类编码标准的基础上,通过调查研究,结合水科院信息化发展现状,进一步完善院信息分类体系和编码结构。
2 信息分类体系
2.1 基本原则
信息分类是依据信息内容(或信息对象)的特征或属性,将信息(或信息对象)按照特定的原则和方法进行区分和归类,建立一套完整的信息分类体系,便于信息资源的管理和使用[9]。信息分类应遵循以下几项基本原则[10]。
(1)科学性:尽量以能够表征分类对象最稳定的特征或本质属性作为分类的基础和依据,确保信息分类能够科学地描述或反映各类信息的特征。
(2)系统性:将选定的信息对象的特征或属性按照特定的规则顺序实现系统化,形成合理的科学分类体系,使每一个数据在分类体系中有一个确定的位置。
(3)可扩展性:信息分类体系中要留出一些适当的空位,以便在增加新数据时,能在原有系统基础上进行扩展,而不至于打乱已建立的分类体系。
(4)实用性:信息分类要充分考虑可操作性,既要满足系统内部和相关单位的实际需要,又能满足用户对信息共享的需求。
2.2 基本方法
信息分类的基本方法最常用的有线分类法、面分类法和混合分类法。
线分类法又称为层次分类法[11],是依据分类对象的某些特征或属性划分类目,逐级进行类目细化,逐次展开各分类段,形成有层次的树状结构的分类体系。它将分类对象按照层次逐级划分、展开,各类目之间构成并列或隶属关系。在分类体系中,一个类目相对于由它直接划分出来的下一级的类目称为“上位类”,也叫母项,由上位类直接划分出来的下一层级的类目称为“下位类”,也叫子项,属于同一个上位类的各类目之间称为“同位类”。上位类和下位类之间具有从属关系,即下位类从属于上位类,同位类类目之间为并列关系,既不交叉也不重复。目前,采用线分类法的标准有:GB/T 18317-2001《专题地图信息分类与代码》、GB/T 13923-2006《基础地理信息要素分类与代码》和GB/T 13745-2008《学科分类与代码》。
面分类法是依据分类对象固有的各种特征或属性,分成相互独立的面,每个面中都包含一组类目,类目之间没有从属关系,将不同面中的各类目并置起来进行组合,形成一个新的复合类目。面分类法的基本原则是选择分类对象本质的特征或属性作为各个“面”;同一“面”应采用相同的分类依据;不同“面”内的类目不相互交叉,也不能重复出现。在已颁布的标准中使用面分类法的不多,《干部职务名称代码》(GB 12403-90)采用的就是面分类法。
混合分类法是指将线分类法和面分类法组合使用,以其中一种分类法为主,另一种作为补充的信息分类方法。混合分类法在已有的分类目录经常使用,如叶冬芬等[12]研究的刀具资源分类和王慧等[13]研究的新疆兵团农业资源信息分类都采用的是混合分类法。
2.3 分类体系
根据上述分类原则,结合水科院信息资源现状,选用线分类法,制定了水科院信息分类体系,分类体系分为5大类,各大类下设共17个类目,并可根据需要进行扩展,各类目又可进行细分(图1)。各类信息的具体特征如下。
基础信息是指与水科院相关的基础信息,如区域、部门和人员等信息。
公文信息是指机关团体、企事业单位等依法成立的社会组织,用来办理公务,有一定格式的应用文档,如发文、公函、会议纪要、收文、请示(报告)等。
科研信息是指科研管理和科研活动中产生的信息资源,如项目合同、外协合同、课题和科研成果等。
外事信息是指国际合作与交流、国际合作项目管理以及国际学术交流等信息,如国际交流和出国团组等。
地理信息是指与园区资源、环境相关的基础地理信息,如建筑物、房屋、管线(道)等。
图1 中国水利水电科学研究院信息分类体系
3 信息分类编码
3.1 基本原则
信息分类编码为满足对信息对象进行标识的作用,应遵循以下原则[14,15]。
(1)唯一性:每一个编码对象只能有一个编码,一个代码也仅表示唯一的编码对象。
(2)合理性:编码结构要与分类体系相适应。
(3)可扩展性:必须使用同类编码不断扩充的需求,以便增加新编码对象时不至于打乱原有的体系结构,同时有足够的扩展容量。
(4)兼容性:与有关标准(包括国际标准、国家标准、行业标准)协调一致。
(5)高效性:编码结构应尽可能简单,即节省存储空间,又易于计算机高效处理。
(6)适用性:编码应尽可能反映编码对象的特点,有助于记忆,便于编制。
3.2 编码设计
水科院信息分类编码设计的过程分3个步骤:
(1)依据需求分析确定调研对象,对调研对象现有的信息分类、编码情况,以及相关信息资源等进行深入调研,并根据调研结果确定编码对象。
(2)根据编码对象自身具有的特征、属性以及编码对象所表达的含义确定编码依据。
(3)结合相关标准,根据编码的有效范围和容量,确定具体的编码方法和结构。
在具体实施过程中,要对已有信息编码进行梳理、遴选、优化和统一,对已有信息编码的不足不能一概否决,需要进行合理的处理,如:对暂时无需进行信息共享和交换的编码可以保留不变,而对需涉及信息共享和交换的编码制定相应的规则对其进行转换,以实现编码的统一。只有这样,信息分类编码的实施才能行之有效,又不会影响现有业务系统的正常运行。
分类编码主要分为数字型、字母型和混合型 3种类型。数字型代码是我国使用最广泛的一种编码方式,其优点结构简单,使用方便,缺点是不利于对编码对象特征进行描述;字母型代码可使用 26个英文字母,其优点是字母码的代码容量大,并且可以提供人们便于识别的信息,缺点是不利于计算机处理。混合型编码兼有数字码和字母码的优点,结构严密,具有良好的直观性,缺点是计算机输入不便,容易出错。综合考虑3种分类编码的优缺点,水科院信息编码选用混合型编码方式。
3.3 编码结构
编码结构中一般含有两类代码:有含义代码和无含义代码。有含义代码是指代码本身具有某种实际含义,不仅作为编码对象的唯一标识,还能提供编码对象的有关信息(如排序、逻辑意义等)。无含义代码是指代码本身无实际含义,代码只作为编码对象的唯一标识,起替代编码对象名称的作用,而不能提供编码对象的其他任何有关信息。
好的编码结构应具有两个优点:(1)编码是实体明确的、唯一的标识。(2)可以提高计算机的处理效率[16]。
基于上述编码原则和方法,水科院信息分类体系中的每类信息制定了编码结构,由于篇幅所限,这里举两个例子进行说明。
一是项目合同编码,其结构如下:
按照此编码结构即可对承担的项目合同进行编码,如“WR0121A022011”表示水资源研究所2011年立项的第2个“十二五”国家科技支撑项目。
二是科技成果编码,其结构如下:
按照此编码结构即可用于水科院科技成果进行编码,如“WE2012011”表示水环境研究所 2012年完成的第11个科技成果。
4 结 论
信息分类与编码是信息化建设的基础性工作,是实现信息表达、交换与共享以及信息系统集成的前提和基础,而信息分类与编码工作又是一项纷繁的工作,涉及水科院的多个部门,在编制过程中,既要考虑各业务部门的差异性,又要充分发挥各业务部门的优势,制定一套具有实效性的信息分类编码体系。信息编码不仅便于数据的存储和检索,还可节省存储单元和节省时间。信息编码后,信息资源的排序、合并、累计、统计分析等许多工作实现起来更便利,既简化了程序,又提高了处理效率。
本文提出的水科院信息分类编码体系尚处在探索阶段,每种分类下具体的内容还有待进一步细化,在今后的工作还需不断完善。
[1]古发辉,李雯,赖路燕.面向信息共享的信息分类编码标准体系与实施过程研究[J].情报杂志,2008,(4):25-28.
[2]张茂震,宋铁英,唐小明,等.森林资源信息分类编码方法[J].福建林业学院学报,2005,25(2):147-152.
[3]古发辉.面向信息共享的信息分类编码及其管理系统的研究[D].江西理工大学硕士论文,2008.
[4]耿庆斋,张行南,朱星明.基于多维组合的水利科学数据分类体系及编码结构[J].河海大学学报(自然科学版),2009,37(3):346-250.
[5]李伟.信息分类编码研究初探.图书情报工作,2008,(2):286-288.
[6]朱星明,耿庆斋.略论水利技术标准中信息共享类标准存在之问题[J].水利技术监督,2006,14(3):6-9; 16.
[7]Q/IWHR 1~10-2004,信息系统编码[S].
[8]于爱华.浅谈科研单位信息系统编码标准建设[J].水利技术监督,2004,12(6):12-14.
[9]孙香云,刘增进,郑朔昉.信息分类与编码及其标准化[M].北京:机械工业出版社,2012.
[10]牛振国,符海芳,崔伟宏.面向多层用户的农业信息资源分类初步研究[J].资源科学,2003,25(2):20-25.
[11]曾庆森,张红,田伟.包装行业企业信息分类与编码问题的研究[J].包装工程,2000.21(2):37-39.
[12]叶冬芬,周建强,韩双霞.基于刀具全寿命周期管理的信息编码研究[J].机械制造,2009,47(12):5-8.
[13]王慧,吕新.新疆兵团农业资源信息化体系框架构建初探[J].石河子大学学报(自然科学版),2011.(5):546-550.
[14]袁长炜,古发辉.浅谈信息分类与编码的实施[J].科技广场,2010,(5):248-251.
[15]肖修剑,王家顺,王田苗,等.信息编码与面向对象的信息编码模型研究[J].微计算机信息,2003,19(6):79-80.
[16]程贵秀,叶延科.企业信息分类与编码问题的研究[J].电脑开发与应用,2003,16(5):10-12.