多标签分类编目技术助力航天企业基于知识工程的标准应用
2021-04-20李楠陈少华李春雪
李楠 陈少华 李春雪
(1北京电子工程总体研究所,北京 100854;2中国航天科工集团有限公司第二研究院,北京 100854)
知识管理(KM,Knowledge Management)是网络新经济时代的新兴管理思潮与方法。随着数字航天建设进程的加快和不断完善,知识管理已成为航天企业广泛实施的重要基础性工作,并为企业整体的信息化、数字化能力提升、两化融合转型提供了基础环境。尤其是作为航天系统最重要知识资源的 “标准规范”,在解决标准实施、标准查询、技术文件编制协同、自动化标检等工作方面,不同程度地使用了知识管理的技术和方法,取得了较为显著的应用效果。但由于航天系统知识内容具有跨领域、高集成、深度专业化、信息安全敏感等特点,同时难以引入较为流行的语义识别、群组、知识模型等互联网技术,因此以信息分类为核心的编目(Cataloguing)技术依然是当前航天企业知识管理以及知识管理系统构建的主要技术路径。
基于对传统编目技术的创新和实践,我们在航天企业知识管理实施、知识管理系统构建等应用方面取得了一定的成果。
1 编目分类技术及其标准的发展
随着信息技术的发展,计算机编目逐渐代替了手工编目,其中国际机读目录格式(UNIMARC)经过几十年的发展和完善,目前已成为文献编目的主要标准,广泛应用于全世界的图书情报机构。
1983年我国颁布了GB/T 3792.1《文献著录总则》,标志着中国计算机信息编目工作进入了国家标准的时代。1985年出版《西文文献著录条例》,1996年编制《中国文献编目规则》[1]。机读格式方面,我国参考 《国际机读目录格式》(UNIMARC) 编写了 《中国机读目录格式》(CNMARC),于1996年作为文化部行业标准(WH/T 0503—1996)开始实施。编目人员使用计算机按照特定编目规则对各类文献进行目录控制。至此,我国在文献图书领域初步建立起了国家层面的信息编目体系。
随着计算机存储技术突破,以及网络技术、互联网应用的高速发展,数字载体模式的文献资源呈现井喷式快速增长。为适应这一变化的需要,编目方式也向2个不同的方向发生了变化。第一种方式按照传统文献编目标准,扩展标准内容后对新的资源类型进行编目,即在维持现有编目规则的前提下,增加了对电子资源的编目支持。GB/T 3792系列标准、 《西文文献著录条例》 《中国文献编目规则》等均在修订后增加了“电子资源”章节。第二种方式采用更简单、通用化的网络信息资源描述标准对电子资源进行编目,如DC(Dublin Core,都柏林核心)元数据格式(对应的我国标准为GB/T 25100—2010《信息与文献 都柏林核心元数据元素集》)。两种方法一定程度上解决了传统编目方式对电子资源标引不足的问题,但仍然无法避免传统编目标准对电子资源的描述扁平化、缺乏关联性、编目信息孤立化等问题。
进入21世纪,人工智能、大数据、非结构化存储等技术得到了显著发展,编目工作逐渐由传统的 “出版信息编目”向 “资源内容标引”、“知识本体”和 “语义网”方向发展。情报学界和图书馆学界也在讨论传统的描述性编目的必要性,并对新的数据模型开展研究,如实体概念框架FRBR(书目记录功能需求)、资源描述与检索框架RDA、书目功能BIBFRAME、关联数据模型OCLC等,力求将网络资源、数字文献等电子资源变为真正的“知识”——即经过加工、具有关联性的信息集合。
以IT技术为主要推进动力的现代管理科学也在文献编目领域开展了大量研究,并成功将“知识管理”从一个学术研究内容转变为企业的重要基础工作内容。当前在知识管理领域已成功推出了GB/T 23703知识管理系列标准,实现了国家层面的方向统一。
2 现行编目技术及其标准存在的主要问题
2.1 编目采用唯一分类方法的合理性存疑
分类是编目技术的核心骨架,对电子信息资源这种新型的知识存在形式,其分类方法需要参考传统的知识分类法。常用的知识分类法如体系分类法,能够以学科、专业为基础,直接体现知识分类的层级和组织关系,提供学科分类检索文献信息的途径[2]。典型的体系分类法可能会产生以下几种情况:①对于某种新类型的资源,在现行标准中没有合适的分类,但出于管理需要又必须选一个分类时,可能会出现“削足适履”的情况,不利于资源的准确标记,甚至会出现“错误的”知识;②交叉学科的知识适用于多个分类,需要解决如何在多个分类内对同一资源进行标识的问题;③同一属性在不同专业领域内的名词定义存在差异,如何保证某个具有该属性的资源能够适应相关的分类标准,也是一件十分困难的事。
2.2 编目生产者和使用者间知识差造成当前已编目信息资源实际使用效率低下
编目工作原本是为了描述、揭示、组织信息资源,将信息资源按照一定的规则和方法进行有序化处理,使信息资源在需要的时候能够被特定的使用人检索到并加以利用。但实际上,编目信息的使用效率经常存在一些问题。国内外相关文献都指出,相对于已经进行了编目的资源总量,实际的查询率占比却非常低。这是因为编目信息的定义者和使用者不一定处于同一专业领域和教育背景,对同一信息资源认识方法、熟悉程度、专业水平的不同,引起信息资源定义的差异,容易产生“负责编目的人用不到编目信息,需要用到编目信息的人不知道用什么关键词能查到自己需要的信息”这种情况。
2.3 资源 (对象)类型的扩大,让传统编目标准和方法不能满足要求
文献编目及基于文献的电子信息资源编目,编目字段偏向出版信息登记,但一些新类型资源的编目字段(常体现为元数据标准和分类代码标准)不符合传统文献编目标准,并且无法与其他领域的数据标准进行转换,因此难以采用统一标准描述不同的新类型资源。
2.4 同一类型资源的编目标准不统一
在当前广泛的社会化信息化条件下,同一类型的资源本身也可能出现编目标准不一致的情况。以数字视频资源举例,广播电视行业制定了GY/T 202.1—2004《广播电视音像资料编目规范第1部分:电视资料》和《中央电视台音像资料编目细则》,国家图书馆制定了GC-HD090190《国家图书馆视频资源元数据规范》,文化部全国公共文化发展中心制定了《数字资源元数据规范》[3],三者虽然都是基于DC元数据扩展而成,但是这几种元数据标准仍然存在差异。这种情况在其他类型的电子信息资源中也是普遍存在的,这不利于资源的跨行业协调统一,继而影响到数字资源的搜索定位与共享。
3 大众分类法及多标签分类技术及其实践
针对航天企业知识管理工作具有跨领域、高集成、深度专业化、信息安全敏感等特点,为有效回避传统编目技术中存在的缺陷,全面提升航天企业知识管理的工作水平,航天企业内部开展了广泛的专业技术研究,提出了多种解决方案,其中多标签分类技术是一种经验证可行的重要方法。
3.1 大众分类法及多标签分类技术
大众分类法是指一种由社群参与人运用自由定义关键字的方式进行协作分类的方法。分类的原理是向社群参与者提供一种协同构建与共享各自网络资源标签的开放式平台,通过用户自己制定分类标准和提交资源标签来实现。
标签分类技术,又称Tag技术,是大众分类法 (Folksonomy)的实现基础,具有以下特点:①用户可以对任意资料采用一个或多个自定义关键词进行标引,不用限定在主题词表内;②标签在添加后,可以随时进行修改;③允许多个用户对同一资料同时进行标引,且这些标签可以共享;④标签之间不存在树形的父子关系,标签与标签之间是平级的。同一信息资源在由多个用户进行标引后,当描述某类信息的某一个或多个标签数量最多时,该标签就可以被确定为该类信息的大众分类[4],将用户群体对该类信息的普遍认知存储下来。
标签分类技术的应用流程简单描述如下:标签分类系统具有多个用户,这些用户允许对同一资源自由添加标签进行标记,如图1所示,形成的标签集合被称为标签池;其数据经过系统后台统计分析后,根据标签使用率对相应资源进行分类,形成大众分类数据;采用该分类对原始资源进行系统层面的再标记,并作为资源的推荐分类显示给查询该资源的用户,标签分类技术应用流程如图2所示。
图1 多用户对同一资源进行标记
图2 标签分类技术应用流程
以该技术为基础,某所工程技术人员构建了一套全自主知识产权的基于多维自定义标签的知识资料编目管理系统,该系统能够实现对多种类型、多种格式的数据进行灵活的自定义分类,根据不同的分类和数据应用,采取不同的索引方式进行显示,对日常研发和项目管理过程中产生的非结构化数据及文件进行统一管理,既能满足个人用户日常文件管理、快速自定义多标签分类、标签分组展示,又能兼顾其作为组织级数据资产需要具备的数据来源的单一性、版本一致性和编目定义可扩展性,以便与可能存在的大数据平台进行对接。
基于大众分类法的标签技术虽有语义模糊、不够规范、信息分散等问题,但经过使用频次、权重汇总后,统计结果具有一定的可靠性,能够充分体现出用户的群体智慧[5],将其脑内存在隐性知识显现化,作为对知识分类和管理的补充,具有显著的提升作用。
3.2 采用多标签分类技术的知识编目分类应用
以某所开发投入使用的某型专用信息系统为例,该系统功能及架构设计如图3所示。其主要功能包括5个部分:资料管理、标签定义、标签分组、标签关联、数据导出。
图3 功能及架构设计
以单用户日常使用场景为例,上述功能在系统中的典型操作流程如图4所示。
图4 典型操作流程
系统实施过程中,并没有单纯采用原始的标签分类技术,而是在其基础之上进行了扩展,使其能够支持多维度多层级标签动态标识。相比原始的标签分类法,该方法能够规避标签之间缺乏关联关系和层级组织关系的缺点,可以根据企业实际需求体现知识分类之间的层级关系,实现了对文本、文档、图片、音/视频、模型文件、地图数据、工具软件等内容的管理,能够支持任意格式、任意大小的文件,没有容量和格式限制。
采用多标签技术、单一文件验证技术以及基于云存储的统一后台数据存储方案,相比传统个人计算机文件系统资料管理的无序、易丢失,以及传统知识库系统分层/分类方式比较固定、搜索方式单一等缺点,该系统保证了数据唯一性,同一文件没有数据冗余,用户可以根据自身需求随时修改资料分类信息和查看方式,后台管理员能够查看分类标签关联信息和使用情况,大大提高了资料的使用灵活性和资料管理系统的可扩展性。
目前,该系统已应用于某航天项目研究类知识资料管理系统。藉由此套系统,该项目初步实现了知识资料数据管理、多维度动态分组、知识聚焦、知识关联查询等功能,为后续增加标签提交、审核、共享、发现等功能提供了基础平台。应用该系统能够基于标签关联统计开展数据分析,根据分析结果进行标签质量把控,进一步提升知识资源标记准确性,最终达到知识资源被目标用户精确获取的目的。
4 感想和体会
企业知识管理工作是一个循序渐进、不断迭代的过程,需要跟随企业的发展方向、知识本体的演变、技术的进步而不断完善。知识体系建设的第一要义是先把知识存好、标记好、用起来。知识分类的合理性和可靠性可以在使用标签进行标记后,由业务(领域)专家进行梳理、标准化专家进行把关,形成企业自己的标准公共标签池,供用户参考和初步选择,对用户起到必要的引导作用。
标准化专家和标准化归口部门的早期介入和全程参与对项目、技术方案是至关重要的。依托标准化专业人员的丰富经验和标准化贯彻实施特有的业务模式,某所资料系统从建立之初就依规建设,融合标准的贯彻实施,强调与型号技术文件编制工作的紧密结合。建成后,在广大工程技术人员中取得极佳的反馈,工程技术人员可以便捷地建立自己的专业主题,将标准文献与其他支撑资料进行整合,在保证技术文件合规性的同时,更加丰富了设计支撑资源,提高了设计水平和技术文件的质量水平。某所的技术文件标检一次合格率也从20%多提高到接近70%,在减轻标准化专业人员工作量的同时,提高了文件质量,加快了研制节奏。通过与应用信息系统建设的结合,标准的宣贯手段、实施手段以及实施效果都有了一个更加直观、便捷、有效的方式。