叙词表集成化体系及应用推进研究
2022-05-19曾建勋
陈 瑞,曾建勋
(1. 武汉大学信息管理学院,武汉 430072;2. 中国科学技术信息研究所,北京 100038)
1 引 言
叙词表作为一类重要的知识组织工具,在文献信息检索方面发挥着重要作用。国内外根据情报检索需求和应用陆续编制了大量的叙词表,为用户高效地获取信息资源提供了便利,但是这些叙词表资源很多未及时开发维护被束之高阁,只有很少的叙词表相对活跃,整体应用情况不很理想。当下学科发展日新月异,知识更新迅速,科学研究的关联度、交叉度进一步加深,对于文献情报服务,静态的单个叙词表资源很难满足涉及多学科、多主题的网络信息环境应用需求。科技术语资源的规范化和集成化对于网络信息资源的组织与利用十分重要[1],叙词表资源的集成与应用有助于带动现有资源的更新维护,优化知识组织体系,促进叙词表资源规模化应用[2]。本文借鉴国内外词表集成理论和实践,构建面向不同领域、多元学科交叉融合的叙词表集成化体系,旨在利用集成方式推动不同术语资源的规范化、形式化描述,不断扩充、更新语义知识库,拓展叙词表应用范围和应用模式,推动叙词表资源的可持续发展。
2 叙词表集成化应用的迫切性
2.1 叙词表资源及其应用现状
1959 年,美国编制第一部叙词表,之后迅速发展。国际上叙词表已超过2000 部,并广泛应用于各个领域,一些主流词表,如MeSH(Medical Subject Headings)建立了持续的更新机制[3]。1971 年出版的《航空科技资料主题表》是我国编制的第一部叙词表,1980 年我国第一部大型综合词表《汉语主题词表》正式出版,此后各专业情报机构纷纷根据需要编制一系列专业叙词表,逐步确立了我国叙词表编制的方法和标准[4]。以往叙词表的编制主要是以人工为主,耗费了大量人力和时间,且更新修订困难,已有的150 多部中文叙词表中,仅有39%的词表有过修订,且修订时间的间隔平均为10 年,修订时间落后于相应科技的发展,而仅有9%的词表比较活跃[5]。叙词表的生命在于不断地使用、维护与更新,众多叙词表的存在状态及应用情况不佳,越得不到应用就会越缺乏修订维护,导致概念过时、概念间关系简单,久而久之不被使用。
叙词表传统的应用环境主要是图书情报领域,未拓展到社会更加广阔的知识利用环境中[6],主要原因表现在以下方面:①传统的叙词表资源面向专业的标引人员,对于一般用户熟练使用有较高的要求;②众多叙词表资源分散在不同机构,并且缺少面向网络的信息服务系统,未开放对外应用接口,一般用户没有了解叙词表资源的机会以及获取叙词表资源的渠道;③传统叙词表主要由人工构建,知识结构简单,难以被计算机直接自动利用,严重制约网络环境下叙词表的应用;④叙词表资源未能与具体应用需求和应用环境相结合[7],缺乏在叙词表资源基础上的二次开发,很难直接应用到具体实践中。
总体来说,当前的众多叙词表资源落后于相应的科学研究,缺少应用,缺乏修订维护,这与日新月异的学科发展和知识更新现状不匹配。同时,各领域、各学科的词表资源分散在不同数据库或不同的机构,各表之间缺乏互操作机制,缺乏统一的、规范化的资源描述,难以发挥整体协同作用,不具备大数据环境下计算机大规模资源处理的应用条件。随着数字出版产业不断发展,大数据、云计算、人工智能技术在各领域的应用都离不开基础资源的组织和处理,叙词表资源作为底层规范化的语义工具,应超越传统的标引检索,融入整个文本信息处理和知识组织过程之中[8],广泛应用于搜索引擎、数字出版、数据挖掘和知识发现等各领域。叙词表资源需要不断完善内在结构和外在功能,逐渐由数字化向规模大型化、概念语义化、编制智能化和服务及应用多样化的方向发展[9],发挥其更加广泛的作用。
2.2 叙词表集成化应用的必要性
国外许多机构进行了词表集成实践,具有代表性的集成项目有:英国高层叙词表项目HILT(High-Level Thesaurus),采用映射方式集成67 部国际重要的叙词表和分类表进行网络信息服务[10];德国 KoMoHe (Kompetenzzentrum Modellbildung und Heterogenittsbehandlung)项目,对11 个学科的25 种受控词表进行集成,实现了多个信息系统之间的分布式检索[11];美国国立医学图书馆组织建设UMLS(Unified Medical Language System)项目,通过概念融合方式整合了上百部生物医学领域的术语资源,定义了54 种语义关系[12-13],构建了大型知识组织工具,并已将其应用到生物医学专业数据库的自动标引、智能化检索、专业词表的编制以及相关领域的语义关联和知识发现中。国内参照UMLS 的体系框架和构建流程开展了一系列集成项目,包括CUMLS (Chinese Unified Medical Language System)中文一体化语言系统、TCMLS(Traditional Chinese Medicine Language System) 中医药一体化语言系统 、 STKOS (Science Technology Knowledge Organi‐zation System) 英文超级科技词表等[14-15]。这些项目通过集成方式,整合多部叙词表资源及其他术语资源,定义多种语义关系并开发面向具体应用的服务系统,推动叙词表资源的应用。
叙词表的集成创建具有重要意义,主要体现在以下三个方面。
(1)叙词表的集成有助于盘活各种“闲置”的术语资源,通过集成方式进行各领域概念及概念关系的增、删、改,带动叙词表资源的更新和维护,进而带动各叙词表的发展。可以利用自动化技术集成新概念、新术语,及时反映学科知识的动态变化。传统的知识组织结构对于等级、相关关系的描述过于宽泛和模糊,而利用集成方式融合当下语义网、本体资源的新型语义描述方式,对现有的术语资源进行深层次的语义关系细化,则有助于机器使用叙词表资源进行知识推理。
(2)各领域的叙词表资源进行集成,有助于扩展资源主题范围,整合多来源、多语种、多学科、多类型的术语资源,实现更大范围主题概念的覆盖和语义关联,体现大型词表的学科集成优势。单独使用某一领域的叙词表难以较好地组织和揭示网络信息资源,利用集成方式对各领域的叙词表、分类表、名录、词典、本体等不同类型的知识体系整合,可以扩充叙词表的概念资源,同时,协同使用多种知识组织体系促进对信息资源的关联和共享。
(3)通过集成方法建设规模化的术语资源、结构化的概念描述、丰富的语义关系、不同层次的语义资源和服务,将术语资源、语义工具和应用模式融为一体,有助于数据大规模应用取得成效。集成化的词表资源和服务体系可以为自然语言的处理提供大规模基础资源,为信息加工提供自动切词、自动标引、自动分类、信息抽取等功能,为知识挖掘和知识发现提供概念实体识别、语义识别、自动分类、智能推理等语义信息,起到术语规范和知识关联等作用。
3 叙词表集成化体系框架
围绕规范化概念和语义关系表达,叙词表的集成化试图将各主题领域的叙词表资源及各类术语资源进行归并融合,构建一个语义关系丰富、明确的新型集成化词表,并创新集成资源的应用和服务模式。叙词表的集成化体系建设是一项系统工程,涉及不同语种、不同结构、不同领域术语资源的互操作及应用,需要从集成的标准、方法、过程、系统、应用出发,构建完备的集成化体系框架(如图1 所示),标准规范体系对整个集成过程进行规范控制,是集成化过程的基础;词表集成化支撑体系辅助集成化过程的网络化和自动化,是集成化过程的工具;词表集成化概念体系明确集成后的词表结构,是集成化的目标;自下而上的集成化过程包括多来源术语集成和语义组织与集成,生成集成化词表;在此基础上,提供面向用户、面向机器的系统服务与应用,全面深化和拓展叙词表资源的服务功能和应用机制。
图1 集成化体系框架
3.1 标准规范体系
1)数据加工规范
在整个集成操作过程中,从数据资源的采集、存储、筛选、描述到语义集成,都需要制定相应的操作规范和规则,以保证集成资源从形式到内容的加工质量。数据加工规范需要调研多来源术语资源的结构特征,明确词汇资源采集的原则、数据表达规范、数据存储格式,制定映射规则、关系校验规则等,为整个集成操作的数据加工提供相应的标准与规范。
2)元数据统一描述
不同来源的术语资源,在总体结构、概念范围、语义表示、存储格式等方面均有差异,元数据描述各有区别。结构和描述的差异性为叙词表的集成服务带来障碍,因此,有必要设计统一的元数据框架,用统一的标记语言进行形式化描述。依据元数据设计标准,充分考虑元数据的准确性、全面性和扩展性,借鉴重用比较成熟和大众认可的概念构词描述形式,提炼出具体可行的元数据方案,以便保证多来源概念的统一管理。这些元数据标准和描述规范,一方面可以为不同知识组织系统之间集成融合提供支撑,另一方面可以为后续的服务应用奠定基础,实现集成资源的网络共建共享。
构建叙词表统一规范的元数据框架,既需要客观、真实地描述词汇的来源信息和描述信息,又要充分地揭示词汇与概念、概念与概念间的关系。元数据描述是分层的,主要分为来源描述元数据、宏观结构元数据、词汇概念元数据、语义关系元数据以及映射关系元数据,具体的层次框架如表1 所示。叙词表以概念为核心,概念通过词汇表达,对每一个来源表、词汇及概念分配唯一的ID,便于查找和识别。来源描述元数据对来源概念、来源表(即原始词表)进行基本描述,提供来源表各项信息。宏观结构元数据包括主表与附表、主表与学科分类表间的关联关系描述。词汇概念元数据及语义关系元数据是描述的核心,词形层面描述词汇的名称、拼音、英文或拉丁文、缩略语等非语义信息,词义层面描述概念的定义、分类、概念间的关系;当前概念之间的关系主要包含等同关系、等级关系和相关关系,需按学科特征和语义类型进行拓展。集成化过程需要建立原始词表与集成概念间映射关系、集成概念与附表术语间映射关系;除等同、上下位、相关映射类型外,可根据具体语义关系进行映射类型的细分。按照元数据框架选择合适的形式化描述语言进行集成数据的描述与存储。当下语义Web 技术的发展为词表形式化描述提供了坚实基础,单纯使用一种描述机制容易丢失部分语义信息,可以采用SKOS (Simple Knowledge Organiza‐tion System)语义描述框架[16]、RDF Schema 描述机制[17]、DC(Dublin Core)元数据等多种描述方式,互相扩展补充进行叙词表宏观结构和微观词汇概念的形式化表示[18]。
表1 元数据层次框架
3)叙词表编制、互操作标准
叙词表资源的集成需要遵循叙词表编制标准,依据叙词表质量标准规范体系和词表间互操作标准确定集成化词表的概念体系结构,满足叙词表现行的一系列国际标准《信息与文献——叙词表及与其他词表的互操作》(Information and documentation—Thesauri and interoperability with other vocabularies;ISO 25964)和国家标准《信息与文献叙词表及与其他词表的互操作》(GB/T 13190),以及语义关系细化的本体化知识描述机制。具体到学科领域,术语表达方式存在差异,需要在遵循统一标准的前提下,按照学科特点制定具体的编制规则,并在集成过程中不断调整完善。
3.2 词表集成化支撑体系
叙词表集成需要满足不同术语来源下各学科领域专业人员的协同操作问题,有必要设计一套先进的、适用于叙词表融合集成的操作平台,为集成过程的自动化、集成化词表的动态编制和维护提供强有力的支撑。该平台依托互联网技术,支持多用户、分布式、可视化地协同完成集成化操作[19],包括开放式多来源数据的导入,集成化词表的构建、审核、质量控制与管理、发布等一系列工作流程所需的各种功能模块,平台建设需要突出以下三方面的要求。
(1)协同操作机制。叙词表集成化涉及各学科主题领域和专业人员,集成词汇量众多、语义关系复杂,需要通过分布并发式机制,实现集成化词表的协同编制。平台应充分考虑横向多人同时分工协作与纵向不同过程协作的使用特点,以满足多人、多地、随时处理的需求,促进集成过程的实时沟通和协调。横向协同应按不同的学科领域,以整表、词族、概念等不同粒度建立权限分配操作管理机制,实现数据协同共享与冲突规避机制,保证集成融合过程的有序性;纵向协同需对词表集成化全过程进行科学合理设计,包括任务指派、下发、编辑、提交、审核、监督、发布、更新,以及该过程中的数据自动核验、人工干预等,实现集成融合的规范性。
(2)智能化辅助技术。融合集成工作平台为集成化过程提供智能化辅助,最大限度地减轻集成过程中的人工工作量,加快集成化词表的构建速度。积极探索概念的自动映射和自动归并,语义关系的自动合并和语义关系冲突的自动纠错,采用词汇相关分析、文献数据分析、语义关系挖掘、学科新词发现、新术语评估等自动化处理技术,为集成工作人员提供语义关系推荐、学科分类推荐、新术语推荐等智能服务,提高集成化词表的编制效率。伴随着来源词表的持续更新,集成化词表需保持同步更新,借助自动化技术及时识别来源词表的变更术语、及时整合科学文献的新术语,实现词表扩充和更新的动态发展[20],使词表维护速度跟上学科的发展变化。
(3)可视化技术。结合中文集成化词表的特点和用户使用习惯,将多种可视化技术应用于词表表示和知识组织的可视化、信息处理与操作的可视化、检索过程和结果的可视化三个方面。采用点、线、平面图、三维图、数据表等方式从不同维度、不同层级全面、直观、动态地展示词汇概念及各种概念间的关系;集成化词表支持多种语义关系的定义,设计一个叙词表可视化过程,尽可能准确合理地展示出概念间丰富的语义关系,词间关系一目了然,帮助用户进一步明确概念的内涵,启发用户发现一些新的潜在信息并进行快速检索和调整。同时,利用可视化技术优化平台人机交互逻辑,简化平台操作复杂度,设计改进工作流,强化用户体验和反馈,辅助用户分析、决策和管理,使集成化过程更加顺畅。
3.3 词表集成化概念体系
叙词表集成化建设旨在继承现有规范术语资源的经验和成果,融合新的概念和关系,实现不同类型的知识组织体系之间的关联整合,构建词表集成化概念体系,生成集成化词表。集成化词表并非传统意义上的叙词表,以概念和概念语义网络描述为核心,借助新的语义描述机制对语义关系的含义和类型进行拓展细分,采用特定的结构将各学科领域的叙词表和相关术语资源组织汇编在一起,以获得更好的应用性能。借鉴本体的描述机制,集成化词表的体系结构如图2 所示,主题概念继承顶层概念的语义类型,将不同来源的多个词汇、术语进行合并融合,每个概念归入一个学科分类下;同时,保留来源词表的词义、概念和关系,建立多个来源表的概念与主题概念之间的映射关系,保障概念可以还原到原始的术语表中,将多来源知识组织体系有序地组织在一起;独立的概念体系支持随时添加新的概念和语义关系,从而对概念体系进行扩充。
图2 集成化词表的体系结构
顶层概念体系为所有集成的主题概念提供语义架构和分面框架,定义类体系、类属性和类关系,具体步骤:①构建概念类,并从叙词表的术语等级出发构建层级类;②确定概念属性和属性值类型,明确概念下语义类型。顶层概念体系不可能覆盖所有的语义范围,具体构建过程需要面向通用领域和专业领域,确定体系规模,优先采用语义明确、应用较广的语义关系类型。从实用角度出发,认真梳理、充分借用已有的专业领域知识组织体系的结构与关系,同时,结合当下学科发展和应用需求,最终确定概念范围的深度与广度,进行合理的细化和描述。学科分类是涵盖全学科的统一分类体系,确定术语资源的主要学科归属,亦方便为各来源概念提供统一的导航服务,辅助实现多来源概念的语义集成。对于学科分类体系的建设,参考《中国图书馆分类法》《中华人民共和国国家标准学科分类与代码》(GB/T 13745-2009)及各专业分类体系,充分考虑学科交叉特征、类目层级深度,面向多个学科统一构建。
主表包括各学科领域的主题概念、术语、属性和关系,主题概念包含同义词、缩略语、注释、分类号、英文、拉丁文、来源信息、词频信息等描述属性,概念语义关系以“属”“分”“参”进行细分。随着叙词表的不断使用及网络技术的发展,各领域叙词表的结构与功能也在不断发展和完善,对语义关系的描述更加灵活多样[21]。众多学科领域对等级关系及相关关系的语义类型和语义关系进行明确定义和细化,如等级关系又可细化分为属种关系、整体-部分关系、类-实例关系等;相关关系表示两个概念之间存在关联,又可细分为物理上相关、空间上相关、功能上相关、位置上相关和概念上相关等;特殊领域需要结合学科领域特点从多方位对语义关系拓展细分,提供更加明确的、更符合用户使用习惯的语义关系,如对于疾病的描述,可从病因、诊断、治疗等角度具体化语义关系。附表可以丰富集成化词表的术语资源,将一些名录资源独立于主表而存在,在不影响主表概念结构的情况下集成更多的术语资源,建立这些术语概念与主题概念间的映射关系。
4 叙词表集成化过程和方法
众多词汇资源先经过采集加工建立词汇集成库,再进行概念层面的语义组织与集成,具体的语义集成化过程和方法如图3 所示。针对各来源概念进行概念映射,映射主要是在不同概念体系中找到最相关的概念和参考信息。在映射的基础上进行概念的融合集成,即集成化词表的概念建设及概念语义关系重塑,在这个过程中需要将新词汇、新语义关系的发现融合到概念体系中。融合集成过程可能会导致语义关系的逻辑问题,因此,需要进行关系一致性检验。整个集成过程离不开语义分析工具和人工专家的辅助,最终生成统一结构的集成化词表。
图3 语义集成化过程和方法
4.1 多来源术语集成
在集成内容上,为了有效扩展叙词表的应用领域和应用范围,集成的词汇来源主要包括国家编制的综合性词表和各学科领域的叙词表、分类表等规范化知识组织体系的一系列主题概念、概念关系和属性描述,包括各类术语资源等更广泛的词汇概念,如词典、名词名录、网络百科、各类数据库术语资源等大量专有名称术语和专业科技术语。同时,集成系统的构建需要注重学科性和时效性,将学科的新进展和新术语及时集成到应用系统中。新术语的来源主要依赖两类:一类是针对海量文献信息资源进行数据挖掘,提取高频概念术语;另一类则充分考虑当下用户的需求,及时获取用户检索高频关键词、用户推荐词等。
这些资源数量庞大,依据数据加工规范对数据进行清洗过滤,按照统一的元数据框架对术语资源规范化描述,综合评估词汇的词性规范性、语义明确性、学科专业性及使用情况,筛选建立词汇集成库。词汇集成库为集成化词表的构建提供数据来源和数据属性参考,全面、高效地收集相关术语和术语信息(来源信息、词频信息、分类信息、使用信息等),保障来源词汇的全面性和准确性。同时,词汇集成库包含众多集成化词表所没有的术语资源作为集成化词表的拓展和延伸,有效关联更多的概念和词汇,可以有效地帮助提高集成化此表资源与用户语言的匹配效率[22]。
4.2 概念映射
不同来源的术语概念在集成时,首先需要进行概念间的映射并建立映射文件,为后续的概念融合集成提供参考。映射主要是建立多来源概念间的对应关系,找到等同映射、等级映射、相关映射关系。可以从词汇层、结构层和语料层三个方面实现概念映射[23],按照这三个层次对应的映射方法归纳为基于词形的映射方法、基于结构的映射方法和基于语料的映射方法[24]。
(1)基于词形的映射方法。主要是基于词汇的词形进行匹配。对于单个词汇,词形相同即代表完全相似,否则判定为不相似;为了提高相似度,可以充分考虑汉语词汇的构词特征,借鉴基于词素的相似度计算方法,针对多字的词汇进行词素的切分,通过考虑词素匹配个数与在词汇中的位置进行映射关系发现。基于词形相似度获得的映射关系,可能只是词形相似,并非概念上的等同,需要进一步分析判断。
(2)基于结构的映射方法。充分考虑叙词表本身规范的结构形式,将词表用代、属、分、参各项结构内容作为主题词映射的背景和语境,可以提高匹配效率。比较成熟的方法是构建词汇语义向量空间,充分考虑结构语义信息,进行类目概念相似度的计算,最终依据匹配相似度大小和匹配类型拓展语义映射关系。
(3)基于语料的映射方法。主要是依靠外部资源挖掘类目之间的关系。根据语料资源的不同采用不同的映射方法,可以采用同义词典(如WordNet、HowNet、同义词林等语义词典)有效改进基于词性的相似度计算方法,但是通用同义词典包含专业领域同义词的规模往往较小,可以根据应用需求构建具体的同义词库。可以充分利用标引文献资源,基于大规模语料库统计方法进行映射,利用共现频次关系,为概念间关系提供有益线索。
不同的概念映射方法具有各自的特点和应用场景,有的相互之间存在互补关系,在具体的集成映射实践中,并不只是单一使用一种映射方法,需要有机地组合使用。映射作为语义集成的关键环节和重要方法,需要保障映射质量,减少融合逻辑问题。映射之初,必须建立明确适用的映射规则,对映射的通用规则、等同映射规则、等级映射规则、相关映射规则、组配映射规则规范化[25],讨论映射的语义类型及映射的顺序问题,优先建立哪些映射类型,建立映射关系后是否还拓展其他的映射类型,映射过程是否可以继承和传递等,在映射过程中要充分考虑词汇各项语义信息和语境信息,从不同角度的匹配来提高映射效率,保障映射概念的准确性。
4.3 概念建设
在统一的集成规范体系下,确定集成化词表的概念范围,进行概念和术语的筛选。多来源的概念词汇难免存在交叉和重复的问题,需要对概念进行选择和合并。对于概念的选择,结合学科背景和实际应用需求进行调整,需要充分考虑概念的专业应用深度和广度、概念的专指度,保障概念规范且含义清晰。在选择概念的过程中,可以利用概念名称、使用频次和领域专家推荐法,以及文献标题、摘要或关键词部位和用户检索词的调查分析,有效地反映当前发展趋势和用户应用需求,专家推荐可以保障概念的专指性和准确性,将各专业领域经常使用的、能够准确表达科学概念的优先词汇选定,对于一些词频低的概念,可根据具体应用情况进行选择。在确定优选概念的基础上,利用映射信息进行概念属性的合并,将表达概念的同义词、注释、缩略语、译称、学科分类号等属性信息进行查重、合并。依照概念的学科专业、内涵信息为每个概念分配一个或多个学科分类号,从多角度揭示概念的科学属性,选择与概念表达最为接近的类号,确保多个分类号之间不构成上下级关系。同时,给每个概念进行形式分类,将一个概念归入一个语义类型,并继承该语义类型的属性,为后续语义关系的梳理提供规范和参考。
当前学科的交叉日益显著,对于交叉概念的归属,应综合考虑概念在相关概念体系领域的应用深度和广度,放入某一概念体系下并建立概念间的参照关系。对于有歧义的概念,需要保障“一词一义”,考虑是否可以改用其他词汇,可以利用概念的属性信息明确概念的内涵和应用领域,借助顶层概念的标签对有歧义的概念进行限定,通过添加注释对词义不够清晰的概念进行说明。对于融合过程中的一些复合概念,可以进行概念的分拆和合并,参照方面型关系构建主题概念及方面概念间的关系,进而从不同角度拓展语义关系。
4.4 语义关系重塑
丰富、明确而规范的概念间关系是集成化词表的重要特征,是发挥其重要作用的基础和条件保障。通过建立的等级映射、相关映射关系对概念的语义关系进行发现和细化,实现语义关系的重塑。以优选概念为核心建立逻辑合理、脉络清晰的语义关系,一方面,是对现有规范词表概念关系的继承和合并,现有的众多词表资源包含丰富且可靠的概念关系,需要依据专业领域学科进展,围绕优选概念的等级映射、相关映射关系剔除不合理和过时的语义关系,梳理可靠的上下位等级关系和细化不同方面的相关关系;另一方面,利用大规模语义计算技术将新的语义关系集成进来,考虑利用文献词汇共现关系发现、用户检索信息共现发现、专家和用户推荐方式、词汇上下文语境分析方法,并结合字面相似度计算、关联规则算法发现新的语义关系及跨学科的术语间关系,将这些关系进行明确的形式化的表示。
在概念融合过程中,随着概念的合并和关联,概念体系的复杂度增加,不恰当的概念归并容易导致概念语义模糊、产生歧义、语义关系冲突等各种逻辑问题。融合过程需要通过对概念关系逻辑的整理,提炼关系逻辑推导规则和判定规则,消除因融合导致的概念关系冲突。概念融合中常出现的逻辑问题有三种:关系冲突、关系循环和关系冗余[2,26]。关系冲突是指两个概念之间同时存在等级关系和相关关系;关系循环是指出现互为等级关系的概念相互串接后形成收尾相接的环;关系冗余是指两个概念之间的等级关系可以通过其他关系推导得出,不需要直接构建。关系校验过程中,也存在部分概念之间的关系没有逻辑错误,但由于来源表对概念划分的分面角度、颗粒度的差异导致语义关系交叉,需要对这些逻辑问题进行一致性处理。这些逻辑问题涉及多个专业领域,需要借助计算机检查发现问题,支持语义关系的可视化浏览,组织领域专家一一确认,人工纠正和处理。处理过程必须充分考虑概念集的使用目的、概念颗粒度的粗细,依据一定的处理规则和流程取舍优化具体的概念间关系,先进行逻辑错误的纠正,再考虑关系的优化,先进行一个词族内检查和解决,再拓展到多个词族间进行处理,防止对某些语义关系的增删改产生新的逻辑问题,进而保证整个集成过程有条不紊。
5 叙词表集成化应用的推进策略
传统的叙词表资源在文献资源的组织和检索中发挥了重要作用,但其资源分散、语义体系相对简单、应用场景单一,严重制约叙词表资源在大数据环境下的应用。叙词表集成化体系需要适应应用环境的变化,充分发挥集成资源在信息智能化处理中的作用,拓展新的应用模式。应用模式主要分为前台服务模式和后台应用模式:前台服务模式主要是通过叙词表集成服务平台和微服务架构平台为用户提供良好的使用体验和服务方式;后台应用模式则需要整合整体概念资源,优化集成资源的组织、呈现和利用方式,提高集成化词表的知识服务效率,两者相辅相成,共同推进叙词表的集成化应用。
5.1 以动态更新维护机制提升叙词表集成化的可持续发展
很多词表资源存在着数据应用更新不及时或者没有更新的问题,实现集成化词表的可持续发展,最重要的是保证集成数据的动态维护,在应用中促进不断更新。集成系统是一个动态变化的体系,旧的术语不断发展,新的术语不断出现,需要建立专门的网站和维护人员进行在线管理,从数据来源、数据更新和数据应用三方面构建定期动态维护机制。将文献语料资源新出现的重要术语概念及语义关系及时增补到集成化词表中,满足概念和语义关系及时、全面、准确三方面要求;重视用户参与在线更新维护,提供实时在线反馈机制,适当吸纳用户的意见和反馈;并结合应用效果对词表进行调整和优化,在应用中采集更新需求,并基于应用检验更新内容。集成化词表的构建和完善是一个长期反复的过程,需要吸引各界社会力量参与进来,强调利用词表的同时反哺词表的更新,编用相互支撑形成良性循环,以保障集成化词表的可持续发展。
5.2 以互操作接口形成叙词表集成化的开放服务优势
在开放环境下,集成系统资源如何得到高效利用,必须构建完备的互操作共享机制。集成系统通过术语服务与关联数据服务将词表资源进行整合和联系,制定一定的共享约束条件,构建集成资源互操作共享机制。利用术语服务,进行词表术语资源的规范和控制,实现机器可读、可理解以及更方便的数据交换与共享,支持对词表整体资源、术语及语义关系层面的元数据浏览、检索、应用的各种Web 服务,促进分布异构资源的检索与发现,通过API 支持机器对词表及其内容的访问和调用等。开发关联数据服务,利用关联数据一系列技术将集成数据进行链接结构化表示,构建计算机可理解的语义数据网络,通过关联数据服务与网络中其他语义资源进行有效链接,在此之上构建更加智能化的应用。集成化词表资源的术语服务不再是孤立地存在于特定的检索系统中,而是作为一种关联数据类型融入开放关联的结构化语义网络中,通过资源共享机制有效降低整合分布式异构数据源的复杂性,提高资源的利用率,通过关联推动集成化词表资源与其他资源形成共享服务优势,有效推进相关知识的发现,实现数据融合和语义服务。
5.3 以合作开发机制拓展叙词表集成化的应用场景
集成化词表涉及的领域非常广泛,可应用的领域也非常广,突破图书情报领域应用范围,拓展应用到电子政务环境、电子商务环境、大型企业知识管理、医学、教育等专门的行业或领域之中,建立集成化词表与相应的应用业务相结合的应用模式,考虑嵌入特定的应用系统平台中对特定应用场景提供词汇支持,支持具体业务的知识组织与利用。集成化词表资源统一的形式化描述可提供信息自动化处理的基础数据,可以考虑与具体的行业机构进行合作开发和利用,在集成化词表现有资源的基础上,深度开发面向具体应用环境的专用词表以满足特殊需求,共享开发成果。集成化词表可以选择合适的平台、网站、系统等运营平台,推进引进平台、网站、系统中对集成化词表的嵌入式利用模块,进而普及拓展集成化词表在更大范围的应用,充分发挥集成化词表的社会价值和经济价值。
5.4 以叙词表服务平台深化叙词表集成化的社会影响力
集成化词表需要基于专门的网站或平台,作为其对外服务的直接门户,提供术语层、概念层、语义层和工具层不同层次的知识服务。用户通过平台可以进行查询、浏览、检索、下载及编辑操作,免费检索词表中的概念,查询术语信息,获取同义词、上下位词、相关词等语义相关的概念,了解各来源词表的基本信息和历史版本,根据自身需求对各词表进行选择和浏览。同时,平台结合当下热门技术,提供个性化服务,如为用户提供术语概念的可视化展示、主题图服务及叙词表向本体转化提供基础服务等,方便用户理解和使用。平台也可适当的将集成化词表部分内容免费授权给提供公共服务的社会机构,通过在线服务和免费的词表应用,不断提升集成化词表的社会认知度,使集成化词表在更广泛的范围内被大众所认知。
5.5 以微服务架构延伸叙词表集成化的服务功能
微服务是将传统的单体服务拆分为多个不同的、实现某个具体功能的单一服务,然后,通过远程服务调用实现各个服务的使用,多个服务共同组成一个完整的系统,该服务架构最大的特点是构建高度模块化、可扩展、可定制的个性化应用平台。围绕集成化词表资源开发词表一体化微服务应用平台,在词表业务基础上开展最小单元应用服务,不断延伸集成系统的服务功能。利用微服务平台主要提供机器可读的词表整体资源服务以及机器可调用的语义开发工具服务。词表集成系统开发术语映射辅助、自动标引、知识挖掘、学科发展分析预测等语义应用工具,通过API 应用开放接口,将集成系统的术语服务、文本分析、主题分析、自动标引、学科分类等各项业务通过网络对外发布开放,更好地推动大数据环境下叙词表资源在中文自然语言处理、人工智能技术的应用。同时,微服务应用平台允许其他信息系统、门户网站接入,通过链接和调用到各应用系统本地,扩展其资源服务能力,最大限度地提高资源使用的便捷性,这样将大大提高集成化词表利用效率。
5.6 以版权管理机制推动叙词表集成化的共建共享
叙词表集成化涉及多渠道词表资源的采集与整合以及集成之后词表资源的开放共享,需要明确开发和应用各主体间的权利和义务,建立数字版权管理机制和相应授权机制,实现参与主体数据价值释放和融合发展,进而推动集成化词表资源更大限度地共建共享。探索建立基于词表集成共享联盟的版权合作机制,增加数据许可使用条款,即集成化词表资源的编制者、发布者、使用者之间就数据使用中的义务、许可使用范围、具体使用方式、非授权使用限制等方面达成开放共享协议,明确责任分配,在应用过程中保障各方的利益。同时,逐步细化建立可兼容多类型和多层次的灵活授权机制,面向不同的应用需求提供以学科、整表、词族、概念、功能等不同粒度的权限分配和分级服务模式,在知识产权框架下推进集成化词表开放应用。对于编研机构及其他公益性社会应用,需按照开放许可协议,在标注来源的前提下发布、利用;对于公司或企业以及其他的产业化应用,根据服务层次和应用效果可以适当收取费用,推动集成化词表资源的传播和发展。
总体来说,叙词表集成系统有很大的应用空间,但是当前围绕集成化词表资源的应用工具和产品还不够成熟,社会应用场景还有待开发,有必要提升集成资源的可获得性和可用性、开发嵌入式语义工具、探索集成化词表的社会应用渠道和版权管理机制,有效改善集成化词表的获取环境,支持更大范围地利用叙词表资源进行知识描述和知识发现。
6 结 语
本文针对叙词表资源缺乏修订、更新缓慢、自动化程度低、落后于学科发展的现状,提出构建面向不同领域、多元学科交叉融合的叙词表集成化体系。整个集成化体系通过标准规范体系、词表集成化支撑体系、词表集成化概念体系建设,利用多来源概念映射、融合方法形成集成化词表。在保留既有语义的同时,拓展和丰富词表内涵和关系,为大规模、开放式、合作式叙词表创新应用服务提供有力推进支撑,实现叙词表资源的高效、有序、可持续发展。叙词表的集成建设借助计算机技术概念量不断扩大,语义关系更加复杂和细化,词表的应用逐渐从以人工为主转换到以机器为主,从文献检索领域扩展到自然语言处理和知识计算服务等领域。在未来,提高集成过程自动化及智能化水平,强化叙词表在大数据环境下的创新应用和服务,构建叙词表的应用生态机制,仍然需要进一步研究和探索。