航空术语语义知识库ATHowNet的构建
2021-08-06王裴岩张桂平蔡东风
王裴岩 张桂平 蔡东风
摘 要:语义知识库在自然语言处理的许多领域中起着重要的作用。现有的语义知识库主要面向常识知识,特定领域的语义知识库则很少。文章将知网(HowNet)的理论体系与概念表示方法扩展至航空领域,提出了一个航空领域术语语义知识库——ATHowNet,并介绍了构建过程。该知识库包含3700个概念、3959个概念关系和3864个术语。在航空术语相似度计算及词类比任务上应用与验证了ATHowNet,结果证实了其在航空领域概念语义描述及基于概念关系推理上的有效性。
关键词:语义知识库;航空术语;概念;概念关系
中图分类号:N04;N949 文献标识码:A DOI:10.12339/j.issn.1673-8578.2021.03.004
Abstract:Semantic knowledge base plays an important role in many areas of natural language processing. Existing semantic knowledge bases are produced mainly for common sense knowledge, and there is few semantic knowledge base for specific domains. This paper extends the theory and concept representation method of HowNet to the aviation domain, proposes a semantic knowledge base for aviation terms, ATHowNet, and describe the process of constructing it. This knowledge base contains 3700 concepts, 3959 relations and 3864 terms. ATHowNet is applied and verified in the task of aviation term similarity calculation and word analogy. The results show that ATHowNet is effective in aviation domain concept description and reasoning based on concept relationship.
Keywords:semantic knowledge base; aviation terms; concept; concept relation
收稿日期:2021-02-26 修回日期:2021-05-11
基金項目:教育部人文社会青年基金项目“领域概念的语义表示方法与大规模语义知识库建设研究”(17YJC740087)
引言
语义知识库在自然语言处理的许多领域中起着重要的作用。现有的语义知识库主要面向常识知识,特定领域的语义知识库则很少。
本文基于知网(HowNet)[1]的理论体系与概念表示方法,提出了一个航空领域术语语义知识库——ATHowNet(Aviation Terms HowNet),描述航空术语所承载的概念及其之间的关系,并介绍ATHowNet的数据来源、构建规则及构建过程,分析ATHowNet在术语相似度计算及词类比应用的实验结果,证实了其在航空领域概念语义描述及基于概念关系推理上的有效性。
1 HowNet知识库及其扩展
HowNet最初是由董振东和强东在20世纪90年代设计和构建的,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,揭示了不同词语所承载的概念及其属性之间的关系[1]。HowNet把义原(sememe)[2]作为意义的最小不可分割单位。义原是通过对大量汉字的语义进行提取、分析、合并和过滤而确定的,其形式如:“aircraft|飞行器”“strength|力量”,并且建立了义原的分类体系,每个义原归于一个分类,如:事物、部件、属性、时间、空间等。此外,为了更准确地描述词语的语义,HowNet还定义了义原之间的关系,如:“whole”(整体)、“patient”(受事)、“agent”(施事)与“host”(主体)等。概念通过义原和义原关系来标注,同义词或近义词对应相同的概念,每个多义词对应多个概念,并建立了概念间的上下位、整体—部分、属性—宿主等关系。标注的概念用知识库标记语言KDML(Knowledge Data Base Markup Language)表示。这种面向计算机的形式化表达方式,便于将HowNet应用于相似度计算[3]、情感分析[4]、词向量[5-6]、语言建模[7]等。
HowNet自1999年提出以来,一直在不断更新,主要是扩充义原、概念和词汇的数量。目前,HowNet的网络开源版本OpenHowNet[8],包含2196个义原、35 202个概念和229 767个中英文词。一些研究对HowNet进行了扩展。ExtendedHowNet[9]扩展了HowNet的词义定义机制,使用WordNet语法集作为词汇来描述概念,通过定义与其他概念的关联来表示和理解概念。ExtendedHowNet 2.0[10]面向实体与关系的表示,对HowNet进行了扩展,重新组织了概念间的层次构筑关系,提供了除概念定义之外的额外词汇信息,如事件框架与语义功能等,利于表达实体所代表的概念间的语义合成过程。ExtendedHowNet和ExtendedHowNet 2.0扩展了HowNet的概念表示方式及词汇信息,但没有继承KDML形式化语言的能力。王莹莹等[11]借鉴HowNet的思想,以KDML为表示方式,以中医领域的99个基础概念为义原,配合8种关系,构建了中医领域术语语义知识库。由于中医基础概念及其关系自成体系,中医术语语义知识库中的义原与关系不能继承HowNet。这使得中医领域概念与HowNet中常识概念构建在不同的基础语义要素上,造成该知识库适用于中医术语层级的运算,无法用于参杂领域概念与常识概念的文本级任务。
张桂平等[12]完全继承HowNet义原及关系体系,以KDML为表示方式,构建了基于HowNet的航空领域术语语义知识库,面向航空术语的特点,在HowNet的7条总规则的基础上延伸出5条规则,包括义原与义原关系的选用规则与使用规范,为后续研究打下了基础。但这些规则在实际构建过程中操作性不强,概念表示的一致性与规范性较难保证。王羊羊等[13]在张桂平等[12]研究的基础上,提出了航空领域术语核心词框架,将[12]研究的义原与义原关系的选用规则与使用规范具体化为框架,规范了术语核心词义原及与其相关的动态角色关系。
2 ATHowNet
本文将HowNet的理论体系与概念表示方法扩展至航空领域,提出了一个航空领域术语语义知识库——ATHowNet(Aviation Terms HowNet)。ATHowNet包含3700个概念、3959个概念关系和3864个术语。在[12]及[13]的基础上,本文做了如下改进:首先,针对航空领域术语多为复合词或词组的特点,更加注重概念间的层次构筑关系,即复杂概念由简单的概念构建而成,简单的概念由更为简单的概念构建,直至基础概念。这样能够更加明确地表达概念间的关系,适用于基于关系的推理任务。其次,将[13]的核心词框架替代为基础概念及框架,使得220项基础概念能涵盖52.82%的术语。最后,除[12]及[13]的术语相似度任务外,在基于概念关系推理的词类比任务[13-14]上应用了ATHowNet,验证了其在航空领域概念语义描述及基于概念关系推理上的有效性。
2.1 ATHowNet数据来源
ATHowNet中的航空领域术语提取自《中国航空百科词典》[15]。《中国航空百科词典》收录了13大类8918个词条。每个词条包括一个术语和一个定义。表1展示了词条的一个示例。我们选择技术类术语,如飞行器、飞机部件、飞行控制和导航等,不包括航空领域知名人物与组织,除非已包含在HowNet中。ATHowNet包含3864个术语,表2列出了ATHowNet每一类术语的数量。
2.2 ATHowNet构建规则
ATHowNet的每个记录都由一个术语及其相应的概念组成。同义词或近义词对应相同的概念。
每个多义术语对应多个概念。表3展示了ATHowNet记录的一个示例。ATHowNet中的概念用HowNet的KDML表示。如示例所示,在KDML中,每个概念的表达都以“DEF”开头,由一组义原(红色加粗)和义原关系(斜体蓝色)组成。KDML的详细语法规则以及义原及关系集,可以参考HowNet在线手册[16]。ATHowNet继承了HowNet的义原和义原关系系统,没有扩展和改变其原有的内涵和层级关系。这样可以保证ATHowNet和HowNet的基本语义系统是一致的,使航空领域的概念和常识概念在统一的逻辑下进行语义计算,也可以建立领域概念和常识概念之间的语义关系。
在ATHowNet中,复杂的概念由简单的概念组成。也就是,新的概念基于已经定义和描述的概念来表达。通过这种方法,概念的表达可以在不同层次上进行动态分解和统一,也可以表达概念的上下义层次和概念之间的关系。以表3中的“变压变频电源系统”为例,相关概念及其之间的关系展示在图1中。这一概念的定义和表述是基于“电源系统”这一上层概念。同时,“供电系统”的概念在“系统”概念的基础上定义与描述。“变频”概念与“电源系统”概念的关系是“modifier”,即变频是电源系统的特性。
基于上述概念关系原则,为了使义原关系的范围更加紧凑,提高概念形成的一致性,我们基于有限数量基础概念构建ATHowNet,即核心概念。具体地,对3864个术语通过“jieba”工具包进行分词。然后进行词频统计,保持频率高于5的,得到220个词。这些词所对应的概念作为核心概念,覆盖52.82%的术语。
2.3 ATHowNet构建过程
基于上述原则,手动标注所有术语概念及其概念关系。
(1)将所有的术语按照其中心词(术语中最右边的单词)分为1123个组,其中每个组具有相同的中心词。具有相同中心词的术语表达相似的或相关的概念。
(2)从数量最多长度最短的组开始标注。这样能够首先对具有高频率中心词的无歧义术语进行标注,然后可以重用于其他术语。
(3)将1123组术语分配给三个标注者,并按照前面提到的原则进行标注。标注完成后,每一个标注者对其他两个标注者标注的概念进行评分,评分标准为“0、1、2、3”,其中“0”是指第一个义原不正确;“1”表示第一个义原正确而其他义原不正确;“2”表示所有义原都正确,但部分义原关系不正确;“3”是完全正确。最后,用Cohen κ[17]计算评分一致性,其值达到56.76%。如果標注得分小于3,则标注者对标注进行讨论并重新标注,直到达成一致。
整个构建过程历时8个月。
2.3 ATHowNet构建结果
最终,ATHowNet包含4152条记录,3864个术语和3700个概念。在3700个概念中,共有3959对关系,如“whole”“location”“patient”等56种。表4为ATHowNet的统计信息。
多义词和同义词是重要的语义现象,也是最重要的词汇关系。ATHowNet能有效地表示航空领域中的多义词和同义词。在ATHowNet中,278个词是多义词,每个词对应两个或者更多的概念。以“程序”为例,“程序”的一种意义是计算机程序,另一种意义是事物的顺序。同义词通过两个或多个术语共享相同概念体现。ATHowNet有286个概念对应于多个术语。例如,“军用飞机”和“军用机”这两个词对应相同概念。
3 ATHowNet应用
词的相似度计算和词的类比是词汇语义研究和评价中常用的方法[14]。本节展示ATHowNet在航空领域的词相似度计算和词类比方面的能力。
3.1 航空領域的词相似度计算
首先,从ATHowNet中随机选择100对术语,并对它们进行人工相似度评估。组织10名标注者来标注每对术语的相似度。相似度分数为[0-5]之间,从完全不相似“0”分,到最相似“5”分。标注之后,对于每对术语,将所有标注者的标注相似度值取平均值,并映射到[0-1]之间。标注者之间的标注一致性(皮尔逊相关系数[18])为0.7514。这意味着在评价术语对相似度时标注者具有较高的一致性。其次,我们按照[19]中的方法,根据术语对应的概念自动计算每对术语的相似度,得到一组在[0-1]范围内的相似度分数。最后,得到人工评价与计算得分的相似度之间的相关性。使用皮尔逊相关系数[18]作为相关性度量,得分为0.8232。这一结果显示出二者高度的相关性,这表明ATHowNet在一定程度上反映了人类对于术语相似性的判断,从而证实了ATHowNet中术语概念的正确性。表5显示了通过人工标注和自动计算得出的术语间相似度的一些示例。
3.2 航空领域的词类比
本文构建了一个航空领域词类比数据集,用于验证ATHowNet在概念关系推理上的有效性。数据集中的每个类比查询都是一个由四个术语(A,B,C,D)组成的元组,用于构造问题“A之于B,相对于C之于什么?”。D是该问题的答案。这是基于这样一个假设,即如果“A对B就像C对D”,那么A与B间和C与D间具有相同的概念关系。我们从ATHowNet中选择具有概念关系的术语对。如(机轮,轮速,弹道导弹,制导误差),机轮与轮速之间的关系为“subjectattribute”,弹道导弹与制导误差间的关系也是如此。两组关系相同的词对组成一个查询。最后,我们随机选择了由100个单词组成的含有625个查询的数据集。
对于词语类比推理,我们根据A和B在ATHowNet中标注的概念自动找到它们的关系r。寻找一组与C有关系的术语W。然后,选择与C具有关系r的一个术语w∈W作为答案。如果W中没有与C有关系r的术语,那么选择与C具有关系r的术语。r是与关系r在HowNet关系体系中具有相同上级节点的关系。
将上述方法与基于词表征的方法进行了比较[14,20]。词表征是将词表达为线性空间中的向量的一类方法。基于词表征的方法通过找到与向量vec(B)-vec(A)+vec(C)最相近(通过向量夹角余弦评价相近性)的向量x来解决词类比问题。使用BERT[21]和Tecent[22]的词表征。准确率作为评价指标。对于数据集中每一个类比查询,推理方法给出答案术语w,如果w=D,则判断为正确。以正确样本的百分比作为推理方法的准确率。各词类比推理方法的准确率列于表6。由表6可见,ATHowNet的准确率高于BERT和Tencent,这说明ATHowNet很好地表达了航空领域的词与词之间的关系,适用于基于概念关系的推理任务。
4 结语
本文提出了一个航空术语语义知识库ATHowNet,并介绍了其构建规则与过程。ATHowNet以HowNet为基础,继承了HowNet的概念语义表示体系和基本规则。ATHowNet共有4152条记录,包含3864个术语、3700个概念和3959个概念关系。也验证了ATHowNet在航空领域概念的词相似度计算和词类比方面的能力。在未来的工作中,将考虑自动生成术语概念的方法,特别是在领域内知识有限的情况下。因此,该工作可以推广到其他领域,而需要较少的人工投入,从而降低了构建语义知识库的成本。
参考文献
[1] 董振东,董强.知网[Z/OL].[2021-05-07].http://www.keenage.com/zhiwang/c_zhiwang.html.
[2] BLOOMFIELD L.A set of postulates for the science of language[J].Language,1926,2(3):153-164.
[3] LIU Q, LI S J. Word similarity computing based on hownet[J].CLCLP,2002,7(2):59-76.
[4] FU X H,GUO L,GAO Y Y,et al.Multiaspect sentiment analysis for chinese online social reviews based on topic modeling and hownet lexicon[J]. KnowledgeBased Systems,2013,37(2):186-195.
[5] NIU Y L,XIE R B,YUAN X C,et al.Improved word representation learning with sememes[C]//Association of Computational Linguistics.Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
[6] XIE R B,YUAN X C,LIU Z Y,et al.Lexical sememe prediction via word embeddings and matrix factorization[C]//International Joint Conferences on Artificial Intelligence Organization.Proceeding of the 26th International Joint Conference on Artificial Intelligence,2017:4200-4206.
[7] GU Y H,YAN J,ZHU H,et al.Language modeling with sparse product of sememe experts[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:4642-4651.
[8] QI F C,YANG C H,LIU Z Y,et al.Openhownet: An open sememebased lexical knowledge base[J/OL] .[2021-05-07].CoRR,abs/1901.09957.2019.
[9] CHEN K J,HUANG S L,SHIH Y Y,et al. ExtendedHowNet: A representational framework for concepts[C]//Asian Federation of Natural Language Processing.Proceedings of OntoLex 2005Ontologies and Lexical Resources,2005.
[10] SHIH Y Y,MA W Y . Extended hownet 2.0an entityrelation commonsense representation model[C]//European Language Resources Association. Proceeding of the 11th International Conference on Language Resources and Evaluation Conference,2018.
[11] 王莹莹,白宇,丁长林,等.面向语义检索的中医理论知识库构建方法的研究[J].中文信息学报,2012,26(5):72-78.
[12] 张桂平,刁丽娜,王裴岩.基于HowNet的航空术语语义知识库的构建[J].中文信息学报,2014,28(5):92-101.
[13] 王羊羊,陈刚,蔡东风,等.基于HowNet的术语语义知识库构建技术[J].沈阳航空航天大学学报,2016,33(4):78-84.
[14] MIKOLOV T,CORRADO G,CHEN K,et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of the 1st International Conference on Learning Representations,2013.
[15] 《中国航空百科词典》编辑部.中国航空百科词典[M].北京:航空工业出版社,2000.
[16] KDML:知网知识系统描述语言[Z/OL].[2021-05-07]. http://www.keenage.com/TheoryandpracticeofHowNet/07.pdf.
[17] COHEN J.A coefficient of agreement for nominal scales[J].Educational & Psychological Measurement,1960,20(1):37-46.
[18] STUDENT.Probable error of a correlation coefficient[J].Biometrika,1908,6(2/3):302-310.
[19] XIA T.Study on chinese words semantic similarity computation[J].Computer Engineering,2007,33(6): 191-194.
[20] NIU Y L,XIE R B,YUAN X C,et al. Improved word representation learning with sememes[C]// Association for Computational Linguistics. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
[21] DEVLIN J,CHANG M W,LEE K,et al.BERT: Pretraining of deep bidirectional transformers for language understanding[C]//Association for Computational Linguistics.Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186.
[22] SONG Y,SHI S M,LI J,et al.Directional skipgram: Explicitly distinguishing left and right context for word embeddings[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACLHLT,2018:175-180.
作者簡介:
王裴岩(1983—),男,博士,2020年毕业于南京航空航天大学计算机科学与技术学院,获工学博士学位。现为沈阳航空航天大学人机智能研究中心工程师,主要研究方向为自然语言处理、机器学习、知识工程。先后主持辽宁省自然科学基金重点项目与教育部人文社会青年基金等项目,参与国家科技支撑计划与国防基础科研等项目,曾获得国防科技进步二等奖与中国航空学会科学技术奖一等奖。通信方式:wangpy@sau.edu.cn。
张桂平(1962—),女,博士,2007年毕业于东北大学,获工学博士学位。现任沈阳航空航天大学人机智能研究中心教授,主任,多语言协同翻译国家地方联合工程实验室主任,博士生导师。主要研究方向为自然语言处理、机器翻译、知识工程。主持多项国家863计划、国家自然科学、国防基础科研等项目,曾获得辽宁省科技进步奖一等奖、中国航空学会科学技术奖一等奖、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖等。担任中国中文信息学会副理事长,中国航空学会理事。通信方式:zgp@gesoft.com。
蔡东风(1958—),男,博士,1998年毕业于日本东京大学,获工学博士学位。现任沈阳航空航天大学人机智能研究中心教授,辽宁省人工智能与自然语言处理重点实验室主任,博士生导师。主要研究方向为自然语言处理、人工智能、知识工程。先后主持国家973计划子课题、国家科技支撑计划、国家自然科学基金等项目,曾获得辽宁省科技进步奖一等奖,中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。担任中国中文信息学会理事,《中文信息学报》编委。通信方式:caidf@vip.163.com。