APP下载

融合多策略的军事领域中文术语抽取研究

2020-11-02张乐唐亮易绵竹

现代计算机 2020年26期
关键词:语料术语军事

张乐,唐亮,易绵竹

(信息工程大学洛阳校区,洛阳471003)

0 引言

领域术语抽取是指从领域文本中抽取出体现本领域特征、代表本领域的词汇的过程,是自然语言处理中的一个基础而又重要的问题。领域术语的获取可以为面向领域的文本分类、语言建模、词义消歧、问答式信息检索等提供有力的依据,并且对于自动文摘、机器翻译、领域本体构建等也有重要的意义。目前国内很多学者在领域中文术语抽取方面展开了广泛的研究,综合来看,研究方法按照技术路线可以分为三种,即基于语言学知识的方法、基于统计的方法以及混合的方法。基于语言学知识的方法又分为基于词典和基于规则两种,通过与词典中的已知术语相匹配或者制定术语的词法、句法搭配模版来抽取新的术语,此方法简洁直观,可应用专家知识在先验知识与文本匹配的情况下,准确率高。但它的适应性不强,不能应用于多个领域,不能识别未登陆词,因此单纯的基于语言学的研究很少。基于统计的方法计算术语的统计特征,此方法易于实现,较少需要人工干预,适应性强,可识别未登录词,但准确率受语料规模的影响,扩充语料库也会使计算量增大。而多策略结合的方法能够取长补短,充分利用各自的优点,抽取效果比单一方法更好,因此成为目前的研究热点。

随着大数据时代的到来,大规模以电子文本形式被收集的军事信息纷繁冗杂,军事术语的抽取是对军事信息进行量化分析、研判的基础工作。军事术语是描述军事概念的语词,是一个特殊的群体,相比其他领域的术语而言有着更为关键的作用。术语识别及抽取的准确度直接影响到军事信息检索、军事知识组织以及军事指挥效能。在当今信息化时代背景下,传统的依赖人力资源的抽取方法已不能满足部队实际工作的需要,我们需要借助计算机的计算能力和自然语言处理相关技术完成军事术语自动识别,提高军事信息抽取能力。

笔者面向实际军事工作的需求,基于自然语言处理相关技术对军事领域术语的自动抽取展开研究,以期为军事学术的研究探索及军事信息的处理工作添砖加瓦,从而进一步推进军队信息化建设。本文立足于领域术语自动抽取的已有研究成果,首先剖析了军事术语的特点和识别难点,然后根据其特点,综合现有几种主流方法的不同优势,提出一种融合多策略的军事术语抽取方法。

1 领域中文术语抽取概述

1.1 领域术语的概念和特点

领域术语,简称术语,是在特定的专业领域中用来表示或限定该领域的概念、特征的词汇集合。作为某一领域核心知识的承载单位,术语分为简单术语和复杂术语两种,以中文来说,简单术语就是由单个字或词构成的、不能被拆分的完整语言单位,复杂术语则常以短语形式出现,由简单术语通过复合、派生、转化、拼缀等几种方式构成或部份由简单术语构成,简单术语之间有一定的语义和语法关系。术语是特定领域中概念的语言指称(GB/T 10112-1999),以军事领域为例,是指称军事概念的特殊文本实体,例如“海军”、“军事基地”等。

不同领域的术语具有不同的语言特征,但是具有两个共同的特性——单元性和领域性。单元性(Unit⁃hood)是术语在结构上最明显和重要的特征,通常由术语边界自由度和术语内部各部分之间的结合紧密度共同决定,它刻画出术语作为一个有意义的独立语言单元的结构稳固性。领域性(Termhood)表示一个语言单位与某一特定领域的概念相关联的程度,术语是在本领域具有高流通度的词语,而在其他领域及通用领域,则出现频率较少,几乎为零。举个例子,在军事领域大量使用的“战局”、“制空权”、“军事基地”等术语可能会较少地用在政治领域,通常不会在金融经济、生物医学等领域出现。综上所述,单元性刻画了术语作为一个完整单元的语言完备程度,领域性赋予术语在本领域区别于一般短语和其他领域术语的独特程度,这两个特性常作为衡量一个词或短语是否是领域术语的标准。

1.2 领域术语抽取的方法

术语识别和抽取作为自然语言处理的基础任务,对于很多领域都有重要意义,越来越受到人们的重视。H.P.Luhn[1]被认为是英文术语抽取研究的先行者,到目前为止,国外对于英文术语抽取进行了大量研究工作,并取得了不错的效果,推出了一些成熟的系统。相对于英文词与词之间有空格作为分隔符的天然优势,中文文本的词与词之间是没有边界标志的,中文术语识别常常要以分词为基础。对自然语言处理任务来说,由于中文和英文的语言差异,适用于英文文本的方法不一定适用于中文文本,不能直接套用、按照国外的理论和技术进行。迄今为止,国内很多学者和研究机构在中文术语自动抽取方面做了不少研究,按照技术路线,常用的中文术语抽取方法主要分为基于语言学知识的方法、基于统计的方法以及多策略相结合的方法。

基于语言学知识的方法建立在语言学知识的研究之上,主要利用已有的术语词典,对术语进行词性或浅层句法分析,以及利用词法、句法等语言特征构造规则模板,然后通过匹配模板对语料中的术语进行抽取。该类方法主要通过匹配来识别术语,对那些符合词典和规则的术语能够获得很高的准确率,因此对低频术语也能很好的识别。但该类方法的缺点也比较明显,主要有:①不能保证较高的召回率和F 值。②词典的构建和规则的制定有一定的难度。基于规则的抽取,抽取结果依赖于语言规则的精密和完备程度,规则由专家人为编写,要求专家具有丰富的语言知识和领域知识背景。③规则不是适用于所有领域的,并且可移植性和兼容性不尽人意,往往需要专家的人为维护,工作量较大。

基于统计的方法分为基于统计量度和基于机器学习两种。基于统计量度的方法将词语的特征进行量化,计算词语的统计特征来判断其是否是术语。众多研究者在统计学理论的基础上提出了一系列有效的统计量度来计算术语的单元度和领域度,归纳起来,常用的统计量度包括词语频率(Term Frequency)、词语频率-逆文档频率[2](TFIDF/KFIDF)、领域相关性+领域一致性[3](DR+DC)、假设检验(似然比、T 检验、卡方检验)、C-Value[4-6]、信息熵[7]、互信息(MI)及其改进[8]等。基于统计量度的方法不需要外部资源和句法、语义上的信息,不受语言和某领域的局限,健壮性和可移植性较好。能有效识别未登录词,但是对于低频词的抽取效果不好,并且计算量大,有对于大规模语料的要求。

由于机器学习方法是建立在统计学原理基础上的,因此也被纳入到了统计方法的范畴。这类方法通常将术语抽取任务转化为分类问题或是标注问题,围绕隐马尔可夫模型(HMM)、最大熵模型(MEM)、条件随机场[9-12(CRFs)、支持向量机[13](SVM)、决策树等自然语言处理领域常用的机器学习算法,选取术语的原子特征、复合特征等多种特征构造特征集,通过对训练语料进行学习来完成术语识别。基于机器学习的方法无需语言知识和专家领域知识,结合术语的多种特征进行学习,在特征提取较完备的情况下,可以达到较高的准确率和召回率,但机器学习效果的好坏很大程度上依赖于所选特征的质量。

目前针对军事领域术语的抽取大多是基于统计方法,文献[14]探索了基于语料库的军事术语抽取,在构建的抽取系统框架下对比多种统计量度的抽取效果。文献[15]利用CRFs 作为抽取模型,融合了词本身、词性、左右信息熵、互信息等六种有效特征,对高频和低频词汇都有不错的抽取效果。文献[16]综合考虑普通术语、未登录词和长字词术语特征构建特征模板,在实验中取得了比基于互信息结合T 评价的方法更好的效果。

基于语言学知识的方法和统计方法各有优劣,将两种方法结合起来理论上能够多种方法相结合能够综合优势,弥补不足,形成互补。多策略融合抽取方法受到了越来越多的研究者的关注,研究者们将两种方法以某种次序结合起来,在这方面的代表性工作有:张锋(2005)等人[17]建立了一个基于互信息的中文术语抽取系统,该系统首先用互信息得到术语候选集,然后使用词性构成规则进行判别,进而得到真正的术语。杜波(2005)等人[18]提出将基于互信息和似然比提取的候选术语用通用词表进行过滤,在足球领域和金融领域的语料上开展了实验,准确率较好但召回率低。刘豹(2008)等人[19]首先用CRFs 模型识别科技领域的候选术语,结合规则对候选术语进行过滤,该方法可以有效提高未登录词召回率。翟笃风(2010)等人[20]面向政务领域,在对文本进行分词后合并单字得到候选术语,然后用C-Value 和TFIDF 算法进行后处理,该方法在不影响召回率的同时提高了术语抽取准确率。姜霖(2016)等人[21]提出使用连续词袋模型完成术语的抽取,并实验证明了方法的可靠性。随着深度学习技术的发展,深度神经网络模型在自然语言处理任务上被广泛应用,未来也会更多的应用在术语抽取工作中。总的来说,多策略结合的术语自动抽取方法能够取得比单一方法更好的结果,因而成为研究趋势。

2 军事领域术语的概念和特点

2.1 军事术语的概念和特点

2011 年12 月发布的《中国人民解放军军语》[22](以下简称新版《军语》)将军事术语定义为狭义的军语,综合《军语》以及其他专家学者的研究,本文将军事术语的概念概括为:它是表达、揭示军事概念的科学内涵的词语,从军事实践中产生,并反过来指导军事实践。军事术语是在军事领域和军事活动中经常使用的语词,有着鲜明的军事专业属性。

(1)单义性。术语的首要特点是单义性,即一个术语应尽可能只对应一个概念,这决定了军事术语也是以单义词为主。但在实际情况中多义现象客观存在于军事术语的语义架构中,一个术语有可能包含两个或多个义项。随着军事领域的发展以及人们对军事事物的认识逐渐深化,军事术语的意义不断被更新和丰富,体现为军事术语的义项会随之发生增减和改变,有些单义术语会增加义项变成多义术语,有些多义术语则删减义项成为单义术语。不过,从整体上看,单义术语占绝对优势,军事术语的语义还是简单、清晰、基本符合术语单义性要求的。总体来说,军事术语具有良好的指称军事概念的能力,并且在词义上具有单义性、特指性和科学性。

(2)系统性。军事术语作为军事领域的基本单元,具有严密的上下位关系、层级关系,例如“舰载机”一词的下级概念包括“歼击机”、“强击机”、“侦察机”等,在这点上军事术语体现出鲜明的层级性和系统性。

(3)领域性。如前文1.1 小节所述,军事术语是只在军事领域流通的专业词汇,离开军事领域后流通度明显降低。

(4)实用性。军事术语的实用性表现在主要为作战服务,以作战及相关用语为中心,并且随着军事事物的发展,军事术语也在不断的发展和完善。例如,在当前信息化战争背景下,“信息作战”“电子战”“网络战”等一大批与军事斗争准备相关联的术语应运而生。军事术语另一个现实的功能是以规范的“称名”来增强军事交流。在全球日趋一体化的时代背景下,国际军事关系突破人们一些习惯性认识,成为军事领域中的重要关系,军事外交成为重要活动。“非正规武装部队”“防务安全礎商”“军事透明”“国际维和”“军备控制”等频繁地出现在各种场合,描绘了全方位、宽领域、多层次的军事外交场景。军事术语承载了军事领域的核心知识,可以用来明晰军事概念、处理军事信息、畅通军事交流、协调军事行动,对于国防和军队建设都有重要的意义。

2.2 军事术语抽取的特点和难点

军事术语的抽取必须建立在对军事术语特点进行分析研究的基础上。通过分析新版《军语》中术语的组成特点,总结借鉴前人的研究成果和经验,本节将从军事术语的语言结构方面,对军事术语抽取的几个典型特征进行分析。与一般的命名实体识别相比,军事术语抽取的特点可以总结为以下几点:

(1)在语言结构上军事术语可分为单词型术语和多词型术语,单词型术语由单个词组成,如战略、战线、攻击、武器、阵地、战斗、火力、常备军、现役、军籍、情报等;多词型术语则是由多个词语通过复合、派生、拼凑形成的固定短语,其中偏正型短语占大多数,如“战斗群”、“野战工事”、“武装力量”、“毛泽东军事思想”等。

(2)军事术语的词类种类较少,主要集中在名词、动词、量词、形容词这四类,其中名词最多,其次是动词。短语是由词组成的,多是名词性短语和动词性短语[23]。

(3)军事术语的中心构词要素体现战斗性。通过研究发现,在军事领域,单词型术语中的常用字往往与武器装备、军事力量、作战行动密切相关,很好的体现军事领域独有的战斗性特征,这些常用字包括战、军、空、兵、防、击、炮等;而绝大部分多词型复合术语是由如“军事”、“作战”、“信息”等基本术语作为构词要素组成的名词性结构或者谓词性结构得到的,如“援外军事专家”、“新型作战力量”、“特种作战目标”、“信息化装备”“信息化条件下局部战争”。

(4)军事术语的表达形式多样。军事术语常常含有阿拉伯数字、英文字母和标点符号(双引号“”、连接符-、斜杠/),例如C4ISR(信息通讯指挥攻击系统)、增强X 射线弹、“蜜蜂-1T”无人侦察机、JH-7A 歼击轰炸机、垂直/短距起降飞机。这是由于军事技术的更新进步,以及外来词语的引入,使得组成军事术语的要素更加多样化,这类情况常出现在武器类的军事术语中。另外,军事术语在使用中常用缩略形式,如“我军”、“美军”,缩略语有助于通过简洁的表达提高交流效率。

(5)军事术语的组合方式多变。主要体现在术语长度、组成模式等方面。军事术语的长度不一,既有只由一个字构成的短术语,也可以有包含20 个字的长术语。文献[24]的研究指出军事术语的长度以2-8 个字居多,其中出现最多的是4 字术语,短语型结构是其主要构词方式。

(6)军事术语间嵌套关系复杂。这一点与军事术语的系统性密切相关,主要表现在对复杂术语的拆分,某些复杂术语是由简单术语迭代组合而成,使得这些术语之间存在着嵌套关系。例如术语“联合军事演习”与其子串“军事演习”、“演习”之间存在嵌套关系。

3 融合多策略的军事领域术语抽取

3.1 术语抽取过程

领域术语抽取包括三个步骤:一是收集合适的领域语料并进行预处理;二是选取候选术语;三是对候选术语集合中的词语进行过滤,将不符合阈值条件的词语去除,剩下的即为正确的术语。图1 描述了本文在军事领域术语抽取的整体过程。

图1 术语抽取过程

步骤一:收集大量的领域语料并进行语料预处理。这一步是开展术语抽取的前提条件。本文使用的预处理工具是哈尔滨工业大学研发的LTP 语言技术平台,对清洗过后的文本进行分句、分词、词性标注和依存句法分析的处理工作。需要说明的是,由于军语是专业领域的词汇,涉及一些分词词表外的未登录词,使用分词工具切分可能会造成较多的误差,因此本文在预处理阶段引入自建的军事术语词典辅助分词,词典中包括个人收集并经过整理的军事领域的专业术语共计15000 余条。

步骤二:对预处理过后的语料采用基于机器学习的方法从中识别和抽取候选术语。本文在传统条件随机场CRFs 模型的基础上进行改进,用于候选术语的初步获取。

步骤三:采取先规则后统计的策略对候选术语进行过滤。

下面对步骤二和步骤三的方法进行详细介绍。

3.2 基于改进CRFs的候选术语获取

条件随机场(Conditional Random Fields,CRFs)是目前较为常用的一种统计机器学习模型,本质上是一种判别式概率无向图模型。图2 展示了线性CRFs 判别式模型的基础结构。

图2 CRFs模型基础结构

在给定一组输入随机变量的情况下,CRFs 计算另一组输出随机变量的条件概率分布,可以对上下文进行预测,常用于序列数据的标注和分析。CRFs 模型的形式化定义如下:

其中,X={x1,x2,...,xn} 为观察序列,Y={y1,y2,...,yn}为标记过后的状态序列,z0为归一化因子,作用是使所有可能的状态序列的条件概率之和为1。公式中的fk(yi-1,yi,x)是整个观察序列和相应的标注序列中位置为i-1 和i 标记的特征函数,通常是一个二值表征函数。gk(yi,x)是在位置为i 的标记和观察序列的状态特征函数,λ和μ是从训练语料中学习得到的对应特征函数fk(yi-1,yi,x)的参数。给定一个CRFs 模型,在已知观察序列X 的条件下,可能性最大的标记序列为:

CRFs 的融合字、词以及自定义特征(包括外部词典特征、统计特征等)的能力较强,适用于解决序列标注的问题,同时能很好的解决长距离依赖问题。CRFs的模型特征和已有研究成果表明该模型能够符合军事术语识别的需要,适用于军事术语的识别和抽取,因此本文尝试建立CRFs 模型,将术语识别问题定义为一个序列标注问题。

本文对于军事语料的标注模式采取常见的“BIO”模式,B 代表一个军事术语的开头,I 代表军事术语中除开头以外的其他部分,O 表示非军事术语的词。例如,对于经分词标注后的句子,“多国/部队/在/中国/边境/举行/了/联合/军事/演习/”,按照BIO 标注体系进行标注的结果为:“多国/B 部队/I 在/O 中国/O 边境/O 举行/O 了/O 联合/B 军事/I 演习/I”,可以得到术语为“多国部队”和“联合军事演习”。

对于机器学习算法来说,特征选取的质量如何在很大程度上影响着算法的性能。针对不同领域语料的特点,CRFs 模型选取的特征是不同的,例如字、词、词性等上下文信息,以及各种外部特征。为了利用这些信息,我们结合军事领域术语的特点,选取了6 个特征,通过多次实验,最终确定了用于军事术语抽取的特征模板,包括原子特征和复合特征,滑动窗口大小设定为1。下面对这6 个特征做简要介绍:

(1)词本身Word

(2)词长Length

在分词过程中,如果长术语中含有未登录词则会被分词工具切分为单个字,因此词的长度可以作为特征。

(3)词性POS

在上一章对军事术语特点的分析中,我们发现词性特征是军事术语的一个重要特征,以词性作为特征还可以将术语中中英文搭配的情况考虑在内,对术语的识别起到有效的作用。

(4)词的出现频率WordFreq

(5)是否在已知词典中inDict

当前词是否存在于本文整理的军事术语词典中,以及在词典中的位置,如术语首词、术语尾词或单词型术语。

(6)依存关系Rel

术语内部词语与词语之间的依存关系存在一定的规律,主要有定中关系、介宾关系、主谓关系、动宾关系,因此将依存关系作为一项特征加入特征模板中。

CRFs 候选术语抽取模型的框架如图3 所示。

图3 CRFs抽取框架

3.3 基于规则和统计量的术语过滤

(1)语言学规则过滤

本小节的工作是构建军事术语词性构成规则,采取逆向的方法,对CRF 模型标注的结果,进行校正。语言学规则很难全面总结,本文在借鉴专家研究成果的基础上采用以下四条规则进行过滤,如表1 所示。

表1 军事术语词性构成规则

(2)术语度计算

术语具有两个重要的属性——单元性和领域性,对候选术语的单元性和术语性进行正确的评价是进行候选术语过滤的关键步骤,直接决定着术语抽取的准确率和召回率。点间互信息PMI 在机器学习领域是衡量两个词之间相关性的指标,也可以作为衡量术语之间独立性的一种很好的方法,它通过计算待识别字串的内部结合强度,进行术语抽取。C-Value 是Frantzi[5]于2000 年提出的术语抽取统计参数,具有语言无关性和领域无关性,在不同的语言和领域上都是可行的,其计算方法为:

具体的计算方法分为两种情况:对于字符串a 来说,如果a 没有被其它长字符串嵌套,则其C-Value 由它自身长度和出现的频数决定;如果a 被其他字符串嵌套,Ta表示所有嵌套a 的字符串的集合,|Ta|为集合的大小。从公式可以看出,C-Value 对于词频的计算反映了术语的领域度,在衡量术语内部结合紧密度时将术语的长度因素考虑在内,无论对于单词型术语或是多词型术语均是有效的。同时,字符串是否被嵌套的判断使得对于存在的稀疏的长术语和嵌套术语,C-Value参数能更精确地提取,这是C-Value 相比于其他统计参数的突出优势。

NC-Value 在C-Value 的基础上加入上下文的信息,将词语共现的影响考虑在内。首先通过C-Value值对候选术语进行初步排序,选取前10%的候选术语。对于候选术语a,Ca表示所有与a 在上下文共现的词语,fa(b)表示词语b 与a 共现的频数,weight(b)表示b的权重,其计算方法为:

其中,t(b)表示词语b 与前10%候选的术语在文本中共现的频数,n 为前10%候选术语的数量。

NC-Value 的计算公式如下:

考虑到NC-Value 和点间互信息PMI 各自的优势,本文构造了结合参数NC-PMI 来衡量候选术语的单元性和领域性,该方法能够将NC-value 参数和互信息的优势结合在一起。我们选择合适的阈值作为过滤条件,将满足阈值条件的候选术语加入到最终的输出结果集合中。下面我们对本文构造的NC-PMI 结合参数进行简要介绍。

记候选术语集中的多字字符串为S,若S 为复杂术语,则S=S1S2S3...Sn为S 的一种分解;若S 为单词术语,则S=S 为S 的分解。一个复杂的字符串可能有多种分解方式,构造NC-PMI 参数的目的就是从众多的分解方式中选择一种最合理的方式,并根据该方式来评估复杂术语的内部联合强度。

对于字符串S 及S 的一种分解S=S1S2S3...Sn,其NC-PMI 参数的计算方式如下:

其中|S|表示字符串S 的长度。

对于一个复杂的候选术语S,它的字符串分解可能有很多种,如果S 的所有字符串共有n 种分解方式,则根据上式分别计算每一种字符串分解的NC-PMI 值,n种分解方式的n 个值分别表示为f1,f2,...,fn,则复杂候选术语S 的NC-PMI 值为:

即对复杂候选术语S 的每种解释评估后,取最合理的一种解释方式来代表其最终的NC-PMI 值,若该值小于给定的阈值,则将其从集合中删除,剩下符合阈值要求的即为正确的术语。

4 实验结果及分析

4.1 实验设置

本文面向军事领域的中文信息处理工作,设计了一种融合多策略的军事术语抽取方法,为了测试所提出术语抽取方法的效果,我们选择军事演习领域的语料进行测试。但是目前此领域尚无权威统一的语料,为此我们使用网页爬取工具,从环球网、新浪网等主流新闻网站上爬取了5000 篇与之相关的中文新闻文本,将爬取的语料经过收集整理自建小型军事演习语料库(MEC)。首先利用文本清洗工具原始文本进行格式统一化,然后使用哈工大提供的自然语言处理工具LTP对文本进行分句、分词、词性标注和依存关系分析,对术语的标注采取远程监督的方式并进行人工校对。CRFs 模型的训练使用CRF++-0.58 工具完成,整体实验在Python 环境中编程实现。

本文采用自然语言处理领域三个通用的评测指标、准确率(P),召回率(R)和F 值(F-Measure)。

4.2 结果与分析

为了避免语料稀疏对于实验结果造成影响,我们将标注好的语料平均分为5 份,4 份作为训练语料,一份作为测试语料,进行五倍交叉验证,实验结果中显示的准确率、召回率和F 值均为五倍交叉验证后获得的平均值。

由于文献[15]和文献[16]的研究方向也是军事领域术语抽取,且都使用了CRFs 模型,因此设置两组对比实验,三种不同方法在相同的语料上进行测试,以验证本文提出方法的有效性。两种对比方法分别记作方法一和方法二,实验结果如表2 所示。

表2 三种方法的测试结果对比

方法一、二都是单纯训练了一个CRFs 模型进行抽取,本文则采取以CRFs 为核心,融合多策略的方法。从实验结果可以看出,本文结合了多策略的方法获得的准确率、召回率和F 值分别为:85.25%、79.68%和82.37。本文方法的抽取效果相比于另外两篇文献中使用的方法,其准确率、召回率和F 值都有所提高,这说明本文提出的方法是行之有效的。

分析此方法的优势之处在于:

(1)基于CRFs 的机器学习模型综合考虑了词、词性和上下文信息,无论是未登录词还是长字术语,其特征信息均会被包含在模型中,综合这些特征信息能够提高领域术语的抽取精度。

(2)在建模时增加了词典特征和依存关系特征,使得系统对于非术语候选词的过滤更为直接,对于“便携式地空导弹武器系统”这种长度较长的复合术语抽取效果有所提升。

(3)在过滤阶段先用词性规则进行初步过滤,再通过NC-Value 结合互信息计算术语的边界自由度和内部结合紧密度,对于复杂术语的边界也能够很好的判定。

尽管此方法在实验效果上取得了一定的提升,但还是有一些不足之处,最明显的一点就是标注语料的稀缺,大量训练语料需要人工标注,费时费力,有监督的抽取方法在实际工作中的应用效率不高,接下来我们还会重点研究无监督的抽取方法。

5 结语

本文提出了一种新的融合多策略的军事领域术语自动抽取方法,在候选术语生成和过滤阶段分别对现有方法进行了改进,实现优势互补。通过实验表明,该混合方法在军事演习语料上取得了较好的效果。该方法基于CRFs 模型进行术语识别,需要对文本序列进行人工标注,分词标注可能会产生错误,因此导致实际应用效果不够理想。下一步的工作将扩充训练语料的规模,通过实验进一步优化特征的选取,同时,引入迁移学习来缓解数据稀疏的影响,应用深度学习的神经网络模型[25]自学习文本特征,进一步提高军事领域术语的抽取效果。在今后的研究工作中我们将结合军事术语抽取的具体应用方向做针对性的研究,提高术语抽取的深度应用效果,以便能获取更高质量的军事领域术语,更好地为军事领域术语抽取工作服务。

猜你喜欢

语料术语军事
海量标注语料库智能构建系统的设计与实现
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
文学术语词典中的“经典”:艾布拉姆斯的《文学术语汇编》
英语教学中真实语料的运用
军事幽默:局
军事
军事幽默
世界军事掠影