APP下载

英文武器装备名的构成类型与构造模式研究

2019-02-22雷树杰邢富坤

中国科技术语 2019年1期
关键词:自动识别词条实体

雷树杰 邢富坤

(1.战略支援部队信息工程大学洛阳校区,河南洛阳 471003;2.青岛大学外语学院,山东青岛 266000)

引 言

命名实体(named entity, NE)主要包括时间表达式(temporal expression)、数字短语、人名、地名、机构名等的表达形式,是承载信息的重要语言形式,是理解文本内容的关键环节。在军事领域中,英文武器装备名是构成军事文本的重要命名实体,承载着重要军事信息,是军事信息挖掘和情报分析整理工作的重要对象。作为特定表达形式,英文武器装备名也是军事外语教学与学习的重要内容,对提高军事外语专业化水平也发挥着重要作用。

目前,英文武器装备名自动识别的研究在公开文献中还处于空白阶段,而英文人名、地名、机构名等普通命名实体及自动识别研究则较为普遍。早期的命名实体识别方法大都基于规则,20世纪90年代以后,基于大规模语料库的统计方法逐渐成为命名实体识别的主流方法。这方面具有代表性的工作有奥利弗·本德(Oliver Bender)[1]在2003年采用人工标注语料训练最大熵模型(maximum entropy model),对英文与德文中的人名、地名、机构名以及其他实体名进行识别并取得不错的效果;Liao[2]等在2009年提出了一种简单的半监督学习算法,该方法通过有效利用大规模已有的未标注语料和条件随机场(conditional random field)模型,从而实现对多领域命名实体的识别;美国麻省理工学院阿姆斯特分校也开发出一款综合了隐马尔科夫模型、最大熵模型和条件随机场模型的自然语言处理开源软件包MALLET[3],对命名实体有着较好的识别效果。现阶段,这方面的代表工作主要有S.米什拉(S. Mishra)[4]等在2016年用来自推特的2394条推文训练线性链条件随机场模型,通过上采样(up-sampling)和添加一些未监督的特征来提高模型对噪声文本中命名实体的识别率。纪尧姆·朗普勒(Guillaume Lample)[5]等在2016年通过采用双向长短记忆网络(bidirectional long-short term memory)进行命名实体识别,在四种语言的命名实体评测中都取得了非常好的效果。综合以上研究,本文认为,特定领域中的命名实体有着独特的领域特征,而无论是基于规则的自动识别方法还是基于统计的自动识别方法都需要特征集的有效支持。因此,本文对英文武器装备名这个特定领域实体的领域特征进行了调查总结,以更好地支持对武器装备名的自动识别。

一 武器装备名概述

武器装备是武装力量用于实施和保障战斗行动的武器、武器系统和军事技术器材的统称,通常分为战斗装备和保障装备。战斗装备是指在军事行动中直接杀伤敌人有生力量和破坏敌方各种设施的技术手段,如枪械、火炮、坦克以及其他装甲战斗车辆、作战飞机、战斗舰艇、弹药、导弹、水雷等。保障装备是为了有效使用战斗装备所必需的军事技术器材,如雷达、声呐、通信指挥器材、军用测绘器材、野战工程机械、军用车辆、保障舰船、辅助飞机、情报处理装备、电子对抗装备等。武器装备名包括类名和具体名,类名是指某一类武器装备名的统称,例如“fighter”“tank”“warship”等。具体名是指明确给出武器装备名具体描述信息或专指某一款武器装备的名称,例如“F-22”“M61 Vulcan”“J-10”等。从军事领域信息处理需求来看,无论是武器装备的类名还是具体名都是重要的领域专有信息,都应作为武器装备名称予以分析研究。而武器装备的类名大都是单个词,构成比较简单,数量较为有限,因此,本文主要调查研究具体武器装备名称。

武器装备名称是一个开放集合,武器装备名称会随着武器装备的发展而不断地扩充,处于动态变化当中。但从构成上讲,英文武器装备名的构成要素类型以及具体要素则较为有限且相对稳定,其组合具有规律性、模式性,这为自动识别提供了可能条件。例如,武器装备名称 “Mowag 4x4 armored reconnaissance vehicle”,其中的“armored”“reconnaissance”是武器装备名中特有常用词, “Mowag”是一个公司名,“4x4”是武器的规格属性,这些元素的组合又具有模式性,不会随意组合,而是按照某种特定的组合顺序进行组合,形成完整的武器装备名称。

二 数据描述与研究方法

1. 数据描述

本文以维基百科(Wikipedia)为数据来源,从中抽取出6402个英文武器装备名词条及类别信息,词条涵盖主要武器装备类型,对不同军兵种均有覆盖,具有一定的代表性,见表1。

表1 抽取出的武器装备名词条及类别信息举例

2. 研究方法

本文主要是从武器装备名的构成要素与构成模式两方面开展。在实际研究中,基于人工构建的英文武器装备名数据库,人工开展标注与调查工作,对每一个英文武器装备名进行结构分析,在较大范围的调查基础上,总结每种结构的模式规律和频率特征,从总体上对英文武器装备名称的构成要素与构成模式有一个较为全面的把握,之后将语言学调查结果转化为可被机器使用的形式化规则,同时辅以专门词典和统计信息,可以为英文武器装备名的自动识别提供支持。

三 英文武器装备名构成类型

英文武器装备名自动识别的研究很少,其构成成分也没有权威的分类标准,因此,本文对大量英文武器装备名进行观察、总结、提炼,提出了分层处理策略,并给出一套分类标准。

英文武器装备名的构成成分很复杂,既有公司名、型号,也会有别称,还会有描述该武器装备特征的词汇。如在 “Rheinmetall 20mm Twin Anti-Aircraft Cannon”这个词条中,就包含“Rheinmetall”这样的公司名,“20mm”这样形容该火炮性能特征的口径大小,还有“Anti-Aircraft”这样描述该火炮功能的词汇。除此之外,英文武器装备名中还有很多其他与该武器装备有关的各类词汇。在这种情况下,就要求对英文武器装备名的构成成分进行科学合理的分类,并在覆盖面足够广泛的情况下不冗余,为此,本文采用了两层分类体系。

1. 第一层分类

在第一层分类中,任意一个英文武器装备名都可由型号A、别称N、描述P和缩写R这四个成分来描述。其中,描述P指对武器装备特征、制造商、性能等的描述。由于缩写R单独出现时一般是整个英文武器装备名的缩写,如“萨德”反导系统缩写为“THAAD”,而其作为武器装备名的一个组成成分出现时一般是对该武器装备特定描述的缩写,如“Type 10 120mm AA Gun”中,“AA”就是“Anti-Aircraft”的缩写。因此,当其与其他成分组合时,将其视作描述P的一个子分类。而当缩写R单独出现时,将其视作一个单独的分类。这样,基于这四个成分的所有可能组合,可将第一层分类的所有情况列举出来,见表2。

表2 第一层分类情况及举例

“Scud”是一个别称,是著名的“飞毛腿”导弹,该词条由单独一个别称N构成;“M1”是型号,是美军现役主战坦克,该词条由单独一个型号A构成;“Ferret armored car”由别称“Ferret”(白鼬)、形容该车为带装甲的“armored”与“car”三个部分组成,是英军的白鼬装甲车,包含了别称N与描述该车特征的部分P两个要素;“Marine Personnel Carrier”由形容该车为海军使用的“Marine”、形容该车功能为携带人员的“Personnel”与“Carrier”三个部分组成,这三个部分都为描述该车特征的部分P;“RIM-7M Sea Sparrow”由型号“RIM-7M”与别称“Sea Sparrow”组成,是著名的“海麻雀”舰空导弹,包含了型号A与别称N两个要素;“SRAAM”是武器装备名“Short-range air-to-air missile”的缩写;“152mm towed gun-howitzer M1955”由表示其口径的“152mm”、表示其为拖拽式的“towed”、表示其型号的“M1955”和“gun-howitzer”组成,包含了型号A与描述该武器装备特征的部分P两个要素;“OMC RG-31 Nyala”由公司名“OMC”、别称“Nyala”(林羚)与型号“RG-31”组成,是南非的“林羚”装甲车,包含了别称N、型号A和描述该武器装备特征的部分P。

第一层分类是对武器装备名的总体表达形式分类,该分类没有考虑具体构成要素的组合顺序问题,只是根据某一词条所包含的构成成分种类将其分为八类,同时对于“描述P”,该构成成分下还可划分出更多具体的类,如在“37mm anti-tank gun M1930”这个词条中,“37mm”“anti-tank”和“gun”都是描述武器装备特征的词,但具体来看,“gun”是指该武器装备的基本类型为火炮,“37mm”是指该火炮的口径,“anti-tank”是指该火炮的功能,这些描述信息各具独特性,需要区别对待。因此,为了更加精确地描述每一个武器装备词条的构成模式,本文将其进行第二层分类。

2.第二层分类

第二层分类将描述P这个类别进行了具体化的分类,形成了描述类要素,如表3所示。

表3 描述类要素及举例

基本类型(K)指武器装备的类别,如“gun”“tank”等,这类表达形式既可以作为武器装备名称的描述成分使用,也可以单独指称某一类武器装备名。军兵种(M)指武器装备主要服务的军兵种,如“naval”“marine”等。地域(W)指该武器装备的使用地域,如“amphibious”“offshore”等。作战功能F指武器装备在战争中的用途,如“anti-tank”“air-to-ground”等。公司(B)指该武器装备的制造商,常见的有“Boeing”“Lockheed”等。物理特征(S)形容武器装备的重量、外形等物理属性,既指“轻型”“重型”这样武器装备的重量,也可指“12mm”这样的口径。动力(I)指武器装备的动力来源,如“nuclear”“motor”等。层级(U)既指如“战术”“战役”这样的战争规模层级,也指如“师”“单兵”这样的作战单位层级,还有“中距”“短距”这样的打击距离层级。运动方式(T)既指如“拖拽式”“自行式”这样武器装备的机动方式,也指“巡航”“弹道”这样导弹的弹道运行方式。操作(O)既指“有人”“无照料”这样的操作者是否是人的特征,也有“自动”“半自动”这样的自动化程度。附属(C)既指该装备作为载物附属于其他载体,也指该装备作为载具承载其他装备。武器装备构成要素十分复杂,有的词是对武器装备特征的额外说明,将其归为补充说明(Z)。此外,在第二层分类中,型号A也具体化为系列E与具体型号V。

四 英文武器装备名构造模式

1. 构造模式获取

本文对搜集到的英文武器装备名根据上文提出的两层分类体系进行手动标注,并在计算机的辅助下进行总结。首先,将该词条依据两层分类体系进行切分;其次,对切分后的每一个部分进行标注,得到其构成模式。部分标注结果如表4。

表4 英文武器装备名的部分标注结果

注:标注采用“/”作为分隔符将一个英文武器装备名词条切分成几个部分。

“Hawker Sea Fury”是英国霍克公司生产的“海怒”战斗机,将其切分后,“Hawker”是公司名,标为“B”,“Sea Fury”意为“海怒”,标为“N”,其构成模式为“BN”。“Bavar 373”是伊朗的一款长距防空系统,将其切分为两部分,第一部分“Bavar”在波斯语中意为“信念”,标注为“N”,“373”是其具体型号,标注为“V”,其构成模式为“NV”。“Mersad”是伊朗的一款先进的防空系统,在波斯语中意为“埋伏”,所以其构成模式标注为“N”。“100mm air defense gun KS-19”是苏联生产的一款高射炮,于二战结束后入役。将其切分为五个部分,“100mm”是其口径,为物理特征,标注为 “S”,“air defense”指其作战功能,标注为“F”,“gun”是其基本类型,标注为“K”,“KS”是其所在系列,标为“E”,“-19”为其具体型号,标为“V”,得到其构成模式为“SFKEV”。得到标注语料后,在计算机的辅助下对标注语料进行处理,总结出英文武器装备名的构造模式分布规律、构成要素分布规律。

2. 构成模式、构成要素分布规律

(1)英文武器装备名构成模式的分布规律

表5是对标注后的结果做统计分析所得。由于构成模式较多,此处只列举排名前十位的构成模式。

表5 英文武器装备名构成模式的分布统计(前十位)

构成模式总共501类,通过分析表格,可以发现:其中出现频率最高的BEV等五个构成模式占了调查集中所有英文武器装备名的50.64%,而出现频率排名前十的构成模式占了调查集中所有英文武器装备名的64.41% 。“BEV”与“EK”两类构成模式占比最大,都达到了14%以上,其次是“EV”与“BV”两种构成模式,占比都在6.50%以上,因此从总体分布看,英文武器装备名的构成模式分布十分集中,大量武器装备名称只是由少数几类模式构成,而大部分模式类型对应的武器装备名数都较为有限。符合“BEV”构成模式的英文武器装备名有著名的舰载战斗机F4B的陆军版“Boeing P-12”、中国的“Shenyang J-6”,即歼-6战斗机等。符合“EK”构成模式的有美国著名的“Ticonderoga-class cruiser”(提康德罗加级巡洋舰)、英国正在建造的“Queen Elizabeth-class aircraft carrier”(伊丽莎白女王级航母)等。符合“EV”构成模式的有我国著名的地空导弹系统“HQ-9”(红旗-9),我国装备的自行榴弹炮“PLZ-5”等。符合“BV”构成模式的有被称为二战期间最杰出的手枪之一的“Beretta M1934”(贝雷塔M1934),纳粹党大量配发的“Walther PP”(瓦尔特PP)手枪等。符合“N”构成模式的有美军的“Spike”(长钉)反坦克导弹,美军的“Apache”(阿帕奇)武装直升机等。在构成模式中,最长的为“SOBEKED”,在调查数据集中出现过一次,包含了七个构成成分,这是英国Vickers公司一战期间产的一款野战炮“1.59inch Breech-Loading Vickers Q.F. Gun, Mk II”。构成模式复杂的还有“ESMKEV”,包含了六个构成成分,在调查数据集中出现了11次,如英国Vickers公司产的英国第一款后膛装填的舰炮“BL 12inch naval gun Mk VIII”。除此之外,构成成分复杂的还有“SMFKEV”等,这里就不再一一列举。

英文武器装备名构成模式的分布特点意味着英文武器装备名的构成模式会集中在其中某些构成模式上,这也就意味着在较大规模调查基础上可以较全面得到英文武器装备名的构成模式。而有限的模式特征和构成要素成为英文武器装备名构成的重要特征,能够为统计识别方法提供重要的语言特征支持,提升自动识别的效果。

(2)英文武器装备名的构成要素的分布规律

由于构成要素的种类较多,在这里只列举各个门类排名前十位的构成要素统计表(见表6)。

表6 英文武器装备名构成要素统计结果(前十位)

通过分析图表,我们可以发现:总体来看,英文武器装备名的构成要素分布较为集中。其中,“E” (系列)、“V”(具体型号)、“B”(公司)、“K”(基本类型)、“N”(别称)这五个构成要素类型占比较大,都在10.40%以上,而“E”(系列)与“V”(具体型号)更是在21%以上。

上述统计结果意味着英文武器装备名的构成要素会相对集中于几个特定类型上,在之后的研究中,可以根据英文武器装备名中高频出现的构成要素类型进行有针对性的泛化。如:可以对“E”(系列)、“V”(具体型号)进行泛化,扩充词典中的武器装备制造公司B和昵称N,以此来提高本文总结规则的泛化能力。

五 实验与评价

为检验本文总结的构成模式对英文武器装备名的描写能力,本文利用未在调查数据集中出现的英文武器装备名开展开放测试。同时为了更加精确地测试本文总结的构成模式的有效性,还在开放测试中排除未登录词的影响后进行了再次测试。

1. 实验数据与评价方法

(1)实验数据

开放测试数据来源分为两个部分:选取500条未在调查数据集中出现过的英文武器装备名和500条非英文武器装备名的命名实体混合的数据集作为开放测试数据。

(2)实验方法

基于本文总结提出的英文武器装备名构成模式及相应的构成要素词典,利用对构成模式的最长匹配方法匹配各个词条,对测试数据中的每一条数据进行匹配识别,并记录识别结果。

(3)评价方法与指标

将识别结果与原数据集做比较,只有完全将词条识别出来方可视为识别成功,未识别出或部分识别出视为识别失败。在开放测试完成后,计算识别结果的准确率和召回率,并在此基础上计算F值,用F值来评价本文提出识别方法的效果(见表7)。

表7 评价指标

2. 实验结果及分析

从实验结果看,在未消除未登录词的影响前,本文总结的构成模式和提出的识别方法的准确率非常高,在98.6%以上,但召回率较低,为60%左右,但在消除未登录词的影响之后,准确率上升到了99%以上,召回率上升到了92%以上。这一方面说明本文总结的构成模式对武器装备名有着很优异的描述性能,但同时也要求有效减小未登录词的影响(见表8)。

对识别结果进一步分析发现,开放测试中的未

表8 实验结果

登录词所属的类别也具有很强的不均衡性,最多的未登录词是别称,其次是公司名,这两者占据未登录词的比例接近61%,因此在未来研究中,可以对英文武器装备名中的别称与公司名进行专门研究,研究其类别和规律,并据此来构建和完善针对别称与公司名的专门知识,从而进一步提高英文武器装备名的识别效果,为实用化识别系统的构建打下坚实基础。

六 结 语

本文对英文武器装备名的构成成分进行了分类并分析,形成了两层分类体系。在此基础上,本文对来自维基百科的6402条英文武器装备名进行了手工标注,并对英文武器装备名的构成模式和各个分类所包含的词单元进行了调查,形成了英文武器装备名的构成模式库和领域词典,并利用实验对构成模式的有效性做了检验。在调查数据的基础上,本文研究了英文武器装备名的命名规律,得出了 “英文武器装备名构成要素类型有限,构成模式相对确定”的结论。下一步,我们将以本文的研究为基础,提出对英文武器装备名的自动识别方法。

在未来的工作中,可以利用统计学方法对真实语料中的英文武器装备名的上下文特征进行描述,并在此基础上结合英文武器装备名的内部构成规律,以达到对英文武器装备名更好地识别。在较高的准确率、召回率和较低的误识率的基础上,将识别出的英文武器装备名配以更多的信息显示出来,开发出一个实用化系统,以服务于用户。

此外,本文针对英文武器装备名自动识别的有关工作也可以较为方便地迁移到其他领域的命名实体研究中去,为其提供一定的借鉴。

猜你喜欢

自动识别词条实体
前海自贸区:金融服务实体
自动识别系统
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
金属垃圾自动识别回收箱
基于IEC61850的配网终端自动识别技术
2016年9月中国直销网络热门词条榜