APP下载

基于规则和CRFs的部队组合名称识别方法*

2017-11-17单赫源吴照林张海粟

火力与指挥控制 2017年10期
关键词:军用文书名称

单赫源,吴照林,张海粟,周 红

(1.空军工程大学信息与导航学院,西安 710077;2.国防科技大学信息通信学院,武汉 430010)

基于规则和CRFs的部队组合名称识别方法*

单赫源1,吴照林2,张海粟2,周 红1

(1.空军工程大学信息与导航学院,西安 710077;2.国防科技大学信息通信学院,武汉 430010)

在军用文书处理中,提出了一种基于规则和CRFs的部队组合名称识别方法,旨在识别部队组合名称中包含的建制单位。首先在词语粗切分的军用文书上使用CRFs模型识别出部队组合名称,然后采用拆分规则识别部队组合名称中包含的建制单位。实验表明,基于规则和CRFs的部队组合名称识别方法识别准确率达到79.48%,识别的召回率为93.93%。

部队组合名称,CRFs模型,实体识别,拆分规则

0 引言

通过自动抽取军用文书中部队、地点、时间、动作等命名实体及其相互关系,将作战文书中以自然语言记述的指挥员和参谋对作战行动的构想,转化为便于计算机分析挖掘的结构化数据,使指挥信息系统能够正确理解军用文书的语义,对于提高指挥信息系统的辅助决策能力,使指挥信息系统真正融入指挥链具有十分重要的意义。

准确识别军用文书中包含的部队名称实体,是使用计算机分析部队命名实体所指代的部队建制单位之间的关系,进而理解军用文书语义的基础工作,直接影响文档信息抽取、内容检索、主题提取等工作的性能。在军用文书拟制过程中为了行文简洁,在表述部队名称实体时会经常使用部队组合名称,如“第1营2、3连”,这种部队组合名称对计算机识别其中包含的部队建制单位造成了困难。为准确识别部队组合名称中所指代的部队建制单位,提出了一个基于规则和CRFs的部队组合名称识别方法。该方法首先使用CRFs模型识别文书中小粒度部队名称并生成完整的部队名称,根据部队名称中的触发字判断该名称是表示单个建制单位的一般部队名称,还是表示多个建制单位的部队组合名称。最后使用规则对部队组合名称进行进一步识别,得到其中包含的所有建制单位。

1 研究现状

与部队名称识别类似的研究是对机构名称的识别。目前主要做法是生成机构名称后缀词典、机构常用人名词典和地名词典[1],以此确定机构名称的边界,再使用规则[2]或机器学习[3-5]的方法识别文本中的机构名称[6-7]。在一般文本中出现的诸如公司、企业等机构名称,使用组合名称的情况很少。机构名称识别的难度在于排除机构名称内部包含的人名、地名等其他命名实体的干扰,正确划分出机构名称的左右边界。相比一般文本,军用文书中部队组合名称出现的频率较高。因此,对军用文书中部队名称的识别,不仅存在部队名称边界难以确定的问题,而且正确识别出部队组合名称中所包含的建制单位名称也成为一个难点。目前在已知公开发表的文献中,对部队名称的识别工作,是对表示部队单个建制单位的名称的识别,尚未见对表示多个建制单位的部队组合名称识别的研究。

2 部队组合名称结构特征

军用文书中的部队名称由建制单位性质、建制单位序列、建制单位级别3部分组成。其中,建制单位性质标识该单位所属军兵种、从事专业或编配的主战装备,如“陆军航空兵”、“机械化步兵”;建制单位序列以数字或“汉字+数字”的方式标识该单位在军队体制编制中的编组排列和建制关系,如“第十三”、“第一一三”;建制单位级别反映了该单位在军队编制序列中的层级,如“军、师、旅、团、营、连、排、班”等。当建制单位名称中包含有多个建制单位级别时,级别由高至低排列,军种信息只和最高级别搭配,该建制单位的级别为该名称中最低的单位级别,如“陆军第XX集团军第XX师XX团”标识了一个团级建制单位,其中“X”表示0到9的任意阿拉伯数字或汉字小写数字。

部队组合名称,是军用文书中为了表达简洁,而在一个部队名称中标识了多个建制单位的描述形式。部队组合名称有两种类型,一种是标识不同军种,如“陆、海、空军”;第二种是标识同一军种的不同建制单位,如“陆军第XX、第XX集团军”、“第XX集团军装甲旅第X、X营”、“XX集团军机步第X师第X团第X、X营”。本文研究的是第二种部队组合名称的识别方法,这种类型的部队组合名称在军用文书中出现的频率更高且自身构成较第一种类型更为复杂,具有以下结构特征:

①部队组合名称中建制单位由顿号或“和”、“及”等汉字隔开,这些字符是判断一个部队名称是否为组合名称的触发字;

②部队组合名称中的第一个建制单位包含了建制单位性质信息,形式一般为“建制单位性质+一个建制单位序列”或“建制单位性质+多个建制单位序列和建制单位级别+一个建制单位序列”;

③部队组合名称中的最后一个建制单位包含了单位级别信息,形式一般为“建制单位序列+建制单位级别”;

④中间的建制单位只包含有单位序列信息,形式为“汉字+数字”或仅由数字构成。

总的来看,部队组合名称构成较为灵活,单纯依靠规则方法难以完全准确识别,因此,我们采用规则和CRFs相结合的方法,识别部队组合名称。

3 基于规则和CRFs的部队组合名称识别方法

3.1 CRFs模型介绍

条件随机场(Condition Random Fields CRFs)模型[8]是一种无向图模型,可以在给定输入节点的条件下,用于计算输出节点的条件概率,常被用于序列数据的分割和标注。CRFs能够利用字、词及词性等上下文信息和其他丰富的外部特征,在自然语言处理领域取得了非常好的效果。使用CRFs识别部队组合名称的基本过程包括部队组合名称标注、特征模板的选择和模型训练等。

3.2 基于规则和CRFs的部队组合名称识别步骤

基于规则和CRFs的部队组合名称识别方法的基本思路是:使用CRFs模型对小粒度的部队名称进行识别,确定部队组合名称的左右边界;再运用拆分规则对部队组合名称进行进一步识别,获得部队组合名称中包含的所有部队建制单位名称。识别的步骤包括文书预处理,CRFs模型训练,基于CRFs的部队组合名称识别,基于拆分规则的部队组合名称中的建制单位识别。基于规则和CRFs的部队组合名称识别步骤如图1。

图1 基于规则和CRFs的部队组合名称识别步骤

①文书预处理。文书预处理的目的是将军用文书内容的格式转换为CRFs模型的输入格式,并生成CRFs模型所需要的识别特征。预处理的主要内容包括分词、词性标注、特征选择和生成CRFs模型输入格式。在基于规则和CRFs的部队组合名称识别方法中,文书预处理是基础的步骤,直接影响到后续步骤的效果。

②CRFs模型训练。要使CRFs模型能正确地识别出军用文书中的部队组合名称,首先要对CRFs模型进行训练,训练目标是使给定输入序列对应的标注序列的条件概率最大化。包括训练集标注、特征模板选择和CRFs模型训练。通过训练集标注可以告诉CRFs模型在训练集中有哪些部队组合名称。标注采用“BIO”标签的方法,标注一个实体的开头(B)、实体的内部(I)和非实体的词语(O)。在标注时需要注意的是部队名称粒度大小的选择,我们采取的策略是使部队名称的标注粒度最小,如“第XX集团军装甲旅第X、X营”分别被标注为“第XX集团军”、“装甲旅”和“第X、X营”3个部队名称,如图2所示。标注部队的粒度最小策略,可以充分利用部队层级表述规范的特点提高CRFs模型识别的准确率。

图2 部队名称实体的小粒度标注

③基于CRFs的部队组合名称识别。在步骤①、②的基础上,对拟识别的军用文书使用CRFs模型识别并得到小粒度的部队名称,并将连续出现的相同类型小粒度部队名称组合起来,可最终得到部队组合名称。

④基于拆分规则的部队组合名称中建制单位识别。使用拆分规则对步骤③中得到的部队组合名称进行进一步识别,得到其包含的所有建制单位名称。

3.3 部队组合名称拆分规则

使用拆分规则识别部队组合名称[9]中的建制单位。首先要识别并拆分出部队组合名称中的建制单位性质,并将其作为部队组合名称中所有建制单位的前缀;其次要识别并拆分出建制单位的级别,并将其作为后缀。为此使用以下6个拆分规则识别部队组合名称中的建制单位,使用拆分规则识别组合部队名称的流程如图3所示。

规则1 如果部队组合名称N中包含“和”或“及”等连词,以连词为分割字符,分割部队组合名称 N 为子名称 Nx,(x=1,2),并执行规则 2;如果部队组合名称中不包含“和”、“及”等连词,则称部队组合名称为子名称N1,并执行规则2。

图3 使用拆分规则识别组合部队名称的流程

规则2 如果部队子名称Nx中包含有顿号,以顿号为分割字符,分割子名称Nx为n个元素Nxy,(y=1,2…n,),并执行规则 3 和规则 4;如果部队子名称Nx中不包含顿号,则称子名称为建制单位名称Sx,并执行规则6。值得注意的是,根据汉语书写习惯,由顿号分隔的并列内容不会太多,一般情况下n<10。

规则3 如果第一个元素Nx1中至少含有一个阿拉伯数字“0123456789”或汉字小写数字“〇一二三四五六七八九十”,遍历Nx1,将Nx1的首字符到Nx1中最后的连续数字部分首个数字字符之前的所有字符构成的字符串作为建制单位的前缀prefixNx,默认值为空。

规则4 如果最后一个元素Nxn中至少含有一个阿拉伯数字“0123456789”或汉字小写数字“〇一二三四五六七八九十”,遍历Nxn,将Nxn中最后的连续数字部分之后的第一个非数字字符到Nxn的最后一个字符所构成的字符串,作为建制单位的后缀suffixNx,默认值为空。

规则5 将从第一个元素Nx1中最后的连续数字部分首个数字字符到Nx1的最后一个字符所构成的字符串、元素 Nxy,(1<y<n)以及从最后一个元素Nxn的首字符到Nxn中最后的连续数字部分之前的最后一个非数字字符所构成的字符串,分别作为n个建制单位的序列号Sxy。

规则6 部队组合名称中第y个建制单位为prefixNx+Sxy+suffixNx,其中 11n<10.1<x12,1<y<n。

4 实验结果与分析

4.1 实验条件设置

本文构建了一个280篇文档规模的实验语料来验证算法。其中选择军用文书80份作为训练集,计16 324字,训练集中共有485个部队名称,其中有39个部队组合名称。选择军用文书200份作为测试集,计26 242字,测试集中共有951个部队名称,其中有66个部队组合名称。此外,还从各类战例资料中收集整理了797个部队组合名称专门用于验证拆分规则对部队组合名称识别的适用性。对军用文书使用中科院ICTCLAS工具进行分词和词性标注,手工对分词后的军用文书语料进行部队组合名称的标注。使用MALLET工具包实现CRFs模型。MALLET的输入和输出格式如图4。输入格式中最后一列是对实体的标注,其他各列分别代表一类特征。输出为预测的实体标注。

图4 MALLET的输入和输出格式

实验所用计算机配置为:处理器Intel CORE i7 2.93 GHz,内存容量为8 GB,操作系统为Windows7旗舰版64位。

4.2 实验评价标准

本文从召回率(R)、准确率(P)和F值等3个方面对算法性能的进行评价。其计算方法为:

4.3 实验结果及分析

4.3.1 实验结果

使用基于规则和CRFs的部队组合名称识别方法对200篇文档组成的测试集中的部队组合名称进行识别。CRFs模型识别部队组合名称,识别的准确率为82%,识别的召回率为96.96%,F值为0.889。使用拆分规则识别部队组合名称中的建制单位,识别的准确率为97.53%,召回率为96.96%(与CRFs模型结果相同),F值为0.889。基于规则和CRFs的部队组合名称识别方法的识别准确率为79.48%,识别的召回率为93.93%,F值为0.861。

单独使用拆分规则对从各类战例资料中收集的797个部队组合名称进行识别的实验结果表明,拆分规则具有较好的效果。识别后得到部队建制单位名称2 183个,部队组合部队名称包含的建制单位数量分布如图5所示。其中,识别错误的部队组合名称14个,识别的准确率为98.24%,召回率为98.24%,F 值为 0.991。

图5 部队组合名称包含建制单位数量分布图

4.3.2 实验结果分析

图5表明,在797个部队组合名称中,有444个部队组合名称包含2个建制单位,有229个部队组合名称包含3个建制单位,有124个部队组合名称包含4个以上建制单位。797个部队组合名称实际标识了2 183个部队建制单位。56%的部队组合名称标识了2个部队建制单位,6%的部队组合名称标识了5个以上的部队建制单位,即仅用52个部队组合名称就标识了320个部队建制单位。从以上分析可见,部队组合名称的数量和其实际标识的部队建制单位的数量相差较大,如果不能准确识别部队组合名称中的部队建制单位,将会对计算机理解军用文书语义产生较大影响。

5 结论

基于规则和CRFs的部队组合名称识别方法的实验结果表明,采用该方法识别部队组合名称具有较好的性能。识别错误的主要原因是CRFs模型识别部队组合名称时,名称边界判断错误。因此,下一步要提高CRFs模型识别部队组合名称的准确率和召回率。一方面可以通过部队编制词典提高原始语料的分词精度以改善词特征,提高不同部队组合名称之间的区分度。另一方面,在CRFs模型中引入前缀、后缀等部队名称的上下文特征。以期进一步提高部队组合名称识别方法的准确率和召回率。

[1]沈嘉懿,李芳,徐飞玉,等.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21.

[2]王宁,葛瑞芳,苑春法,等.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6.

[3]郑家恒,张辉.基于HMM的中国组织机构名自动识别[J].计算机应用,2002,22(11):1-2.

[4]周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别 [J]. 电子学报,2006,34(5):804-809.

[5]黄德根,李泽中,万如.基于SVM和CRF的双层模型中文机构名识别[J]. 大连理工大学学报,2010,50(5):782-787.

[6]张金龙,王石,钱存发.基于CRF和规则的中文医疗机构名称识别[J].计算机应用与软件,2014,31(3):159-164.

[7]李元沉,何路,王爽,等.组织机构名称简称与全称的自动识别研究初探[J].标准科学,2014,54(8):82-86.

[8]WIEBE J,WILSON T,BELL M.Identifying collocation for recognizing opinions[C]//Proc of Workshop on Collocation Computational Extraction Analysis,and Exploitation,2001:24-31.

[9]胡福东,白宏阳,李成美,等.基于改进的胡氏不变矩的坦克识别方法[J].兵器装备工程学报,2016,37(12):100-104.

An Army Combine Name Recognition Method Based on Rules and CRFs

SHAN He-yuan1,WU Zhao-lin2,ZHANG Hai-su2,ZHOU Hong1
(1.School of Information and Navigation,Air Force Engineering University,Xi’an 710077,China;2.School of Information and Communications,National University of Defense Technology,Wuhan 430010,China)

In military documents processing,an Army Combined Name (ACN)recognition method based on Rules and CRFs,which aims to recognize all organic units in ACNs.ACNs is proposed can be identified by CRFs,and organic units in ACNs would be recognized by splitting rules.Experiments show that,the precise and recall rate of our method for organic units in ACNs recognition is 79.48%and 93.93%.

Army Combined Name(ACN),CRFs model,named entity recognize,splitting rules

1002-0640(2017)10-0030-04

TP11

A

10.3969/j.issn.1002-0640.2017.10.007

2016-08-09

2016-10-17

国防预研基金资助项目(9140A15090112JB93180)

单赫源(1979- ),男,黑龙江佳木斯人,博士,讲师。研究方向:信息资源管理。

猜你喜欢

军用文书名称
大话军用卡车
威力无比的军用霰弹枪
徐谓礼文书——南宋官制百科全书
监狱执法文书规范探讨
我的小天地
沪港通一周成交概况
沪港通一周成交概况
沪港通一周成交概况
沪港通一周成交概况
猜谜