APP下载

小粒度策略下基于CRFs的军事命名实体识别方法

2017-03-20单赫源张海粟吴照林

装甲兵工程学院学报 2017年1期
关键词:分词粒度命名

单赫源,张海粟,吴照林

(1.国防信息学院信息化建设系,湖北 武汉 430010; 2.空军工程大学信息与导航学院,陕西 西安 710077)

小粒度策略下基于CRFs的军事命名实体识别方法

单赫源1,2,张海粟1,吴照林1

(1.国防信息学院信息化建设系,湖北 武汉 430010; 2.空军工程大学信息与导航学院,陕西 西安 710077)

军事命名实体(Military Named Entities,MNEs)内部嵌套关系复杂、语法区分不明显,从而影响实体识别效果,针对这一问题,提出了一种小粒度策略下基于条件随机场(Conditional Random Fields,CRFs)的MNEs识别方法。运用小粒度策略,结合手工构建的MNEs标注语料进行建模,采用CRFs模型识别出不可再分的小粒度MNEs,再通过对小粒度MNEs进行组合得到完整的MNEs。最后,通过实验对该方法进行了验证,结果表明:在作战文书语料的开放测试中,MNEs识别的召回率达到72%以上,准确率达到85%以上。

条件随机场; 军事命名实体; 命名实体识别; 小粒度策略

作战文书是军队指挥链路中主要的信息载体,具有组织指挥、沟通联络作用,是部队行动的直接依据。准确识别出作战文书中的部队、装备、地点和任务等命名实体,是实现文本数据和结构化数据的跨模态关联,进而使计算机理解作战文书语义的前提,是提高指挥信息系统辅助决策能力的一个基础性工作。命名实体识别方法包括基于规则和基于机器学习2类[1]。基于规则的命名实体识别方法对固定句式中的命名实体识别效果较好,但对领域知识要求高,且可移植性较差;与之相比,基于机器学习的命名实体识别方法对领域知识要求较低,具有良好的跨领域移植性。基于机器学习的命名实体识别方法通常都需要大量的标注语料,由于军事命名实体(Military Named Entities,MNEs)内部存在着嵌套关系,因此训练集的标注粒度影响MNEs的识别效果。目前,对机器学习模型训练集的标注主要有2种方法:1)对实体进行完整标注,标注实体的左右边界和实体的内部组成部分[2-6];2)对简单实体和嵌套实体分别进行标注[7-10],并分别采用不同的实体识别方法。以上方法不同程度地存在着实体标注复杂、耗时费力等问题。为此,基于机器学习的命名实体识别方法,笔者提出一种小粒度策略下基于条件随机场(Conditional Random Fields,CRFs)[11]的MNEs识别方法,在训练集中标注MNEs时依据小粒度策略,使被标注的MNEs粒度最小,在此基础上训练CRFs模型并采用该模型实现对MNEs的识别,不但能降低训练集标注的复杂度,还有助于提高机器学习方法识别MNEs的准确度。最后,通过实验对该方法进行验证。

1 MNEs的特点

作战文书中的MNEs包括单位类实体、地理类实体、装备类实体、任务类实体和时间类实体。MNEs构成受有关条例和规范的约束,通常以军语等术语及其组合的形式在作战文书中呈现,具有独特的构成特点,具体如下:

1)单位类命名实体中的序列标志多采用阿拉伯数字。如“陆军第××集团军”“炮兵团第×营”等。

2)标志部队编制的单位类命名实体右边界一般有军、师、旅、团、营、连、排、班等代表层级的字符,多个标志部队编制的命名实体经常以组合的方式出现,如“机械化步兵第×师第×团第×营”。

3)标志地区和地点的地理类命名实体经常以省、市、县、乡、镇、村、庄、集、队、寨、沟、山、峪、坝等字符作为右边界。与单位类命名实体类似,标志地点的命名实体也经常叠加组合。

4)标志坐标的命名实体通常紧贴作战文书中首次出现的标志地点的命名实体右边界。标志坐标的命名实体通常以“(”开始,以“)”结束,经纬度之间用“,”区分。

5)在标志作战编成的单位类命名实体或标志武器装备的装备类命名实体中,汉字、字母、数字和符号经常组合出现,如“T字布”“垂直/短距起降飞机”等。

6)MNEs存在全称和简称,如全称为“机械化步兵第×师”,简称为“机步第×师”。

7)MNEs中的词语大都是规范的固定组合,不能任意增减、改换。

MNEs识别的难度在于:中文文本中词语边界没有空格等明显的区分标志,也没有大小写等字形上的区别;MNEs内部嵌套关系复杂,实体内部经常嵌套其他命名实体;MNEs的全称、简称并存现象普遍。这些都使得选择区分度高的MNEs分类特征较为困难,从而增加了识别的难度。

2 MNEs的标注策略及识别模型

2.1 小粒度策略

小粒度策略是在命名实体标注过程中,针对作战文书中MNEs构成复杂且全称、简称混合的特点所采取的一种命名实体标注策略。小粒度策略的内容是在标注MNEs时仅标注不可再分的MNEs,不可再分是指若去掉实体开头或结尾的任何一个字符,都将引起歧义或使实体不再具有意义,如:“1团2营3连”,根据小粒度策略,分别标注为“1团”“2营”和“3连”3个不可再拆分的部队编制实体。小粒度策略可有效地减小命名实体构成的差异化对命名实体识别的影响,采用该策略后,只需将识别结果中连续出现的小粒度MNEs组合在一起,并以最后一个实体的标注作为合并后实体的标注,即可获得完整的MNEs。

2.2 CRFs模型

(1)

式中:Z(x)为标准化因子,只依赖于词语序列,其表达式为

(2)

λk为通过训练得到的第k个特征函数的权重,反映了特征函数代表的事件发生的可能性;fk(yi,yi-1,x)为特征函数,其一般表示形式为

(3)

3 MNEs的识别步骤

在小粒度策略下,基于CRFs的MNEs识别方法的识别步骤包括预处理、训练集标注、特征模板选择、识别模型训练和预测等。

实验材料是特征尺寸为65 nm、直径为300 mm的12英寸铜晶圆。采用美国APPLIED MATERIALS公司生产的Reflexion® LK型抛光机,配备Rohm and Haas公司生产的Politex™ Reg型抛光垫。抛光工艺参数为:抛头转速78 r/min,抛盘转速80 r/min,体积流量300 mL/min,抛光压力5.2 kPa,抛光时间60 s。

3.1 预处理

预处理是对原始的作战文书进行分词和词性标注,使原始文本中隐含的词语、词性和上下文等特征能够显式表达。笔者采用中科院ICTCLAS工具[13]实现作战文书的分词和词性标注,其含义示例如表1所示。

表1 ICTCLAS词性标注的含义示例

3.2 训练集标注

训练集标注是通过人工方式将训练集中的MNEs标注出来,为CRFs模型的训练提供样板。笔者以词作为作战文书语料的切分粒度,使用“BIO”标注方法,采取小粒度策略标注训练集,得到训练集的实体标注序列。其中:B(Begin)表示实体开始(左边界);I(Internal)表示实体内部及结尾(右边界);O(Other)表示除实体外的其他词、字和标点。根据作战文书的特点,选择标注10类MNEs,其标注方法如表2所示。

表2 MNEs的类别及标注方法

例如:对句子[机步第×师为集团军左翼突击上陆梯队。]采用中科院ICTCLAS工具进行分词和词性标注后,其MNEs标注如表3所示,得到MNEs标注序列为[B-Str,I-Str,I-Str,I-Str,O,B-Str,B-Az,B-Org,I-Org,I-Org,I-Org,O]。

表3 句子[机步第×师为集团军左翼突击上陆梯队。]的分词、词性标注和MNEs标注

3.3 特征模板选择

CRFs模型最大的优点就是能够综合使用字、词、词性和上下文信息等特征。在小粒度策略下采用CRFs模型进行MNEs识别时,特征选择影响MNEs识别的效果,可选择的特征主要有词语特征、词性特征和上下文特征等。特征模板是在CRFs模型训练和识别MNEs时所要使用的预定义的识别特征组合方式。如:句子[集团军前进指挥所信息通信枢纽开设在××庄。]在经过分词、词性标注和人工标注实体后,其MNEs标注如表4所示,选择词语和词性作为识别特征。若特征%x[0,0]为句子中的词[开设],则特征模板中所代表的特征及其内容如表5所示。

表4 句子[集团军前进指挥所信息通信枢纽开设在××庄。]的分词、词性标注和MNEs标注

表5 特征模板中所代表的特征及其内容

3.4 识别模型训练和预测

识别模型训练的实质是获得CRFs模型的最优化参数。在得到经过训练的CRFs模型后,要利用测试集对模型性能进行测评,以判断识别方法的优劣。通常采用召回率R、准确率P和F值3个指标对训练后的CRFs模型的性能进行评价,其计算方法分别如下:

(4)

(5)

(6)

经过测评后,可选择识别效果较好的模型对作战文书中的MNEs进行预测。

4 实验结果与分析

4.1 实验条件设置

笔者通过构建一个小规模实验语料来验证以上方法的有效性。采用中科院ICTCLAS工具进行分词和词性标注,对分词后的作战文书语料进行MNEs的手工标注。选择作战文书200份,共计26 242字、534句;选择其中的374句作为训练集,共计15 790字;其他160句作为测试集,共计10 452字。实验所用计算机的配置为:处理器Intel Core 2 Duo E7500 2.93 GHz,内存容量为4 GB,操作系统为Windows7 旗舰版64位。实验采用召回率R、准确率P和F值作为评价指标。

语料文件由输入、标注对序列构成。CRFs模型的训练和测试采用CRFs工具CRF++0.53[14],其参数C的取值对CRFs模型的效果有较大影响,C越大,CRFs拟合训练数据的程度越高,但过大的C值会引发过度拟合。因此,参数C的取值和特征模板都需要通过多次实验进行择优选择。笔者通过在实验中调整C值和递加特征的方法来观察算法的效果,从而选取合适的C值与特征模板。实验选用的初始特征模板如表6所示。

表6 实验选用的初始特征模板

4.2 实验结果分析

4.2.1 特征变化对算法性能的影响

表7 在初始特征模板下参数C=10的MNEs识别结果

由表7可见:在使用初始特征模板时,采用本文的方法识别MNEs的准确率达到85.32%,召回率达到72.99%。

在增加特征U07(%x[-2,0]/%x[-1,0])以及U08(%x[1,0]/%x[2,0])后,模型训练时间上升为25 min。在扩展特征模板下参数C=10的MNEs识别结果如表8所示。可以看出:在增加词语上下文特征数量后,召回率下降,而准确率得到小幅度提升。可见:词语上下文特征的增加对识别的准确度影响不大,但对算法性能有较大影响。因此在采用本文方法识别MNEs时应选择合适的上下文窗口:词语、词性和词性上下文等特征以5词窗口为宜;而词语上下文特征以3词窗口为宜。

表8 在扩展特征模板下参数C=10的MNEs识别结果

4.2.2 算法参数对识别结果的影响

为调整本文方法在生成模型时过度拟合和不拟合之间的平衡度,在扩展特征模板基础上,分别改变参数C的取值。当参数C=2,4,6,8,10时,得到在扩展特征模板下变参数的MNEs识别准确率、召回率和模型训练时间,分别如图1、2所示。表9为在扩展特征模板下参数C=2的MNEs识别结果。

图1 在扩展特征模板下变参数的MNEs识别准确率、召回率

图2 在扩展特征模板下变参数的模型训练时间

项目标注数量正确识别错误识别召回率/%准确率/%F值实体总数115583613571.0889.630.793部队编制3693123884.5589.140.868作战编成1971023051.7877.270.620地名2471991680.5792.560.861坐标1761761100.0099.440.997方位趋向22124.5533.330.080装备型号369525.0064.290.360任务71014.29100.000.250时间185127.7883.330.417日期204220.0066.670.308数量6312019.05100.000.320

由图1可见:随着C值增大,召回率得到提升,而准确率下降;当C=10时,召回率出现大幅下降,而准确率出现较大反弹。可见:过小或过大的C值都会降低召回率,其取值在4~8之间较为合适。

由图2可见:随着C值增大,模型训练时间从17 min上升为25 min。这表明:在增加特征数量的同时,若适当减小C值,不但可以防止出现过度拟合,而且可以有效缩短模型训练时间。

综合以上2点考虑,笔者设置参数C=4。

4.2.3 实体数量和特征对识别结果的影响

由表7-9可见:在所标注的10种MNEs中,部队编制实体、地名实体和坐标实体的识别结果较好。其中:坐标实体识别的召回率达到100%,准确率达到98.88%以上,这是因为坐标实体的特征非常明显,与其他实体的区分度高;而地名实体之所以识别效果好,很大程度上是因为地名与坐标经常一起出现,提高了地名实体识别的准确率。

4.2.4 实体标注粒度对识别结果的影响

在使用扩展特征模板且C=4时,不同标注粒度下部队编制实体和作战编成实体识别结果如表10所示。由于在MNEs中经常存在实体嵌套现象,因此不同的实体标注粒度会影响识别结果。MNEs存在2种嵌套类型:1)实体嵌套仅表示实体的层级,组合后实体的类别不会改变,如大粒度标注的实体[反坦克导弹连第3营]由小粒度标注的部队编制实体[反坦克导弹连]和部队编制实体[第3营]组成,仍为部队编制实体;2)不同实体组合后类别发生改变,如由小粒度标注的部队编制实体[集团军]、方位趋向实体[左翼]、作战编成实体[突击梯队]可组合成大粒度标注的作战编成实体[集团军左翼突击梯队]。因此,若MNEs的标注粒度大,则会出现命名实体内部嵌套其他命名实体的现象,势必会降低词作为实体特征的区分度,进而影响识别结果。

表10 不同标注粒度下部队编制实体和作战编成实体识别结果

5 结论

针对MNEs识别的任务需求,笔者提出了一种小粒度策略下基于CRFs的MNEs识别方法,并通过实验进行了验证,结果表明:在作战文书语料的开放测试中,该方法的MNEs识别召回率达到72%以上,准确率达到85%以上,说明该方法具有良好的MNEs识别效果。由于该方法预处理环节使用的是通用分词工具,使得在分词过程中对军事术语切分不准确,甚至1个术语会有多种切分方式,在一定程度上影响了MNEs识别效果;此外,该方法仅使用了词语、词性和上下文作为识别特征,对MNEs的领域特征利用还不充分,在一定程度上也制约了MNEs识别效果的提高。为了进一步提高MNEs识别效果,下一步笔者将采取以下2项措施改进本文方法:1)通过使用由军事术语构成的用户词典来提高原始语料的分词精度,以改善词语特征;2)通过引入领域规则和增加外部语义特征来提高不同MNEs之间的区分度。

[1] 王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145.

[2] 姜文志,顾佼佼,丛林虎.CRF与规则相结合的军事命名实体识别研究[J].指挥控制与仿真,2011,33(8):13-15.

[3] 高强,游宏梁.基于层叠模型的国防领域命名实体识别研究[J].现代图书情报技术,2012,28(11):47-51.

[4] 伊迪,周俊生,曲维光.基于联合模型的中文嵌套命名实体识别[J].南京师大学报(自然科学版),2014,37(3):29-35.

[5] 鞠久朋,张伟伟,宁建军,等.CRF与规则相结合的地理空间命名实体识别[J].计算机工程,2011,37(7):210-212.

[6] 冯艳红,于红,孙庚,等.基于词向量和条件随机场的领域术语识别方法[J].计算机应用,2016,36(11):3146-3151.

[7] 王春雨,王芳.基于条件随机场的农业命名实体识别研究[J].河北农业大学学报,2014,37(1):132-135.

[8] 俞鸿魁,张华平,刘群,等.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94.

[9] 姜文志,顾佼佼,胡文萱,等.基于多模型结合的军事命名实体识别[J].兵工自动化,2011,30(10):90-93.

[10] 万静,涂喆,冯晓.基于条件随机场的医药领域症状信息抽取[J].北京化工大学学报(自然科学版),2016,43(1):98-103.

[11] LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[EB/OL].[2016-09-10].http:∥angieyen.bol.ucla.edu/ie/articles/lafferty-crf%20probabilistc-2001.pdf.

[12] 施水才,王锴,韩艳铧,等.基于条件随机场的领域术语识别研究[J].计算机工程与应用,2013,49(10):147-149.

[13] 张华平.ICTCLAS2013版 [EB/OL].(2013-11-05) [2016-06-10].http:∥ictclas.nlpir.org/.

[14] TAKU K.CRF++ Toolkit [EB/OL].(2003-01-06) [2016-09-10].http:∥crfpp.sourceforge.net/.

(责任编辑: 尚彩娟)

A Military Named Entity Recognition Method Based on CRFs with Small Granularity Strategy

SHAN He-yuan1,2,ZHANG Hai-su1,WU Zhao-lin1

(1.Department of Information Construction,PLA Academy of National Defense Information,Wuhan 430010,China;2.Information and Navigation College,Air Force Engineering University,Xi’an 710077,China)

The recognition of Military Named Entities (MNEs) is restrained by the complex nested relation of MNEs and obscure grammatical distinction.To resolve this problem,the authors put forward MNEs recognition method based on Conditional Random Fields (CRFs) model with small granularity strategy.The authors construct a marked corpus to train the model,and use the model to recognize small granularity MNEs which can’t be divided,then get the complete MNEs by composing small granularity MNEs.Finally,the method is verified by the experiment,the results show that the recall rate and the precise rate of MNEs recognition is 72% and 85% respectively in the open test of operational document corpus.

Conditional Random Fields (CRFs); Military Named Entities (MNEs); Named Entity Re-cognition (NER); small granularity strategy

1672-1497(2017)01-0084-06

2016-11-11

单赫源(1979-),男,博士研究生。

TP391.1

A

10.3969/j.issn.1672-1497.2017.01.018

猜你喜欢

分词粒度命名
粉末粒度对纯Re坯显微组织与力学性能的影响
命名——助力有机化学的学习
分词在英语教学中的妙用
动态更新属性值变化时的最优粒度
结巴分词在词云中的应用
结巴分词在词云中的应用
有一种男人以“暖”命名
为一条河命名——在白河源
组合多粒度粗糙集及其在教学评价中的应用
通信认知教学中多粒度可重用模型建模研究