基于多特征的信息安全事件语料标注方法
2019-03-12郭婷婷刘嘉勇
郭婷婷,刘嘉勇
(1.四川大学电子信息学院,成都 610065;2.四川大学网络空间安全学院,成都 610065)
0 引言
事件语料标注本质是事件提取,即从新闻报道等非结构化文本中提取出包含事件信息的要素,并以结构化形式呈现。事件抽取采用的方法主要有两种,模式匹配和机器学习[1-2]。其中模式匹配是领域专家结合领域知识和语言知识构建目标信息的上下文约束环境及组成规则,抽取时通过各种模式匹配算法找出符合模式约束条件的信息,该方法准确率比较高,但是成本高而且领域移植性差。机器学习方法将事件抽取看成分类问题,人工干预较少,是目前常用方法,抽取结果的好坏取决于构建的分类器以及所选取的特征,构建的分类器需要训练才能达到较好的效果,此时作为训练文本来源的语料库就很重要了。
目前常用的事件语料库主要有自动内容抽取评测会议提供的ACE语料[3-4]、美国高级研究发展学会主办的问题回答系统中的时间和事件的识别会议的Time⁃Bank语料[5]以及上海大学语义智能实验室构建的中文突发事件CEC语料[6]。ACE评测会议将事件抽取这项任务定义为:识别特定类型的事件并进行相关信息的确定和抽取,关注的主要信息包括,事件的类型和子类型、事件元素角色等,ACE评测语料中定义了8个大的事件类型和33个事件子类,但是并不包括信息安全类事件,每种事件对应唯一的模板;TimeBank语料标注了事件、时间、时间指示词以及事件和时间之间的关联关系等它采用了一种改进的XML语言TimeML进行标注,更关注事件的时间信息。CEC语料采用XML语言作为标注格式,其中包含了事件(Event)标签和其他5个事件要素:触发词(Denoter)、时间(Time)、地点(Lo⁃cation)、参与者(Participant)和对象(Object)。
与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是它对语料的标注更全面,也与本文期望的信息安全事件语料中兴趣点更贴合。目前国内缺少大规模的信息安全语料库作为研究工作的支撑,本文在学习CEC语料库标注规范基础上,人工对语料进行标注。在传统事件识别只利用词汇、词性信息构造特征向量的基础上,引入词与父节点的关系和语义角色来构造特征向量,采用CRF机器学习算法实现事件语料标注。
1 事件模型
1.1 事件定义
事件作为一种信息的表现形式,是指特定人、物在特定的时间,地点发生相互作用的客观事实,通常是句子级的。现在还有一些跨篇章的事件抽取,针对的是以某个主题为中心的一组事件描述,但本文研究的标注方法致力于句子级的事件描述,对于篇章类的描述,首先会进行段落和句子的切分,然后再做事件要素的标注,事件要素就是事件中关注的兴趣点,事件要素又包括触发词(Denoter)和事件元素(Time、Location、Par⁃ticipant、Object)。
1.2 CCEECC语料标注规范分析
中文突发事件语料库(CEC)是由上海大学所构建,从互联网上收集5类(交通事故、地震、恐怖袭击、火灾和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后生成的XML结构的标注结果。
对于一篇新闻报道,CEC语料标注方法首先将所有内容封装到
中,文章标题标记为对CEC语料标注结果进行分析,CEC语料中出现的事件总和为5954,而触发词的个数也是5954,触发词和事件是一一对应的,如果一个句子中有触发词,则认为这是一个事件。利用LTP平台对CEC生语料(未标注前的新闻文本)处理后,将得到的结果与CEC语料标注结果做比对,可以发现事件中触发词是动词、名词或其组合形式的个数是5548,在所有触发词中占比超过九成,所以在后续语料标注中词性会作为标注模型的重要特征。
2 信息安全事件标注
根据中央标准《信息安全技术信息安全事件分类分级指南》以及中央网兴办发布的《国家网络安全事件应急预案》可知,信息安全事件是指由于人为原因、软硬件缺陷或故障、自然灾害等,对网络和信息系统或者其中的数据造成危害,对社会造成负面影响的事件。可分为有害程序事件、网络攻击事件、信息破坏事件、信息内容安全事件、设备设施故障、灾害性事件和其他事件。
信息安全事件和突发事件相比,特殊性在于信息安全事件中参与者可能不是传统意义上的人,虽然部分事件描述中也有此类信息,例如事件中出现的攻击人、组织,但所占比例较小。信息安全事件要素中的参与者(Participant)更偏向于软件、供应商、应用程序名称、硬件、操作系统等,例如“Twitter再现Windows 0 day漏洞”这样的报道中,我们认为“Twitter”就是信息安全事件中关注的
所以在借鉴CEC语料对事件的标注规则基础上,结合信息安全领域我们的关注点,对于事件标注保留了触发词和事件元素基本的特征,并选择了信息安全领域新闻报道进行深入分析。其中,触发词(Denoter)是指在文本中能明确表示事件发生的词语,事件其他元素包括事件的时间(Time)、地点(Position)、参与者(Participant,事件中参与主体或客体,可能是人、组织或软硬件、操作系统等),其他对象(Object)。本文提出的信息安全事件语料标注方法包括三个部分分别是预处理,事件要素标注和XML结果生成和校验,本文的重点在于中间的事件要素标注部分,标注流程如图1所示。
图1 标注流程
2.1 预处理
实现信息安全事件文本自动化标注之前需要做一系列预处理工作,包括文本分段分句,句子分词、词性标注、命名实体识别、语义角色标注等,这些前期准备工作每一步都很重要,因为每个任务产生的误差的传播和积累,会影响后续事件抽取的准确度,所以选择要慎重。因为文本分段可以直接利用DOM树中的标签,分句使用“。?!”等标点符号来做正则匹配,都比较容易,而且准确率较高,所以此处不做过多介绍。到了句子层级,本文采用哈尔滨工业大学开发的语言技术平台(LTP)来完成初期的准备工作,该平台目前在中文文本处理领域非常有影响力,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效的自然语言处理技术。
将新闻文本通过LTP语言技术平台处理过后,可以得到如图2所示的分析结果。
图2 LTP API分析结果
图2中第一行是分词结果,第二行是第一行对应分词的id,第三行表示分词对应结果的词性,第四行是实体识别结果,第五行表示依存句法分析结果,第六行是该分词父节点id,第七行表示分词的语义角色。LTP中词性标注集使用的是863标注集,命名实体识别采用的是O-S-B-I-E的标注形式,具体含义如表1表示。
表1 O-S-B-I-E标注含义
LTP平台实体识别模块目前主要识别人名(Nh)、地名(Ns)、机构名(Ni)三种实体,而给出的例子中没有属于这三种实体中的一种,所以实体识别结果全部都是‘O’;依存句法分析结果中出现的‘ATT’表示定中关系,‘ADV’表示状中结构,‘SBV’表示主谓关系,‘HED’表示核心关系,即触发词所在的关系,是整个句子的核心;语义角色中包括核心语义角色和附加语义角色,A0-A5表示核心语义角色,A0表示动作的施事,A1表示动作带来的影响,TMP是附加语义角色,表示时间,关于依存句法分析以及语义角色标注结果其他具体解释可参考LTP使用文档[8]。
2.2 事件要素标注
(1)模型概述
在得到LTP对文本的分析结果后,将触发词和事件其他元素的标注看成是序列标注问题。序列标注常见的算法有隐马尔科夫模型(HMM)、最大熵模型(ME)以及条件随机场(CRF)模型[9]。假设模型输入为X,输出是一个序列Y=(yi)i∈V,随机变量X和Y是联合分布,P(Y|X)表示观察序列和标记序列的条件概率模型,P(X)表示隐含的边缘概率模型。
因为CRF相比于HMM没有严格的独立性假设,可以充分利用上下文信息,而且CRF统计了全局概率,考虑了数据在全局的分布,而不是仅仅在局部归一化,解决了ME中的标记偏置问题,所以本文选用CRF模型对事件要素进行标注。
CRF是一种无向图模型,对条件分布P(Y|X)进行建模。序列标注使用的是特殊的条件随机场—线性链条 件 随 机 场 。 其 数 学 定 义 是 :设 X=(x1,x2,...,xn) ,Y=(y1,y2,...,yn)都是线性链的随机变量序列,若在给定随机序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)满足马尔科夫性:
(2)特征选择
特征选择对于模型效果有着直接的影响,传统事件识别只利用词汇、词性信息构造特征向量,通过对CEC语料分析可知,词性和词语所处的上下文环境很重要,词的语义特征对于事件的描述也很关键,除了平面特征,句子结构也要考虑,所以本文使用的CRF模型选取的特征包括:
①候选词及其词性
②候选词实体标注结果
③候选词和父节点的句法关系
④候选词的语义角色特征
举个例子来说明特征构成。例如:“境外黑客组织“白象”蛰伏一段时间后,于今年3月上旬对国内发起攻击。”假设“发起”作为候选词,抽取特征为:
①“发起/v”
②“O”
③候选词与父节点的句法关系是“HED”
④候选词的语义角色特征即动词
训练语料是在LTP分析基础上,人工对每个分词进行标注,判断其属于关注的事件要素Denoter、Time、Location、Participant、Object中的哪个。
CRF模型的输入如图3所示。
图3 CRF模型输入格式
使用新闻文本的上述特征作为输入后,可以得出最后一列特征的概率分布,即会得出一个分词是Time、Denoter、Location、Object、Participant或 null的概率。如果用信息安全领域语料进行训练,则该领域较常用的结构化表达和常见的词语会使分词被标记为其中一个标签的概率大一些,本文选择其中概率最大的作为该分词最后的标注标签。
2.3 XXMMLL结果生成和校验
本文最终的语料标注结果参照CEC语料,以XML形式表示,生成过程共包含以下几步:
第一步:调用LTP API处理文本,设置返回结果格式为XML,如图4所示。
第二步:将LTP分析结果以及人工标注结果整理成CRF模型要求的输入形式,利用训练好的CRF模型对新的语料进行标注
第三步:XML结果中
第四步:将CRF模型标注出的其他事件要素用相应的标签标出,标记为null的词不做处理;
第五步:在一个
为了保证标签的正确嵌套,本文利用DTD对XML文件的结构和嵌套要素进行格式校验。
图4 LTP API的XML格式结果
3 实验及结果
3.1 实验数据和评价标准
(1)实验数据
本文的数据源是收集自Tools网站的信息安全类新闻文本1060篇,对新闻摘要进行人工标注,将原始新闻文本做分句处理,之后利用LTP API对句子进行分析,将分词的词性、实体识别结果、与父节点的关系、语义角色以及人工标注的事件元素标签融合构建CRF模型的特征向量。
(2)评价标准
本文使用自然语言处理中常采用的评价指标准确率P、召回率R和F值对模型的性能进行评价[6-7]。定义使用模型正确标注的事件要素个数为Nright,模型标注出的事件要素总个数为Ncrftag,人工标注的事件要素总个数为Npertag。因为目前没有公开权威的对比语料,暂且认为人工标注的语料准确率比较高,计算召回率的时候,将模型标注和人工标注结果均值作为分母,各指标计算方式如下:
3.2 实验设计及结果
(1)实验一信息安全事件要素识别
人工对于1060篇信息安全事件的新闻摘要进行标注,随机选择其中800篇将LTP分析结果和人工标注结果结合,作为CRF模型的特征向量用于训练,这其中包含3489个事件,然后利用训练好的模型对剩下的260篇做测试。测试语料中标注的事件要素个数统计如表2所示,实验结果如表3所示。
表2 多特征CRF模型对信息安全新闻摘要中事件要素标注统计
表3 多特征CRF模型对信息安全新闻摘要事件标注实验结果
由实验结果可以看出,利用本文提出的多特征融合的CRF模型对信息安全事件中的事件要素提取F值都超过60%,说明该模型是有效的。其中Time要素结构比较单一,识别效果最好;Denoter识别效果也不错,但是准确率不够高,经分析可能原因是预处理结果不理想,例如“攻击”一词在普通事件中常作为动词,就是一个事件中的Denoter,如“李某疯狂攻击他人”,而信息安全事件中攻击经常是名词,通常是事件要素中的 Object,如“对国内发起攻击”或者“XSS攻击”,这种不足可以通过构建信息安全领域触发词表改进;Partic⁃ipant和Object成分复杂,尤其Participant标签中涵盖内容过多,所以模型识别效果还有较大提升空间。
(2)实验二与只使用常用特征的CRF模型标注作对比实验
为了更客观地说明多特征融合的CRF模型的有效性,选用常用特征CRF模型作对比实验。实验语料和步骤与实验一基本相同,只是构建特征向量时不加入句法和语义角色特征。多特征融合的CRF模型实验结果如实验一中表3所示,只使用常用特征的CRF模型对事件标注要素个数统计如表4所示,实验结果如表5所示,对比实验结果如图5所示。
表4 常用特征CRF模型对信息安全新闻语料要素标注统计
表5 常用特征CRF模型对信息安全新闻事件标注实验结果
图5 多特征CRF模型和简单CRF模型对比图
分析实验结果,本文提出的CRF模型相比较只使用常用特征的CRF模型而言,Denoter的F值提升12.3%,Time的F值提升17.77%,Location的F值提升11.91%,Participant的F值提升10.82%,Object的F值提升21.26%。由对比结果图可直观看出,加入句法特征和语义角色特征后模型对每种事件要素的识别率都有了显著地提高。
4 结语
本文提出一种将信息安全新闻文本标注为事件语料的方法,提高了语料标注的效率。其中使用的CRF模型在构建特征向量时,除了常用特征外,还加入了候选词与其父节点的句法关系特征以及语义角色特征,实验证明有一定的效果。对于构建大规模语料库时,这种方法可以作为人工标注的前期工作,减少人力成本,加快标注速度。
当然本文提出的方法还有很大改进空间,针对信息安全领域的触发词和事件元素识别,后续可以考虑构建自定义的信息安全领域事件要素词典,然后和机器学习的模型相结合,进而识别出事件所属类别。除此之外,一篇语料会存在多个事件,事件之间会存在语义上的关系,这对于后续的事件分析很重要,现在的标注方案没有将其考虑在内,可以在此方面继续做深入研究。