APP下载

基于语义分类和描述框架的网络攻击知识抽取研究及其应用

2019-05-24符建辉曹存根

中文信息学报 2019年4期
关键词:谓词文法词类

方 芳,王 亚,王 石,符建辉,曹存根

(1. 中国科学院 计算技术研究所 智能信息处理重点实验室,北京 100190;2. 中国科学院大学,北京100049)

0 引言

随着网络技术的迅猛发展,网络攻击事件频频发生的现象越来越受到社会和政府的关注。及时发现和预防网络攻击事件变得越来越重要。网络攻击事件的描述文本中蕴含了大量的有用知识,为了更好地利用已有的文本数据,需要对文本进行分析,将文本转化为结构化知识。

文本知识获取(knowledge acquisition from text,KAT)是指自动将自然语言描述的文本知识变为计算机可理解的形式,它是人工智能的重要研究内容。众所周知,知识获取的过程复杂且困难,国内外的研究者从不同层面和不同角度进行了探索与尝试[1]。例如,Cyc依靠知识工程师来手工输入常识知识来构建知识库[2];OMCS通过网络用户给出常识知识建立知识库[3];陆汝钤研究构建了一个面向Agent的大规模常识知识库[4];彭会良提出了一种挖掘相关联事件的知识库建立方法[5]。

针对文本研究,目前大多采用关键字和机器学习的方法[6-7],准确率并不高,因此本文提出基于语义文法分析的方法对文本内容进行语义分析和知识抽取。课题组建立了一个名为语义分类和描述框架的语义知识库(framework of semantic taxonomy and description,FSTD)[8],该语义库首先在鲁川提出的事件分类基础上,进一步补充细化事件的分类和事件涉及的周边角色,然后参考FrameNet[9]思想构建描述语义类的框架。

为了对网络攻击文本进行知识抽取,文本参考语义分类和描述框架的设计思想设计网络攻击语义库。将语义库应用于网络攻击事件的描述文本中,对网络攻击知识进行抽取。本文主要采用解析语义分类和描述框架中语义文法的方法,使用语义文法相较于常用的统计方法主要优点包括:

(1) 语义文法在关键或相关信息数据稀疏的情况下可以很好地抽取知识。

(2) 语义文法是一种可以精确获取信息的方法,不需要对信息进行统计,可以避免信息受距离的影响。

(3) 从搭配的角度看,有些词汇之间需要搭配使用,而统计的方法会受到冗余信息的影响。

本文针对网络攻击事件知识库进行研究和开发,根据语义分类和描述框架,通过文法的解析获取相关知识。主要研究内容包括: 首先建立以语义分类和描述框架为基础的网络攻击语义库,而在建立语义库的过程中,发现在网络攻击文本中,出现大量遭受类的语句,而遭受类的语句较少人进行研究,因此就此类问题进行分析并提出相应的解决方式;然后,将网络攻击语义库应用在网络攻击事件描述文本的知识抽取中并建立一个网络攻击知识库;最后对应用结果进行实验和分析。

1 语义分类和描述框架

对于文本信息和知识的处理,本文采用语义分类和描述框架,并使用改进的鲁棒Earley解析器[10]解析得到。语义分类和描述框架是在参考鲁川《知识工程语言学》[11]一书,以及在FrameNet的基础上改进和扩展得到的。

1.1 语义分类

语义分类和描述框架(FSTD)参考FrameNet的思想,对中文词汇进行分析,将词汇看作一个事件。对事件进行分类,是理解和研究事件的基础,且可以帮助更深入地认识事件,并为常识和公理的提取提供可靠的保证。

鲁川已经对事件进行简单的分类[11],FSTD在此基础上进行扩充和改进。根据事件的性质主要分为两大类,分别是状态和事件,状态和事件的分界点依靠以下规则来判定。

(1) 事件会带来状态的改变,即事件的发生一定会使事物从一个状态变成另一个状态。

(2) 任何事件的发生都会有一个前提和后果,而前提和后果一定是状态。

(3) 事件是刹那间发生的,而状态是持续性的,事物或事件之间的关系也是一个状态。

对找到的大量动词和形容词,据语义特征进行细分,还可以根据常识来区分。如果二个事件的前提和后果是相似甚至是一样的,则两者属于一类或以近义词的形式存在,如果两者的前提和后果有包含关系,则两个可能存在上下位的关系。

1.2 描述框架

FrameNet[12]以框架语义学为理论基础,将语义相同或相近的词语放在同一个框架中进行描述,并总结出这些词语共有的框架元素。

FSTD参考FrameNet的框架思想给出了一个语义类的结构。描述框架由表1所示的槽组成。

表1 描述框架简介

以上定义的描述框架是一个事件的标准框架,而因为状态没有造成任何其他事物的变化,所以不存在前提槽和后果槽。图1给出“组织类”的简单描述框架。

defcategory 组织类:{近义:负责定义:安排分散的人或事物,使具有一定系统性或整体性。 文法: <组织类语句>::=<施事:认知主体><组织词类><受事:实体> |<施事:认知主体><接续位事词类><位事:地区|场所|建筑物><组织词类><受事:实体> |<受事:实体><被介词词类><施事:认知主体><组织词类> <组织词类>::=组织谓词:组织(施事,受事)@位事=<位事>例句:他组织了这次联欢晚会。前提:受事不具有系统性或整体性。 受事遵循施事的指令。 施事有组织受事的权力。后果:受事具有系统性或整体性。}图1 组织类的描述框架

1.3 重点槽设计

描述框架中一共包含了7个槽,其中有两个槽的设计是设计网络攻击文本知识库的核心,分别是文法设计和谓词设计。

1.3.1 文法设计

文法设计主要是设计事件的语言表达方式,根据例句的句型和结构来编写文法。根据鲁川的句模[13-14],引入了周边角色这一概念,周边角色是带有语义信息的非终结符的表示,也称为事元,其中包括有施事、当事、受事、客事、成事、致事、向事、用事、属事、意图、时间、值事和属性等32个事元。

事元在基本文法的基础上加入了语义信息,使得每个非终结符带有了语义。例如,施事一定是有思想的认知主体,因此在定义事元的同时也要将其类别形式写出。例如,句子“哥哥(当事)收到 一封信(客事)。”写成语义文法的形式是“<当事: 认知主体><收到词类><客事: 实体>”。

1.3.2 谓词设计

谓词是对事件的逻辑描述,即对语句中的结构进行表示,同时显示出事元之间的关系。通常谓词的定义方式是用动词本身来表示,并根据句子文法来放置事元的位置,也可以根据想提取的关键内容设计谓词。例如,“收到类语句”,中心词为<收到词类>,因此谓词的表示就可以表示为“收到(当事,客事)”。谓词的表示还可以加入附加部分,起到补充说明的作用。例如,时间、位置、物量等不在谓词中体现的事元,可以在“@”中进行补充。

网络攻击语义类中的谓词根据攻击模型来设计,从而将事元与模型中的内容相对应。

2 遭受语义类设计

虽然语义分类和描述框架是一套完整的标准,但是对于不同的类,可能存在不同的处理方式及独特的设计。在网络攻击事件文本中有很多句子是遭受句,而当前对遭受句的分析研究较少且缺乏对遭受语义类的设计,因此,本文形成一套针对遭受句的语义类设计。

2.1 遭受语义类介绍

遭受句是表示被动意义的一类语句,而被动意义语句在现代汉语中一共可以分为三种:被字句、无标志受事主语句和遭受句[15]。被字句是包含“被”的被动句,基本句型为:主语+被+[施事]+谓语动词(“[ ]”表示可以省略);无标志受事主语句的谓语动词本身表达的就是被动意义,其基本句型为:主语+谓语动词;遭受句是由表示遭受意义的动词构成的被动意义的句子,基本句型为:主语+遭受类动词+宾语。

遭受语义类是指主体通过各种途径非可控地(即非自愿地、非自主地)遭遇或得失客体(获得冠军、获奖、赚钱等),主体发生变化但不改变客事,行动指向是主体自身。这其中包含了三个意思[16]:一是强调了主体的变化;二是主体的变化不在主体的控制范围内;三是主体遇到事实或情况的途径是多种多样的。

2.1.1 遭受类动词特点

遭受类动词包括“挨、遭受、面临、遇到、收到、患(他患了风湿病) 、感染、着(那根木头着了水)”等词[17]。遭受类动词在一些情况中可以用“被”字替换,但“被”只是一个虚词,是一个语法标志,而遭受类动词在有些情况下是一个实词,具有自己的意义,这时并不能用“被”替换。遭受类动词与“被”的不同点主要包括以下几点。

(1) 遭受类动词可以搭配“着、了、过”等助词;

(2) 遭受类动词后面可以搭配量词、动词、形容词或者它们组成的动宾结构,虽然“被”有时也可搭配宾语,但是此结构不能单独做谓语;

(3) 遭受类动词可以搭配补语。

遭受类语句中的主语是隐含的受事,因此遭受类动词有被动标记的作用,遭受类动词经常搭配动词做宾语(该动词为了与遭受类动词区分,称为宾语动词),而该动词语义指向整个句子的主语。这时遭受类动词与“被”存在共同点,且互换不会影响整个句子。而当遭受类动词在强调“接受”意义并且宾语不能作为实际谓语时,不能用“被”替换。

2.1.2 遭受句特点

遭受句表被动[18],施事一般出现在遭受类动词和宾语动词之间,而施事和宾语动词之间可以包含助动词“的”。遭受句的情感色彩大多由宾语动词决定。

如果遭受句的宾语部分除了宾语动词还包含名词,则名词大多出现在施事部分,可以是具体名词,也可以是抽象名词,它们不与遭受类动词构成直接成分,而是与宾语动词构成直接成分。当遭受类动词后的宾语只是名词或形容词时,遭受类动词不能被虚化。

2.2 遭受语义类分析

语义分类和描述框架以语义为基准,遭受语义类的设计参考语义以及2.1节中提到的遭受类动词和遭受句的特点,本文首次设计了独有的遭受语义类。

遭受句中遭受动词后跟的宾语可以分为两个大类,一类为名词、形容词,另一类为动词。遭受词类后搭配的词语混乱而复杂,因此将所有的搭配放入遭受类语义类中并不准确,加之搭配动词时,整个句子的中心谓词是宾语动词而不是遭受类动词。因而,将遭受类语句分成两种处理方式,一种放入遭受语义类中进行设计和描述;另一种则是以宾语动词为主,在该动词的语义类中加入相关的遭受句文法。

2.2.1 遭受句搭配名词、形容词

当遭受类动词搭配名词或形容词时,遭受类动词本身的含义较强,不能简单地虚化为“被”,虽然整句有被动的意思,但是却不能单纯地当作被动句。该种情况属于遭受类语义类。例如:

例1奥本海默患了肝炎。

该国50年来遭受最严重的灾难。

2.2.2 遭受句搭配动词

遭受句搭配动词时,情况比搭配名词和形容词要更复杂,基本句型为“<主语><遭受类动词>[<修饰部分>]<动词>”,根据不同的情况使用不同的处理方式,具体的情况分为如下3种。

(1) 有些词带有遭受意义,但会根据主语对象的不同而带有不同的含义。

例如,“感染”,当句型为“<认知主体><感染><疾病|细菌|病毒>”时,整句表达的意思是“认知主体不情愿、非可控地遭遇了病痛和病菌”,属于遭受类。当句型为“<细菌|病毒><感染><认知主体>”时,句子中“细菌或病毒”是一种主动的形式,这时“感染”属于致变语义类。

(2) 当动词没有修饰成分时,句子基本可以直接修改成被动句,不放入遭受语义类。

当遭受类动词后的宾语是单独的动词时,遭受类动词进行了虚化,同时宾语动词可以变形后在句中直接作谓语而不影响句子的意思。这时不放入遭受语义类,只需在宾语动词的语义类中加入遭受句的文法即可。例如:

例2失地农民受到剥削。

随着市场与消费者的不断革新,以及女性在社会文化中扮演着越来越重要的角色。 百达翡丽缔造出首款女式世界时间腕表——Ref.7130,采用中心带手工雕饰纹的蓝灰色表盘。24小时城市圆盘以及闪亮的孔雀蓝鳄鱼皮表带,在钻石的衬托下绽放优雅色调。将典雅高贵的品质与严苛的工艺美学演绎的淋漓尽致。

韩文创制以来长期遭到抵制。

(3) 当搭配的动词有修饰成分时,根据修饰成分的不同会得到两种结果,一种放入遭受语义类,一种则直接添加文法。

① 直接添加文法。该类情况遭受动词与“被”可以经过变形替换,且句子意思不变,与(2)类似,只需添加文法即可,具体情况如表2所示。而表中的修饰成分还可以组合使用,效果与单独使用相同。

② 放入遭受语义类。句子主语并不是宾语动词的受事或客事,此时遭受类动词更倾向于作为实词存在,这时放入遭受语义类中。如“获得_免疫”,主语是免疫动作的发出者,“免疫”与“免疫力”更相似,属于遭受语义类。

表2 修饰成分与例句

2.3 遭受语义类设计

通过2.2节已经给出判别是否属于遭受语义类的方式,下面根据属于遭受语义类中的词语来进行整个遭受语义类的设计。

2.3.1 遭受语义类分类设计

根据遭受语义类的定义和分析,遭受语义类主

因为遭受语义类包含情感色彩,首先按情感色彩进行分类,分为如意、不如意和中性,因为情感色彩主要由搭配的词类决定,只看遭受类动词则不存在情感色彩,因此再加入一个不区分类。最后分类如下。

(1) 主体遭受有益事件或结果

因为遭受类动词中有“得到”一个动词,该动词有获得的意思,根据物品的性质,可以分为真实或抽象。另外“遇到自己希望和期望的事件和结果”中搭配的是事件或结果类的客体。还存在一类强调“主体在事业中受到帮助”。除此之外还包括其他几个类别,“得到”的分类如表3所示,其中表格中的“词类例子”是指在当前分类下,与遭受类动词搭配的词语举例。

表3 “主体遭受有益事件或结果”分类结果

(2) 主体遭受不愿接受的局面

遭受类动词搭配的词中包括很多不如意的词,主要分为5类。

① “主体遭受侵害”强调了主体遭受了人为或非人为的侵害,使自身造成了损失,根据侵害的来源和性质,继续分为“自然侵害”、“人为侵害”以及“综合侵害”。

② “认知主体处于不愿面对的感受”重点强调主体面对由自己心理产生的感觉和情绪。

③ “认知主体遇到不愿遇到的有生命客体”强调认知主体碰到了有生命的,但自己却不愿意遇见的客体,可以是人,也可以是可怕的动物等。

④ “主体遇到不愿接受的处境”指主体所处的境地很不利,因为情况很多,所以需要继续进行细分。

⑤ 最后一类指主体自己做的事造成了自己也不愿意接受的结果。部分分类结果如表4所示,其中词类例子与表3定义一致。

(3) 主体遭受中性事件或结果

除去如意和不如意的词,剩下的是情感色彩并不明显的中性词类,因此划分为一类“主体遭受中性事件或结果”。包括的词类有“情况”“形势”“命运”等。

(4) 综合不区分

有些遭受类动词如果不看搭配词,则不存在情感色彩,形成综合不区分类。主要包括“得到类”“遭受类”“面临类”和“遭遇类”。

2.3.2 遭受语义类文法设计

文法设计的主要工作是完成事件的语言表达,根据例句的句型和结构来编写文法。主要流程如下:

表4 “主体遭受不愿接受的局面”分类结果

1) 选择例句。对每一个词类,选择不同的例句来进行文法的编写,并尽量选择不同句型。

2) 根据例句编写文法。首先根据动词进行简单的文法编写,即以动词为中心,留出事元的位置,待后期设计事元。例如:

例3奥本/n 海默/n 患/v 了/u 肝炎/n

奥本海默<患词类>[<着了词类>]肝炎

3) 设计事元。对事元进行设计,首先根据事元在句子位置的特点排除不符合的事元,再从剩下的事元中选择合适的补在文法中。继续以上句为例。

例4奥本/n 海默/n 患/v 了/u 肝炎/n

<当事:认知主体|群体><患词类>[<着了词类>][<值事:内容>][<的之词类>]<客事:疾病|病>

4) 联想扩展文法。为了文法的全面,还要对其进行联想和扩展,可以根据遭受类的介绍,扩展添加修饰部分。

文法设计还要注意一些事项: ①为了避免文法的冗余,要注意对可选的使用,设计一个可选“[ ]”可以减少一句文法;②可选的使用不能破坏句子的完整性。

3 网络攻击知识抽取

网络安全知识库系统是语义分类和描述框架在“网络安全”领域的应用。

3.1 网络安全知识库系统介绍

网络安全知识库系统主要对网络攻击事件描述文本进行语义分析,从中抽取结构化知识。

该系统主要采用语义文法的方法,对读入的文本进行语义解析,并提取结构化知识存入数据库中;而后对数据库中的数据进行查询、统计、分析等操作。

面向网络安全领域,建立网络攻击语义库要符合领域需求,通过考察网络安全事件的文本以及领域的关注信息,建立如表5所示的网络攻击模型。

一个简单的文本和预计得到的结构化知识例子如图2所示。

表5 网络攻击模型

内容:黑客组织“匿名者”在“绿色权益行动”中对XX官网实施DoS攻击,旨在抗议YY海军在ZZ市修建“WW系统”。结果:攻击者:黑客组织“匿名者” 攻击目标:XX官网攻击类型:DoS攻击攻击意图:旨在抗议YY海军在ZZ市修建“WW系统”图2 结构化知识

3.2 网络安全语义类设计

为了完成网络安全知识的抽取,需要设计网络安全语义类,这其中包括网络安全领域文法的设计以及根据攻击模型对谓词的设计。

3.2.1 文法设计

1. 事元确认

事元的种类繁多,会出现事元的划分存在歧义的情况。例如,当病毒、木马、恶意软件等作主语时,它是主要的活动行动者和动作的发起者,属于“施事”。但是因为有人进行控制活动,因此也可看作是非可控事件的主体,认为是“当事”。为了统一处理,认为它们是动作的执行者,确定为“施事”。

类似问题参照最接近的语义来设计事元,使其在知识抽取过程中抽取的知识准确。

2. 复合句文法设计

描述网攻击事件的句子复杂,并不只包括单句即只包含一个单独动词,有时会出现多个动词,分为两种情况: 复合句和兼语连动句。兼语连动句的文法已经有前人设计,本文只进行应用。复合句主要由多个句子构成,句子之间存在某种关系,且存在标志性的关联词。

复合句分为并列复合句和从属复合句[19],并列复合句由并列连词连接;从属复合句由一个主句和一个或一个以上的从句构成。复合句的划分是由连接两句的关系所决定的[20-21],本文结合前人研究成果得到表6的复合句分类。

表6 复合句分类

不同类别的复合句具有特定的关联词,复合句的文法通过关联词连接单句得到,而单句的文法是所有已经设计好的文法。

3. “的是”特殊句文法设计

在网络攻击领域文法的设计过程中,还遇到了一个特殊的“的是”结构,即句子并不是“是系动词”的属性句,此时句子的结构就会变得复杂多变[22-25]。

经过对“的是”语句的分析(语句来自北京大学的CCL中文系统),可以将该结构分为以下几种,(以下分析中,A表示形容词,V表示动词,X和Y表示其他结构):

① X + A +“的是”+ [间隔标点: ,|。|: ...] + Y

该结构为形容词加“的是”结构,该结构只是强调一种句子的关系,连接前后的两部分,主要体现出一种情绪的变化。结构中“A”包含的词包括可喜、重要、可怕等。

② X + V+“的是”+ [间隔标点: ,|。|: ...] + Y

该结构是动词加“的是”,主要省略了动词的主语,该种情况的分析与⑤相同。结构中“V”包含的词有惋惜、遗憾等。

③ 在上述①、②的两种结构基础上,还可以加入其他的修饰。可以添加的修饰包括以下几类

a) 搭配程度副词,例如,“最严重的是”。

b) 搭配“值得”,例如,“值得注意的是”。

c) 搭配“必须、应该、需要”等副词,例如,“应当十分注意的是”。

d)搭配“所”字,例如,“所秉持的是”。

注意: 以上四种情况分别可以与①、②两种情况进行搭配,也可以多个一起联合搭配使用。

④ 上述三种情况,都可以与关联词相连。这四种情况中,需要抽取知识的重点都在于“的是”后面的内容,因此重点对Y进行文法设计。

⑤ 当“的是”的前面搭配是句子结构,这时可以直接去掉“的是”而不影响句子的理解,即Y部分是X + V的宾语。可能出现的情况如下: “的是”结构之前是动词,且在动词之前出现了动作的主语。例如,“我希望的是”等。此情况与还可以与修饰部分联合使用。符合上述情况的例句如下:

例5遗传提供的是人的身心发展的物质前提。

一体化作为手段强调的是城乡教育双向沟通、资源共享、优势互补、互动互助。

该情况中的“的是”并不影响整个句子以及知识的抽取,因此设计文法时将“的是”设为可选即可。

⑥ 另一种复杂的情况是,“的是”后跟的Y是V的主语,“的是”的功能是对句子进行倒置强调。此时删去“的是”并将Y提前就会变形成正常语序。

同一种情况不同句式的情况是含有“使让类动词”,例如,“令人高兴的是;叫人不能容忍的是”等。符合情况的句子如下:

例6送给鲁国的是得之于灭郜的大鼎。

在广东负外交重责的是叶名琛。

在设计文法时,在对应动词语义类中加入包含“的是”且主语后置的文法。

⑦ 最后一种情况虽然也包含“的是”,但是“是”则是普通的系动词,“的是”两者的黏着性较弱。例如,描述形态颜色等的形容词: “绿的是、圆的是”等和描述方位的词: “前面的是、左边的是”等。此时在“属性是语义类类语句”中加入相应的文法。

3.2.2 谓词设计

谓词设计的目标是完成目标知识的抽取,因此在不同的领域,谓词会有不同的设计。本系统的谓词主要依照网络攻击模型进行设计。主要的谓词设计如下:

(1) 对可以直接抽取的内容,将事元与模型进行对应,这其中包含“攻击者”“攻击目标”“攻击时间”等。

(2) 对需要根据抽取的内容进行概括合并的,则需要抽取后再进行二次处理。特别是“攻击类型”这一目标内容,需要设定统一标准并了解其领域特点。

前人关于网络攻击类型的研究有很多[26],通过实际文本的分析,本文选择刘欣然[27]提出的分类原则。具体攻击类型包括:信息泄露、篡改信息、非法利用服务、拒绝服务和非法提权。

(3) 根据常识和关注重点设计更多谓词。即考虑是否存在模型以外的内容,例如: 当攻击类型为“信息泄露”时,还需要知道泄露的内容是什么,因此谓词设计时加入对内容的提取。

4 实验与分析

4.1 网络攻击知识抽取过程

通过前三节介绍工作,建立了抽取网络攻击知识的系统。图3是设计的网络攻击语义类中“篡改类”事例。

defcategory 篡改类:{定义:认知主体、组织用虚伪的手段改动或曲解其他事物(经典、理论、政策、网页等)。文法: <篡改类语句>::=<当事:实体|认知主体|组织|网站><遭受词类>[<施事:实体|认知主体|组织|病毒|木马|恶意软件>][<范围:方面|网页|密码|数据>]<篡改词类>谓词:攻击者(标题,施事)&攻击目标(标题,当事)&攻击类型(标题, 篡改信息) &篡改内容=(标题, 范围) <篡改词类>::=篡改|修改例句: ××网站5月8日至14日遭网页篡改共28次。}图3 篡改类描述框架

有了网络攻击语义类后,就可利用它进行文本解析并抽取相应的知识。整个流程主要包含两个过程: 解析和抽取。具体如图4所示。

图4 知识抽取过程

4.1.1 解析过程

知识抽取过程中最主要的过程是通过网络攻击语义类来对文本进行解析,其解析过程如下:

(1) 首先对网络攻击文本进行分词;

(2) 使用改进后的鲁棒Earley解析器根据设计好的语义类文法对分词后的句子进行解析;

鲁棒Earley解析器是基于改进的Earley算法产生的语义解析器其中加入约束检测以及错误处理功能,用于判断一个输入是否可以被一个文法识别,并生成匹配后的解析树。

(3) 得到句子的解析树。

4.1.2 抽取过程

解析过程已经得到句子解析后的解析树,接着对解析树进行知识抽取,抽取的过程主要根据语义类中设计的谓词。具体过程如下:

(1) 首先根据解析树的结果,找到与语义类相关的节点,并得到所属的语义类;

(2) 通过解析树的结果以及第一步得到的语义类来找到匹配该解析树的文法,并通过文法得到文法对应的谓词;

(3) 最后对谓词中的事元进行替换,将其替换成解析树中对应的句子的内容。

4.2 数据集与度量标准

4.2.1 数据集

本论文使用的数据是由国家某安全部门提供的真实黑客攻击态势文本。使用1 518句进行语义类编写,并留出195句作为测试数据。

4.2.2 度量标准

因为是对真实数据进行实验,为了检测应用效果、解析效果以及知识抽取效果,定义三种准确率,具体如下:

1. 事件实体名称的抽取准确率和召回率,对应到攻击模型中即是对攻击者、攻击目标的抽取准确率和召回率,如式(1)、式(2)所示。

其中,CEcorrect表示抽取正确的实体的数目,CEextract表示实际抽取的实体的总数,CEtotal则表示本文中实际包含的实体的数目。

2. 事件其他属性的准确率和召回率,即对应到攻击模型的攻击时间、攻击过程、攻击意图、攻击效果、攻击范围等抽取结果的准确率和召回率,如式(3)、式(4)所示。

其中,CAcorrect表示抽取正确的属性值的数目,CAextract表示实际抽取的属性值的总数,CAtotal则表示本文中实际包含的属性值的数目。

3. 事件相关语句识别准确率和召回率,即根据文法识别出的跟攻击相关的语句的准确率和召回率,如式(5)、式(6)所示。

其中,CScorrect表示识别正确(确实为攻击相关语句)的数目,CSextract表示实际识别出的句子的总数,CStotal则表示本文中实际包含的攻击相关的语句数目。

4.3 实验结果与分析

4.3.1 实验结果

图5给出一个经过解析并进行知识抽取的结果示例,其中只给出部分语料片段,因涉及安全性问题,语料片段中涉及的真实名称被隐藏和替换。

13. 全球多地黑客于1月1日发起网络攻击以庆祝新年。2013年1月10日。黑客“AA”攻击了BB(cuxxer.gx.yx),泄露了服务器信息、数据库表单及622个用户账号(用户名、邮箱、密码、IP地址)。14. 全球多地黑客于1月1日发起网络攻击以庆祝新年。2013年1月10日。CC黑客组织“DD”攻击了EE(ix.yx.gx)、FF(bxlxn.edu.xx),篡改了网页。

defframe 全球多地黑客于1月1日发起网络攻击以庆祝新年{ 攻击时间: 2013年1月10日 攻击者: 黑客“AA” 攻击目标: BB(cuxxer.gx.yx) 攻击类型: 信息泄露 泄露内容: 服务器信息、数据库表单及622个用户账号(用户名、邮箱、密码、IP地址)}defframe 全球多地黑客于1月1日发起网络攻击以庆祝新年{ 攻击时间: 2013年1月10日 攻击者: CC黑客组织“DD” 攻击目标: EE(ix.yx.gx)、FF(bxlxn.edu.xx) 攻击类型: 篡改信息 篡改内容: 网页}图5 知识抽取结果事例

利用测试数据进行实验,一共运行了195个语句,每一句的平均运行时间小于2 s。最后得到的实验结果如表7所示。

表7 实验结果

4.3.2 结果分析

由实验结果可知,本文方法可实现对网络攻击文本的准确分析,说明了本方法的有效性。虽然实验结果显示的准确率达到较高水平,但是还是存在解析错误并且对语句的识别召回率较低,主要原因如下:

(1) 分词错误,本方法主要是以文法为基准,而对中文解析时需要优先对其进行分词,本文采用斯坦福大学的中文分词系统,分词的结果不能做到100%准确,因此会对整个解析带来影响。

(2) 专有名词和中心动词识别错误,因为中文的特殊性以及复杂性,在专有名词以及在中心动词识别过程中会存在错误,这也会影响解析的效果。

(3) 文法未匹配,本方法主要以语义文法为基准,文法的覆盖度是影响结果解析的最主要因素,因为不能保证文法的覆盖能够达到100%,故识别的结果也不会达到100%。

5 总结

随着网络技术的迅猛发展,网络攻击事件受到社会和政府关注。为了更好地利用已有的文本数据,需要将文本转换为结构化知识。本文提出语义文法分析的方法,通过建立语义分类与描述框架来对网络攻击事件进行知识抽取。

本文首先介绍了语义分类与描述框架的整体结构和思想,然后提出了攻击类文本中出现较多的遭受类语义类的设计,最后建立“网络攻击语义类”,将语义分类与描述框架应用于网络攻击事件文本分析中。

本文方法相较于统计的方法的主要优点和创新点包括:

(1) 使用语义分类和描述框架是从语义的角度进行文本分析和知识抽取,结果更精准且易扩展;

(2) 本文根据前人对遭受语义类的分析,较为系统地研究了遭受类现象,并且首次对遭受语义类进行了语义分类和描述框架的设计;

(3) 本文首次将语义分类和描述框架应用在实际系统中,表明语义分类和描述框架具有很好的应用价值。

虽然通过实验可见文本方法有较好的效果,但还有很多相关的工作是未来需要完成的,具体如下:

(1) 由于段落文本复杂,其设计还有很多需要改进的方面。例如,关于RST的应用,虽然已有很多英文方面的研究,但在中文的应用较少。

(2) 虽然当前应用的文法设计准确率较高,但存在人工耗费过大的缺点,因此要寻找自动学习的方式,在已有的文法基础上自动提取更多的相关文法,从而提高效率和减少人力。

(3) 针对已经分析的对解析结果有影响的因素,后期也会对其进行处理和完善。

猜你喜欢

谓词文法词类
中文词类信息在副中央凹中的加工*
被遮蔽的逻辑谓词
——论胡好对逻辑谓词的误读
党项语谓词前缀的分裂式
用词类活用法扩充词汇量
康德哲学中实在谓词难题的解决
大学英语词类教学研究及启示
中国石油大学胜利学院文法与经济管理学院简介
从成语中学习词类活用
西夏文铜镜的真言文法与四臂观音像研究
文法学校见证英国两党争斗