APP下载

基于应急案例本体的信息抽取的研究

2016-10-21霍娜

电子技术与软件工程 2016年9期
关键词:本体

霍娜

【关键词】应急决策案例 本体 信息抽取

在应急领域中,决策者依据应急案例的内容以及基本特征,从知识元的层面将应急案例的结构进行规划,进而提出一种基于基于应急案例本体的信息抽取的方法。这种方法可以作为一些应急案例本体信息抽取的模型,使其他应急案例结合自身的规律,实现对该应急案例半自动化的信息抽取工作,将信息抽取的结果存储在数据库中,可以为以后的应急案例情景模拟仿真以及对应急案例的研究提供客观的,科学的数据。大量实验表明,该方法具有可行性和有效性。

1 信息抽取以及抽取过程的分析

所谓的信息抽取,是一项从一段文本中抽取出特定的一些信息内容,与此同时对其进行信息结构化处理,最后将处理后的信息整合在一个数据库中以便使用者查询应用的工作。信息抽取被广泛的定义为是一门交叉性的学科,它涉及多个知识领域,例如人工智能,统计学,计算机网络技术以及信息学等等。

信息抽取的实际过程较为繁琐复杂,Web页面的信息抽取研究大体上是集中在Wrapper的生产技术研究的基础之上的。Wrapper又名为规则包装器,它半自动的完成Web页面信息抽取的程序,Wrapper的作用是对Web页面的结构进行分析,另外分析页面之上信息资源进行描述,最后Wrapper形成对Web页面格式的信息抽取原则,这样就实现了利用Web页面上相关的原则对应急案例事件中对相关信息的抽取工作了。

2 信息抽取系统实现的流程

这里我们以煤矿事故案例中的煤与瓦斯突发案例为例,对其信息的抽取系统流程进行浅析,说明怎样构建煤与瓦斯突发事例信息抽取的模板工作。

首先,进行应急案例信息抽取的工作人员应该积极参与专家访谈活动,对与煤矿事故有关的案例进行系统的分析工作,解读与之有关的文献信息。进行信息抽取的人员对煤矿事故中的知识元进行选取,归纳以及整合工作,构建完整的知识元数据库。数据库包含的项目内容很多,例如承灾体知识库={矿井、矿工、煤层、瓦斯传感器、通风机}等;事件知识元数据库={煤与瓦斯突出,瓦斯爆炸,透水等}。接下来信息抽取的人员从承灾体数据库中选择矿井、机港、瓦斯传感器以及矿工4个知识元,在事件知识元的数据库中选取煤和瓦斯,最后依据两组知识元构建案例信息抽取模板。这里的案例信息抽取模板由两部分版块组成,即前景模板和后景模板。后景模板和前景模板需要进行的共同内容是对矿井,矿工以及瓦斯传感器这些知识元的属性类型进行准确的定位;明确各个知识元的取值类型以及他们各自的取值长度和取值范围。

3 信息抽取规则的构建

当信息抽取系统的流程实现了,那么就必须保证数据库中存储的信息资源与该应急案例的文本是相互匹配协调的,那么就应该建立与之有关的抽取规则,使抽取获得更高的准确率。抽取的规则它本身作为一种确定的信息抽取方式,虽然它涵盖的自然语言较为片面,但是在众多的方法中,抽取规则的正确引领下使信息抽取获得更高的准确率。

本文以下为了达到对信息抽取规则明确表述的效果,同时为了使实施的程序更为的简洁,在此基础上提高信息抽取工作的质量,作者将信息抽取的规则分为前置抽取规则和后置抽取规则两种类型。前置信息抽取规则是指待抽取的属性信息的匹配方式在正则表达式的前端开展进行的,例如在某小区的一次火灾事故中,对于烧伤人数的属性信息抽取的规则为“\\d{1,4}/m人/n烧伤”,这里等待抽取信息的匹配式为“\\d{1,4}”,它應该在抽取规则的前端。万变不离其宗,后置信息抽取与其道理是相同的。这样做的优势在于在进行抽取程序的有关编写工作时候,就省去了针对每一条规则单独对其抽取代码进行编写的步骤了,只有对前置和后置这两种抽取类型通用的抽取代码进行相应的编写就可以了,最终使制定抽取的不随着模板的变化而进行改动,各个数据以及数值稳定的存在数据库中。

信息抽取规则的构建过程分为以下几个步骤完成:

(1)进行信息抽取工作人员依据知识元的属性以及自身的特点,总结具有涵盖待抽取属性信息的句子,形成句子集。这里我们依然以煤矿事故案例中的煤与瓦斯突发案例为例,那么形成的句子集就包括“瓦斯传感器,空气缩压机”等等。

(2)对句子集进行逐个的理解,分析其属性特征,形成正确的表达式,进行系统的编写流程。

(3)在编写的进程中,联系约束模板中属性的外界条件,使用正则表达式对句子集的程序进行编写环节。

(4)将相似结构的正则表达式进行相关的合并工作,例如对各个知识元属性状态的描述进行统一联合编写,与此同时进行的工作是将抽取规则的类型真正的确定下来,使抽取规则有条理的,科学的呈现在数据库中,展示在人们面前,为人所用。

(5)信息抽取的工作人员在不断的实践探索中,对建立的抽取规则不断的更新改革,进而使正确的属性信息抽取规则日益完善。当然,建立者需要将信息抽取的规则输入进数据库中,他们可以成建规则库,这样就实现了抽取规则与知识元属性之间形成多对一关系的目的。

应急事件案例信息抽取的模板是经过组织以后,对待抽取对象的结构化知识元的表示方法,主要作用是对结构性知识元进行相应的刻画。应急事件案例的信息抽取模板与传统的信息抽取模板相比较,它保证了待抽取信息的精确性能,更可观的是,它使信息抽取的结果更真实,不怕考验。

4 结束语

我们知道,灾害的带来总会给人造成各种损失,阻碍生产生活的顺利进程。所以对应急事件开展及时有效的处理工作,其意义是重大的,信息抽取工作的开展也是迫在眉睫,因而作为不同领域的决策者应该保持清晰的头脑,对该领域相关的知识元进行信息抽取的工作,总结知识元的属性以及内涵,进行规范的编写程序,存储以便利用。这样在应急事件之下,人们就可以准确的搜集解决问题的方案,及时清除应急事件中的障碍。

参考文献

[1]蒋德良.基于规则匹配的突发事件结果信息抽取研究[J].计算机工程与设,2010.

[2]王文俊,杨鹏,董存祥.应急案例本体模型的研究及应用.计算机应用,2009.

猜你喜欢

本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考