信息抽取技术在情报监测中的应用
2016-05-30饶慧
饶慧
摘 要:社会的发展和科技的进步,使得我国各项社会事业都不断繁荣,信息科技的发展,也为信息抽取技术的发展奠定了良好的基础。信息抽取技术是一种对语言进行处理的技术,在社会生活中的应用范围也不断扩大,本文主要信息抽取技术在情报监测领域内的应用进行详细的分析与研究,以便为信息抽取技术的发展提供借鉴。
关键词:信息抽取技术;情报监测;应用
0 引言
进入新世纪以来,互联网技术在人们生活中的作用愈来愈大,信息科技的发展使人们对各种信息资源的获取变的更加方便和快捷,人们可以借助各种搜索引擎,找出自己所需的各种信息,然后浏览相关的网页得到信息。面对网络日益复杂的环境,人们都在对获取信息的方式不断进行创新和探索,而且,各种信息也日益变得更加透明、公开,很多信息都被放在网络中以便大家阅读、检验和交流,这就为人们信息的获取创造条件。在美英等军事比较发达的国家,网络情报的搜集是整个情报工作的重要环节。在国内,各种计算机网络的使用使我国情报工作的手段和环境都有了很大变化,传统情报思想已经和现代化国防的要求有很大脱离,老式搜集情报的方式也逐渐落后于时代潮流,这就需要位信息抽取技术在情报监测领域的应用提供了契机,下面对其进行详细的介绍。
1 信息抽取技术概述
信息抽取主要指从一段文本内抽取出指定的信息,并把这种信息的形式结构化,然后填进数据库内一般用户进行查询和使用,这一技术在20世纪60年代中期开始研究,主要是从自然语言的文本内获得各种结构化信息。国外已经有了很多信息抽取技术应用的领域,比如在外交、恐怖袭击、自然灾难等。信息抽取和信息检索有一定的联系,但也有很大的相关性。信息抽取是对信息检索的深化,信息检索可以查找出和查询条件有关的各种文本,而信息抽取则是从文本内抽取特定的信息,其主要的任务就是抽取指定信息然后填进预先的数据库内。信息抽取和自然语言理解也有很大的关系,使一种浅层的应用,自然语言理解是信息抽取中必须涉及的,是对多样化的内容进行处理和分析,而信息抽取的针对性则比较强,其分析档案一般是针对特定类型,所以不需要理解去全部信息的内容,只要对相关的内容进行分析即可。
2 信息抽取的方法
从自然语言理解到信息抽取技术,一直存在两种不同的主义斗争,也就是理性和经验主义,在信息抽取系统内,针对这两种不同的主义,对信息进行抽取的方法也有两种:第一,理性知识的工程方法,主要由专家专门对语料库进行整理和分析,进而人工对各种模板和规则进行制定,可以把规则方法为基础。第二,以经验为基础自动进行训练的方法,给出经过标注的文档组合,借助机器来学习对模板进行推导,以及使模板能够自动进行填充的规则,也可以借助统计学方法进行抽取,设计对自然语言进行处理的技术。和原来的方法有所不同,我们可以把经验和理性相结合,人工对模板和规则进行制定,也要自动对文档进行训练。
3 信息抽取技术在情报监测中的应用
3.1 设计的具体思想
首先是针对各种外文信息的抽取,对情报监测这一特殊领域,我们要对各种国外的信息进行研究,对国外的信息进行抽取,需要翻译成汉语,然后按照一定形式提供给用户。接着要根据具体的领域进行信息抽取,比如国防的经费,可以从国外关于国防经费英文的文本内抽取特定事实的信息,以便对世界各国有关国防经费变化的情况进行监测。例如,可以从国防经费的预算和其他的报道内,找出相关军事研究和发展的费用,装备武器研究的费用,更新和购置武器的费用,军队具体开支的各种费用等。在这里,可以提出一个有效而快速的方法,具体的流程如下:首先使用相对成熟的信息检索,将所需英文的文档下载进本地,使之成为本地文档;接着借助信息抽取的工具抽取出英文的信息,将有用的信息充实进相关的数据库内;最后要和相关的翻译系统相连接,因为数据库内信息大都比较零散、简单,因此翻译的工作也就比较简单,提交给用户的就是各种结构化中文的信息。
3.2 对文本进行预处理
这是一种初使的工作,这一环节主要对词性进行标注。因为信息抽取的任务具有特殊性,抽取出的信息一般在某一领域内数量比较有限,因此,文本内和抽取的任务有关的信息可能只有很小的一部分。这就需要设计过滤器,其作用主要是对文本内的句子逐词进行扫描,然后按照语料库的设计对所需信息的单词进行判断,如果这一句内没有所需的单词,就将其删除,以便使计算机的资源得到节省,提高抽取的效率,最后会形成带有标注句子的序列。
可以设置一些符号当做拆分符,这样就可以得到具体句子的序列。根据每个不同句子,对具体单词的词性进行标注,句子的序列标号在文本被可以借助SN=1、2、3进行标示。
3.3 词法的分析
按照词条的相关规则与专业的词库,对词条的句法、词法与语义的信息等进行标注。首先在专业的词库内进行搜索和匹配,如果没有匹配项,再去词条库进行搜索。在这里需要注意一点,对信息进行抽取时需要时特定领域内特定的信息,讲究准确性,所以并不是完全自然语言处理的过程,需要尽量应用相关领域的知识。如果专业的词库内有信息,就可以直接对其进行标注,不必根据单词词法匹配的规则进行再次匹配。
3.4 对模式进行匹配
在一些特定的领域内,知识库的完善对信息收取有很大帮助,可以建立以下知識库:第一,命名实体的规则,命名实体主要指真实存在的抽象或者具体的实体,比如地点、人和公司等,一般都有唯一标识的符号进行表示,这是文本内基本的元素。要按照领域内的知识建立命名实体的规则系统,在这里存储大量领域内或者和领域有关的实体。第二,概念的层次库。需要建立概念的层次库,以便使所得信息的结果变的更加精确。第三,共指关系的规则,通常,我我们所关心的关系和实践都在文本内不同的位置中散布,其中,涉及实体一般都很多不同的方式进表达,而且有很多和事实有关的信息在文本内隐藏。为了能够全部且准确的抽取出文本内的信息,信息抽取系统需要对文本内共指关系进行识别,并进行一些必要推理,然后进行合并,对相同的实体或者事件信息的片段进行描述。共指关系的规则内定义命名实体多种不同表达的方式,还对指代关系识别的方式有所规定,对指代的关系进行识别遵守邻近进行匹配原则。
3.5 机器的翻译
因为我们抽取的信息是英文的文本,因此最后所得数据库内也是英文的信息,这就就需要接入相关翻译的系统,然后得出我们所需的结果。
4 结语
综上所述,信息抽取技术在情报监测内的应用具有重要的意义,可以使抽取信息的速度得到加快,更加直观。快速的展现所需信息,提高总体的效率。随着社会的发展,其精度也在不断提高,层次不段深化,使用的范围也在不断扩大,因此,需要引起相关人员的重视,不断对其进行改进和完善,切实发挥出信息抽取技术在情报监测领域的价值,促进情报监测领域的发展。
参考文献
[1]李涛,李银胜,柴跃廷.一种产品情报的在线检索和智能分析方法与系统:CN,CN 101866340 A[P].2010.
[2]刘剑兰,朱东华.信息抽取技术在情报监测中的应用[J].情报学报,2004,23(6):661-666.
[3]冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作,2013,57(11):112-119.
[4]郑彦宁,邓擘.信息抽取技术在情报学中的应用分析[J].情报理论与实践,2008,31(5):769-772.