基于语义的地球物理信息检索模型研究
2014-06-27杨妮妮李文超刘海军
杨妮妮,李文超,刘海军,2,3
(1.辽宁石油化工大学,抚顺 113001;2.南京大学 计算机软件新技术国家重点实验室,南京 210023;3.北京市轻纺机械机器视觉工程技术研究中心, 北京 100176)
0 前言
随着科学技术的不断发展,计算机技术和通信技术在地球物理领域中得到广泛和深入的应用,物探技术方法也不断改善和更新。及时了解国内、外物探方法理论和勘查技术的最新进展,可以为矿产勘查和开发工作提供参考。目前因特网已经成为全球最大的信息库,包含着丰富的地球物理信息资源,是物探工作者跟踪物探技术发展方向的重要途径,但是现有的检索系统大都采用基于全文检索或是基于主题匹配的检索方式[1],并不清楚用户给出的检索关键字所表达的真正含义是什么,缺乏对地球物理领域知识体系的理解,检索结果片面不准确[2]。
针对通用信息检索系统存在的缺点,将语义网、信息检索技术和地球物理领域知识有效结合,提出了基于语义的地球物理信息检索模型。实现了对地球物理领域的智能信息检索,可以在网络环境下进行有效的语义推理,就像一个地球物理领域的专家一样对用户的检索过程做出指导,不但能够给出类似于传统搜索引擎提供的符合字面的检索结果,更能够挖掘出地球物理领域信息较深层次的关系,实现对地球物理领域信息更准确、更全面地检索,从而提高信息的查全率和准确率。
1 地球物理本体
1.1 地球物理本体的概念
本体[3]是某领域内的知识体系中概念及其关系的集合,通过本体,计算机能够从语义角度对信息进行处理。地球物理本体描述了地球物理领域的知识概念及其之间的关系,包括元知识和知识实例。地球物理元知识用于描述地球物理领域内常用的一些概念以及这些概念之间的关系。地球物理知识实例描述的是一个真实存在的具体的领域知识或关系,地球物理本体是实现地球物理专业信息检索和信息集成的基础。
1.2 地球物理本体库的建立
本体的建模和语义描述是检索系统的重要物质基础,是进行语义相似性计算的前提。通用本体之间的相似性可以通过知网HowNet来完成,HowNet是由董振东和董强先生研发的一个知识库,采用中文和英文两种方式,它描述了概念,概念所具备的属性,概念与概念之间的关系和属性与属性之间的关系[4]。
然而大多数地球物理领域的专业词汇,例如“测井”,“电法”等,都无法在HowNet中直接查到,因而就无法去计算这些词汇之间的相似程度。为了完成地球物理信息领域的本体相似性计算,需要根据该领域中的术语词典,创建本领域的本体库。为此采用了斯坦福大学开发的Protégé 4.1.0作为本体设计工具,按照构建本体的一般步骤,对地球物理领域中常用的术语[5-7]进行了分析:
1)列出地球物理领域涉及到的词汇(terms)。从信息检索的角度出发,摒弃了地球物理领域中一些细小的词汇,例如“电压”、“计数率”等。
2)对地球物理领域的词汇分类、归纳,建立类(class)及其子类。在建立本体库时,依据地球物理的方法及原理,将一级本体分为电法、测井、磁法、重力、弹性波法、热法、核法;然后在一级本体的基础上,按照概念间的包含关系划分出二级本体、三级本体和四级本体等。
例如,将测井技术的概念分成三大类:测井方法、测井仪器和测井曲线,其中测井方法按所探测的岩石物理性质或探测目的分为电测井、声波测井、核测井、地层倾角测井、气测井、地层测试测井、随钻测井、生产测井等几个类别,每个类别继续划分,测井仪器分为电测井仪、磁法测井仪、声波测井仪、核测井仪、重力测井仪、地震测井仪等,每种仪器继续划分。测井曲线分为国产测井和3700测井两个系列,每个系列包含若干类别的测井曲线。图1是在Protégé中建立的地球物理领域本体层次图。
3)分析概念之间的知识联系,为步骤2)中获得的类添加part of、kind of、instance of和attribute of关系。根据实际需要,为词汇添加实例,例如为“核测井仪”添加“CNLT5420补偿中子测井仪”和“SNGR5410自然伽玛能谱测井仪”等实例。
4)定义两个对象属性(Object Properties):“use”和“is-used-by”,来表示地球物理方法与地球物理仪器之间的使用关系,这两个对象属性互为逆属性(Inverse properties)。例如对于电测井本体来说,“use”的Domain为“电测井”,“is-used-by”的Domain属性值为“电测井仪器”,这样就构建了“电测井”和“电测井仪器”两个类别之间的关系。
5)为本体类添加等价类(Equivalent Classes)即创建synonyms-of同义词关系。某些词汇是等价的,例如“电法测井”和“电测井”。表1给出了地球物理本体库中抽象出的各种本体关系。
(6)将设计好的本体库保存成RDF/XML格式文件。
图1 Protégé中建立的本体层次图(部分)Fig.1 Part of the ontology hierarchy diagram created in Protégé
关系含义示例part-of表示本体的整体与部分关系例如微电极测井曲线包括微梯度和微电位两条曲线kind-of表示本体的上下位关系例如电测井与自然电位测井instance-of表示本体类与对象之间的实例关系例如ELOG测井仪是电测井仪器的一种attribute-of表示本体之间的描述关系例如视电阻率测井与电位差use 和is-used-by表示本体间使用和被使用关系例如核测井与核测井仪器synonyms-of表示本体之间的同义词关系例如侧向测井与屏蔽接地电阻法测井
2 地球物理语义相似性计算
计算本体之间的语义相似性是实现基于语义的地球物理检索模型的关键技术之一。
根据研究发现,影响两个本体相似性的因素主要是两个本体在本体树中的语义距离,通常来说语义距离越小,其语义相似程度越高;相反语义相似程度低。另外,本体在本体树中的层次,以及本体所在区域中本体的密集程度等也会影响到本体之间的相似程度。综合这些因素,设计出地球物理本体相似性计算公式(1):
(1)
其中w1、w2为两个本体;f(wi) =(wi的孩子数+1)/本体树中的结点数,表示wi所在区域的概念密度;CNL(w1,w2)为w1和w2的公共路径长度;α∈(0,1)为调节因子,用于调节语义距离和区域密度对本体相似性的影响程度。
另外,本体之间的关系,part of、kind of、instance of和attribute of等也对本体之间的相似度具有影响,本体之间的关系称为本体的语义相关性。如果两个本体关系中包括上面的某种关系,则两个本体的语义相关性为“1”,否则为“0”,由此得到地球物理本体的语义相关性计算公式(2):
(2)
在计算地球物理本体的相似性时,综合考虑了本体的语义相似性和语义相关性两方面,最终得到本体的相似性计算公式(3),其中β为调节因子:
sim(w1,w2)=isim(w1,w2)×β+rsim(w1,w2)×(1-β)
(3)
表2 部分本体相似性计算结果
为了测试地球物理本体相似性算法的有效性,设计了一个实验。在Redhat Linux Enterprise 5.3操作系统下,采用JDK 1.6.0语言,选取地球物理中常用的术语和仪器设备,计算它们的相似性,结果如表2所示。因为“测井”与“电测井”、“电测井”与“自然电位测井”之间具有概念上的上下位关系,因而计算所得的相似性比较高。而“ELOG测井仪”与“1239型双侧向测井仪”都是电测井仪器的具体实例,因而它们之间的相似性,以及它们与“电测井”的相似性都比较高。“核测井”与“ELOG测井仪”之间的相似性要比“电测井”与“ELOG测井仪”之间的相似性低得多。另外,“磁法”和“电测井”,“电测井”与“航空磁力仪”,“ELOG测井仪”与“航空磁力仪”,“ELOG测井仪”与“场强”等概念在本体层次树上的语义距离比较远,所以获得的相似性也相对要小一些。
3 地球物理语义爬行
为了使用户通过检索系统查询到所需要的信息,检索系统首先要通过一个叫做网络爬虫的程序到Internet上去自动将与地球物理信息相关的页面爬行到本地,形成网页信息镜像。
与通用的检索系统不同,地球物理检索系统查询的主要是与本领域相关的信息集合,因此爬虫在爬行页面时需要对页面中的内容进行语义分析,仅获取与本领域相关的页面。当给定爬虫一个初始种子页面S={S0}之后,爬虫首先要对种子页面进行分析,从中找出所有的链接L={L1,L2,…,Ln},然后去分析每一个链接Li(i=1,2,…,n)的内容是否与地球物理信息相关,如果不相关,则从L中去掉Li,即L=L-Li。如若相关,就需要将页面Li中对应的链接Lij(j=1,2,…,m)加入到集合L中,如此往复,直到L中的每一个页面都被分析完。地球物理语义爬行的流程如图2所示:
1)首先给出一组种子页面S。
2)分析页面结构。
3)提取页面中的链接路径,放入待抓取URL队列L中。
4)根据领域本体库,分析待抓取URL是否与地球物理专业相关,如果无关丢去该URL,否则交给网络爬虫。
5)网络爬虫将页面爬行到本地。
6)爬行到本地的页面被保存到网页镜像库中,并对该页面进行分析。
循环步骤1)至步骤6),直到待抓取URL队列为空。
4 基于语义的地球物理信息检索模型
4.1 模型的建立
基于语义的地球物理信息检索系统由语义爬行、网页预处理、查询扩展处理、信息检索处理和查询关键字推荐等几个部分组成。语义爬虫在本体库的指导下将Internet上的网页下载到网页库中,形成本地镜像;网页预处理模块完成页面清洗、计算PageRank、全文索引和索引倒排等工作;查询处理模块为用户提供检索接口,完成用户输入信息的分词和获取本体关键字等工作;信息检索处理检索网页数据库和对页面排序;查询关键字推荐模块完成基于语义和数据挖掘的关键字推荐工作。地球物理信息语义检索模型如图3所示。
4.2 模型的实现
在Redhat Linux Enterprise 5.3平台上,利用Tomcat 7作为Web服务器,Java为开发语言,实现了基于语义的地球物理信息检索系统的主体功能。在文本框中输入检索关键字,点击“搜索”按钮后,检索请求将会调用服务器端的脚本语言,对输入的检索信息进行过滤,将一些非法词汇和标点符号等滤掉,然后进行分词、同义词匹配和检索网页镜像数据库等操作,最后将检索结果排序后返回给用户,系统检索结果如图4所示。页面的最上方和最下方为搜索接口,方便用户进一步检索信息;页面的中部是符合检索条件的页面链接,在排序后每10个为一组,显示在一页中,从结果中可以看到每个链接的Title、URL,检索结果下方是由系统推荐给用户的检索关键字,最多10个。
图2 地球物理语义爬行流程图Fig.2 Geophysical semantic crawling process
为了对比本系统模型与通用搜索引擎检索地球物理信息的不同效果,在Google搜索引擎中输入与图4相同的检索关键字“电测井”,得到如图5所示的检索结果。对比图4与图5可以看出,由于通用搜索引擎进行信息检索时采用基于关键字的匹配方式,也就是说搜索的信息中只要包含“电测井”中的全部或部分文字即可,不会对检索关键字进行语义分析。虽然“电阻率测井”,“感应测井”和“自然电位测井”等都是电测井的方法,但是因为在字面上和“电测井”不匹配,所以检索结果中不会包含与之相关的链接,而本模型在进行信息检索时,首先要根据建立的地球物理本体库,对输入的检索关键字进行查询扩展,将检索关键字转换为与“电测井”语义相关的本体后再进行查询,所以从图4中可以看到检索结果中不但可以检索出包含了“电测井”的信息,也可以找到包含“视电阻率法测井”,“双感应测井”和“普通电极系电阻率测井”等,在字面上不匹配,但语义相关的信息。
图3 基于语义的地球物理信息检索模型Fig.3 Semantic retrieval model for geophysical information
图4 基于语义的地球物理信息检索系统检索结果页面Fig.4 The retrieval results of semantic retrieval system for geophysical information
图5 Google搜索引擎检索结果页面Fig.5 The retrieval results of google
5 结论
为了解决通用信息检索系统存在的缺点,在分析了地球物理领域信息特点的基础上,建立了地球物理本体库,并综合考虑了本体语义距离和本体密集度等影响因素,提出了地球物理本体相似性计算方法,通过语义爬虫将与地球物理信息相关的页面爬行到本地,形成网页信息镜像,最终建立了一个基于语义的地球物理信息检索系统模型。实现了对地球物理领域的智能信息检索,在网络环境下进行有效的语义推理,挖掘出地球物理领域信息深层次的关系,检索结果更符合用户心理预期。
参考文献:
[1] 中国互联网络中心.第32次中国互联网络发展状况统计报告[EB/OL]. http://www.cnnic.net.cn/gywm/xwzx/rdxw/rdxx/201307/W020130717431425500791.pdf (2013/12/28).
[2] 李彦,贾爱军,占向辉,等.面向创新设计的多层次Web信息检索研究[J]. 工程设计学报,2005,6(3):1-6.
[3] 邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5):730-738.
[4] 董振东,董强.知网[EB/OL].http://www.keenage.com/zhiwang/c_zhiwang.html(2013/12/28)
[5] SYT 6139-2005.石油测井专业词汇[S].北京:石油工业出版社,2005.
[6] 邵广周.勘探地球物理专业英语术语汇编[M].西安:长安大学地测学院,2003.
[7] 陈俊生.英汉石油勘探词典[M].北京:地质出版社,1999.