基于茶树虫害本体的重要概念获取方法研究
2019-09-04叶玉琪许高建
张 蕴,叶玉琪,许高建*
(1.安徽农业大学 信息与计算机学院,安徽 合肥 230036;2.中国科技大学 研究生院 科学岛分院,安徽 合肥 230036)
0 引言
随着互联网的快速发展和普及,网络资源不断增加,面对海量数据,如何进行组织管理和维护已经成为科研领域广泛关注的问题,于是本体的概念被提了出来。它作为一种能在语义和知识层次上表示信息系统的概念模型,在很多方面已经得到普遍的应用,如知识工程、自然语言处理、智能信息集成、Internet智能信息获取以及知识管理等[1]。对于众多的领域知识来说,获取本体结构中的重要概念都有着重要的意义。
目前,对于复杂网络节点重要性的研究,国内外研究人员都采取了不同的方法,分别提出了节点重要度的不同度量指标,这些方法与指标本质上都是以图论为基础,主要可以分为以下两大类:(1)从节点的显著性衡量节点的重要性,主要的衡量参数有度、介数、接近度以及特征向量指标等;(2)通过网络的连通度来判断节点的重要程度,即通过删除或者收缩某一节点对整个网络造成的影响程度来度量节点的重要性,对网络造成的影响程度也可以用一些网络特有的指标来表示,比如连通度、聚集度等[3]。其中比较典型的有:文献[5]提出的介数指标,能很好地反映一个节点在整个网络中的影响力;陈静等提出了基于节点接近度与节点领域关键度的评价方法[6];任卓明等提出了基于度与集聚系数的节点重要性评估方法,该方法只能度量局部网络的节点重要性。
本文首先在概述复杂网络相关理论的基础之上,提出了基于度、集聚系数以及接近度的复杂网络节点重要性评价方法;然后基于复杂网络与本体结构的相似性理论[8],以茶树虫害本体为例,应用该评价方法提取本体中的重要概念,这一提取结果对茶树虫害本体中的害虫防治以及茶树生态环境保护有着重大意义。
1 重要概念的概述
1.1 本体的定义
本体的定义来源自哲学领域,简单来说,本体就是在某一知识领域内的一套概念以及概念之间关系的集合。它的组成有:类、个体、属性以及关系。其中类表示的是具有相同特征的个体的集合,对应在本体的拓扑结构中就是各个分层结构的树的根。而个体就是某一个类的成员。本体结构中的属性可以分为两种:对象属性和数据属性。对象属性连接的是两个个体,而数据属性是一个个体独有的属性。本体中的关系包括类与类的关系、类与个体的关系以及个体与个体的关系。关系可以用一个“主谓宾”的三元组来表示,比如:“羊吃草”表示的是一个关系,其中“吃”是数据属性,它连接“羊”和“草”这两个个体;而在关系“草是绿色的”中,“绿色的”就是数据属性,它是“草”这个个体独有的属性。
1.2 本体结构中重要概念的定义
由本体定义可知,本体结构由类、个体、属性以及关系组成。本体中的概念是指个体以及它所包含的所有属性和关系的集合。这与复杂网络中的概念定义是相符的。与复杂网络类似,本体中的个体也有不同重要度之分,重要个体就是在本体中与其他个体联系最多的个体,处于本体结构的要害位置。本体中的重要概念就是指该本体知识领域内的重要个体以及它所包含的所有属性和关系的集合。找到并提取本体结构中的重要概念在现实世界中有着重大意义。
2 基于度、集聚系数以及接近度的重要概念
基于以上理论基础,本文提出了一种新的节点重要性评价方法,该方法基于度、集聚系数以及接近度这3个衡量参数,下面详细介绍它的实现过程。
2.1 符号与定义
该方法针对的是无向无权的复杂网络,这与本体也是相吻合的。复杂网络可以用G=
定义1:节点度表示的是与该节点直接相连的边的数量。节点vi的度表示为:
则节点度与邻居度之和可以表示为:
上式中Ti表示节点vi的邻居节点的集合。
定义2:集聚系数描述的是节点的邻居节点之间互为邻居的比例[10]。集聚系数针对的是节点度大于2的节点。节点vi的集聚系数表示为:
上式中ri表示在节点vi的相邻节点之间互为邻居的个数。
定义3:邻居联系度gi反映节点邻居之间的联系,用下式计算:
上式中:Ai代表节点vi的集聚系数;si为节点度与邻居度之和。
定义4:节点局部重度pi反映两个变量综合的结果,也就是反映节点vi在局部范围内的重要性,用下式计算:
定义5:节点接近度Ci通过下式[3]计算:
上式中dij表示节点vi与节点vj之间最短路径的长度。
定义6:节点重要度qi反映节点vi在复杂网络中的重要程度,用下式[11]计算:
qi=piCi
2.2 实例分析
对图1所示的网络拓扑图采用不同的方法分别计算各节点的重要度,结果见表1。
图1 某网络拓扑结构图
节点编号不同方法计算的节点重要度度接近度节点收缩法度与集聚系数法本文的方法120.04550.29670.32230.0258220.04550.29670.32230.0258340.06250.64840.84410.0565410.04350.14600.65760.0130520.06670.45790.81880.0569630.06250.52530.73740.0518720.04760.34070.32230.0270830.05000.52530.68360.0390910.03700.19620.61740.0060
对表1中的结果进行分析,由表2可知,不同方法的评价结果显然有很大差别。
度:存在很多度值相同的节点,无法细分它们的重要性,且无法正确评价桥节点(节点5)的重要性。
接近度:排序结果基本正确,但是对于节点3和节点6的判断有点不足,从网络拓扑结构来看,节点3和节点6的重要性不是完全一样的。
节点收缩法:对节点5的判断不够准确。
度与集聚系数法:最大的缺点就是对末梢节点的判断不准确,比如节点4和节点9,它们的重要性应该是最低的,可是该方法的结果显示重要性最低的节点是节点1和节点2,这显然不够准确;此外,该方法对节点3和节点5的判断也存在一些不足。
本文的方法:评价结果是与实际情况相符的。对于图1的网络拓扑结构来说,节点5是一个桥节点,应该是最重要的;节点3和节点6的重要性次之,因为节点3是在左边的局部范围内的核心节点,节点6是在右边的局部范围内的重要节点,不过这两个节点的重要性存在细微差别;节点8和节点7的重要性更次一些;而对于节点1和节点2,它们的重要度应该是一致的,比末梢节点4和9的略高;虽然节点4、9同为末梢节点,但显然它们的重要性并不相同,因为它们的邻居节点的重要性是不一样的,这与前文所说的特征向量的思想是一致的。
表2 不同方法的评价结果分析
在以上采用的5种方法中,本文提出的基于度、集聚系数以及接近度的方法得出的节点重要性排序与实际情况是相符的,很好地证实了该方法的有效性。该模型的时间复杂度主要取决于接近度Ci的计算,接近度Ci只需计算出各节点对之间最短路径的长度即可,不用记录每条最短路径经过的节点,所以该方法的复杂度明显比介数等方法的复杂度低,适用于大的复杂网络的计算。
3 本体结构中重要概念的提取
本文以茶树虫害本体为研究对象,应用基于度、集聚系数以及接近度的节点评估方法对本体中的个体重要性进行评价,分析评价结果,提取合理的重要概念。
3.1 对茶树虫害本体的预处理
由茶树虫害本体的网络拓扑图(图2)可知,该本体结构大致可以划分为茶树部位、茶区以及茶树害虫这3个社团。
对茶树虫害本体的预处理在eclipse中进行,通过Jena API读取本体里的类和个体以及属性、关系,最终得到茶树虫害本体一共有565个类、793个个体、3651个关系、33个对象属性以及22个数据属性(图3)。
根据该本体的预处理结果建立与之对应的邻接矩阵。本体中的类和个体相当于复杂网络里面的节点,关系则相当于边。邻接矩阵中的1表示其行列坐标对应的两个节点之间存在关系,0则表示没有关系。这样就能得到茶树虫害本体结构对应的邻接矩阵(图4)。
图2 茶树虫害本体的网络拓扑结构
图3 茶树虫害本体的预处理结果
3.2 获取本体中的重要概念
将本体网络的邻接矩阵导入节点重要性评估模型,得出本体中各节点的重要度评价指标q[12]。由于本体中的重要概念指的是重要个体以及它所包含的所有属性和关系,所以在进行重要度评估时,本文只对个体评价其重要性,最终的结果如图5所示。
从图5中可以看出,q值排在前14的个体都是茶区,q值紧接其后的都是茶树害虫。该结果表明,将所有个体的重要性放在一起进行评估是不合理的,因为根据本体的拓扑结构很容易得出茶树害虫与茶区属于两个社团,不能进行重要性的比较。简言之:不能片面地认为“江苏”的重要性比“大蓑蛾”高,虽然从图5中来看“江苏”的q值比“大蓑蛾”高。综上所述,该结果对评价个体的重要性不具备太大的现实意义,所以本文将对茶树虫害本体中的茶树部位、茶区以及茶树害虫这3个社团内的个体分别进行重要性评价。值得注意的是,茶树虫害本体中的个体并不是全部在这3个社团内的,但是从拓扑结构可以明显看出,茶树部位、茶区以及茶树害虫可以看成3个不同的社团,而这3个社团的个体重要性评估对茶树虫害本体有着很大的现实意义,所以本文只针对这3个社团内的个体进行分析。
图4 茶树虫害本体结构的邻接矩阵
由图6~图8可以得出如下结论:在茶树部位社团内,最重要的个体是“叶”;在茶区社团内,最重要的个体是“湖南”;在茶树害虫社团内,最重要的个体是“大蓑蛾”。
图5 本体中个体的q值按降序排序
图6 茶树部位社团
获取上述3个最重要个体对应的概念,即本体中的重要概念,结果如图9~图11所示。
3.3 结果与分析
根据以上重要性评价以及重要概念提取的结果,我们可以清楚看到,“湖南”茶区的茶树害虫最多,“叶”是最易受茶树害虫伤害的部位,而在所有茶树害虫里面,“大蓑蛾”的分布最广。在了解这些信息之后,我们就能够有针对性地采取相关措施。比如,对湖南的茶区,应该对其进行大力度的茶树害虫防治工作;对茶树的叶片,要采取特殊的保护预防措施,防止其被害虫伤害;而对于大蓑蛾,要首先对其进行有效防治,因为在所有害虫里面,它的重要性指标表现最高。
图7 茶区社团
图8 茶树害虫社团
图9 “湖南”对应的概念
图10 “叶”对应的概念
图11 “大蓑蛾”对应的概念
4 结束语
从本体结构中获取到的重要概念对该领域采取相应举措起着指导性的作用,所以本研究对任一本体知识领域都有着重要的现实意义,且对本体知识领域的管理与操作有很大的帮助。本文的局限性在于研究的茶树虫害本体是手动构建的,关系不够健全,所以可能会导致结果有细微的误差。今后将在关系健全、结构庞大的本体上进行进一步的探索与研究。