网络特征对文献间接关联发现的评价作用
2016-03-21,,,,
, ,,,
文献是科研工作者获取科学假设的重要途径。传统的文献检索平台能够帮助用户快速查找目标文献,但候选文献数量依然庞大,要从大量的候选文献集中获得有效的知识,需要人工阅读分析,这是一项费时费力甚至是不可能实现的工作[1]。基于文献的知识发现(Literature-based Discovery, LBD)研究通过潜在的关联挖掘推断出新的科学假设。根据LBD的ABC模型[2],必须明确A、B、C元素才可以获得一条有用的知识发现关系链,B 的出现为科研人员提供有益的启发和关键性的引导,帮助认识和发现潜在有用的知识片断间的关联,为揭示新关系规划可行的研究路线。如有关鱼油和雷诺病的两类文献报道,雷诺病人(C)有典型的血液和血管相关的血黏度、血小板凝集度升高、血管收缩等生理改变称为B。鱼油(A)及其活性成分可降低血黏度和血小板凝集度,且鱼油可以引起血管舒张。由此得出,鱼油A可能对雷诺病C有治疗作用,即形成了A和C之间的关联,即得到了一条A(鱼油)-B(生理改变)-C(雷诺病)的知识发现路径[3]。
文献知识发现的实施主要包括概念实体A、B和C的识别、概念间的相关度计算以及关联的源文献检索3个重要部分。用户输入概念A,计算A-B-C之间的关联强度,获得按关联强度由大到小的有序列表。在生物医学信息学领域现已存在相关知识发现系统,比如Facta+[4], CoPub[5], Arrowsmith[6]等,这使文献知识发现的工作具有更强的可操作性。然而,文献知识发现过程是一个启发式的过程,获得的潜在关联知识是需要进一步确证的假设,不同种类、不同相关程度的关联都可能是激发新假设的知识。尽管现有系统极大地提高了知识发现的效率,但由于无法明确A-B-C三者之间的语义关系,导致混杂的候选关联数呈指数递增,从中筛选出真正有效的关系链变得非常困难。因此,研究对候选词项进行排序筛选的关联性评价指标是当前该领域研究重点之一。
本文主要研究网络特征在文献知识发现中间接关联的评价作用,通过整合共现统计信息与网络结构特征,尝试建立间接关联性评价计算的新指标,这对于提高文献知识发现效率与构建相关知识系统都具有重要意义。
1 关联建模
利用图来对关联知识进行建模,是目前相关领域最常用的方法。通常一个简单的无向无权网络,可记为G= (V ,E),其中集合 V 称为节点集,V={v1,v2,…,vn},集合E称为边集,E={e1,e2,…,em},任意一条边对应一个节点的二元组:ex=(vi,vj),E是V ×V的一个子集。因此,我们将文献集中的内容相关性转化为基于关联信息存在的图结构数据模型,即根据文献中的语义单元即概念实体及其关联信息,对文献中所蕴含的知识进行网络结构化,构建文献关联知识网络。在关联知识网络G=(V, G) 中,节点集V 是各种从生物医学文献中提取而来的实体的集合,如基因、蛋白质、化合物或疾病等等,边集E 是实体之间的关联集合。
1.1 问题定义
在文献知识发现实施过程中,科研工作人员给定概念A,先得到相关联的B。然而,接下来根据B获得C时,必须满足两个条件:1) A与C之间不直接关联,2)A与C之间的潜在关联性不一定就表明B与C存在强关联性,即B与C之间的弱关联也有可能导致A与C存在潜在关联。关联知识网络把文献集中的知识以网络形式表示出来,即表示出知识之间的联系,也过滤了冗余知识而以最简化的形式表示,从而为发现未直接报道的两个对象间的隐含关系提供了方便。文献知识发现的目标是希望获得较好的ABC关联路径,因此,文献知识发现的核心问题即为如何基于B建立与评价A与C的关联。如何建立节点A与C的关联,即应该按照怎样的路径建立它们之间的关联,等价于给定节点A,提取A-B-C路径,然后从所有的路径中筛选出关联性强的ABC关系链,即按照ABC关系链的关联强度对所有路径进行排序,得到有序的链列表,使强关联链路能够处在候选链列表的前面位置,如图1所示。
图1 A-B-C关联路径发现的示意图
1.2 ABC关联性计算
由于ABC链是一条启发性的关系链,不同于常规的两个直接共现的实体间的二维关系。但一条关联路径在全局上是否存在有效的相关性,则必须很好地评价词项B的质量。在关联网络中,节点的度对间接关系的影响很大,度小的节点对A与C的关联具有积极的作用,而且度过大的概念往往是那些宽泛的通用概念,这些概念实体缺乏具体的语义[7]。一方面,我们希望AB与BC之间都能保持强的关联;另一方面,我们希望中间词B不是一些通用概念,而是可以传递出具体语义的概念实体。
因此,我们综合考虑共现统计与节点度两个因素,建立了新的全局关联度计算的评价指标NBW(Network-Based Weight)如下:
其中W(A, B),W(B,C)分别表示A和B、B和C的共现频数,degree(B)表示节点B在关联网络中的度。NBW指标给度小的概念实体之间的频繁共现的关联赋予更高的权重,因为每一关联路径中的共现次数较小的关联,对整个链路具有至关重要的作用,只要中间连接有一个不连通,显然整个关联路径很难形成很强的联系。
1.3 方法评价
给定测试文献数据集,将文献数据集按时间分成训练集和测试集,分别建立训练网络G1=(N1,E1)和测试网络G2=(N2,E2)。从N1中随机选择m个词作为种子词项集A,其中A取训练网络与测试网络中共同拥有的词项,即A∈N1∩N2。
(1)在训练网络G1中,以种子集A中的节点为起点提取其间接节点,得到间接节点集C,计算所有关系链(A-Btrain-C)的NBW,对结果集C按NBW值从大到小排序,取有序结果集CNBW中前L个词项,得到CNBW-TopL={c1,c2,…cL};
(2)在测试网络G2中,以种子节点集A中的节点为起点提取其直接关联节点,得到关联节点集Btest;
(3)计算有序结果集CNBW前L个词项集CNBW-TopL的准确率P(Precision):
其中,CNBW-TopL∩Btest指CNBW-TopL和Btest的交集,即共同拥有的词项,|CNBW-TopL∩Btest|为交集的节点数量,|Btest|指Btest集的节点数量。
对于一个文献知识发现系统来说,返回的候选结果的数量比较大时,排在前面的结果通常是用户最关心的。利用NBW对候选结果集从大到小排序之后,在有序的结果列表中,确保排序靠前的多是全局关联强度较好的结果,即只关注于分值最高的前L条关系链(A-B-C)的准确度P,P越大效果越好。
1.4 传统的计算指标
(1)平均最小权重(Average Minimum Weight, AMW):
AMW(A-B-C)=min(MIM(A,B),MIM(B,C))
其中n是A与C共同包含的中间词项B的数量,AB、BC的互信息计算MIM (Mutual Information Measure)[8]为:
其中,Pmn是词项m与n在同一个句子共现的概率,Pm与Pn分别是词项m与n在所有句子中出现的概率。
(2)绝对词频(Absolute Word Frequency,AWF):
AWF(A-B-C)=min(W(A,B),W(B,C))
其中w(x,y)分别为x与y的共现次数。
(3)相对词频(Relative Word Frequency, RWF):
RWF(A-B-C)=min(F(A,B),F(B,C))
其中F(x,y)分别为x与y的频率,其计算公式如下:
其中w(x)、w(y)是指在预设的知识库中x、y出现的次数,w(x,y)是x,y共现的次数。
2 数据测试
2.1 数据准备
以关键词“miRNA or MicroRNA”从PubMed中检索得到51 118条结果,取标题数据,基于句子水平共现的方法,提取两个概念间的关联信息,将关联的共现频数作为边的权重,构建关联知识网络[9]。关联提取的基本步骤如下。
第一步,根据自然语言处理的方法识别出句子的实体NP及其位置,
第二步,如果在同一个句子中得到的实体按其在句子中的顺序依次为NP1、NP2、NP3,则得到关联:(NP1,NP2),(NP1,NP3),(NP2,NP3)。
例如:文献标题(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice. 提取得到实体及其位置的列表为:
[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]
进一步得到关联:(β1-syntrophin modulation, miR-222 ),(β1-syntrophin modulation , mdx mouse),( miR-222, mdx mouse)。
这里直接利用自然语言处理的方法,从文献中提取以名词短语为基础的概念实体,不针对特定的生物医学实体,不但能提取到关键词,而且能够尽量多收集到文献中出现的实体,以满足通用性和覆盖率的要求。
以2012年作为时间分割点,将2002-2012年的数据作为训练集,2013-2015年的数据作为测试集,得到训练网络G1包含节点20998,边102363;测试网络G2包含节点28325,边130369。随机选择m=50个词作为种子词集。
2.2 与传统计算指标的比较
在给定的测试数据集上,比较NBW指标与传统指标(AWF,RWF,AMW)的准确率P。
一是取 L=0.1,0.2,0.3,…,1,即取有序结果集CNBW前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的词项时,计算得到准确率P的结果(图2)。
二是进一步取靠前的区间,取 L=0.01,0.02,0.03,…,0.1,即取有序结果集CNBW前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的词项时,计算得到准确率P的结果(图3)。
综合图2、图3的测试结果,可以发现,如果两个节点A与C之间存在关联的假设,是因为存在一条强关联的ABC路径,即A-B-C关联越强,A与C越可能存在有效的联系。很明显,对结果集进行关联置优排序的应用中,基于网络模型方法NBW的准确率比其他方法(AWF,RWF,AMW)表现较好,即在靠前的结果中按照NBW指标置优的关联数量越多,准确率越高。
图2 L=0.1,0.2,0.3,… ,1.0时准确率P的比较
图3 L=0.01,0.02,0.03,…,0.1时准确率P的比较
虽然以上4种评价方法都可筛选出有用的潜在关联,但因为自然语言描述的文献文本中本身存在太多宽泛概念,如“cell”“gene”“miRNA”等,使其在具体关联发现过程中反而无实际用途,导致不同评价方法都未能获得很高的准确率。因此,已有的很多文献知识发现系统都进一步提供预定义概念集进行语义过滤,限定了几类重要的生物概念实体,如基因、疾病、症状等,以便缩小用户筛选的范围。
3 总结与讨论
本文通过引入网络特征评价计算文献知识发现中间接关联的,从测试数据来看,整合网络的结构特征与共现统计的信息可以提高间接关联评估的准确性,更好地发现有效的ABC关系链。对于间接关联的获取,关系链中的中间节点具有及其重要的“桥”的作用;从网络结构上来看,节点的度可以直观地表示出节点在全局中的权重,因为仅仅从关键词出现的频率来判断,哪些频率很大的节点往往是一些宽泛的概念,而一些频率较小的节点或关联反而很可能表达出重要的意义。利用节点度的特征较好地对中间词B的特征进行了一定控制,如果结合语义过滤可能会发现一些更好的结果。
然而,从测试数据的结果来看,A-B-C评价面临的一个最大的瓶颈仍是因“噪声”的关联太多导致的整体准确性不高,一是实体概念提取过程中存在很多宽泛的概念,二是大量已有关联对于发现新的知识作用不大。因此,知识发现系统提供分步式交互,每一步通过友好的人工交互界面提供便捷的手工语义过滤的功能,一定程度可以提高知识发现的效率。