APP下载

基于分布式假设的弱监督蛋白质交互关系识别

2018-09-22毛宇薇

计算机技术与发展 2018年9期
关键词:阈值语义聚类

毛宇薇,牛 耘

(南京航空航天大学 计算机科学与技术学院,江苏 南京 211106)

0 引 言

蛋白质是生物细胞的重要组成部分,它们通过交互作用完成细胞中的大部分过程,蛋白质交互信息(protein-protein interaction,PPI)是生物医学领域的一项重要研究。现有的HPRD[1]、InAct[2]和MINT[3]等交互关系数据库均由生物医学专家通过人工阅读大量医学文献的方式识别录入。然而,随着生物医学文献的快速增加,手工收集PPI信息难度增大。在此背景下,基于自然语言处理的PPI识别技术取得了很大的进展。

目前,从医学文献中自动识别PPI的方法主要有:基于同现的方法[4]、基于规则的方法[5]和基于机器学习的方法[6-7]。基于同现的方法通过统计两个蛋白质在句中同现的概率来识别交互关系,召回率较高但精确度不高,同时难以发现新的或较少共现的蛋白质对[8]。基于规则的方法通过专家手工建立规则来判断是否存在交互关系,精确度较高但召回率低[9]。

近年来,越来越多的机器学习技术被应用到PPI识别[10-13],主要包括两种方法:基于特征的方法和基于核函数的方法。基于特征的方法从有标注的句子中提取重要特征建立模型来判断蛋白质对的交互关系。基于核函数的方法通过设计核函数来计算蛋白质对间的相似度,从而进行PPI的识别。两种方法均为有监督的方法,需要大量有标注的数据,会耗费大量人力物力。

文中提出的基于弱监督的方法只需少量有标注的数据作为种子集。同时,对于所提取的特征,不同于传统的独热编码(one-hot encoding)和TF-IDF等向量表示方式,基于分布式假设理论[14]根据特征在种子集中的分布构建向量空间模型,利用相似性进行交互关系的判断,并通过实验进行验证。

1 基于分布式假设的弱监督PPI识别

所提出的蛋白质交互识别方法以弱监督为基础,首先对所有目标蛋白质对,从其表达交互关系的上下文中提取词汇模式,基于分布式假设理论,根据它们在种子集中的分布构建向量空间模型。然后利用相似性进行聚类,产生语义相似的模式簇,通过模式簇提取语料中具有相似分布的词汇模式并将所对应的蛋白质对加入候选集。接下来评估候选集,挑选出符合要求的蛋白质对加入种子集进行迭代,最终完成蛋白质对的交互识别。

1.1 基于分布式假设构建向量空间模型

对每一个目标蛋白质对(protein1,protein2),检索出数据库中同时包含protein1和protein2的句子集合,作为该蛋白质对的签名档。在蛋白质对签名档的每个句子中,两个目标蛋白质之间的文本内容很大程度地表达了该蛋白质对的关系。其中,动词及名词在交互关系的表达上起了重要作用。因此,对每个蛋白质对,提取签名档中每个句子里目标蛋白质对中间部分的动词和名词,并去掉无实际含义的停止词,作为表达语义关系的词汇模式。语义相似的词汇模式可能表达相似的语义关系,因此可以认为,如果两个蛋白质对有许多相似的词汇模式,则它们具有相似的关系。

文中提出利用分布式假设理论寻找相似的词汇模式。分布式假设理论为:具有相似上下文的单词,具有相似的语义。根据该假设,如果两个词汇模式在种子集中有相似的分布(即与相同的蛋白质对共现),则这两个词汇模式是相似的,通过词汇模式分布的相似性进行聚类,可以得到具有相似语义关系的模式簇。

对每一个词汇模式P,根据其在种子集中的分布表示为向量p,p的维度为种子蛋白质对的个数。为了减少稀疏性,除了词汇模式整体的分布,也考虑其中单词的分布情况。p中第i维的值f(ai,bi,p)对应模式p在第i个种子蛋白质对(ai,bi)中出现的次数和p的标记之和(若p中存在任一单词出现在蛋白质对(ai,bi)所对应的词汇模式集中,标记为1,否则为0)。

1.2 聚类词汇模式并产生候选集

文中以少量有交互关系的蛋白质对作为初始种子集,对种子蛋白质对的词汇模式采用序列聚类算法,将相似的词汇模式聚类得到语义关系簇。给定种子集对应的词汇模式集P和聚类相似度阈值θ,算法1描述了聚类过程,返回表达相似语义关系的簇集合。

算法1:序列聚类算法。

输入:词汇模式集p={p1,p2,…,pn},阈值θ;

输出:语义关系簇集C。

1:SORT(P)

2:c1={p1}

3:C={c1}

4:for 模式pi∈Pdo

5:max←-∞

6:c*←null

7:for 簇cj∈Cdo

8: sim←Sim(pi,cj)

9:if sim>max then

10:max←sim

11:c*←cj

12:end if

13:end for

14:if max>θthen

15:c*←c*∪{pi}

16:else

17:ck={pi}

18:C=C∪{ck}

19:end if

20:end for

21:returnC

在算法1中,首先通过函数SORT对词汇模式集按其共现的种子蛋白质对个数进行降序排序。排序后新的模式集P中,共现的蛋白质对个数越多的词汇模式在集合头部,共现的蛋白质对个数越少的词汇模式在集合尾部。然后,初始化簇c1,加入第一个词汇模式p1,并初始化集合C加入c1。外层循环(第4步)遍历集合P中的每一个词汇模式pi,与内层循环(第7步)所遍历的每一个簇cj进行相似度计算,找到与pi最相似的簇c*(∈C)。如果该相似度大于阈值θ,则把pi加入到簇c*中,否则创建一个新的包含pi的簇ck并加入簇集合C。其中,函数Sim(pi,cj)计算模式pi与簇cj的相似度,返回pi与cj中的每一个pm∈cj的相似度的最大值(pi与pm的相似度为其向量的余弦相似性),根据算法1得到具有相似语义的模式簇集合。

算法2从语料库中提取与这些簇相似的词汇模式及其所对应的蛋白质对加入候选集,后续可对候选集进行评估,挑选出有交互关系的蛋白质对加入种子集。算法2的输入为语料的词汇模式集S,语义相关的簇集合C和相似度阈值θ,输出为包含所提取的词汇模式候选集。

算法2:候选集生成算法。

输入:词汇模式集S={s1,s2,…,sn},语义相关簇集C={c1,c2,…,cn},阈值θ;

输出:候选集R。

1:forsi∈Sdo

2:forcj∈Cdo

3:sim←Sim(si,cj)

4:if sim>θthen

5:confp(cj)

6:R.add(si,cj,sim)

首先,外层循环遍历集合S,对每一个词汇模式si,内层循环遍历簇集合C中的每一个簇cj,如果si与cj的相似度大于阈值θ(模式与簇的相似度计算方式同上),即认为簇cj能够提取出模式si,更新簇cj的分数,并对该模式si,提取它的簇cj及它们之间的相似度加入候选集。

计算簇c分数的公式为:

(1)

其中,K、U均为簇c所提取的词汇模式集合,K中词汇模式所对应的蛋白质对属于种子集,U中词汇模式不属于种子集,|K|和|U|分别为集合K和U的元素个数;Vi为第i个词汇模式所共现的种子蛋白质对个数。由于属于U的词汇模式的可靠性不高,因此设置w为U的权重,介于0-1之间,文中设置为0.5。

1.3 评估候选集并更新种子集

对候选集中的每一个词汇模式p,计算其分数:

(2)

其中,ξ为能提取出词汇模式p的簇集合;conf(cj)为簇cj的分数;Sim(p,cj)为簇cj与模式p的相似度。

对每一个蛋白质对t,根据其词汇模式计算蛋白质对得分:

(3)

其中,ξ为候选集中该蛋白质对t的词汇模式集合;conf(pi)为词汇模式pi的分数。

得分越高的蛋白质对存在交互关系的可能性越大,因此挑选出分数大于阈值T的蛋白质对作为本次迭代所识别出的有交互关系的蛋白质对,加入到种子集中。不断迭代上述过程扩充种子集,直到满足终止条件,最终完成对蛋白质交互关系的识别。

2 实 验

2.1 实验数据及设置

实验中采用的有交互关系的蛋白质对是从专业PPI数据库HPRD中获取,并且只保留出现在PubMed数据库一篇以上摘要里的蛋白质对,数据可靠性高。同时,采用生物医学领域的常用方法,将HPRD中的蛋白质进行随机组合,去除其中已经包含在HPRD中的蛋白质对。最终得到的有交互关系的蛋白质对1 141,无交互关系的蛋白质对1 353。

对每一对蛋白质,检索PubMed数据库的文献摘要,提取所有包含这一对蛋白质对的句子构成该对蛋白质对的签名档。所有的2 494个蛋白质对及其签名档构建成语料库,并从有交互关系的蛋白质对中随机选出100对构成种子集。

实验过程中,将算法1中聚类相似度的阈值θ与算法2中生成候选集的阈值θ均设置为0.6,同时将蛋白质对得分的阈值T设置为0.9,迭代次数设置为3。采用的结果性能评价指标是当前PPI抽取系统主要使用的3个指标:精确度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-score=2×P×R/(P+R))。

2.2 实验结果及分析

表1为第一次迭代后,在阈值T的不同取值下得到的结果。

表1 不同阈值结果对比 %

从表1可以看出,阈值为0.6时的结果比阈值为0时略有提升,召回率略有降低,整体F值略有降低。当阈值继续增大后,虽然精确度有显著提高,但召回率下降较多,因此总体F值有所降低。

随着迭代次数的增加,易知精确度会降低,召回率会提升,因此挑选阈值T为0.9时,精确度较高的结果进行下一轮迭代,结果如表2所示。

表2 迭代结果

%

从表2可以看出,随着迭代次数的增加,种子集合扩充,有交互蛋白质对的召回率提升,精确度略有下降,整体F值上升。实验结果表明,该方法以少量的初始种子取得了较高的精确度和召回率,3次迭代后的F值可达到63.49%。

3 结束语

文中提出了一种基于分布式假设的弱监督蛋白质交互识别方法。该方法仅需少量有交互关系的蛋白质对作为种子集,根据分布式假设构建向量空间模型,利用相似性识别出有交互的蛋白质对。实验结果表明,该方法以较少的种子取得了较高的精确度与召回率。

目前该方法只考虑了利用签名档中两个蛋白质中间部分的文本来构造词汇模式,之后的研究将考虑提取句子中其他部分的关键信息作为特征来表示蛋白质对的交互关系。

猜你喜欢

阈值语义聚类
真实场景水下语义分割方法及数据集
一种傅里叶域海量数据高速谱聚类方法
土石坝坝体失稳破坏降水阈值的确定方法
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
基于Spark平台的K-means聚类算法改进及并行化实现
“吃+NP”的语义生成机制研究
辽宁强对流天气物理量阈值探索统计分析
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析