APP下载

一种融合多组学数据的关键蛋白质预测算法

2023-01-03薛晓丽刘俊宏张伟

湖北大学学报(自然科学版) 2023年1期
关键词:结构域排序关键

薛晓丽,刘俊宏,张伟

(华东交通大学理学院,江西 南昌 330013)

0 引言

蛋白质是构成细胞和组织结构必不可少的成分,它是生理功能的执行者,也是生命活动的体现者.关键蛋白质在生物体的生命活动中占据着举足轻重的地位,它的缺失或者功能失常都将导致机体特定功能的丧失,甚至死亡[1-2].因此,识别关键蛋白质能够促进对细胞的生长过程的认识以及诊断疾病、设计药物和治疗疾病等工作的进行与发展[3].传统的预测方法,如RNA干扰[4]、单基因敲除[5]、条件性基因剔除[6]等,这些生物学实验方法虽然预测准确率高,但其成本高昂、效率较低,而且仅能用于有限的物种,显然已无法满足日益增长的需求.随着生物信息学和高通量技术的不断发展与创新,蛋白质之间相互作用的数据不断累积,将蛋白质之间的相互作用抽象成复杂网络中节点间的关联关系,借助复杂网络相关理论识别关键蛋白质已成为一个有效的途径.

最早提出的关键蛋白质识别算法是依据蛋白质相互作用(protein-protein interaction,简称PPI,下同)网络的拓扑结构,如度中心性(degree centrality,DC)[7]、接近度中心性(closeness centrality,CC)[8]、邻居中心性(neighborhood centrality,NC)[9]、介数中心性(betweenness centrality,BC)[10]和子图中心性(subgraph centrality,SC)[11],这些方法的识别精度严重依赖PPI网络的拓扑结构的准确性.由于现有的高通量测序技术的限制,获得的蛋白质相互作用数据具有很高的阳性率,即使是广泛使用的酿酒酵母PPI网络[12-13]也深受噪声的影响.例如,通过“酵母两次杂交”(Y2H)分析获得的数据的假阳性率可能高达64%,而假阴性率则可能在43%到71%之间[14].因而,仅基于挖掘PPI网络的拓扑性质来识别关键蛋白质很难达到满意的精确度.

随着高通量生物学技术的快速发展,各种类型的生物学数据不断丰富,如蛋白质复合物信息[15-16]、基因本体注释信息(gene ontology annotation,GO)[17-19]、基因表达数据[20-22]、蛋白质同源性信息[23-24]、亚细胞定位数据(subcellular localization)[25-26]、蛋白质结构域数据(protein domain)[27-28]等.因此,结合PPI网络的拓扑性质和蛋白质的其他生物学数据共同挖掘关键蛋白质成为了新的研究重点.例如,Pec[20]算法结合PPI网络的拓扑结构属性和蛋白质对应的基因表达相关性来预测关键蛋白质.WDC[22]算法在Pec基础上改进,过滤PPI网络中的假阳性数据.LBCC[29]算法结合局部密度、介数中心性和蛋白质复合物的内度中心性有效地提高了预测精度.NIE[30]算法首先通过融合基因本体信息与RNA序列数据的相关性来构建加权网络,然后通过刻画网络中二阶邻居信息以及复合物和亚细胞定位信息的信息熵来度量蛋白质的关键性.TEO[19]、TEGS[25]和CEGSO[31]等算法通过有效融合基因本体信息注释信息、蛋白质同源性信息、基因时序表达数据等多种生物学信息,通过挖掘不同数据源的特征大大提高了预测准确度.例如,TEO不仅应用了PPI网络的拓扑性质,还使用了基因表达信息和基因本体注释数据,从而提高了预测关键蛋白质的预测数目;TEGS在此基础上融入了亚细胞定位信息,认为只有处在同一场所的蛋白质之间才可能存在相互作用.生物学信息与网络拓扑结构的巧妙融合有效的弥补了中心性预测算法的不足,而利用多源信息设计出来的算法,有效地避免了单一数据自身噪声对预测效果的影响,也能够更加全面的来度量蛋白质的关键性.

蛋白质结构域是构成蛋白质三级结构的基本单位,是蛋白质生理功能的基础,不同结构域的重组和排列产生了自然界中众多蛋白质[32-33].Deng[34]等指出,尽管有些蛋白质属于关键蛋白质,但并不是该蛋白质包含的所有结构域都具有关键性.基于上述研究结果,Peng[27]等通过假设验证关键蛋白质往往含有其他蛋白质很少出现的蛋白质结构域类型,而非关键蛋白质则更有可能由频繁出现的结构域构成,提出了一种结合蛋白质结构域信息和PPI网络拓扑结构的特征来识别关键蛋白质的UDoNC算法,虽然UDoNC算法一定程度上提高了关键蛋白质的预测率,但该算法挖掘的生物特性有限,而且严重依赖于PPI网络的拓扑结构,导致识别正确率有限.

为了进一步提高关键蛋白质的预测正确率,本文中基于PPI网络的拓扑结构,结合应用广泛的基因本体注释数据和亚细胞定位数据,并恰当地融入蛋白质结构域信息,提出一种新的算法TGSD来识别关键蛋白质.TGSD算法首先结合边聚类系数、基因本体注释信息和亚细胞定位信息来量化蛋白质的关键性,然后融入蛋白质结构域信息数据,利用蛋白质结构域信息来减小噪声对数据的影响.数值模拟结果表明,TGSD的预测效果与DC,BC,NC,Pec,WDC,LBCC,TEGS相比都有很大程度的提升.

1 算法描述

1.1 蛋白质结构域的关键性设计蛋白质结构域是构成蛋白质的基本单位,一个蛋白质通常包含一个或多个结构域信息,为了度量蛋白质中结构域的重要性,我们结合已知的关键蛋白质信息来统计分析蛋白质结构域的重要性,定义第i个蛋白质结构域的关键性值 (protein domain value,PDV)为:

PDV(i)=VK(i)*VU(i)/Max(PDV)

(1)

其中,

(2)

其中,PDV(i)表示蛋白质结构域i的分数,分数高的蛋白质结构域关键性更强,N表示该网络中蛋白质的总数,N(key)表示该网络中关键蛋白质的数目.DP(i)由所有包含蛋白质结构域i的蛋白质构成,KKP是由已知的关键蛋白质构成的集合,P是由所有已知蛋白质结构域数据的蛋白质构成的集合.

根据蛋白质结构域的关键性值,定义蛋白质u的结构重要性(relative critical index,RCI)为:

(3)

其中,PD(u)表示包含蛋白质u的蛋白质结构域集合.

1.2 新的算法TGSD文献[19,25,30]表明,关键蛋白质在分子网络中并不是随机分布,而是趋向于聚集在一起形成稠密的子网络,相互连接的关键蛋白质之间具有较高的共表达特性和相似的生物学功能.为了刻画这些特性,我们采用边聚类系数(edge clustering coefficient,ECC)来度量两个相互连接的蛋白质对在拓扑结构上的紧密程度.相互作用的蛋白质对(u,v)之间的边聚类系数定义为:

(4)

其中D(u)和D(v)分别表示表示蛋白质u和v的度,N3(u,v)表示PPI网络中以(u,v)为一条边构成的三元组的数目.即该边在网络中实际参与构成的三元组个数与该边最多可能参与构成的三元组个数之比.

基因本体注释信息是描述基因和基因产品之间功能相似性的工具,基于基因本体的语义相似性度量常被用于从基因层面刻画蛋白质之间的功能相似性.本文中采用Wang[35]等提出的方法分别计算了在“生物过程(biological process,BP)”、“细胞组件(cellular component,CC)”和“分子功能(molecular function,MF)”3种本体下的基因本体语义相似性值,并取其三者的平均值作为最终的基因本体语义相似性值.

假设基因X,Y的功能注释语义信息集合分别为:

GOX={gox1,gox2,…,goxm}

GOY={goy1,goy2,…,goym}

(5)

其中,goxi、goyi分别表示注解基因X和基因Y的术语,m表示这个集合中术语的个数,详情请见参考文献[35].

基因X,Y对应的GO语义集合之间的相似性定义为:

(6)

其中,TX、TY分别是基因X,Y对应的GO语义构成的集合.SX(r)是基因X中GO术语r对应的S值,SY(r)是基因Y中GO术语r对应的S值.

基因X,Y之间的GO功能相似性定义为:

(7)

其中,

(8)

同时,我们假设只有处于同一亚细胞位置的蛋白质对才能发生相互作用,采用文献[31]中刻画蛋白质所处亚细胞定位信息的度量SLL(u,v)来刻画蛋白质对(u,v)是否真正存在相互作用关系,

(9)

其中,SL(u)、SL(v)分别表示蛋白质u和v所处的亚细胞位置.

综合上述3种度量,采用如下指标(functional critical index,FCI)来度量蛋白质u的功能重要性:

(10)

其中,Nu是由蛋白质u的邻居构成的集合.

结合前面定义的结构重要性RCI,本研究提出一种新的计算蛋白质u关键性值的算法TGSD,

TGSD(u)=α×FCI(u)+(1-α)×RCI(u)

(11)

其中,参数α∈[0,1],用来调整两部分所占的比例.当α取1时,该算法考虑网络拓扑结构、基因注释信息和亚细胞定位信息;当α取0时,则只考虑蛋白质结构域信息.FCI用于量化蛋白质的功能重要性,RCI则通过蛋白质结构域的重要性来刻画蛋白质的关键性.

2 实验数据

2.1 PPI网络数据酵母的蛋白质相互作用在所有物种中研究最为广泛,而且积累了大量实验验证的关键蛋白质数据信息.因此,本文中选取YDIP、DIP-PPI、Krogan和Krogan-Extended这4个酵母PPI数据集进行实验.删除原始数据中的孤立节点和重复相互作用关系数据后得到的数据集的详细信息如表1所示.

表1 数据集的详细信息

2.2 生物信息数据本实验所用到的蛋白质结构域数据从PFAM数据库[32]中下载 (版本为Pfam 31.0,2017年3月更新),并按照杨增光等[28]提出的方法对原始数据进行预处理,预处理后的数据集中包含3 630个蛋白质,这些蛋白质涉及1 107个蛋白质域的信息数据,构成了4 936条蛋白质对应的结构域的数据集合.基因本体注释数据下载自酵母Gene Ontology Annotation Database数据库(2020年9月10日版本).亚细胞定位数据和关键蛋白质数据从文献[31]中获得.

3 实验结果分析

为了评估新提出的算法TGSD的有效性,分别计算TGSD与7种代表性算法(DC,BC,NC,Pec,WDC,LBCC和TEGS)在4组酵母测试数据集下蛋白质的关键性值,然后按照蛋白质的关键性值从大到小的顺序排序,认为排序越靠前的蛋白质是关键蛋白质的概率越大.分别统计8种方法在排序前N个蛋白质中识别正确关键蛋白质的数目、识别精度、准确率等,比较各种方法的识别效果.

3.1 比较TGSD算法与其他算法的预测正确的关键蛋白质数目图1中给出了TGSD算法与7种比较算法(DC,BC,NC,Pec,WDC,LBCC和TEGS)在预测排序前100,200,…,600的蛋白质中识别正确的关键蛋白质的个数.

图1 TGSD算法和其他7种算法在排序前100,200,300,400,500,600的蛋白质中识别正确的关键蛋白质数目

图1 (a)展示了在YDIP数据集下的预测效果,图像显示,TGSD算法预测正确的关键蛋白质个数最多,特别是在排序前100和200的蛋白质情况下,关键蛋白质的预测准确率达到了92%和90.5%,相比DC算法的预测准确率46%和41%以及TEGS算法的预测准确率79%和79%,TGSD算法具有明显的优势,并且在排序前600的蛋白质中,TGSD算法的正确识别数目是420,远超过识别数目为391的TEGS算法.

图1(b)给出了在DIP-PPI数据集下各种算法的预测结果.从图中可以看到,在排序前600的蛋白质中,相较于TEGS实现的390个正确预测值、WDC实现的350个正确预测值,TGSD算法正确预测出422个关键蛋白质,预测准确率较TEGS方法提高了8.9%.

类似地,图2中给出了Krogan和Krogan- Extended数据集下8种方法分别在排序前100-600的蛋白质中识别正确的关键蛋白质数目.在这两个数据集中,我们同样看到,TGSD算法的预测数目相较其他7种算法都有很大提升,这也说明在改进TEGS算法的基础上,融入蛋白质结构域数据是一个正确的选择.

图2 TGSD算法和其他7种方法在排序前100,200,300,400,500,600的蛋白质中识别正确的关键蛋白质数目

3.2 使用Jackknife方法进行验证使用Jackknife方法绘制曲线来来评估TGSD算法的有效性.

仿真结果如图3所示,图3(a)和图3(b)分别表示Krogan和DIP-PPI数据集的统计结果.其中,y轴表示排序靠前的蛋白质数量,y轴表示累计识别正确的关键蛋白质数目.从图中可以看出,在8种预测算法中,TGSD算法的曲线排在最高,意味着该方法识别正确的数目最多,这也说明TGSD算法的识别效果最好.

图3 TGSD算法和其他7种算法Jackknife曲线比较结果

3.3 ROC(receiver operating characteristic)曲线ROC曲线分析是评价诊断性试验优劣以及确定临界值的一种方法.其中,x轴表示假阳性率,也称作灵敏度,即非关键蛋白质被错误识别的比例;y轴表示真阳性率,也可看作是1-特异度,即关键蛋白质被正确识别的比例,曲线下方面积越大意味着该方法预测准确度越高.假设每个数据集在相应的8种算法下排序前25%的是关键蛋白质,其余的均为非关键蛋白质.在Krogan和YDIP两个数据集下,如图4所示,TGSD算法对应的ROC曲线所围面积AUC都是最大的,这也意味着TGSD算法的预测效果优于其他7种方法.

图4 TGSD算法和其他7种算法下的ROC曲线和所围面积

3.4 统计评价指标为了进一步评价TGSD算法的性能,本文中采用如下6个统计指标来度量该方法的预测效果并和其他7种算法的预测效果进行比较.这6个统计指标分别为:

1) 灵敏度(sensitivity,SN)表示正确识别关键蛋白质的比例.

(12)

其中,TP(true positive)表示正确识别关键蛋白质的数量,FN(false negative)表示关键蛋白质被误判为非关键蛋白质的数量.

2) 特异性(specificity, SP)表示正确排除非关键蛋白质的比例.

(13)

其中,FP(false positive)表示非关键蛋白质被错误预测为关键蛋白质的数量,TN(true negative)表示非关键蛋白质被正确识别的数量.

3) 阳性预测值(positive prediction value, PPV)表示把候选蛋白质集中的蛋白质正确识别为关键蛋白质的比例.

(14)

4) 阴性预测值(negative prediction value, NPV)表示把排除的蛋白质正确识别为非关键蛋白质的比例.

(15)

5)F-测度(F-measure,F)表示敏感度和阳性预测值的调和平均值.

(16)

6) 正确率(accuracy, ACC)表示正确识别结果的比例.

(17)

以YDIP数据集为例,同样将每种算法下排在前25%的看作是关键蛋白质,其余的看作非关键蛋白质,计算SN、SP、PPV、NPV、F和ACC这6种统计指标. 从表2中可以看出TGSD算法在这6种指标下的识别精度比其他7种算法更高,这进一步说明本研究提出的TGSD算法能够更准确、更有效地识别关键蛋白质.

表2 YDIP数据集下TGSD与其他7种方法的统计指标比较

3.5 参数敏感性分析由于所定义的计算公式(11)中涉及权重参数,选择一个合理的参数值是一个具有挑战性的工作,参数值的大小将直接影响蛋白质结构域信息在TGSD算法中所占的比重.为了验证参数对算法的影响,本文中设置α∈[0,1],步长为0.1,使用Kappa[36]指标作为准则来寻找最优参数值.Kappa指标是检测模型预测结果和实际分类结果是否一致的准则.

(18)

其中,TP、FP、TN、FN定义如上文中所示.

图5 Kappa指标随参数α变化曲线图

同样地,以YDIP数据集为例,选择TGSD算法识别出的排序前25%的为关键蛋白质,结合已知的关键蛋白质信息,计算相应的Kappa指标,做出Kappa指标随参数α变化的曲线图.从图5中可以直观地看出,在参数α取0.1时,TGSD的预测结果与实际分类结果契合度最高.同样,在其他3个数据集中也做出Kappa指标随参数变化的曲线图,结果发现在参数α取0.1或者0.2时,预测结果与实际分类结果契合度最高.

表3和表4分别展示了在YDIP和Krogan-Extended测试集上,在参数α的变化范围内,TGSD算法在排序前100~600的蛋白质中预测正确的关键蛋白质数目.从表3中可以看出在α取值较小时,正确预测的关键蛋白质数目较多,特别是在α取0.1时,排序前300~600的蛋白质中识别正确的关键蛋白质数目最多.在表4中可以看到类似的结果.因此,设置参数α的取值为0.1.

表3 YDIP数据集下TGSD在不同参数α下识别正确的关键蛋白质数目

表4 Krogan-Extended数据集下TGSD在不同参数α下识别正确的关键蛋白质数目

4 结论

设计有效的计算方法从PPI网络中预测关键蛋白质是近些年来计算生物学领域的研究热点.虽然已有学者提出了一系列的算法来预测分子网络中的关键蛋白质,但是由于高通量技术得到的数据具有较高的假阳性且容易受到噪声的影响,目前已有的方法在预测关键蛋白质的精度和效率方面仍有待提高.

本文中将PPI网络的拓扑结构信息与蛋白质亚细胞定位信息、基因本体注释信息以及蛋白质结构域数据进行有效整合,提出了一种识别关键蛋白质的新算法TGSD.为了测试TGSD算法的有效性,选取常用的酵母PPI数据集作为测试集,并将TGSD与其他7种算法进行比较.结果表明无论是正确识别数目还是其他统计指标,TGSD算法都具有明显的优势.因此,将蛋白质结构域数据融入到识别关键蛋白质的方法中是一个正确的选择.随着蛋白质结构域资源的增加,今后我们可以方便地利用结构域信息、蛋白质相互作用网络数据以及其他生物学信息来识别其他物种的关键蛋白质.

猜你喜欢

结构域排序关键
硝酸甘油,用对是关键
排序不等式
高考考好是关键
革兰氏阳性菌蛋白结构域特征分析
恐怖排序
蛋白质结构域划分方法及在线服务综述
节日排序
重组绿豆BBI(6-33)结构域的抗肿瘤作用分析
泛素结合结构域与泛素化信号的识别
生意无大小,关键是怎么做?