延迟效应重构网络算法研究
2015-09-23刘飞
刘飞
摘 要: 大量调控网络重构的模型和方法被研究,但是数据大小对算法精度的影响问题涉及很少。通过研究数据尺寸大小对延迟信息论方法构建基因调控网络精度的影响,表明基因调控网络构建的精度会在一定数据尺寸规模下达到一个稳态。为了克服互信息的一些缺点,引入了多时延互信息值计算两个基因之间的调控关系,构建的基因调控网络取得了很好的查全率和查准率。并用真实的生物分子网络进行测试,实验表明,基于多时延的策略在构建基因调控网络中扮演了一个重要角色。
关键词: 延迟效应; 网络重构; 信息论; 基因表达数据
中图分类号: TN711?34 文献标识码: A 文章编号: 1004?373X(2015)17?0124?03
Research on network construction algorithm with delayed effect
LIU Fei
(Institute of Physics and Optoelectronics Technology, Baoji University of Arts and Science, Baoji 721016, China)
Abstract: Since a large number of models and methods of gene regulatory network (GRN) construction have been studied, the problem of data size influencing on the accuracy of the algorithm involved little. Data size influencing on the accuracy of GRN constructed by delayed information theory is studied. The experimental results show that the accuracy the GRN construction can reach the steady state in a certain data size. To overcome some defects of mutual information, the mutual information value with multi?delay is introduced to calculate the regulatory relations between two genes. The constructed GRN obtained better recall ratio and precision ratio. The actual biology molecular network is tested. The experimental results verify that the multi?delay scheme plays an important role in constructing GRN.
Keywords: delayed effect; network reconfiguration; information theory; gene expression data
0 引 言
基因调控网络(Gene Regulatory Network,GRN)是目前生物信息学研究的一个热门领域。GRN的构建对揭示基因功能,解析基因间的相互作用,理解支配基因表达,认识生命活动的规律和一些疾病发病机理和相关药物设计上有很重要的意义。大量基因调控网络的构建方法被提出,如:动态的贝叶斯网络[1]、偏微分方程模型[2]、信息论模型[3]、统计回归模型等。文献[4]首次提出了动态贝叶斯网络的概念,用它来分析构建GRN发现基因之间存在着一定的时延调控,一些研究还表明,不同的基因之间存在不同的时延调控。本文首先研究了基因时序数据尺寸大小对网络构建精度的影响,使其在最小的数据尺寸下得出最大的网络构建精度,以此来降低算法的时间和空间复杂度。其次,研究采用多时延的策略,用互信息和延时的互信息方法构建基因调控网络,结果显示延时的互信息方法对构建基因调控网络在精度上有明显的提高。
1 实验数据集和理论方法
本文基因数据来自文献[5],其实验数据提供了完整的酵母细胞周期基因表达数据,数据包含了elutriation,alpha?factor,cdc28和cdc15四种时序表达基因数据,它们分别有14,18,17和24个时间点,其中alpha?factor数据集的时间点比cdc28和elutriation的都多一些,而且它的数据相对比较完整,综合考虑,本文选取alpha?factor的实验数据集构建基因调控网络。
1.1 时延效应的度量
文献[6]研究了基因之间的互信息值越大,则在生物学意义上它们的调控关系越密切。基因的转录表达数据往往是在同一个时刻进行测量的,但是不同的基因之间调控可能存在不同的时间延迟。给定基因[X,Y]的时序表达谱数据分别为:[X=(x[1], x[2], … , x[m]),Y=][(y[1], y[2], … , y[m])],这里[m]代表时间点数。假定[τ]为基因[X]和[Y]之间的时间延迟,[τ=0, 1, 2, … ,m-1。]取[X(τ)=(x[1], x[2], … , x[m-τ]),][Y(τ)=(y[τ+1], y[τ+2], … , y[m]),]根据互信息的公式,在给定[m]值的情况下,可计算出基因[X,Y]之间的互信息[I(X(τ):Y(τ))],当互信息[I(X(τ):Y(τ))]的值最大时,[τ]值作为基因[X,Y]之间的调控转录时延。
1.2 互信息的定义
信息熵是一个随机变量的平均不确定性,它用[H]表示,[p(Xi)]为[Xi]出现的概率,其公式如下:[H(X)=-p(Xi)logp(Xi)] (1)
基因的时序数据表示为[(X1, X2, …, Xm),]一般计算熵时所有的数据时间点都被采用,而本文中采用了多时延的概念,计算时只采用了[m-τ]个时间点,基因[X]和[Y]计算熵时采用的数据为[X(τ)=(x[1], x[2], … , ][x[m-τ])],[Y(τ)=(y[τ+1], y[τ+2], … , y[m])]。
基因[X]和[Y]之间的联合熵(Joint Entropy)被定义为:
[H(X,Y)=-p(Xi, Yi)logp(Xi, Yi)] (2)
基因[X]和[Y]之间的互信息(Mutual Information)被定义为:
[I(X,Y)=H(X)+H(Y)-H(X,Y)] (3)
2 结果仿真
2.1 数据量大小和网络构建精度的关系
采用文献[7]的网络基因时序数据构建网络,并和原始的真实网络进行比对,得出构建网络的查准率和查全率。不同基因数用不同时间点构建网络得到的查准率和查全率如图1,图2所示。在图1中20个基因的网络查准率一直在增加;在40个时间点时达到最大值;在50个时间点以后查准率一直处于一个平稳的状态;30个基因点的网络查准率在整个过程中一直波动缓慢上升;50个基因点的网络查准率在45个时间点以后基本处于平稳状态,图2亦然。
为了进一步说明基因时序数据尺寸大小对网络推断精度的影响,提出用查全率和查准率的比值来度量网络构建的精度,如图3所示。20个基因的网络查全率和查准率的比率一直在下降,当取50个时间点时其比率基本趋于稳定状态。对于40个基因的网络构建来说,当时间点取到50个以上时,其网络构建的精度基本保持不变,时间点取得越多只会增加算法的时间和空间复杂度。这样就可以在基因时序数据尺寸最小的情况下取得网络构建的最大精度。
2.2 真实网络模拟
由完整的酵母细胞周期基因表达数据来构建基因调控网络,如图4所示,分别列出了用互信息构建的网络和用时延互信息构建的网络,实线表示预测正确的边,虚线表示预测错误的边,箭头表示基因调控的方向。网络预测的结果用敏感度(Sn),特异度(Sp)和精确度(Acc)指标来衡量,其公式定义为:[Sn=TP(TP+FN),][Sp=TN(FP+TN),][Acc=(TP+TN)(TP+FP+TN+FN) 。]网络中用TLMI方法识别出正确的边数多了1条,识别出错误的边数少了3条,因此它的特异度从88.05%增加到89.53%,精确度从73.64%增加到77.27%。因此得出用TLMI方法比MI方法在基因调控网络构建精度上明显提高,TLMI对基因调控网络构建精度是一个更好的衡量指标。
3 结 论
本文首先研究了基因时序数据尺寸大小对网络构建精度的影响,研究显示,数据尺寸的大小在网络构建精度中扮演了一个很重要的角色。目标是在最小的数据尺寸下得出最大的网络构建精度,以此降低算法的时间和空间复杂度。其次研究了用互信息和延时互信息方法构建基因调控网络,结果显示,采用多时延的策略下,基因之间多时延的转录调控对网络构建有很大影响,延时的互信息方法对构建基因调控网络在特异度和精确度上都有明显的提高。
参考文献
[1] YOUNG W C, RAFTERY A E, YEUNG K Y. Fast Bayesian inference for gene regulatory networks using ScanBMA [J]. BMC Systems Biology, 2014, 8(47): 324?335.
[2] LI Z, LI P, KRISHNAN A, et al. Large?scale dynamic gene regulatory network inference combining differential equation models with local dynamic Bayesian network analysis [J]. Bioinformatics, 2011, 27(19): 2686?2691.
[3] ZHANG X, ZHAO X M, HE K, et al. Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information [J]. Bioinforma?tics, 2012, 28(1): 98?104.
[4] MURPHY K, MIAN S. Modelling gene expression data using dynamic Bayesian networks [R]. Berkeley: University of California, 1999.
[5] SPELLMAN P T, SHERLOCK G, ZHANG M Q, et al. Comprehensive identification of cell cycle?regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization [J]. Molecular biology of the cell, 1998, 9(12): 3273?3297.
[6] BUTTE A J, KOHANE I S. Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements [J]. Pacific Symposium Biocomputing. 2000, 5(2): 415?426.
[7] ZHAO W, SERPEDIN E, DOUGHERTY E R. Inferring gene regulatory networks from time series data using the minimum description length principle [J]. Bioinformatics, 2006, 22(17): 2129?2135.