关于基因数据的统计学研究
2018-05-14张燕
张燕
[摘 要] 贝叶斯网络有着很好的理论知识和清楚的知识表达形式,是统计学中不确定性研究的一种重要方法,在数据挖掘中有着重要作用。将其引入基因数据的分析中,能较好地构建网络模型,分析各基因间的相互作用与影响,可广泛应用于生物学和肿瘤学的研究,观察疾病所引起的基因表达变化,并找出重要作用的变量基因。
[关 键 词] 基因数据;统计学;结构学习
[中图分类号] G648 [文献标志码] A [文章編号] 2096-0603(2018)16-0137-01
随着人类基因组序列草图的完成,有关功能基因组的研究在生命科学领域中占据越来越重要的地位。阐明基因选择性表达所依赖的调控信息及其相互作用的分子机制,成为揭示生命现象本质的核心问题,是功能组研究的重要内容。随着基因组学研究的深入展开,基因的表达调控研究已经从单个基因、线性的调控拓展到立体层面上多基因、基因簇乃至整个基因组的调控网络。如何有效地利用已有的基因组学数据,充分整合多学科的思路,建立新的试验系统和技术体系,阐明基因组表达的调控网络,分析基因之间的相互制约关系,已经成为功能基因组学领域内国际竞争的焦点。
贝叶斯网络方法将概率理论知识与图论结合,其有图形化表示、因果关系清晰以及不确定性推理等优点,本文将贝叶斯网络引入基因数据中并进行分析,从概率角度描述了各基因间的依赖关系,从而阐明了整个基因组之间的调控网络。
一、对基因数据的预处理
贝叶斯网络的结构学习是一个NP-Hard问题,而构建网络结构最常见的方法是在结点变量的顺序已经确定的情况下,采用局部搜索算法。在基因表达谱数据中,由于没有任何先验知识,本实验中对网络的构建使用的是K2算法,而K2算法需要预先知道网络变量的先后顺序,本文将重点介绍决策树算法,将ID3算法用于确定各结点的顺序。
二、结构学习
在建模之前需要完成的最后一步工作是需要把样本数据分成训练集和检验集,分别用于训练检验和模型检验。数据经过离散化之后,除去预留几个样本的各基因表达情况用作模型验证,其余的样本作为训练集导入实验软件matlab中。
在网络拓扑结构的构建过程中,最大父结点个数的设置问题直接影响了所得网络的规模与结构。随着父结点个数越多,所得的网络结构就越复杂,虽然能更多地揭示各结点之间的相互关系,但是计算复杂性越高,学习时间也将大大增加,同时基因之间的相关性也被扩大,可能会有不必要的有向弧也出现在网络中的情况,从而可能会引入不必要的关联。在实验中我们逐渐增加父结点的个数,会出现由于网络过于复杂而程序运行时内存不足的情况,此时程序无法运行下去。
由于贝叶斯网络拓扑结构常常存在贝叶斯等价类,而在没有先验知识的情况下,贝叶斯等价类所代表的网络拓扑结构可以看成是表示了相同的联合分布,所以本文还可以通过学习得到与上图互为等价的网络拓扑结构,继而得到相应的连接矩阵,通过比较分析得到部分变量之间的有向弧的方向可以反转。因此在没有任何先验知识的情况下,可以根据K2得到的网络结构进一步进行参数学习;如果通过其他方法获得了一定的先验知识,比如实验,则可以根据等价的拓扑结构,改变相应的变量间的有向弧的方向,得到最新的网络拓扑结构。因此我们可以找到等价的网络拓扑结构。本文利用贝叶斯网络的等价类知识,并利用BNT,可以构造出Cpdag邻接矩阵,并从矩阵中找到可以反转的部分有向弧。Cpdag邻接矩阵中如果(i,j)=1,(j,i)=1,则变量i与变量j的连接弧是可反向的,从而可以得到所有可以反向的弧。
三、参数学习
1.完整数据的参数学习。本研究是通过研究网络拓扑结构中各结点的父结点、子结点的数目以及各结点间的有向弧寻找在网络中起到关键性作用的变量结点,这对网络的认识理解有关键性的帮助作用。
2.已知网络结构时缺失数据下的参数学习。对于含有缺失值的情况,由于此时不能用MLE直接估计,所以采用EM算法进行MLE参数估计。由于EM算法本身需要设置迭代的次数以及迭代的阈值,也就是两次迭代的对数似然比log-likelihood的相差值。分别随机设置几个不同的缺失值,并设置含缺失值的迭代次数,即可最终所得的log-likelihood值。EM算法对含有缺失值的数据有较好的处理能力,只是当缺失值比较多时,需要迭代的次数较多,但依旧不影响其收敛性。
通过对完整数据集和不完整数据集求参数估计,完整数据集与不完整数据集都能判断出父结点对子结点的调控作用,同时两种方法的学习结果是相同的:独立地判断了父结点对子结点的促进或抑制作用,且对子结点起促进作用的结点多,起抑制作用的结点少。
3.未知网络结构时缺失数据下的参数学习。同结构已知,含有缺失值的数据的情况类似,我们将完整的基因数据随机设置一定的缺失值,并使用SEM算法同时进行网络拓扑结构和参数结构的学习。
四、模型验证
1.考虑在完整数据集时。
2.考虑在已知网络结构、存在缺失数据时。
3.考虑在网络结构未知、存在缺失数据时。
在贝叶斯网络模型的构建中,我们已经留出几个样本进行模型验证,考虑关键结点的预测表达情况。
本文完整地研究了在完整数据集和含缺失数据集的情况下的贝叶斯网络的结构学习和参数学习的过程,最终得到了基因间依赖关系的网络,并表达了基因间的调控作用。最后通过模型验证证明了整个学习过程的合理性。
参考文献:
[1]黄解军.贝叶斯网络结构学习及其在数据挖掘中的应用研究[D].武汉大学,2005:1-80.
[2]邓勇施,文康,陈良州.基于模型诊断的贝叶斯解释及应用[J].上海交通大学学报,2003,37(1):5-8.