基于贝叶斯网络方法的基因表达谱数据研究
2022-03-29张燕胡刚
张燕 胡刚
摘 要:贝叶斯网络方法将概率理论知识与图论结合,其有图形化表示、因果关系清晰以及不确定性推理等优点, 将贝叶斯网络引入到高通量基因表达谱数据中并进行概率推理,从概率角度描述了各基因间的依赖关系,从而阐明了整个基因组之间的调控网络。贝叶斯网络模型本身具有强大的推理机制和解释功能,通过测定DNA序列,分析基因表达谱数据,完成序列分析、结构预测及进化分析等,实现了贝叶斯网络在生物信息学领域的应用。
关键词:贝叶斯网络;基因;生物信息学
一、引言
生物信息学是随着人类基因组计划的启动而兴起的一门新的交叉学科,主要涉及生物学、数学及计算机科学等。它的研究对象是分子生物学数据库,通过使用多种学科理论及工具,对海量的原始序列数据进行收集、存储、加工、处理、解释和传播并从中发现新的规律而获取生物学新知识,进而揭示“基因组信息结构的复杂性及遗传语言的根本规律”[1]。
随着测序技术的发展,测序成本不断降低,使得高通量测序逐渐成为生命科学研究的常规实验。然而测序产生的高通量基因表达谱数据正以爆炸式的速度增長,研究者们试图从对这些数据的分析中得到传统生物学方法无法得到或难以得到的信息。随着基因表达谱数据量的增大,生物计算对于运算速度、数据存储、计算成本等方面的要求也越来越高。而贝叶斯网络[2]解决了这一问题。贝叶斯网络方法将概率理论知识与图论结合,其有图形化表示、因果关系清晰以及不确定性推理等优点,很好地满足了这些要求。
高通量基因表达谱数据由于惊人的增长速度而形成的对存储能力和计算能力超常规的增长要求,使得生物信息学领域区别于其他行业,对技术有更高要求,也使得越来越多的数学家、生物学家和计算机学家认识到准确处理生物信息的必要性和迫切性。
将贝叶斯网络引入到高通量基因表达谱数据中并进行概率推理,从概率角度描述了各基因间的依赖关系,从而阐明了整个基因组之间的调控网络。同时贝叶斯网络模型本身具有强大的推理机制和解释功能[3],通过测定DNA序列,分析基因表达谱数据,完成序列分析、结构预测及进化分析等,实现了贝叶斯网络在生物信息学领域的应用。
基因表达谱数据是“天然”的大数据,计算分析的价值会超过测序本身,与贝叶斯网络和大数据技术的结合是大势所趋。作为国内测序巨头,华大基因股份有限公司CEO尹烨说过,“基因测序为生物技术带来的改变,为生命创造的价值,值得我们为之努力”。
二、国内外研究现状分析
生物信息学概念的萌芽最早起源于1956年在美国田纳西州盖特林堡举办的“生物学中的信息理论研讨会”上,该会议探讨了生物学和信息理论研究的结合问题。1977年Sanger通过他发明的DNA序列快速测定法确定了第一个完整生物的DNA顺序。随着DNA序列数据的日益增长,如何有效地存储加工分析利用日益增多的DNA序列数据成了迫切需要解决的问题。
近几年,一系列数据库的诞生和互联网的推广应用使得存储大规模序列数据的物质条件基本成熟, 对于大规模数据的服务和利用也取得了实际经验。随着人类基因组计划的顺利进行,基因组研究的重心已经转移到了功能基因组学, 而基因表达谱数据为此提供了最好的技术平台,利用基因表达谱数据进行的表达水平检测可自动、快速、高效地检测成千上万个基因的表达情况。通过检测基因表达谱数据的表达水平, 可以进行肿瘤诊断、类型预测、基因调控网络等研究。
随着微阵列技术的发展和微阵列实验数据的不断积累,研究者们转向通过对基因间相互关系的研究,重构基因调控网络, 进一步找到是哪些基因的共同或相互作用导致了这一个基因的表达异常,从而探索疾病发生、发展的根源和机制。
迄今为止,研究基因网络的模型很多,也有不同的分类方法:离散网络模型(如Boolean network model)和连续网络模型(如Corelation metric construction, CMC),确定型网络模型和随机网络模型,定量网络模型和定性网络模型等[4]。
目前国外许多学者和研究结构都对贝叶斯网络进行了深入的研究主要集中在以下几个方面:基于贝叶斯网络的推理;基于贝叶斯网络的学习;基于贝叶斯网络的应用;数据挖掘中贝叶斯网络的建造。
目前,随着高通量测序技术的快速发展,生物信息学进入组学时高通量基因表达谱数据海量生物数据的存储和分析等问题亟待需要利用贝叶斯网络来解决。
贝叶斯理论起源于Reverend Thomas Bayes 发表的论文“关于几率性问题求解的评论”。20世纪50年代, 以Robbins为代表提出了将经验贝叶斯方法和经典方法相结合, 这引起统计界的广泛关注。1958年英国历史最悠久的统计学杂志Biometrika又一次全文刊登了Bayes的论文。之后,Pearl等提出了贝叶斯网络,并且将贝叶斯网络应用到人工智能方面进行概率推理,在此基础上并将贝叶斯网络成功应用于专家系统等领域, 使得贝叶斯网络成为不确定专家知识和推理的重要方法之一,这是十多年来在这些领域的一个研究热点。近几年,贝叶斯方法成为数据挖掘和机器学习、用户智能交互、信息重获、医疗诊断等的一个重要研究方向。
贝叶斯网络的发展经历了以下几个阶段:首先,建立了贝叶斯网络的基础理论知识体系和对不确定性推理的研究; 其次,研究了如何根据数据以及专家知识建立贝叶斯网络的问题,并研究出许多经典的贝叶斯网络学习算法; 最后,人们将许多领域的实际问题引入到贝叶斯网络中。目前,贝叶斯网络已经被广泛地用于解决许多领域的大量实际问题中,并且取得了较好的效果。
三、结论
贝叶斯网络模型本身具有强大的推理机制和解释功能,通过测定DNA序列,分析基因表达谱数据,完成序列分析、结构预测及进化分析等,实现了贝叶斯网络在生物信息学领域的应用。
参考文献:
[1] 陈竺, 基因组科学与人类疾病 [M], 北京: 科学出版社, 2000.
[2] Gao Meihan, Cong Haibo, Li Chuancheng, et al. Comparison of Efficacy and Safety of Complementary and Alternative Therapies for scapulohumeral periarthritis: A protocol for Bayesian network meta-analysis[J]. Medicine, 100(18): 57--69, 2021.
[3] Chen Cheng, Chen Qiuwen, Li Gang, et al. A novel multi-source data fusion method based on Bayesian inference for accurate estimation of chlorophyll-a concentration over eutrophic lakes[J]. Environmental Modelling & Software, 141: 105--117, 2021.
[4] 王翼飞, 史定华, 生物信息学[M], 化学工业出版社, 260--262, 2006.