microRNA靶基因预测算法的研究与发展
2018-03-02郭茂祖武雪剑
程 爽, 郭茂祖, 武雪剑
(哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150001)
引言
MicroRNAs(miRNAs)是一类长度约19—22nt的非编码单链RNA分子,是后转录表达过程的重要角色[1]。miRNAs绑定在RNA沉默复合物(RISC)上,引导该复合物与靶标mRNAs上的特殊位点配对,控制mRNA降解或抑制蛋白质翻译。目前的生物实验已证实miRNA广泛存在生物体中,一个miRNA能调控超过100种mRNA。同时,人体中有超过60%的蛋白编码基因的mRNA 3’UTR区域包含有miRNA结合位点。研究发现,miRNA优势调控了大量的细胞进程,包括细胞增殖、新陈代谢和死亡,这就充分说明了miRNA在动物体内基因调控过程中的现实重要性[1]。然而到目前为止,miRNA与基因的靶向规则依然未能收获最高研究成果,为了揭示miRNA的功能,识别miRNA靶向机制以及靶标基因即已成为当前亟待解决的问题。具体分析可知,miRNA的研究一直以来就十分活跃,与miRNAs相关的文献发表数量也逐年攀升,值得一提的是,miRNAs靶向基因的识别方法在2003年以后即获成熟实现与高效提出。比如一些文章集中研究生物学原理及检验方法[2-3],生物实验技术和计算预测算法[4-6]。近期,大量文献又深度探讨了miRNA-mRNA的相互作用机制[7-10]。
本文首先介绍最近发表的miRNA靶向基因预测算法,总结miRNA目标预测的研究进展。miRNA靶向基因预测算法主要分为2类:ab initio计算方法和机器学习方法,依据这一分类,本文综述了具有代表性的方法,最后,讨论目前的挑战和未来方向。
1 实验数据
目前用于存放和共享miRNA-mRNA交互实验数据的数据库已经被开发、并成功创立。TarBase[11]数据库始建于2006年,经过不断的发展,目前版本为TarBase v7,其中收录了近50万的miRNA-gene的交互数据。TarBase提供了关于每个交互的更多细节,并且可以基于使用的实验技术,调控类型(上调,下调与位置)与交互类型。miRecords[12]发布于2008年,迄今为止,该数据库中收录了由644miRNAs和1 901个靶基因组成的大约2 705条记录。miRTarBase[13]收集miRNA-mRNA交互并且将miRNA-mRNA相互作用分为4类,包括功能性的、弱功能性的(非直接实验支持)、非功能性的和弱非功能性的,依赖于所用实验技术的力量和交互的类型(积极的和消极的)。这种分类方法适用于关联研究。starBase[14]重点选取了CLIP-seq数据,该类型的数据包含转录组范围规模上的mRNA-miRNA-Argonaute复合物的交互位点。PMRD[15]是一个关于植物microRNA数据库,包含了miRNA序列、miRNA的靶基因、二级结构、表达谱和基因组信息等。miRNAMap[16]数据库则动态集成了实验证明的人类的、小鼠、大鼠以及其他多细胞动物的miRNA靶基因。
2 miRNA靶向特征
miRNA靶基因识别的关键步骤是有效特征的选择。时下,经过研究发现了大量的特征,但是目前只有一些通用miRNA-mRNA靶向规则获得学界认可,并相继应用在各种靶基因预测算法中。考虑miRNA和mRNA交互种子区域的重要性,即使得常规分类多呈现为种子区域和非种子区域,其中,种子区域的miRNA序列则尤其重要[17],大量实验又进一步发现了种子区域的强互补性。同样,非种子区域在双重交互和加强吸引力方面也已成为一个重要角色,发挥出色作用[18]。其次,描述相互作用强度的最小自由能也展现了miRNA-mRNA普遍具有的特征[19]。第三,miRNA与靶基因的结合位点的序列具有明显保守性,甚至是跨物种的保守性[20]。
3 计算方法
自2003年以来,miRNA靶向基因预测算法的研究已经历了十余年的发展历程。当前基于结构特征的预测算法可划分为2类:ab initio计算方法和机器学习方法。总地来说,最初提出的算法都是属于ab initio类型,这些算法均是基于实验得出的结构特征来指引预测[20-25]。另一方面,机器学习方法[26-34]则是基于实验训练集的相似度来识别候选靶向目标,部分原因可归结为:机器学习算法本就是在实验支持的靶向交互数据数量显著增多时才应运而生的。下面即对上述2类中的代表性研究成果进行逐一阐述及对比剖析。
3.1 ab initio方法
(1)miRanda[20]。适用范围广泛,不受物种限制。该算法考虑序列匹配,miRNA-mRNA双链的热稳定性以及靶位点的跨物种保守性。其中,为了体现miRNA3’端、5’端和靶基因作用过程中的不对称性,该软件提出了scale参数。同时强调miRNA第2~4位碱基和靶基因精确互补,第3~12位碱基和靶基因错配不得多于5个等特征。
(2)TargetScan[17]算法。对靶基因跨物种保守性和miRNA-mRNA双链二聚体热力学特征做出限制。需要至少6nt的种子互补并且考虑种子类型。TargetScan发布的最新版本添加了一些额外的约束条件,例如种子配对稳定性和目标位点丰富性。
(3)PicTar[23]算法。关于种子区域制定了严格的要求,强调miRNA-mRNA二聚体结合能在靶基因翻译抑制中的关键作用。同时也要一并考虑基于最小自由能的miRNA-mRNA双链稳定性。一旦位点匹配,可采用隐马尔科夫模型给候选靶位点评分。
(4)RNA22[35]算法。是基于模式的发掘策略来识别候选目标。该算法强调miRNA-mRNA二聚体的互补匹配特性和自由能,但不考虑靶基因的跨物种保守性。首先,马尔科夫链用于模式发现,识别与miRNA匹配的目标区域。其次,基于用户设定的参数(配对碱基极小值,未配对碱基极大值,允许自由能的极大值)来选择候选靶向区域。
(5)RNAhybrid[36]算法。基于miRNA-mRNA二聚体二级结构的最小自由能这一特征,不仅考虑靶向结合位点的能量,也考虑miRNA-mRNA双链的能量,但不再关注靶基因的跨物种保守性。RNAhybrid允许用户自定义自由能阈值及p值,也允许用户设置杂交位点的偏好等特征。
(6)PITA[37]算法。不仅考虑特定二聚体互补匹配信息,还引入了mRNA位点的可接近性。可接近性表示了整个二聚体的最小自由能与互补匹配区域的原始能量ΔΔG之间的区别。用户能够强加不同的限制来减少候选合成集合(最小种子序列长度,G∶U错配与未配对个数)。
(7)EiMMo[25]算法。使用贝叶斯方法来给候选靶向位点打分,研究直系同源物种之间靶向位点的演化,并推断功能性靶向位点的系统分布。
(8)DIANA[38]算法。基于以下2点来判别miRNA靶基因:
① miRNA和靶基因间的高亲和力,主要通过结合能来衡量;
② 影响miRNA和靶基因所形成二聚体茎环结构环部位置和环大小的miRNA相关蛋白可能指导miRNA和靶基因的相互作用。同时,衡量每个基因时,不仅考虑保守位点,也包括不保守的位点。
在此,研究可得如上各类方法的主题网址及实用预测结果的对照比较,具体见表1。通过上述内容分析可知,ab initio算法的不足是预测的结果假阳性颇高。其有效的技术策略是,通过上述内容分析可知,ab initio算法使用严格的限制条件来减少假阳性预测结果的数量。然而,过滤也会使一些真正的靶基因发生丢弃。比如PicTar,TargetScan和DIANA,为了获取可观的正确度(约50%),这些算法具有显著妥协的敏感度(约10%)。而机器学习算法是实验支持的反例数量偏低(反例通常不会公开发布并且不会记录在数据库中),导致正例和反例数量未臻均衡,影响分类模型的预测准确度。因此,接下来在分述机器学习算法的同时,也将全面拓展式地概述了这些方法所用的数据。
3.2 机器学习方法
(1)TargetBoost[26]算法。采用GPboost模型,考虑miRNA-mRNA二聚体的序列互补配对、热力学稳定性、跨物种保守性等特征,预测线虫和果蝇miRNA的靶基因。用于训练的反例数据集包含300个随机生成的序列,而正例数据集包含36个实验验证的miRNA-mRNA靶向关系。
(2)miTarget[27]算法。采用支持向量机方法,使用径向基函数,预测目标候选。其中考虑miRNA-mRNA二聚体的结构特征、热力学特征及碱基互补匹配等特征,但并未考虑靶基因的跨物种保守性。用于训练支持向量机的反例数据集包括83个实验验证miRNA-mRNA靶向关系和163个通过实验数据推理得出的miRNA-mRNA靶向关系,正例数据集包括152个miRNA-mRNA靶向关系。
表1 预测miRNA靶基因的代表性ab initio方法Tab. 1 ab initio methods for miRNA target prediction
(3)Ensemble[28]算法。首先利用miRanda从miRNA-mRNA双链中提取特征,之后采用多核SVM进行预测。正例数据集包含48个实验验证的miRNA-mRNA交互,反例数据集包含16个实验验证的反例miRNA-mRNA交互。
(4)NBmiRTar[29]算法。首先利用miRanda基于自由能和互补匹配的过滤条件筛选候选靶基因,之后利用朴素贝叶斯分类器计算每个候选靶基因的得分。反例数据集由38个实验验证的和133 316个人工选择的候选靶位点组成,正例数据集由225个实验验证的miRNA-mRNA交互组成。
(5)MiRTif[31]算法。首先综合了miRanda,PicTar和TargetScan这3种预测方法得到的各种特征得分。然后使用支持向量机方法预测候选靶基因,核函数采用径向基函数。正例数据集包含195个实验验证的靶向交互,反例数据集包含了21个实验验证的和17个假定的靶向交互。
(6)TargetMiner[32]算法。首先基于种子区域互补匹配的特性,选取合适的靶向位点,并得出相应的特征得分。然后以此为依据,使用支持向量机模型预测靶基因,核函数采用径向基函数。正例数据集包含764个靶向交互,反例数据集包含59个实验验证的和289个假定的靶向交互组成。
(7)MTar[33]算法。选择了3类区域的靶向位点,计算相应区域miRNA-mRNA交互的特征得分(仅5’种子区域,5’种子区域占主要低位和以3’区域为主),然后使用人工神经网络预测候选靶基因。正例数据集包含340个miRNA-mRNA靶向交互,反例数据集包含400个随机的miRNA-mRNA靶向交互。
(8)TargetSpy[34]算法。首先生成候选靶向结合位点,对候选靶向位点排序。并计算候选靶向位点的碱基组成,结构特征以及碱基匹配互补等特征得分。正例集包含3 872个样本,反例集合包含4 540个样本。
(9)miREE[39]算法。首先利用遗传算法来生成一个序列集合,之后利用支持向量机模型,采用径向基函数,来预测候选靶基因。正例数据集包含324个靶向交互,反例数据集包含351个靶向交互。
(10)Target-align[40]。是一个基于Smith-Waterman的miRNA靶基因预测软件。为了得到局部最优排列,Target-align依据碱基互补匹配程度构建了得分矩阵,并采用动态规划算法预测miRNA靶基因。
(11)miRTDL[41]算法。考虑了miRNA-mRNA之间的互补匹配性、可接近性、保守性等特征。实验选择了1 297个实验验证的正例样本,309个实验验证的反例样本,由于反例样本数量远远少于正例样本数量,因此,该算法首先利用约束松弛方法构建了均衡的正、反例数据集,之后采用深度学习模型,预测miRNA的靶基因。
至此,各种算法关联的主题网址及机器学习方法的整体展现可见表2。
表2 预测miRNA靶基因的代表性机器学习方法Tab. 2 Machine learning methods for miRNA target prediction
综上可知,这些方法大多利用miRNA和基因的二级结构层面的序列、能量等特征,选用计算方法识别miRNA的靶基因。近年来,还有一些研究者利用miRNA表达谱数据或生物通路,以求通过表达值或miRNA在通路中的变化,来研究miRNA与基因的靶向关系。
3.3 其它方法
(1)MiRonTop[42]软件。利用DNA微阵列数据和高通量测序数据来识别特定生物过程中潜在的miRNA靶基因,并设计了一定在线服务。用户通过这个软件可以快速查询由其它软件预测得出的靶基因。同时,通过调查靶位点在3’非编码区域的位置,该软件能够将候选靶基因通过富集分析得到的最终得分提供给用户。
(2)miRTar[43]软件。分析了各种通路情况来识别基因转录本上的miRNA靶位点,并依据靶基因所在的生物通路来阐释miRNA的生物功能。这个软件通过分析特定通路来识别感兴趣的miRNA和基因之间的调控关系,进而阐释生物通路中miRNA真实发挥的具体作用。
(3)mirSOM[44]软件。利用自组织图(self-organizing map)聚类方法,对3’非编码区域的序列进行聚类,该方法不仅能识别种子区域完美匹配的靶位点,也能发现不完美匹配的靶位点。
(4)文献[45]。分别将关联模型(Pearson)、因果推理模型(IDA)和回归模型(Lasso)应用到表达数据上,将得到的3类结果进行综合集成分析,由此证明集成方法与使用任一种模型的运行设计相比,集成方法的实验结果均占据了明确优势。
(5)文献[46]。通过研究表达谱数据,分析miRNA和基因在不同通路中的表达情况,利用统计分析来确定miRNA的靶向基因。结果证明有21个miRNA在重叠的通路中得到了探知发现。
4 结束语
时下,虽然已经推出了大量的数据库和预测软件来预测miRNA的靶基因,但是其中的大部分却都具有较高的假阳性,因此,预测miRNA的靶基因仍是学界的挑战性研究课题。当今研究已经引入了保守性和功能相似性来降低假阳性结果,但应该指出靶基因预测准确率也同样存在着可观的提升完善空间。比如,可以参考各种疾病通路,依据miRNA和基因在通路中的表达,来筛选候选靶基因。其次,随着生物实验的高端推进,会有越来越多的靶向规则将进入学界视野,这也将显著提高miRNA靶基因预测的准确性。另外,随着高通量技术的飞速发展,使得短时间内识别特定miRNA的靶基因终将成为现实可能。
[1] BARTEL D P. MicroRNAs: genomics, biogenesis, mechanism, and function[J]. Cell, 2004,116(2):281-297.
[2]CAI Y, YU X, HU S, et al. A brief review on the mechanisms of miRNA regulation[J]. Genomics Proteomics Bioinformatics, 2009,7(4):147-154.
[3]MENDES N D, FREITAS A T, SAGOT M F. Current tools for the identification of miRNA genes and their targets[J]. Nucleic Acids Res, 2009,37(8): 2419-2433.
[4]ALEXIOU P, MARAGKAKIS M, PAPADOPOULOS G L, et al. Lost in translation: An assessment and perspective for computational microRNA target identification[J]. Bioinformatics, 2009,25(23):3049-3055.
[5]WITKOS T M, KOSCIANSKA E, KRZYZOSIAK W J. Practical aspects of microRNA target prediction[J]. Curr Mol Med, 2011,11(2):93-109.
[6]MIN H, YOON S. Got target? Computational methods for microRNA target prediction and their extension[J]. Exp Mol Med, 2010,42(4): 233-244.
[7]OROM U A, LUND A H. Experimental identification of microRNA targets[J]. Gene, 2010,451(1/2): 1-5.
[8]JIN H, TUO W, LIAN H, et al. Strategies to identify microRNA targets: New advances[J]. N Biotechnol, 2010, 27(6):734-738.
[9]THOMSON D W, BRACKEN C P, GOODALL G J. Experimental strategies for microRNA target identification[J]. Nucleic Acids Res, 2011, 39(16): 6845-6853.
[10]REYES-HERRERA P H, FICARRA E. One decade of development and evolution of microRNA target prediction algorithms[J]. Genomics Proteomics Bioinformatics, 2012,10(5):254-263.
[11]VLACHOS I S, PARASKEVOPOULOU M D, KARAGKOUNI D, et al. DIANA-TarBase v7. 0: Indexing more than half a million experimentally supported miRNA: mRNA interactions[J]. Nucleic acids research, 2015,43( D1):153-159.
[12]XIAO F, ZUO Z, CAI G, et al. miRecords: An integrated resource for microRNA-target interactions[J]. Nucleic Acids Res, 2009, 37(Database issue): 105-110.
[13]HSU S D, LIN F M, WU W Y, et al. miRTarBase: A database curates experimentally validated microRNA-target interactions[J]. Nucleic Acids Res, 2011,39(Database issue):163-169.
[14]YANG J H, LI J H, SHAO P, et al. starBase: A database for exploring microRNA-mRNA interaction maps from Argonaute CLIP-Seq and Degradome-Seq data[J]. Nucleic Acids Res, 2011,39(Database issue):202-209.
[15]ZHANG Z, YU J, LI D, et al. PMRD: Plant microRNA database[J]. Nucleic Acids Res, 2010,38(Database issue):806-813.
[16]HSU S D, CHU C H, TSOU A P, et al. miRNAMap 2.0: Genomic maps of microRNAs in metazoan genomes[J]. Nucleic acids research, 2008,36(suppl 1):165-169.
[17]LEWIS B P, BURGE C B, BARTEL D P. Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microRNA targets[J]. Cell, 2005,120(1):15-20.
[18]BARTEL D P. MicroRNAs: Target recognition and regulatory functions[J]. Cell, 2009,136(2):215-233.
[19]MÜCKSTEIN U, TAFER H, HACKERMÜLLER J, et al. The-rmodynamics of RNA-RNA binding[J]. Bioinformatics, 2006,22(10):1177-1182.
[20]ENRIGHT A J, JOHN B, GAUL U, et al. MicroRNA targets in Drosophila[J]. Genome biology, 2004, 5(1):R1.
[21]FRIEDMAN R C, FARH K K H, BURGE C B, et al. Most mammalian mRNAs are conserved targets of microRNAs[J]. Genome research, 2009,19(1):92-105.
[22]GARCIA D M, BAEK D, SHIN C, et al. Weak seed-pairing stability and high target-site abundance decrease the proficiency of lsy-6 and other microRNAs[J]. Nature structural & molecular biology, 2011,18(10): 1139-1146.
[23]LALL S, GRÜN D, KREK A, et al. A genome-wide map of conserved microRNA targets in C. elegans[J]. Current biology, 2006,16(5):460-471.
[24]MIRADA K C, HUYNH T, TAY Y, et al. A pattern-based method for the identification of MicroRNA binding sites and their corresponding heteroduplexes[J]. Cell, 2006,126(6):1203-1217.
[25]GAIDATZIS D, VAN NIMWEGEN E, HAUSSER J, et al. Inference of miRNA targets using evolutionary conservation and pathway analysis[J]. BMC bioinformatics, 2007,8(1):69.
[26]SAETROM O, Jr SNOVE O, SAETROM P. Weighted sequence motifs as an improved seeding step in microRNA target prediction algorithms[J]. RNA, 2005,11(7):995-1003.
[27]KIM S K, NAM J W, RHEE J K, et al. miTarget: MicroRNA target gene prediction using a support vector machine[J]. BMC bioinformatics, 2006,7(1):411.
[28]YAN X, CHAO T, TU K, et al. Improving the prediction of human microRNA target genes by using ensemble algorithm[J]. FEBS letters, 2007,581(8):1587-1593.
[29]YOUSEF M, JUNG S, KOSSENKOV A V, et al. Naive Bayes for microRNA target predictions--machine learning for microRNA targets[J]. Bioinformatics, 2007,23(22):2987-2992.
[30]WANG X, NAQA I M E. Prediction of both conserved and nonconserved microRNA targets in animals[J]. Bioinformatics, 2008,24(3):325-332.
[31]YANG Y, WANG Y P, LI K B. MiRTif: A support vector machine-based microRNA target interaction filter[J]. BMC bioinformatics, 2008,9(Suppl 12): 4.
[32]BANDYOPADHYAY S, MITRA R. TargetMiner: microRNA target prediction with systematic identification of tissue-specific negative examples[J]. Bioinformatics, 2009,25( 20): 2625-2631.
[33]CHANDRA V, GIRIJADEVI R, NAIR A S, et al. MTar: A computational microRNA target prediction architecture for human transcriptome[J]. BMC Bioinformatics, 2010,11( Suppl 1): 2.
[34]STURM M, HACKENBERG M, LANGENBERGER D, et al. TargetSpy: A supervised machine learning approach for microRNA target prediction[J]. BMC Bioinformatics, 2010,11: 292.
[35]MIRANDA K C, HUYNH T, TAY Y, et al. A pattern-based method for the identification of MicroRNA binding sites and their corresponding heteroduplexes[J]. Cell, 2006,126( 6):1203-1217.
[36]KRÜGER J, REHMSMEIER M. RNAhybrid: MicroRNA target prediction easy, fast and flexible[J]. Nucleic acids research, 2006,34(suppl 2):451-454.
[37]KERTESZ M, IOVINO N, UNNERSTALL U, et al. The role of site accessibility in microRNA target recognition[J]. Nat Genet, 2007,39(10):1278-1284.
[38]MARAGKAKIS M, RECZKO M, SIMOSSIS V A, et al. DIANA-microT web server: Elucidating MicroRNA functions through target prediction[J]. Nucleic Acids Res, 2009,37(Web Server issue):273-276.
[39]REYES-HERRERA P H, FICARRA E, ACQUAVIVA A, et al. miREE: miRNA recognition elements ensemble[J]. BMC bioinformatics, 2011,12(1):454.
[40]XIE F, ZHANG B. Target-align: A tool for plant microRNA target identification[J]. Bioinformatics, 2010,26 (23):3002-3003.
[41]CHENG S, GUO M, WANG C, et al. MiRTDL: A deep learning approach for miRNA target prediction[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2015, 36(36):1.
[42]Le BRIGAND K, ROBBE-SERMESANT K, MARI B, et al. MiRonTop: Mining microRNAs targets across large scale gene expression studies [J]. Bioinformatics, 2010, 26( 24):3131-3132.
[43]HSU J B, CHIU C M, HSU S D, et al. miRTar: An integrated system for identifying miRNA-target interactions in human[J]. BMC Bioinformatics, 2011,12:300.
[44]HEIKKINEN L, KOLEHMAINEN M, WONG G. Prediction of microRNA targets in Caenorhabditis elegans using a self-organizing map[J]. Bioinformatics, 2011,27( 9):1247-1254.
[45]LE T D, ZHANG J, LIU L, et al. Ensemble methods for MiRNA target prediction from expression data[J]. PLoS One, 2015,10( 6): e0131627.
[46]XU P, ZHU Y, SUN B, et al. Colorectal cancer characterization and therapeutic target prediction based on microRNA expression profile[J]. Sci Rep, 2016,6: 20616.