lncRNA与疾病关联关系预测研究进展
2019-07-01徐志鑫王亚东
徐志鑫 王亚东
摘 要:lncRNAs(long noncoding RNAs)是一类长度超过200个核苷酸的非编码RNAs,越来越多的证据表明lncRNAs在许多生物过程中起关键作用。lncRNAs也与多种疾病的发生和发展有密切的联系。近年来,很多研究人员关注于预测lncRNA与疾病的关联预测的计算模型,这可以有效地减少生物实验的时间和成本。本文总结了近年来有关lncRNA与疾病关联预测的一些数据资源和有代表性的计算方法,并对当前存在的问题进行了分析,讨论了未来的挑战和发展方向。
关键词: lncRNAs;疾病;lncRNA-疾病关联;计算方法
文章编号: 2095-2163(2019)03-0211-05 中图分类号: TP311.13 文献标志码: A
0 引 言
随着人类基因组计划的完成,蛋白质编码基因仅占整个基因组的约1.5%,这意味着超过98%的人类基因组还不是编码蛋白质序列,这些基因组区域通常转录为非编码RNA(ncRNA)[1]。在很长一段时间里,非编码RNA在生物学上被认定是转录噪声[2]。然而,越来越多的研究表明,非编码RNA在许多生物过程中发挥着关键作用。其中,lncRNAs(long noncoding RNAs)就是一类长度超过200个核苷酸的非编码RNAs。近年来,lncRNAs引起了研究人员的高度关注,因为已有证据指出lncRNA在多种生物机制中扮演重要角色,如表观遗传调控、染色质重构、基因转录、蛋白质转运、细胞分化、细胞运输等[3]。此外,lncRNAs的突变和失调与肺癌、乳腺癌、卵巢癌、肾病、心血管疾病、自身免疫疾病等多种疾病的发生和发展有密切的关系[4]。尽管已经取得了一定的研究成果,但对于生物学家和遗传学家来说,确定那些未知的关联关系仍可堪称是一个重大的挑战。传统的生物实验和临床方法会耗费大量的时间和精力,因此时下的众多研究者正致力于开发有效的计算方法来解决这一问题。近年来,研究人员提出了一些计算模型和方法来预测lncRNA与疾病的关联关系。
本文综述了近年来涌现的一些预测疾病相关的候选lncRNA的算法和工具,阐述了lncRNA-疾病关联关系预测的研究进展。预测方法主要分为2类:基于生物网络的方法和基于机器学习的方法,本文重点探讨了其中一些方法。最后,则总结了当前的关键问题和未来的研究方向。
1 相关数据资源
随着生物数据的快速增长,研究人员建立了一些特定的数据库来存储和管理数据。本节拟集中推介一些和lncRNA、疾病相关的公共数据资源,详情可见如下。
1.1 lncRNA数据资源
NONCODE(http://www.bioinfo.org/noncode/)[5]是一个包含几乎所有非编码RNA的综合知识库。其中涵盖16种(人类、小鼠、牛、大鼠、黑猩猩、大猩猩、猩猩、酵母、果蝇、拟南芥等)和527 336个lncRNA转录本。
LNCipedia(http://www.lncipedia.org/)[6]是一个人类lncRNA的综合数据库,通过整合不同的数据,当前版本包含了120 353个人类lncRNA转录物。而且,也研发提供了预测蛋白质编码能力的实用工具。
lncRNAdb(http://www.lncrnadb.org)[7]是一种知识资源,旨在提供真核生物非编码RNA的全面注释。在该数据库中,每个条目包含lncRNA的序列、结构、基因组语境、基因表达、亚细胞定位、保守性和功能信息。用户可以搜索和下载lncRNA信息并提交新条目。
LncRBase(http://bicresources.jcbose.ac.in/zhumur/lncrbase)[8]是人类和小鼠lncRNA的存储库,总共包含216 562个lncRNA转录物条目。在该数据库中,已广泛收集了基本的lncRNA转录特征、基因组位置、重叠小非编码RNA、相关重复元件、相关印记基因和lncRNA启动子信息。
1.2 疾病数据资源
Disease Ontology(http://disease-ontology.org)[9]是马里兰大学医学院基因组科学研究所主办的与人类疾病相关的生物医学数据整合的开放数据库。设计上包含了8 043个遗传,发育和获得性人类疾病,旨在通过疾病概念连接不同的数据集。
Medical Subject Headings(https://www.ncbi.nlm.nih.gov/mesh)是用于索引生命科学文章的综合受控词汇表词库。有27 883个描述符和87 000个按照层次结构树排列的条目。
OMIM(http://www.omim.org/)[10]是由约翰霍普金思大学医学院McKusick-Nathans遗传医学研究所维护的人类基因和遗传疾病在线知识库。截至2017年5月26日,共有24 065个条目。
1.3 lncRNA-疾病关联关系相关数据资源
LncRNADisease(http://www.cuilab.cn/lncrnadisease)[11]是手动收集的经过实验验证的lncRNA-疾病关联关系数据库。当前版本包含大约3000个lncRNA-疾病对和475个lncRNA相互作用对,其中涉及大约2 000个出版文献中的914个lncRNA和329种疾病。
Lnc2Cancer(http://www.bio-bigdata.net/lnc2cancer)[12]是一個癌症相关lncRNAs资源,搜集包含了666个人类lncRNA和97个人类癌症之间的1 488条关联条目。与此同时,还提供了lncRNA表达模式、实验技术、简要功能描述、原始参考和附加注释信息。此外,也允许用户搜索、浏览和下载数据以及向数据库提交新数据等操作。
MNDR(http://www.rna-society.org/mndr)[13]是哺乳动物非编码RNA-疾病关系在线知识库,当前版本包含了807个lncRNA相关、229个miRNA相关、13个piRNA相关和100个snoRNA相关的数据条目。
2 交叉验证
为了评估算法的效果,对于lncRNA-疾病关联关系预测,通常对研究提出的模型进行留一交叉验证(LOOCV)或5-折交叉验证。其中,LOOCV在已知的、经过实验验证的lncRNA-疾病关联关系上设计发生,关联关系中的每一对作为测试样本,而剩余的用于训练模型。如果测试样本的排名高于特定阈值,就可以认为正确预测了这个lncRNA-疾病关联关系对。有2种类型的LOOCV,分别为:全局LOOCV和局部LOOCV。对于全局LOOCV,测试样本的排名被列入所有调查疾病的全部未知候选微生物-疾病关联对中。对于局部LOOCV,测试样本仅在给定疾病的其它未知的疾病相关lncRNA中进行排名。即2种LOOCV的主要区别在于是否考虑了所有被调查的疾病。而-5折交叉验证将所有已知的、经过验证的lncRNA-疾病关联对随机分为5组。不是选择一个lncRNA-疾病关联对作为测试样本,而是将这5组中的每一组轮流作为测试集,而其它4组作为训练集。为了直观地评估性能,研究者一般选择接受者操作特征曲线(ROC),这是评估二元分类模型的常用方法。研究中,敏感度(sensitivity)和特異度(specificity)是ROC曲线中使用的2个关键指标。对于lncRNA-疾病关联关系的预测,敏感度表示出一个测试被正确识别的比例,而特异度表示出一个测试被错误地认为有关联关系的比例。利用这种方式,通过不断改变阈值,使用真阳性率(敏感度)与假阳性率(1-特异度)绘制ROC曲线来做出比较。ROC曲线下的面积也通常用于测试性能。一般地,AUC=0.5表示效果是随机的,AUC=1表示效果完美。
3 计算方法
越来越多的证据表明,lncRNA的突变和失调与多种人类疾病密切相关,lncRNA功能及其与人类疾病的关系引起了更多研究者的兴趣与重视。计算模型可能是识别潜在lncRNA功能和lncRNA-疾病关联关系的有效方法。本节论述了一些用于识别lncRNA-疾病关联的计算方法,详情可见如下。
3.1 基于生物网络的方法
具有相似功能lncRNA可能与表型相似的疾病相关,根据这个假设,一些研究人员提出了数种基于生物网络的方法来预测疾病相关的lncRNA,对此可做阐释解析如下。
Sun等人[14]基于lncRNA功能相似网络提出了一种基于全局网络的计算方法RWRlncD。研究中,在相继构建了lncRNA-疾病关联网络、疾病相似性网络和lncRNA功能相似网络后,RWRlncD通过在lncRNA功能相似网络上进行随机游走重启(RWR)来预测潜在的lncRNA-疾病关系。基于已验证的lncRNA-疾病关联关系,RWRlncD在LOOCV下获得0.822的AUC。然而此方法不能应用于没有任何已知相关lncRNA的疾病。当未来有更多lncRNA-疾病关联和更准确的lncRNA功能相似性度量时,RWRlncD的预测性能将会改善。
此后,研究立足于有更多共同的miRNA相互作用的lncRNA倾向于与相似的疾病相关联的假设,Zhou等人[15]又提出了RWRHLD模型预测潜在的lncRNA-疾病关联关系。RWRHLD将3个网络(miRNA相关联的lncRNA-lncRNA串扰网络、疾病相似性网络和已知的lncRNA疾病关联网络)整合为一个网络,并在其上进行随机游走。基于已知实验验证的lncRNA-疾病关联,RWRHLD在LOOCV下获得0.871的AUC值。然而,RWRHLD仅适用于具有已知的lncRNA-miRNA相互作用的lncRNA,此外lncRNA串扰网络和lncRNA-疾病关联网络的不完全覆盖可能会降低模型预测性。
Yang等人[16]基于已知疾病基因和lncRNA-疾病关联构建了编码-非编码基因-疾病二分网络,并进一步实现了该二分网络上的传播算法,以推测潜在的lncRNA-疾病关联。该方法在LOOCV下获得了0.788 1的AUC。然而,非编码基因、蛋白质编码基因和lncRNA功能注释之间相互作用的缺失却影响了方法的性能。
除了单层的网络,一些研究人员尝试构建了lncRNA-疾病的多级网络,并据此基于多级网络来研究识别新的疾病相关lncRNA。
Yao等人[17]提出了基于多层复合网络来预测疾病相关lncRNA的算法LncPriCNet。研究通过将表型-表型相互作用、lncRNA-lncRNA相互作用以及基因-基因相互作用与疾病-ncRNA关系相结合来构建复合网络,而后再使用随机游走重启算法(RWR)来预测候选的疾病相关lncRNA。当已知疾病的lncRNAs信息不足时,LncPriCNet依然表现良好。原因可能是多层复合网络能够支持更多的信息交互。
Zhang等人[18]基于多种生物信息提出了LncRDNetFlow算法。该算法整合了多个网络,包括lncRNA相似性网络、蛋白质相互作用网络、疾病相似性网络以及相互之间的关联网络,并在异构网络上利用流传播算法来预测lncRNA-疾病关联,最终在LOOCV下达到0.841的AUC。此方法能够在没有已知关联的情况下预测新的关联关系。究其原因就在于其整合了蛋白质的信息及其与lncRNAs和疾病的关联。
3.2 基于机器学习的方法
机器学习对于预测疾病候选lncRNA有着重要作用,可根据已知疾病相关的lncRNA和未知的lncRNA特征来训练分类器,同时根据各项集之间的生物学特征差异来对候选lncRNA进行排名。
Chen等人[19]开发了LRLSLDA(Laplacian Regularized Least Squares for LncRNA–Disease Association)计算模型,该模型是基于半监督学习框架的预测潜在疾病相关lncRNA模型。模型基于一个假设——相似的疾病倾向于与功能相似的lncRNA相关联。LRLSLDA结合了已知的疾病-lncRNA关联关系和lncRNA表达谱,在留一交叉验证(LOOCV)下获得0.776的AUC,同时也不需要负样本的信息,而负样本往往难以获得。但LRLSLDA仍有一些限制,例如,模型中出现很多参数,如何选择参数并未得到根本性的解决。此外,对同一个lncRNA-疾病关联对会分别从lncRNA和疾病空间得到2个不同的分数,如何高效地结合2个分数也已成为时下的研究课题。
Zhao等人[20]使用已知的癌症相关lncRNA,基于多元数据、基因组、调节物组和转录组的整合,开发了一种基于樸素贝叶斯分类器的模型,以识别新的癌症相关lncRNA。该模型基于可公开获得的多个癌症类型的外显子数据和小鼠的直系同源lncRNA knockdown数据,采用10折交叉验证进行评估。测试后表明该模型显示出良好的效果,并成功鉴定707种潜在的癌症相关lncRNA。文献中使用的监督分类器,如支持向量机(SVM)和朴素贝叶斯分类器的关键限制是需要负样本的信息,而这在当前的研究中是无法获得的。因此,总是随机选择未被标记的lncRNA-疾病关联对作为负样本,这就严重影响了预测性能。
基于功能相似的lncRNA总是与相似的疾病相关联,Chen等人[1]通过计算与lncRNA相关的疾病组之间的语义相似性开发了2个新的模型LNCSIM1和LNCSIM2。这2个模型之间的差别就在基于疾病有向无环图的疾病语义相似度的计算上,而这对如何有效表示不同疾病之间的关系是至关重要的。当疾病语义相似性和lncRNA功能相似性(由LNCSIM计算)与之前的LRLSLDA相结合时,得到新的lncRNA-疾病关联预测模型LRLSLDA-LNCSIM,可以在更大程度上提升LRLSLDA的预测性能。
Biswas等人[21]提出了基于矩阵分解的lncRNA-疾病关联预测计算模型。模型整合了lncRNA-疾病关联关系,经过实验验证的基因-疾病关联关系,基因-基因相互作用数据以及lncRNA和基因的表达谱。使用非负矩阵分解方法预测lncRNA和疾病的相互作用,并使用双聚类来识别lncRNA模块。
对于有监督的机器学习算法,需要假设与疾病相关的lncRNA和不相关的lncRNA是分离的,然而已被证明与疾病相关的lncRNA数量仍然较少,而且几乎没有实验能够证明那些关系不存在的,故而研究人员设计开发了一些基于半监督学习的模型。机器学习方法面临的挑战是如何选择有用的生物特征来训练分类器。因此,整合多个数据资源是提高性能的有效方法。但是,一些冗余或不相关的生物信息可能是无用的,甚至会降低性能。同时,不同的分类算法也可能仅适合不同的数据资源。因此,利用多种学习算法可以获得更好的预测性能。
3.3 其它方法
在前述研究中分析可知,所有的计算模型均需要与已知的lncRNA-疾病关联来实现预测。然而,即使是现在,已知的经实验验证的lncRNA-疾病关联关系仍然非常有限。因此,研究人员已转而开始探索基于已知的疾病相关基因、miRNA和lncRNA与基因或miRNA之间的关系来预测lncRNA-疾病关联。
Liu等人[22]开发了一种不需要依赖已知lncRNA-疾病关系,而通过整合已知人类疾病基因和人类lncRNA与基因表达谱来预测潜在的人类lncRNA-疾病关联的计算方法。在该方法中,将lncRNA分为2部分:组织特异性和非组织特异性lncRNA。首先根据不同组织中所有lncRNA的表达水平计算组织特异性评分。然后,对于组织特异性lncRNA,该计算框架推测这些lncRNA与各种人类组织相关的疾病间可能存在的关联。此外,还可以基于疾病-基因关联和基因-lncRNA共表达关系获得非组织特异性lncRNA的相关疾病。该模型在LOOCV下获得0.764 5的AUC,非组织特异性lncRNA的预测精度为0.89。然而,该方法仍然不能预测无相关基因记录的疾病相关lncRNA。
Li等人[23]提出了一种基于基因组位置的计算方法,运行后能够更为全面地预测与血管疾病相关的人类lncRNA。10个被预测为与血管平滑肌细胞相关的lncRNA将被选择用于下一步的实验验证以测试该方法的准确性。结果,10个中共有8个得到了证实。实验结果表明该方法的可靠预测性能及鉴定新型lncRNA用于诊断和治疗血管疾病的潜在价值。然而,该方法的应用范围尚属有限,因为并非所有的lncRNA都具有相邻基因,即使该lncRNA具有相邻基因,也可能与其邻近基因无功能相关性。
另外,统计学方法也已应用在lncRNA-疾病关联的预测中。Chen[24]基于超几何分布提出了HGLDA模型。通过整合疾病语义相似性,miRNA-疾病关联和miRNA-lncRNA相互作用来计算lncRNA功能相似性。过程中,将测试lncRNA和疾病是否显著共享可以与这两者相互作用的常见miRNA,模型对每个lncRNA-疾病对进行超几何分布测试。HGLDA在LOOCV下获得0.762 1的AUC,然而,HGLDA不能应用于那些没有任何已知miRNA相互作用的lncRNA。
4 结束语
越来越多的证据表明非编码RNA(lncRNA)在许多人类疾病中发挥重要作用。预测新的lncRNA-疾病关联将有助于生物学家理解疾病的致病机理。此外,这也有助于人类疾病的诊断、预防和治疗。最近,很多研究人员构建计算模型来预测新的lncRNA-疾病关联,使得显著减少生物实验的时间和成本已成为现实可能。本文中,撷选了一些重要的公开可用的数据库,然后,详述了近年来一些预测疾病相关lncRNA的计算方法,包括基于生物网络的方法、基于机器学习的方法以及其它类型的方法,这些方法取得了一些成果,但还需要后续更大力度投入来改进现有研究。很多方法整合了其它类型的生物数据来提高性能,然而,将适合与lncRNA-疾病关联预测的多种数据整合起来仍然颇显困难。因此,需要开发更具针对性的方法来有效整合这些数据。对于一些机器学习模型,负样本往往难以获得,而且在参数选择、分类器组合等方面也存在一定问题与不足。在很多模型中,相似性计算对关联预测的准确性有重要影响,因此,如何设计科学合理的方法来计算相似性,同时处理整合来自不同生物信息的相似性分值也是亟待深入探讨研究的关键问题。
参考文献
[1]CHEN X, YAN C C, LUO C, et al. Constructing lncRNA functional similarity network based on lncRNA-disease associations and disease semantic similarity[J]. Scientific Reports, 2015, 5:11338.
[2] LOURO R, SMIRNOVA A S, VERJOVSKI-ALMEIDA S. Long intronic noncoding RNA transcription: Expression noise or expression choice?[J]. Genomics, 2009, 93(4):291-298.
[3] GEISLER S, COLLER J. RNA in unexpected places: Long non-coding RNA functions in diverse cellular contexts[J]. Nature Reviews Molecular Cell Biology, 2013, 14(11):699-712.
[4] CHEN X, YAN C C, ZHANG X, et al. Long non-coding RNAs and complex diseases: From experimental results to computational models[J]. Briefings in Bioinformatics, 2016, 18(4):558-576.
[5] ZHAO Yi, LI Hui, FANG Shuangsang, et al. NONCODE 2016: An informative and valuable data source of long non-coding RNAs[J]. Nucleic Acids Research, 2016, 44(Database issue):D203-D208.
[6] VOLDERS P J, HELSENS K, WANG X, et al. LNCipedia: A database for annotated human lncRNA transcript sequences and structures[J]. Nucleic Acids Research, 2013, 41(Database issue):D246-D251.
[7] QUEK X C, THOMSON D W, MAAG J L, et al. lncRNAdb v2.0: Expanding the reference database for functional long noncoding RNAs[J]. Nucleic Acids Research, 2015, 43(Database issue):168-173.
[8] CHAKRABORTY S, DEB A, MAJI R K, et al. LncRBase: An enriched resource for lncRNA information[J]. PloS One, 2014, 9(9):e108010.
[9] LYNN S, ARZE C, NADENDLA S, et al. Disease ontology: A backbone for disease semantic integration[J]. Nucleic Acids Research, 2011, 40(Database issue):940-946.
[10]AMBERGER J S, BOCCHINI C A, SCHIETTECATTE F, et al. OMIM.org: Online mendelian inheritance in man (OMIM), an online catalog of human genes and genetic disorders[J]. Nucleic Acids Research, 2015, 43(Database issue):789-798.
[11]CHEN G, WANG Z, WANG D, et al. LncRNADisease: A database for long-non-coding RNA-associated diseases[J]. Nucleic Acids Research, 2013, 41(Database issue):983-986.
[12]NING S, ZHANG J, WANG P, et al. Lnc2Cancer: A manually curated database of experimentally supported lncRNAs associated with various human cancers[J]. Nucleic Acids Research, 2016, 44(Database issue):D980-D985.
[13]WANG Y, CHEN L, CHEN B, et al. Mammalian ncRNA-disease repository: A global view of ncRNA-mediated disease network[J]. Cell Death & Disease, 2013, 4(8):e765.
[14]SUN Jie, SHI Hongbo, WANG Zhenzhen, et al. Inferring novel lncRNA-disease associations based on a random walk model of a lncRNA functional similarity network[J]. Molecular Biosystems, 2014, 10(8):2074-2081.
[15]ZHOU M, WANG X, LI J, et al. Prioritizing candidate disease-related long non-coding RNAs by walking on the heterogeneous lncRNA and disease network[J]. Molecular bioSystems, 2015, 11(3): 760-769.
[16]YANG X, GAO L, GUO X, et al. A network based method for analysis of lncRNA-disease associations and prediction of lncRNAs implicated in diseases[J]. PLoS One, 2014, 9(1): e87797.
[17]YAO Qianlan, WU Leilei, JIA Li, et al. Global prioritizing disease candidate lncRNAs via a multi-level composite network[J]. Scientific Reports, 2017, 7:39516.
[18]ZHANG Jingpu, ZHANG Zuping, CHEN Zhigang, et al. Integrating multiple heterogeneous networks for novel LncRNA-disease association inference[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2017, PP(99):1.
[19]CHEN Xing, YAN Guiying. Novel human lncRNA-disease association inference based on lncRNA expression profiles[J]. Bioinformatics, 2013, 29(20): 2617-2624.
[20]ZHAO T, XU J, LIU L, et al. Identification of cancer-related lncRNAs through integrating genome, regulome and transcriptome features[J]. Molecular BioSystems, 2014, 11(1): 126-136.
[21]BISWAS A K, KANG M, KIM D C, et al. Inferring disease associations of the long non-coding RNAs through non-negative matrix factorization[J]. Network Modeling Analysis in Health Informatics & Bioinformatics, 2015, 4(1):1-17.
[22]LIU Mingxi, CHEN Xing, CHEN Geng, et al. A computational framework to infer human disease-associated long noncoding RNAs[J]. PLoS One, 2014, 9(1):e84408.
[23]LI Jianwei, CHENG Gao, WANG Yuchen, et al. A bioinformatics method for predicting long noncoding RNAs associated with vascular disease[J]. Science China Life Sciences, 2014, 57(8):852-857.
[24]Chen Xing. Predicting lncRNA-disease associations and constructing lncRNA functional similarity network based on the information of miRNA[J]. Scientific Reports, 2015, 5:13186.