长非编码RNA鉴定方法研究

2020-07-04杨阳

智能计算机与应用 2020年3期

杨阳

摘要：高通量测序技术的出现带来了大量可用的转录组数据，评估进化保守區域的编码潜力成为转录数据分析中的核心任务。对转录本编码潜力的预测可以用来鉴定长非编码RNA（long noncoding RNA， lncRNA）。lncRNA是一种长度超过200个核苷酸的非编码RNA，研究表明lncRNA在多种生物中都有重要作用，能够在染色质修饰、表观遗传、转录及转录后调控等多种层面发挥重要的调控作用。已经有许多基于机器学习的工具被开发用来区分编码与非编码转录本序列。不同的工具通常是针对不同的情况设计的，因此需要根据特定的情况选择合适的方法。本文分析了几种常用工具各自的特点和适用范围，帮助研究人员选用合适的方法以获得更可靠的结果。

关键词：转录组数据; 编码潜力; 长非编码RNA; 机器学习

【Abstract】 With the advent of high-throughput sequencing technologies， a large amount of available transcriptome data has been generated， and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the analysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs （lncRNAs）. lncRNA is a kind of noncoding RNA with length more than 200 nucleotides， which plays an important role in many organisms. It can play an important regulatory role in various aspects such as chromatin modification， epigenetics， transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations， so it is required to choose the suitable method for the specific situation. In this review， several popular tools and their advantages， disadvantages， and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.

【Key words】 transcriptome data; coding potential; long noncoding RNA; machine learning

0 引言

非编码RNA（noncoding RNA ，ncRNA）是所有从DNA转录但不编码蛋白质的功能性RNA的统称。最初，人们将非编码RNA基因分类为“垃圾基因”或转录“噪音”，然而在之后的研究中发现，非编码序列在生命体生命活动中具有重要的调控作用[1]。这些非编码序列中，最近研究较多的是长非编码RNA（long noncoding RNA， lncRNA），lncRNA是指长度超过200个核苷酸且不编码蛋白质的转录物[2]。

为了系统研究lncRNA的功能，首要的工作是从基因中识别lncRNA。高通量测序数据大量涌现为学者们提供了更多有关lncRNA的有用信息。与此同时，为了方便后续研究和分析，很多鉴定lncRNA的计算机方法被提出。本文对鉴定lncRNA的计算方法进行了较为全面的回顾。

1 lncRNA鉴定工具介绍

lncRNA鉴定过程中的一个重要问题是区分编码与非编码转录本序列，目前已经有很多生物信息学的方法使用序列的内部特征和结构特点预测非编码RNA[3]。本文中比较了几种流行的基于机器学习的工具。对此可做阐释分述如下。

1.1 CPAT[4]介绍

CPAT是基于逻辑回归模型的蛋白质编码潜力评估工具。使用的特征包括：开放阅读框大小、开放阅读框覆盖率、Fickett分数和Hexamer分数。

1.4 CPC2介绍

CPC2[7]是CPC的升级，仍然使用支持向量机模型，CPC2能更加快速、准确地评估RNA转录本的编码能力。CPC2中使用了4个特征，包括：Fickett分数、开放阅读框长度、开放阅读框完整性以及预测肽的等电点。开放阅读框的完整性是指开放阅读框以起始密码子开始，以终止密码子结束。等电点可以通过BioPython中的ProtParam模块计算得到。

1.5 CPPred介绍

CPPred[8]的实现基于支持向量机分类器和多个序列特征， CPPred使用开放阅读框长度、开放阅读框覆盖率、Fickett分数和Hexamer分数、开放阅读框完整性、预测肽的等电点、预测肽的不稳定指数、预测肽的亲水性平均值Gravy以及30个CPPred中提出的CTD特征训练分类器。CTD特征用来描述全局转录本序列，核苷酸组成（特征C）描述了转录本序列中每个核苷酸的百分比组成;核苷酸转换（特征T）描述了4个核苷酸在相邻位置之间转换的百分比;核苷酸分布（特征D）计算每个核苷酸在转录物序列的5个相对位置（0，25%，50%，75%，100%）来表示每个核苷酸在转录本序列中的分布。

2 lncRNA鑒定工具比较

本文所涉及的5个lncRNA鉴定工具包括最常用的CPAT、CNCI、PLEK，以及CPC的最新版本CPC2和最新发布的工具CPPred。其中，CPAT使用了逻辑回归模型，其余四个工具都使用了支持向量机模型。本文总结每种工具的简要信息和使用细节见表1。

接着，本文更具体地对5种工具所选择的特征进行概述，见表2。

5种鉴定工具都是不包含比对过程的，适用于对未充分研究的物种的转录物分析。其中，CNCI和PLEK都可以用于有测序错误的数据集，PLEK在这类数据上表现更好。与CPAT、CPC2和CPPred相比，PLEK在除人类以外的其他物种中表现不佳。5种鉴定工具在不同测试集上的表现见表3。

由于不同物种lncRNA、不同测序数据之间存在一定的差异性，不同的lncRNA鉴定工具设计上存在一定的针对性。CPAT和CPPred为小鼠转录本的鉴定提供了专门的模型。在分析其他物种时，CPAT还提供了果蝇和斑马鱼的模型;CNCI和PLEK可以预测脊椎动物和植物的序列;CPC2还可以预测果蝇、斑马鱼、拟南芥、蠕虫;CPPred提供了适用于斑马鱼、果蝇、酿酒酵母、线虫和拟南芥的模型。不同工具在不同条件下的适用性见表4。

3 结束语

lncRNA的鉴定一直以来都是生物信息学研究的一个挑战，在2010年之前，以CPC软件为代表的lncRNA鉴定工具会依赖比对过程，此后，大部分软件通过提取序列的内在特征来进行分类。这篇综述中，集中探讨了常用的和最新的lncRNA鉴定工具，总结了其相应的适用范围，帮助研究人员来选择使用适合的工具，同时获得令人信服的结果。未来lncRNA鉴定工具的趋势是针对不同类型的序列，开放不同的工具来解决各种特定情况下的问题。

参考文献

[1] PALAZZO A F， LEE E S. Non-coding RNA：What is functional and what is junk？ [J]. Frontiers in Genetics， 2015， 6： 2.

[2]SCHMITZ S U， GROTE P， HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences， 2016， 73（13）： 2491.

[3]HAN Siyu， LIANG Yanchun， LI Ying， et al. Long noncoding RNA identification： Comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed Research International， 2016， 2016： 8496165.

[4]WANG Liguo， PARK H J， DASARI S， et al. CPAT： Coding-potential assessment tool using an alignment-free logistic regres-sion model[J]. Nucleic acids research， 2013，41（6）： e74.

[5]SUN Liang， LUO Haitao， BU Dechao， et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research， 2013， 41（17）： e166.

[6]LI Aimin， ZHANG Junying， ZHOU Zhongyin. PLEK：A tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics， 2014， 15： 311.

[7]KANG Yujian， YANG Dechang， KONG Leilei， et al. CPC2： A fast and accurate coding potential calculator based on sequence intrinsic features[J]. Nucleic acids research， 2017， 45（W1）： W12.

[8]TONG Xiaoxue， LIU Shiyong. CPPred： Coding potential prediction based on the global description of RNA sequence[J]. Nucleic Acids Research， 2019， gkz087：1