APP下载

浅谈深度学习在RNA亚细胞定位中的应用

2021-12-25李星桥

科学与信息化 2021年20期
关键词:基序特征提取神经网络

李星桥

武汉大学 生命科学学院 湖北 武汉 430072

引言

RNA亚细胞定位,是指RNA在细胞内的空间分布情况。位于不同细胞区域的RNA通常具有不同的命运,而RNA在细胞内的位置亦与其功能相联系[1]。此外,细胞内的RNA定位失调将会导致人体中许多疾病的发生[2]。因此,如果我们能准确获取RNA在细胞内的定位信息,将有利于我们理解许多与RNA相关的生物学功能机制。

目前,已经有许多实验手段可以获取细胞内的RNA定位信息,如CeFra-seq[3],APEX-RIP[4]等,但这些方法大多需要长时间的投入以及复杂的操作流程,且单次实验所能提供的信息有限。为了提高研究效率,大量研究者尝试使用深度学习算法对RNA亚细胞定位情况进行预测,其中DeepLncRNA[5],RNATracker[6],DM3Loc[7]等预测方法已经取得了一些成果。然而,不同预测方法所使用的训练数据集不同,且特征提取方法各异,因此预测得到的RNA定位信息存在差异。根据具体的研究需求,我们应该选取合适的方法用于RNA亚细胞定位预测。

1 DeepLncRNA预测方法介绍

长链非编码RNA(Long noncoding RNA,LncRNA)是指长度大于200个核苷酸的非编码RNA,通常分布在细胞核与细胞质中,执行着许多生物学功能[8]。DeepLncRNA尝试利用lncRNA一级序列信息对其进行定位预测。DeepLncRNA的训练数据来自于14种不同细胞系的93个RNA-seq实验。数据预处理时,该方法首先计算了每一种细胞系中各种lncRNA转录本在细胞核与细胞质内的表达量,并根据二者比值大小,划定阈值,将每一条lncRNA标记为细胞核定位或者细胞质定位。在特征提取时,DeepLncRNA选择了三种特征作为预测输入:①lncRNA序列K-mers特征:每条lncRNA序列计算了K从2到5共计1360个特征;②lncRNA序列上的结合蛋白基序特征:由于RNA结合蛋白会对lncRNA定位造成影响,因此DeepLncRNA统计了每条lncRNA序列上各种结合蛋白基序的数量;③lncRNA所处的基因组位置特征:该特征包括了lncRNA所处的染色体编号以及基因起始与终止位置信息。在预测模型构建时,DeepLncRNA采用了全连接网络,对上述三种输入的特征进行融合并计算,最后输出每条lncRNA在细胞核或细胞质中定位的概率大小。

DeepLncRNA在验证数据集上取得了0.79的AUC,这说明该方法对lncRNA的亚细胞定位具有良好的预测效果。DeepLncRNA创新性地将RNA结合蛋白基序作为特征用于定位预测,且由于其特征提取方法可以适应于不同长度的RNA序列,因此对于长度差异较大的lncRNA序列,DeepLncRNA均可以给出预测结果,且计算效率不受序列长度影响。但是DeepLncRNA也存在一些缺点:在序列特征提取过程中,它采用了K-mers的办法,并未考虑lncRNA序列内部的联系,这使得模型无法找到lncRNA上与细胞定位相关的基序,影响其预测结果的可解释性;其次,DeepLncRNA仅针对lncRNA在细胞核、细胞质内的两种情况进行预测,无法预测更精细的亚细胞区域,对于需要准确预测lncRNA在细胞内某个细胞器的定位任务,该方法无法很好地给出答案。

2 RNATracker预测方法介绍

相比DeepLncRNA预测lncRNA亚细胞定位,RNATracker则关注于细胞内的mRNA定位。RNATracker的训练数据主要来自于CeFra-seq与APEX-RIP实验,这些数据中不仅有mRNA在细胞核、细胞质内的定位信息,还包括了内质网与细胞膜等细胞器内的定位信息。RNATracker的数据预处理流程与DeepLncRNA相似,首先计算了每种mRNA转录本在各细胞区域中的表达量,并将表达量最大的区域作为其定位预测标签。特征提取方面,RNATracker将mRNA的一级序列与软件计算得到的二级结构进行融合,并使用One-hot的方式进行编码,使得RNA的序列信息与结构信息均转化为矩阵,作为预测模型的输入。RNATracker的计算模型较为复杂,其具体结构如下:①输入矩阵首先进入一层卷积神经网络,用于提取mRNA序列与二级结构中与定位相关的特征;②卷积神经网络的输出再经过双向循环神经网络,用于找出这些与定位相关特征之间的联系;③循环神经网络输出结果传递到全局注意力层中,使模型更关注于mRNA序列中与定位强相关的特征;④最后,该模型通过一层全连接网络输出最终的预测结果。RNATracker的预测结果包括了4个值,其中最大值对应的区域即为预测得到的mRNA亚细胞定位区域。

RNATracker在各细胞区域的验证数据集均取得0.7以上的AUC,这说明该方法可以很好地预测mRNA亚细胞定位。RNATracker有诸多创新点,具体如下:①在特征提取方面,其融入了mRNA二级结构信息,增加了信息维度,有助于模型从二级结构的角度寻找mRNA定位特征;②在预测模型方面,RNATracker采用了卷积神经网络,能有效提取mRNA序列中与定位相关的基序,这大大提升了模型的可解释性;③RNATracker的预测范围包括4个细胞区域,实用性有所提升。但是该方法也存在一些缺点,首先RNATracker使用的训练数据较少,且仅含单一细胞系的数据,预测结果鲁棒性较差。最后,RNATracker只能接收定长的mRNA序列用于预测,过长的序列需要经过截断才能进行预测。

3 DM3Loc预测方法介绍

DM3Loc亦关注于mRNA的亚细胞定位情况,与RNATracker预测结果仅为单一细胞区域不同的是,它的预测结果中包含mRNA在细胞内多个区域同时存在的情况。在训练数据集构建上,DM3Loc从RNALocate[9]数据库中收集了17870条mRNA定位信息,覆盖了RNATracker中4个以及额外的外泌体和核糖体等6个细胞区域。该方法将RNA序列补全到统一的8000长度,并采用One-hot方式编码。模型设计上,DM3Loc放弃了定位预测任务中常用的循环神经网络,而是采用了自注意力模型,其模型具体结构如下:①输入矩阵通过多尺度卷积神经网络寻找mRNA序列上不同长度的定位基序,并利用最大池化层提取特征;②使用自注意力层寻找上一步输出的定位特征之间的联系;③将自注意力层输出结果合并,最后用一层全连接网络输出mRNA亚细胞定位预测结果。DM3Loc的预测结果包括6个数字,分别对应着mRNA在细胞内6个不同区域存在的概率。

从测试结果来看,DM3Loc在六个细胞区域中均达到了0.7以上的AUC,这说明该预测器确实能对mRNA在细胞内多个区域的定位情况进行很好的预测。相比之前的两种方法,DM3Loc创新性地采用了多标签数据进行训练,使得其预测结果更接近于细胞内mRNA分布的真实情况。在预测模型设计上,DM3Loc采用了自注意力层,该层能够关注到mRNA序列中不同位置间的互作关系,相比双向循环神经网络,自注意力层大大缩短了计算时间。但是,DM3Loc依旧有值得改进的地方,例如该方法的训练数据中缺少了不同类型细胞的实验数据,且对于不同的细胞区域,DM3Loc设置了不同的损失权重,这不利于DM3Loc在新的数据集以及新的亚细胞区域上进行拓展研究。

4 结束语

上述三种方法都是基于深度学习算法预测细胞内的RNA定位,但这些方法却各有特点。在预测种类上,DeepLncRNA可用于lncRNA亚细胞定位预测,而RNATracker、DM3Loc则用于mRNA定位预测。特征提取上,DeepLncRNA利用lncRNA一级序列的K-mers特征,并创新性地融入序列上的RNA结合蛋白基序与基因组位置信息,而RNATracker则使用了RNA一级序列信息与二级结构信息,DM3Loc则仅仅使用了一级序列信息。预测模型设计上,DeepLncRNA采用了基础的全连接神经网络进行计算,而RNATracker则使用了卷积神经网络和双向循环神经网络对RNA序列中的定位基序进行提取,增加了模型的可解释性。相比之下,DM3Loc的模型最为完善,将循环神经网络替换为了自注意力层,既加快了模型训练速度,又能够获取RNA序列内部长距离的交互信息。从预测效果上看,上述三种预测器均在对应的测试集上达到了可靠的准确率,其预测结果均可作为RNA细胞内定位参考。

讨论:RNA亚细胞定位对于其行使生物学功能有着至关重要的作用。目前,已经有不少基于深度学习的方法针对不同种类的RNA进行亚细胞定位预测,且已经取得了一些效果。然而细胞内RNA定位是动态变化的,不同种类的RNA功能各异,定位差异大,且不同组织和细胞中RNA定位也存在不同。另外,不同预测方法使用的特征提取与计算模型也各有不同,上述问题均会对预测方法的准确性造成影响。因此,仅通过少量数据或简单的特征提取尝试获取极高的RNA定位预测准确率,目前看来是十分困难的。所以开发多种不同计算方法尝试解决上述问题,将会对RNA亚细胞定位问题有很大的帮助。

随着RNA亚细胞定位实验方法的不断改进,海量的数据将为RNA亚细胞定位预测提供支持。相信结合实验技术与深度学习算法,我们最终能开发出更好的计算模型准确地预测RNA亚细胞定位信息,用于解释各种生物学问题。

猜你喜欢

基序特征提取神经网络
龙眼全基因组和转录本序列SSR位点的鉴定
基于递归模糊神经网络的风电平滑控制策略
带TRS基序突变的新型冠状病毒威胁更大
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
神经网络抑制无线通信干扰探究
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于神经网络的中小学生情感分析
微动目标雷达特征提取、成像与识别研究进展