快速高效miRNA分析流程在黄颡鱼中的应用

2016-02-07王平平卢建国王乐栾培贤王秋实张晓峰

水产学杂志 2016年5期

关键词：精巢一键高通量

王平平，卢建国，王乐，栾培贤，王秋实，张晓峰

（中国水产科学研究院黑龙江水产研究所，黑龙江哈尔滨 150070）

快速高效miRNA分析流程在黄颡鱼中的应用

王平平，卢建国，王乐，栾培贤，王秋实，张晓峰

（中国水产科学研究院黑龙江水产研究所，黑龙江哈尔滨 150070）

高通量测序技术速度快、成本低、通量高，广泛应用于miRNA领域研究。本研究基于高通量测序技术所产生的海量小RNA数据，结合已有的数据分析软件，开发了一套快速高效一键化的miRNA分析流程。该流程整合多个生物信息学数据分析软件，对多个miRNA高通量测序数据集进行标记、整合和去冗余分析，只需运行一次核心程序就可以实现对多个miRNA高通量测序数据的分析，避免每个样本单独数据分析的技术重复，精简后的数据集能大幅度减少软件计算量，显著提高软件运行效率。本研究利用快速高效miRNA分析流程分析黄颡鱼性腺XX卵巢、XY精巢、YY精巢的miRNA高通量测序数据，获得一批准确的黄颡鱼保守miRNA。在相同参数设置下，miRNA分析流程可以显著节约分析时间。该流程最终输出结果为多样本整合后的miRNA表达数据，便于研究者直接进行样本之间的比较和miRNA的表达差异，减少研究者手动整合分析结果的操作步骤。miRNA分析流程针对多样本miRNA测序数据具有明显的优势，样本越多测序量越大，软件运行效率越高。针对日益积累的海量小RNA测序数据，miRNA分析流程高效快速一键化数据处理优势将会越来越明显。

miRNA；高通量测序；miRNA识别方法；黄颡鱼

microRNAs（miRNAs）是一类内源性非编码RNA，长度约为18～30个核苷酸。miRNA基因首先在RNA聚合酶的作用下转录成初始转录本，经Drosha酶剪切形成miRNA前体，再进一步由Dicer酶切割产生成熟体miRNA[1]。成熟miRNA通过碱基互补配对的方式识别靶基因的mRNA，降解靶基因mRNA或抑制靶基因的翻译。miRNA参与生物体内多种调控通路，包括发育、器官形成、细胞增殖和凋亡等[2]。因此准确识别miRNA，了解其生物功能具有重要科学意义。

高通量测序技术测序速度快、成本低、通量高，已广泛应用于miRNA领域研究。miRNA高通量测序可以从系统的全局的角度获得生物体内绝大部分表达的miRNA，广泛用于比较不同发育阶段、不同组织及不同条件下的miRNA表达谱。随着miRNA高通量测序数据的不断丰富，使得快速高效的miRNA识别方法越来越受关注。

miRDeep是一款被广泛使用的miRNA深度测序数据分析软件，由Friedlander团队在2008年发表[3]，2012年更名为miRDeep2[4]。miRDeep主要基于贝叶斯概率模型来预测miRNA，数据分析过程[5]包括BLAST[6,7]或Bowtie[8]比对测序数据到参考基因组、筛选得到候选miRNA前体序列、前体序列打分等，最终获得物种保守的miRNA。miRDeep在无基因组注释信息的情况下，在真涡虫样本上仍能达到86%的敏感度[3]。miRDeep2在时间效率和内存分配上都有很大的改进，能同时识别正义和反义链上的miRNA，且允许一个或多个位置的碱基错配。miRDeep2预测动物miRNA的准确率可以达到98.6%～99.9%[4]。miRDeep2已经被广泛用于miRNA高通量测序数据的分析[9-12]。

miRDeep2软件操作简单，缺点是多样本数据需要每个样本单独进行分析，分析结果还需要繁琐的整合过程。目前的研究很少只对单一样本进行小RNA测序，通常都需要对多个样本小RNA测序数据进行对比性研究。针对于多样本miRNA测序数据，miRDeep2结果的整合过程需要一定的编程基础和生物信息学知识，在这一整合过程中需耗费较多的时间和精力。本研究基于高通量测序技术所产生的海量小RNA数据，开发出一套基于miRDeep2的多样本整合分析流程，只需运行一次核心程序就可以实现对多个miRNA高通量测序数据的处理和分析，极大地节约数据分析的时间和精力。

1 材料与方法

1.1 材料

本研究开发的miRNA快速识别流程适用于Illumina高通量测序平台获得的小RNA测序数据，输入数据为测序reads的fasta格式文件。Fastq格式的原始测序数据可以根据本流程中提供的软件和本实验室开发的脚本，按自身需求进行个性化的数据预处理，包括测序数据接头序列去除、数据质量控制和格式转换。

本研究使用的测试数据为Illumina测序平台的黄颡鱼Pelteobagrus fulvidraco miRNA高通量测序数据，包含雌鱼XX卵巢、雄鱼XY精巢和全雄鱼YY精巢三个样本的小RNA高通量测序数据[13]。数据来自NCBI的SRA数据库，访问编号分别为SRR1154617、SRR1154615和SRR1154616。

1.2 miRNA高通量测序数据分析流程

miRNA快速高效识别流程是以开放软件miRDeep2为核心，通过整合多个数据分析软件和实验室自主开发的脚本程序，达到快速高效一键化的分析miRNA高通量测序数据的目的。该流程命名为miRDeep-pipeline，主要步骤（图1）包括：原始高通量测序数据预处理；多样本数据标记、整合和聚类分析；miRDeep2软件分析；多样本数据分析结果提取和比较。

图1 miRDeep-pipeline流程图Fig.1 The flowing chart of miRDeep-pipeline

miRDeep-pipeline的输入数据为测序reads的fasta格式数据，其他格式的高通量测序数据，如sra、fastq等格式数据。本流程中也提供相应的分析软件和实验室自主开发的脚本程序，研究者可以根据自身需求进行个性化的原始数据预处理。miRD-eep-pipeline整合的数据分析软件和实验室自主开发的脚本程序见表1，包括SRAToolkit、Cutadapt[14]等。实验室自主开发的脚本程序miRNA_length_ stats.pl、stats_nuc_bias.pl，主要用于统计分析miRNA测序数据，包括miRNA长度分布统计和碱基偏好性统计。miRDeep-pipeline提供Illumina测序平台小RNA测序数据通用的接头序列，适用于大多数Illumina平台，研究者也可以根据自身数据特点选择合适的接头序列处理数据。mirdeep-pipeline是本流程的核心程序，可以实现一键化的多样本miRNA高通量测序数据分析。

1.3 miRDeep-pipeline核心数据处理策略

miRDeep-pipeline的核心内容是标记、整合和聚类分析多样本数据，减少数据分析过程中重复的软件调用，精简的数据集也能有效减少软件运行时间。根据不同的样本标签以及序列重复次数标签可以有效地拆分miRDeep2输出结果，达到快速高效分析多样本数据的目的。

针对多个样本单独分析过程中重复调用miRDeep2软件造成的时间和精力浪费，miRD-eep-pipeline首先标记多个样本数据，整合标记后的数据集；然后根据序列相似性对测序数据进行聚类分析和序列重复次数标记，减少重复序列重复运算的计算资源和计算时间的浪费，获得精简的待分析数据集。在保证结果准确性的前提下，所有样本中重复的序列只需要进行一次基因组比对和miRD-eep2软件计算，大大提高了软件运行效率；最后根据不同的样本标签以及序列重复次数标签拆分miRDeep2输出结果，样本标签用于区分来自不同样本的分析结果，序列重复次数标签用于估计每一个识别的miRNA在各样本中的表达量。最终获得每个样本中表达的miRNA，及其对应的表达量。

miRDeep-pipeline一方面大大减少多个样本在单独数据处理过程中频繁的软件调用；另一方面，结合多样本数据标记、整合和聚类分析策略，大大减少软件计算的数据量，节约计算成本。另外，miRDeep-pipeline的输出结果可以直接比较不同样本，分析差异表达的miRNA，避免对每个样本单独进行miRDeep2计算后繁琐的数据合并工作，提高了工作效率。miRDeep-pipeline整个运行过程中只需要调用一次核心程序“mirdeep-pipeline”就可以实现对全部数据的处理和结果整合分析，真正实现一键化的操作流程。

表1 miRDeep-pipeline整合的软件及实验室自主开发的脚本Tab.1 The list of software and laboratory developed scripts integrated in miRDeep-pipeline

2 结果与分析

2.1 软件效率

用miRDeep2分别处理黄颡鱼XX卵巢、XY精巢、YY精巢三个样本的小RNA高通量测序数据，并与miRDeep-pipeline进行对比（表2）。miRD-eep-pipeline一键化地处理黄颡鱼三个样本小RNA测序数据，大概需要7h。用miRDeep2分别处理XX、XY和YY三个样本程序运行总时间大概为13.5h，单独处理样本XY需要将近6h，如果可以并行化处理，那么miRDeep2数据分析总时间需要将近6h。在本文中，miRDeep-pipeline相对于单线程运行miRDeep2可以节约一半的软件运行时间，与多线程运行miRDeep2相比无明显优势。但是miRDeep-pipeline的主要优势在于其可以实现一键化分析多个样本数据及整合结果，大大减少软件的重复调用和多样本分析结果繁琐的整合步骤，节约了时间，提高了效率。

表2 miRDeep-pipeline运行时间效率Tab.2 Time efficiency of miRDeep-pipeline process

表3 黄颡鱼miRNA的识别与比较Tab.3 Identification and comparison of miRNA in yellow catfish

2.2 黄颡鱼miRNA的识别与比较

miRDeep-pipeline在黄颡鱼XX卵巢，XY精巢和YY精巢样本中共识别543个保守miRNA，其中能在黄颡鱼基因组上准确定位并且pre-miRNA能形成完整的茎环结构的有361个（表3）。在高通量测序数据和黄颡鱼基因组的双重支持下，获得的361个黄颡鱼保守的miRNA具有较高的可信度，其中286个为miRBase数据库[15,16]中收录的已知miRNA，剩余75个为新miRNA。在XX卵巢、XY精巢和YY精巢中分别识别出316、360和350个保守miRNA，其中新miRNA数目分别为59个、75个和73个。Jing等人[13]在2014年利用商业软件ACGT101-miR v4.2分析这部分数据的结果与 miRD-eep-pipeline的预测结果具有较好的一致性。

Jing等通过实时定量PCR技术验证部分miRNA，这些miRNA在本研究中也被正确识别和定量（图2）。从图2可以看出，miRDeep-pipeline对表达量的估计与商业软件ACGT101-miR v4.2具有较好的一致性。

图2 部分miRNA定量结果Fig.2 The expression level of several selected miRNAs

3 讨论

随着测序技术的发展，获取一组miRNA高通量测序数据越来越容易，高效快速的一键化的处理软件越来越受欢迎。本研究整合了一整套miRNA高通量测序分析软件，合理设计算法策略，巧妙地先合并后拆分多个样本数据，达到快速、高效、一键化的处理多样本miRNA高通量数据的目的。

miRDeep-pipeline整合了优秀的miRDeep2软件[4]，具有与miRDeep2同等的精确性和优于miRDeep2的运行效率。

首先在操作上，单纯miRDeep2针对多个样本需要重复相同的分析操作，而miRDeep-pipeline可以一次性处理多个样本，并且只需要运行一个核心程序mirdeep-pipeline，就可以完成对多个miRNA测序数据的分析工作，大大精简了操作步骤。

其次在软件运行成本上，miRDeep-pipeline对多个样本数据进行先合并后拆分的策略，在合并过程中进行聚类分析，避免重复序列的重复计算。在黄颡鱼性腺miRNA测序数据上试验，miRD-eep-pipeline相对于单线程运行miRDeep2软件至少可以节约一半的分析时间。miRDeep-pipeline处理多个样本的时间优势会随着数据量的增加而更加明显，因为生物体内存在的miRNA是有限的，测序深度的增加和样本数的增加对数据复杂度的增加是很有限的，大多数情况下只会影响序列的重复次数，对唯一序列的总数影响非常微弱[17]。在本研究中，对序列进行合并后去冗余，精简后的数据集在测序深度和样本数增加的情况下增加幅度相对微弱，不会导致大幅度的软件计算时间的增加，因而miRDeep-pipeline在处理大数据和多样本时随着数据量的增加而效率更高，优势更明显。

最后，miRDeep-pipeline最终输出结果为多样本整合后的miRNA表达数据，便于直接进行样本之间比较和miRNA差异表达分析，减少手动整合多样本分析结果的操作，节约大量时间成本，提高工作效率。没有任何编程基础的研究者也很容易读懂分析结果，开展进一步的研究工作。

本研究开发的miRNA快速高效分析流程针对多样本miRNA高通量测序数据具有明显的优势，样本数量越多测序量越大，软件运行效率越高。针对日益积累的海量小 RNA测序数据，miRD-eep-pipeline高效快速一键化数据处理流程将被广泛使用。

［1］Chen X.Small RNAs and their roles in plant development［J］.Annual Review of Cell and Developmental Biology, 2009,25（1）:21-44.

［2］Bartel D P.MicroRNAs:genomics,biogenesis,mechanism, and function［J］.Cell,2004,116（2）:281-297.

［3 Friedländer M R,Chen W,Adamidi C,et al.Discovering microRNAs fromdeep sequencingdata usingmiRDeep［J］. Nat Biotechnol,2008,26（4）:407-415.

［4］Friedländer M R,Mackowiak S D,Li N,et al.miRDeep2 accurately identifies known and hundredsofnovel microRNA genes in seven animal clades［J］.Nucleic Acids Res,2012,40（1）:37-52.

［5］万琳霞,丁建栋,关佶红.计算方法预测microRNA研究进展［J］.计算机应用与软件,2012,29（5）:159-162,194.

［6］Altschul S F,Gish W,Miller W,et al.Basic local alignment search tool［J］.J Mol Biol,1990,215（3）:403-410.

［7 Mount D W.Using the basic local alignment search tool（BLAST）［J］.CSH Protocols,2007（14）：pdb.top17,doi: 10.1101/pdb.top17.

［8 Langmead B,Trapnell C,Pop M,et al.Ultrafast and memory-efficient alignment ofshort DNA sequences to the human genome［J］.Genome Biology,2009,10（3）:R25.

［9］Xu F,WangX,FengY,et al.Identification ofconserved and novel microRNAs in the Pacific oyster Crassostrea gigas by deep sequencing［J］.PLoSOne,2014,9（8）:e104371.

［10 Li R,Beaudoin F,Ammah A A,et al.Deep sequencing shows microRNA involvement in bovine mammary gland adaptation to diets supplemented with linseed oil or safflower oil［J］.BMCGenomics,2015,16（1）:884.

［11］Fan G,CaoX,Niu S,et al.Transcriptome,microRNA,and degradome analyses of the gene expression of Paulownia with phytoplamsa［J］.BMCGenomics,2015,16（1）:896.

［12 Keller A,Leidinger P,Meese E,et al.Next-generation sequencing identifies altered whole blood microRNAs in neuromyelitis optica spectrum disorder which may permit discriminationfrommultiplesclerosis［J］.Journalofneuroinflammation,2015,12（1）:196.

［13］Jing J,Wu J,Liu W,et al.Sex-biased miRNAs in gonad and their potential roles for testis development in yellow catfish［J］.PloSONE,2014,9（9）:e107946.

［14 Martin M.Cutadapt removes adapter sequences from high-throughput sequencing reads［J］.EMBnet Journal, 2011,17（1）:10-12.

［15］Griffiths-JonesS,GrocockRJ,vanDongenS,etal.miRBase: microRNA sequences,targets and gene nomenclature［J］. NucleicAcidsRes,2006,34:D140-D144.

［16 Kozomara A and Griffiths-Jones S.miRBase:annotating high confidence microRNAs using deep sequencing data［J］.Nucleic Acids Res,2014,42:D68-D73.

［17］Sims D,Sudbery I,Ilott N E,et al.Sequencing depth and coverage:key considerations in genomic analyses［J］.Nature Reviews Genetics,2014,15（2）:121-132.

Rapid and Efficient miRNA Identification Pipeline and its Application in Yellow Catfish

WANG Ping-ping,LU Jian-guo,WANG Le,LUAN Pei-xian,WANG Qiu-shi,ZHANG Xiao-feng
（Heilongjiang River Fisheries Research Institute,Chinese Academy of Fishery Sciences,Harbin 150070,China）

High-throughput sequencing technologies have been widely used in miRNA studies with the advantages of high speed,low cost and high throughput.Based on the massive miRNA data from high-throughput sequencing,we developed a rapid and efficient miRNA identification pipeline integrated with several data analysis softwares.By marking,merging and clustering of several miRNA sequencing data sets,our pipeline can avoid duplicate analysis processes for every single data set,which can greatly reduce the amount of calculation and significantly improve the software efficiency.Just run one more time of our pipeline,all the samples will be analyzed.In this study,we analyzed miRNA sequencing data from XX ovaries,XY testis and YY testis of yellow catfish（Pelteobagrus fulvidraco）with this pipeline,and identified a number of conserved miRNAs,with significant reduce in time in the same parameters by pipeline.The integrated results from our pipeline are comparable between samples and easily to do further miRNA differentially expression analysis,which will greatly reduce the manual integration operation for every single results.Our miRNA identification pipeline has obvious advantages in processing multiple data sets.The more samples and greater data sets,the higher the efficiency.The advantages of our pipeline will be more and more obvious with the increasing accumulated miRNA sequencing data.

miRNA;high-throughput sequencing;miRNA identification;yellow catfish（Pelteobagrus fulvidraco）

S917

1005-3832（2016）05-0027-05

2016-06-10

中央级公益性科研院所基本科研业务费专项资金（HSY201505）.

王平平（1988-），女，硕士，研究实习员，从事鱼类生物信息学和遗传育种研究.E-mail:wangpingping@hrfri.ac.cn