叶绿体基因组分析技术在中药资源类专业实验教学中的应用
2024-03-04陈凌云答李穆郑文芳张朝凤
陈凌云,答李穆,郑文芳,张朝凤
中国药科大学中药学院 (南京 211198)
近年来,中药资源相关研究取得了许多重要成果,尤其在药用植物基因组学分析方面。但国内高校中药资源类本专科生教学活动中,植物基因组学实践教学较少或处于空白状态;传统的中药资源相关学习活动以实物辨识和记忆背诵为主,围绕植物传统分类学与本草沿革等展开。为了提升中药资源与开发专业建设水平,促进学生掌握药用植物基因组学相关知识与技能,教学团队在中国药科大学中药资源类专业的实验教学中引入了叶绿体基因组的组装、注释及进化分析等实验内容。教学实践证明,该实验教学的实施有助于学生深入理解生物信息学在中药资源开发中的应用,提升学生生物统计技术的实践能力。
1 植物基因组序列分析技术的现状
1985年美国能源部提出了“人类基因组计划”(HGP)草案[1],1990年HGP正式启动。2000年,科学家发表了拟南芥的全基因组序列信息[2]。截至2023年3月,科学家已完成900多个被子植物物种的全基因组测序(https://plabipd.de/plant_genomes_pa.ep)。植物基因组学已被广泛应用于药用植物鉴定、繁殖育种、分类演化等研究。叶绿体基因组一般是一个双链环状DNA,独立于核基因组,在细胞中拷贝数较多,大小在120kb到200kb之间,存在于藻类和绝大多数的绿色植物细胞中。叶绿体基因组较为保守,含有大量功能基因,对于物种鉴定、分类、演化研究有着极为重要的作用。目前,科研工作者普遍采用第二代测序平台获得植物基因组DNA数据,再通过算法提取叶绿体的小片段DNA序列(120~150bp),拼接成片段(contig),再连接成完整的或者间断的长序列(scaffolds)[10-11]。随着测序技术的发展,测序准确率提高,测序价格大幅下降,已完成叶绿体全基因组测序的物种数目正在爆发式增长。
近年来,科学家相继报道了人参、三七、丹参等重要药用植物的全基因组序列,本草基因组学应运而生[3],对中药学发展产生了重要影响。例如,人参基因组数据的发表促进了人参育种和人参皂苷生物合成研究[4],黄花蒿的全基因组测序不仅发掘了与青蒿素合成相关的基因,而且使得通过异源基因表达增加青蒿素产量成为可能[5],冬虫夏草菌的全基因组测序使得虫草素的生物合成有了可靠的理论基础[6]。植物基因组技术在中药学与药用植物学研究中发挥着重要作用,
2 叶绿体基因组分析技术的教学需求
叶绿体基因组学在药用植物学与中药鉴定学相关的教学、研究中有着重要作用。目前,国内《药用植物学》教材[7,8]仍然采用恩格勒分类系统。而基于基因组学的分类系统如APG[9-10],相比恩格勒分类系统更为接近植物真实的进化历史,已经被国外教材和科研工作广泛采纳。在药用植物基源鉴定方面,基于基因组学的分子鉴定相比于形态和显微鉴别更加高效、准确,但中药资源类专业本专科教学实践却较少提及相关技术。为了提升中药资源类专业教育教学水平,医药院校需在中药鉴定学、药用植物学等理论课程和实验课程中增加叶绿体基因组分析相关内容。实验的开设一方面有益于培养学生科研思维,提高学生的实验操作技能;另一方面能够充分调动学生的学习积极性,拓宽学生科研视野。当前,部分高校(如北京协和医学院、武汉理工大学、上海中医药大学等)面向本专科生或研究生已开展了基因组学相关课程教学,但大部分中医药类高校尚无植物基因组学相关教学内容。网络技术的普及,大大降低了基因组学实验教学成本,面向本专科学生开展基因组学相关实践教学成为可能。
开展基因组学实验教学,需要的计算机条件如下:CentOS 6以上或Ubuntu 9以上,30Gb以上的可用运行内存空间,500Gb以上的可用硬盘空间。处理器的性能和线程数量主要影响运行速度,近十年来市售的服务器几乎都能满足本实验的需求。叶绿体基因组的组装在CentOS系统上完成,注释和系统进化分析可以在CentOS系统,也可以在Windows系统上完成。笔者采用的服务器品牌和配置如下:DELL R730XD、Intel Xeon CPU E5-2699v4 CPU两颗、512Gb内存、CentOS 8.3.2011操作系统。主要软件为:Trimmomatic v0.36[11]、Python v3.7、GetOrganelle v1.7.5[12]、Bandage v0.8.1[13]、MEGA 11.0.13[14]。
3 叶绿体基因组分析技术的教学案例
以西南山梗菜的第二代测序数据为实验材料,笔者设计了叶绿体基因组的分析实验。在知识体系和内容上该实验考虑了学生综合运用知识、解决和探索科学问题的能力,让学生了解和掌握植物基因组学知识。如果学生没有接触过Linux系统,可能较难完成本实验内容。因此,在开展本实验前,笔者建议用2~3个课时向学生讲授Linux相关知识,或让学生自学相关知识。对多个叶绿体基因组进行序列比对并构建系统进化树是教学过程中的主要难点,需要教师在讲解这些内容时更为细致。完成本实验全部流程需要大约3~5小时,约5~8个课时。
西南山梗菜(LobeliaseguiniiH.Lév.& Vaniot)属于山梗菜科,半边莲属,又名野烟,小烟草。记载于《滇南本草》:“味辛、麻,性温,有大毒 (https://www.zysj.com.cn/zhongyaocai/yeyan/index.html)。现代药理研究认为,西南山梗菜有消炎止痛、解毒、杀虫止痒的功效。常用于治疗热毒疮痈、跌打损伤、风湿性关节炎等病症。本实验西南山梗菜采集于重庆市梁平区曲水镇聚宝村(2021年10月,图1),种植于中国药科大学药用植物园。笔者取西南山梗菜的叶片送天津诺禾致源科技有限公司使用Illumina平台测序,测序数据用于后续叶绿体基因组组装与分析。实验教学基本流程如图2。
图1 实验所用的实验材料——西南山梗菜
图2 实验教学的基本流程
4 实践过程
4.1 叶绿体基因组组装
实验使用Trimmomatic软件对原始测序数据去除接头和低质量reads。Trimmomatic从http://www.usadellab.org/cms/?page=trimmomatic获取并安装。也可以使用Anaconda(https://www.anaconda.com/)安装Trimmomatic。在官网下载Anaconda的Linux系统的安装包,上传到服务器后,使用bash指令执行即可。Anaconda安装完成后,使用conda install trimmomatic安装Trimmomatic软件。
Trimmomatic的执行命令如下:java -jar trimmomatic-0.36.jar PE input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
指令需要输入经双末端测序得到的2个数据,并指定输出的4个文件的名称。指定名称后,该指令可以支持多个参数,以设定执行的步骤。“TruSeq3-PE.fa”为Trimmomatic软件包自带的一个包含接头序列的文件。“30”代表切除与接头序列和反向序列匹配的质量值小于30的reads,“10”代表切除与接头序列相匹配的reads的最小质量值。“LEADING”,从reads起始开始切除碱基,“3”代表切除质量值小于3的碱基。“TRAILING”,从reads末端开始切除碱基,参数含义同上。“SLIDINGWINDOW”,划窗剪切,会以窗口扫描过整个reads,再按照窗口切除碱基。“4”代表窗口的大小为4个碱基,“15”代表如果这一条reads的窗口的平均质量值低于15,则删除一整条reads。“MINLEN“,设定reads的最小长度。“36”代表切除总长度低于36的reads。此步骤大约需要30分钟,产生的2个paired文件将用于下一步分析。
采用GetOrganelle软件进行叶绿体基因组的组装,软件从https://github.com/Kinggerm/GetOrganelle下载,并按照说明书安装。也可以在Anaconda中使用指令conda install getorganelle完成GetOrganelle的安装。
采用如下命令执行叶绿体基因组组装:get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -F embplant_pt -o output-plastome -R 10 -t 1 -k 21,45,65,85,105,127
各项参数,“-1”和“-2”表示正向和反向的测序数据,“-F”表示需要组装的基因组类型,“-o”代表输出的结果文件夹的名称,“-R”代表使用的线程数,“-k”代表组装时的kmer长度。在多数组装中,“kmer”设定为127和85能取得较好的结果。默认软件参数下,GetOrganelle将自动估计组装需要的read数量。可以添加--max-reads参数来设置使用reads的数据,但需要注意,GetOrganelle会将全部的测序数据一次性写入内存,所以此项需要谨慎设置。
结果为一个文件夹,其内容如图3。
图3 GetOrganelle输出的结果
从上至下,第一个文件夹为SPAdes的输出数据,GetOrganelle的组装核心采用的是SPAdes,文件夹内含有上述所设定的不同kmer的组装结果。第二个文件夹为参考基因组库。第三到第四个文件为GetOrganelle产生的完整的、环装的基因组序列。由于同一个植物的叶绿体基因组存在一定差异的拷贝,因此会有含有编号1.1、1.2的两个序列,挑选其中一个用于后续分析。第五个文件即为最终结果。第六到第九文件为使用bowtie2比对到参考基因组后,能成功匹配的reads。第十到第十二个文件是没有去除非成环或非主DNA链序列的组装结果。(如果最终结果未成环,需要用第十到第十二个文件进行进一步分析)。最后一个文件是运行日志,记录了组装的主要过程。
将图3后缀为gfa的文件导入到软件Bandage。Bandage(http://rrwick.github.io/Bandage/)是一个可视化的基因组修改软件,能够直观地分析前述组装的结果。使用Bandage导出一段大单拷贝区,一段小单拷贝区和重复拷贝区的两个部分,也可以得到最终组装结果。在测序数据不完整,测序错误、测序污染未去除或去除不完全等情况下,有可能得到类似如图5的结果,是contigs graph,区别于图4的complete graph,只能得到叶绿体基因组的大片段。
图4 由Bandage可视化完整的组装结果
图5 由Bandage可视化不完整的组装结果
不完全组装的叶绿体基因组也能用于许多研究,如系统进化分析。笔者尝试了不同的组装参数(如不同的kmer值,reads的数量),一般可以得到完整的叶绿体基因组序列。输入同样的reads,执行相同的命令,其结果相同,具有可重复性。
4.2 叶绿体基因组注释
使用CPGAVAS2软件进行叶绿体基因组在线注释,网址为http://47.96.249.172:16019/analyzer/home。根据提示,选择“AnnoGenome”,导入上一步获得的叶绿体基因组序列,并在参考基因组中选择“2544-plastomes”作为参考基因组。提交任务,并记录订单号。等待约20分钟,即可查看结果。
结果主要包括四部分:GFF3文件,详细描述注释得到的基因;GeneBank文件,描述注释所得到的基因在基因组上位置;一个绘制好的叶绿体基因组圈图;原始数据整理得到的SQN文件。在叶绿体基因组圈图上可以看到基因的功能和所在位置,也可以将GeneBank文件导入其他圈图绘制和美化软件进行自定义操作。除以上四部分内容,CPGAVAS2还提供了预测基因的蛋白质序列以及较为粗略的SSR位点分析结果。
4.3 功能与进化分析
对组装结果进行分析,可以得到更多的特征信息,也可以联系生物化学等课程,学习课程中一些概念的实际用途。笔者选择了SSR重复序列分析、基因组偏好性分析、系统进化分析三个项目。
4.3.1 SSR重复序列分析
SSR重复序列分析采用MISA软件进行。MISA可以鉴定简单重复序列,其提供了在线版和安装版。笔者选择在线版,网址为https://webblast.ipk-gatersleben.de/misa/index.php?action=1。
在网页中上传叶绿体基因组全长序列,填入邮箱以及项目名称,一分钟内即可在邮箱中收到分析结果。结果是一个tgz格式的压缩文件夹,文件夹中包含上传的序列本身,所选择的分析配置,每一个SSR重复序列的详表文件和一个重复序列的总述文件。
在这里笔者设定的项目名称为chloroplast,4个文件与上述内容按顺序相互对应,文件可用记事本打开。后缀为misa的文件包含了每个SSR位点的详情,后缀为statistics的文件包含了SSR位点的总数和类型等信息。
4.3.2 基因组偏好性分析
基因组偏好性分析采用CondonW软件进行,软件从https://sourceforge.net/projects/codonw/获得,将组装得到的叶绿体基因组序列文件和CondonW放置在同一个文件夹。
打开CondonW,可以看到一个命令行窗口(图6)。
图6 CondonW的一级菜单
输入1,载入需要分析的序列;输入4,进入子菜单,用来选择需要计算的内容。设定好后,输入R进行计算,计算完毕后输入Q退出,不能直接关闭窗口,否则结果将不会写入文件,无法获得。
计算完成后将得到一个out文件和一个blk文件,两者均是表格,都能用记事本打开。out文件是上文设定的计算内容得到的结果,blk文件分别列出了每种密码子的占比数量等信息。
4.3.3 系统发育分析
选取桔梗科中党参、沙参、桔梗等15种药用植物,从NCBI GenBank下载这些物种的叶绿体基因组序列,以邻接法构建系统进化树。
将下载的序列合并到同一个fasta文件中。采用MAFFT软件进行序列比对,MAFFT软件可以输入conda install mafft命令获取。在完成MAFFT的安装后,使用指令mafft input >output即可完成比对。这个过程大约需要2~3小时。将结果导入MEGA11(https://megasoftware.net/)中,选择Align,在弹出的窗口中将其保存为meg文件。然后打开Phylogeny选项中的Neighbor-Joining Tree,构建进化树。结果可以在1分钟内得到,可以将结果保存为nwk文件,在iTol网页中进行修饰(https://itol.embl.de/)。
这样就得到了西南山梗菜完整的叶绿体基因组,总长度为165163bp。该叶绿体基因组具有典型的环状四分体结构,其中,LSC区长度为82641bp,SSC区域长度为7625bp,两个重复拷贝区为37366bp。注释基因组得到了89个基因。其中,光合作用相关的基因有51个,自我复制相关的基因有28个,蛋白编码相关的基因4个和未知功能的开放性阅读框4个(图7)。
图7 西南山梗菜叶绿体基因组的注释结果
微卫星序列分析得到了32个SSR位点。其中,有4个位于SSC区域,10个位于LSC区域,18个位于IR区域。这些SSR位点中,有26个为单核苷酸A和T构成的重复序列、3个为AT和TA组成的重复序列、1个由TTC构成的三核苷酸重复序列、1个复合型序列。基因组偏好性分析得到密码子适应指数为0.24,表明西南山梗菜叶绿体基因组密码子偏好性较弱,内源基因表达较低。整个基因组的GC含量为39%,表明西南山梗菜叶绿体基因组偏好使用碱基A和T。最后,以邻接法构建系统进化树,Bootstrap值越高,表示进化枝的可信度越高。由系统进化树可知,西南山梗菜和Delissearhytidosperma同聚一支,表明二者系统关系较近,和沙参Adenophorakayasanensis、党参Codonopsistsinlingensis等不在同一支,表明西南山梗菜和后两者系统关系较远(图8)。
图8 西南山梗菜和同科植物的系统进化树
本实验产生的高通量测序数据存储于NCBI SRA(编号:SRR21748410)。涉及的数据处理方法和关键数据详见https://bitbucket.org/dinoce/choloplast-exp/src/main/。
5 教学效果反馈
该实验安排2节理论课(45分钟一节课);4节上机课(45分钟一节课),进行实际操作练习。理论课结束后,教师向学生发放详细的上机教程。上机课堂上,部分学生在教师讲解后,需要多次协助才能够进行后续的上机练习。造成这种情况的原因,可能是这部分学生没有提前预习。所有学生均上交了教师布置的课后作业。由于大家使用同样的分析数据,大家的作业大体相同,存在部分学生复制他人作业的可能性。为避免抄袭,笔者要求学生将叶绿体序列的名称额外加上自己的姓名和学号。此外,可以向学生发一份全基因组测序的原始数据,学生在课后独立完成全基因组组装,这将帮助有余力的学生巩固知识并提高水平。
学生的课后作业是独立完成叶绿体基因组的组装与注释、系统进化分析,提交叶绿体基因组的注释圈图、不同植物的叶绿体基因组的序列比对截图以及最终构建的系统进化树。学生都完成了此作业,大约有三分之一的学生额外上交了叶绿体注释的GFF文件。此外,有2位接受本课程的学生在做毕业论文设计,内容是药用植物基因组学方面的工作。笔者让接受过该课程的2位学生帮助其他没有接受过此课程的学生使用服务器、做简单的分析。
6 教学案例的实用性分析
首先,为了让学生较好地掌握叶绿体基因组的组装方法,实验需选择合适的物种和高质量的测序序列。笔者曾尝试组装AsarumforbesiiMaxim(杜衡)与ScirpusvalidusVahl(水葱)的叶绿体基因组,然而两个物种的组装结果都不尽如人意。杜衡的组装结果为相互不能连接的七个序列,使用BLAST将杜衡的序列比对NCBI NR数据库,发现即使选取最相似的基因组,其结果也相差甚远,多次调整,均未得到完整的叶绿体基因组序列。检查组装过程中,笔者发现许多短小而复杂的序列,推测是测序数据中核基因组过多,即使进行深度筛选也不能完全分离,导致无法组装。水葱的叶绿体基因组组装得到了许多成型的质粒和诸多大小不同的序列,推测可能是样本受到了污染,或者核酸遭到破坏。教师可以在理论教学中阐明有些植物物种的叶绿体基因组较难组装的原因。
其次,西南山梗菜的叶绿体基因组具有典型的环状四分体结构,本实验所介绍的方法仅适用于含有标准环状四分体的叶绿体基因组的组装,部分豆科植物和蕨类植物可能并不在此组装流程的适用范围内。由于二代测序的固有问题,组装结果可能出现gap和杂乱的分支序列,这种结果可以通过修改GetOrganelle的kmer参数,使用更多的reads或者手动分析结果、手动延长等方式进行修正。也可能存在叶绿体基因组确实没有被测序覆盖,从而无法组装成完整基因组的情况。这种情况可以使用同源植物作为参考基因组进行填补(但可能存在序列错误),或重新测序。为保证教学质量,笔者建议以本文提供的西南山梗菜的二代测序数据开展实践教学(NCBI SRA,编号SRR21748410)。
最后,运行Trimmomatic和GetOrganelle软件会消耗较长时间,且需要至少三倍于测序reads的存储空间,因此应该保证计算机能够长时间运行,且有足够的存储空间(≥500G)。价格在4~6万元之间的小型服务器即可满足20名以上学生在学习Linux操作系统的同时开展叶绿体组装分析等教学活动。也可以借助学校网络数据中心的公共服务器开展本教学活动。学生在学习有关核酸、植物分类学的相关课程内容后,开展本实践教学更为适当。
7 结语
叶绿体基因组分析不只是植物学、中药鉴定学、基因组学研究的有力工具,也是药用植物学、中药鉴定学等课程亟需补充的知识点。借助本专科教育体系,将基因组知识融入教学,既能使教学内容与专业发展技术需求同步,也能使学生更有成就感,为中药资源类相关科技工作夯实基础。