基于流式细胞术和K-mer 分析的荆芥基因组大小评估
2024-01-08姜涛刘灵娣田伟刘铭温春秀
姜涛,刘灵娣,田伟,刘铭,温春秀
(河北省农林科学院经济作物研究所,河北 石家庄 050051)
荆芥(Nepeta cataria)属唇形科裂叶荆芥属一年生药用植物,具有祛风解表、宣毒透疹、散瘀止血功能,用于治疗感冒,头痛,麻疹,风疹和疼痛,也可用于消炎、止血等[1]。荆芥在全国大部分地区均有种植,主要分布在河北、江苏、江西、湖北、浙江、湖南和东北三省等地,市场上流通的荆芥品种主要是河北安国产的北荆芥,以及部分生长在江苏、浙江、江西、湖北和湖南等省份的南荆芥[2]。目前,荆芥分子育种工作还非常薄弱,其种质资源遗传多样性分析、生物合成代谢通路、分子标记开发、基因功能分析等方面的研究报道较少[3]。
基因组学的研究已经能为植物基因定位、基因编辑、植物进化和遗传育种提供精准的信息,目前对基因组大小的评估主要有流式细胞分析仪测定法和基因组测序法。流式细胞分析仪测定法(Flow Cytometry,FCM)是20 世纪70 年代发展起来的一种利用流式细胞仪对DNA 含量进行测定的一种技术,具有方法简单、快速敏捷、准确性高等优点,已成为测定基因组大小的主要方法之一[4]。随着测序技术的发展,测序成本已大幅下降,使全基因组测序成为可能。全基因组调查(Genome Survey,GS)是利用测序技术的小片段文库的低深度测序,通过K-mer分析,快速获得物种的基因组大小、杂合度和重复序列等相关信息[5]。Midin 等[6]基于流式细胞术和K-mer 分析测定了山竹染色体数目和基因组大小,结果显示山竹染色体数目在74~110 之间,基因组大小大概为5.92 Gb。马鹏举等[7]利用流式细胞术和K-mer 分析了油料植物好好芭的基因组大小,为好好芭基因组学的研究提供了参考。梅启明等[8]基于流式细胞术和K-mer 测定了两种车前属植物(车前和大车前)的基因组大小,结果显示车前的基因组是大车前基因组的3 倍。
染色体是遗传物质的载体,来源于不同地区的荆芥染色体核型分析显示,荆芥含有12 条染色体,共有4 种核型,为荆芥的种质鉴定和亲缘关系分析提供了细胞学研究[9]。而荆芥的分子生物学、基因组学研究才刚刚起步,通过对荆芥DNA 含量的测定,评估出荆芥基因组大小,是开展荆芥基因组学研究的基础,对推动荆芥的生物进化、分子遗传学和遗传育种的研究具有重要意义。本研究前期对安国荆芥进行了核型分析,结果显示安国荆芥染色体数为2n=12,与前人研究结果一致。为了进一步了解荆芥基因组大小,本研究基于流式细胞仪和全基因组测序技术的K-mer 分析对荆芥基因组大小进行了评估,为荆芥的基因组学研究提供了参考依据。
1 材料与方法
1.1 供试材料
试验材料为河北省安国市荆芥主要栽培种质资源,2022 年9 月,在河北省安国市荆芥种植基地里采集荆芥植株,经河北省中医学院专家鉴定为荆芥属植物。
1.2 试验方法
1.2.1 流式细胞分析
1.2.1.1 细胞悬浮液的制备及染色 将新鲜荆芥叶片置于0.8mL预冷的MGb解离液(45mmol/LMgCl26H2O,20 mmol/L MOPS,30 mmol/L 柠檬酸钠,1% PVP 40,0.2%Tritonx-100,10 mmol/L Na2EDTA,20L/mL -巯基乙醇,pH 7.5)中,用锋利的刀片将组织迅速垂直切碎,使其在解离液中静置冰育10 min,然后用400 目滤网过滤,即得到细胞核悬浮液。在细胞核悬液中添加适当体积预冷的的碘化丙啶(Propidiumiodide,PI)和RNAase溶液,置于冰上避光染色0.5~1 h。PI 染液和RNAase溶液的工作浓度均为50g/mL。
1.2.1.2 流式细胞仪检测和基因组大小计算 以玉米和番茄为内参,其基因组大小分别为2.3 Gb和900 Mb,采用内标法测定荆芥细胞核悬浮液和内参样品的细胞核悬浮液。利用BD FACScalibur 流式细胞仪对染色后的细胞核悬浮液样品上机检测,采用488 nm 蓝光激发,检测PI 的发射光荧光强度,每次检测收集10 000个颗粒。变异系数CV%控制在5%以内,使用Modifit 3.0 分析软件作图分析。
待测样品基因组大小=内参基因组大小×待测样品的荧光强度/内参样品的荧光强度
1.2.2 荆芥基因组Survey分析
1.2.2.1 荆芥DNA 提取 使用TransGen Biotech 植物基因组DNA 提取试剂盒(EE111-01)提取荆芥的基因组DNA,用TUOHE超微量分光光度计(Tnano-800F)检测DNA 浓度和纯度,检测合格的DNA 进行小片段文库建库测序。
1.2.2.2 荆芥基因组测序 利用北京诺禾致源科技股份有限公司的Illumina HiSeq 测序平台进行荆芥基因组测序,文库构建:超声波震荡将合格的基因组DNA破碎至片段为350 bp,然后经过末端修复、加A、加接头、目标片段选择和PCR 等步骤构建小片段测序文库;文库质检:利用Qseq400 和Qubit 检测文库片段大小和文库定量,确定文库是否符合测序标准;芯片固定:通过桥式PCR 将文库固定到测序芯片上;上机测序:利用Illumina 测序仪对文库进行双端150 bp(PE 150)测序。双端测序数据通过GC 分布统计、质量值Q20、Q30 评估,过滤后得到高质量的数据(Clean reads),用于基因组大小、GC 含量的统计评估。
1.2.2.3 基因组大小评估 根据荆芥基因组测序数据,利用K-mer 分析方法对荆芥进行基因组大小、重复序列比率和杂合率的评估。K-mer 是从测序数据中提取出的长度为k 的寡聚核苷酸序列,在测序reads均匀分布的前提下,根据基因组计算公式:基因组长度=总碱基数/平均测序深度=总K-mer 数/平均K-mer深度,使用软件jellyfish 2.1.4 对荆芥2 个350 bp 文库数据构建K=17 的K-mer 分布图,标准的K-mer 深度分布曲线呈正态分布,根据实际曲线偏离正态分布的程度,可以估计基因组杂合度和重复序列比例。
2 结果与分析
2.1 流式细胞术分析荆芥基因组大小
利用流式细胞仪对荆芥和内参(玉米和番茄)的细胞核悬浮液进行检测,分别测定荆芥、玉米和番茄的基因组大小,见图1。根据荆芥与玉米、番茄的荧光强度比值即可计算出荆芥的基因组大小。如表1 所示,利用流式细胞仪评估出荆芥基因组平均大小为0.76 Gb。
表1 荆芥基因组流式细胞术检测结果Table 1 Results of genomic flow cytometry for Nepeta cataria
图1 玉米(A)、番茄(B)和荆芥(C)的细胞流式检测图Fig.1 Flow cytometry of maize(A),tomato(B)and Nepeta cataria (C)
2.2 荆芥基因组Survey分析
按照Illumina 公司提供的标准protocol 进行荆芥基因组DNA 文库制备和测序实验,经过测序并过滤得到高质量的数据(表2)。荆芥测序获得54.39 Gb数据,GC含量约38.77%,Q20 比例达到96.27%,Q30比例达到90.34%。
表2 荆芥基因组测序数据Table 2 Sequencing data of Nepeta cataria genome
对荆芥的基因组进行K-mer17 分析,荆芥的K-mer数分别为36 005 709 512 个(表3);K-mer 分布图显示荆芥的K-mer 深度主峰在39 左右(图2),通过公式计算获得荆芥的基因组大小为0.903 Gb。在荆芥的K-mer 深度主峰后1.8 倍处出现杂峰,说明二者存在杂合情况和基因组重复序列,通过计算杂合位点的比例和杂峰与主峰的百分比获得荆芥的杂合率约为0.32%,重复序列约为66.93%。
图2 荆芥基因组K-mer17 分布图Fig.2 K-mer 17 distribution of the genomes of Nepeta cataria
2.3 荆芥基因组大小评估
利用Soapdenovo 软件进行荆芥reads 数据拼接,获得contigs 序列,根据reads 之间的连接关系和插入片段大小信息,采用K-mer=41将contigs组装成scaffolds序列(表4),获得contig 总长为792 215 707 bp,contig N50 为960 bp,scaffold总长为813 473 842 bp,scaffold N50 为1 650 bp。
表4 荆芥基因组组装结果Table 4 The assembly results of Nepeta cataria genome
3 讨论与结论
荆芥是中国传统的药用植物,是河北省大宗道地药材,安国八大祁药之一[10]。近年其药用价值的充分发掘,价格不断攀升。随着荆芥市场需求急剧增加,荆芥产业进入了一个快速发展时期。而荆芥育种相对滞后,市场急需优良的荆芥品种来改善现有荆芥种质混杂,类型众多,产量和品质参差不齐等现状[10]。传统的育种方法周期长、随机性大,难以满足现阶段市场对荆芥的巨大需求。随着分子生物学和测序技术的发展,分子育种可以加快荆芥育种进程,提高育种效率、降低育种成本,从而解决传统育种的瓶颈问题[12]。目前,对于荆芥的分子生物学研究十分有限,基因资源也较缺乏,荆芥全基因组测序将为其分子生物学的研究提供基础。由于荆芥刚由野生转为人工栽培,遗传背景复杂,基因组大小未知等因素,需要开展荆芥全基因组大小评估与测序。
测定植物的基因组大小不仅对于物种本身的细胞遗传学等具有重要意义,而且也为植物的基因组测序、基因组文库建立以及基因组学及其进化研究提供了不可或缺的基础资料[13]。到目前为止,已建立的基因组DNA-C 值数据库将近6 000 种植物,包括藻类、苔藓类、裸子植物和被子植物[14]。目前常用的基因组检测手段有多种方法,其中流式细胞分析术最为普及,具有检测速度快、准确性好等优点[15]。流式细胞术是利用流式细胞仪对处在快速直线流动状态中的单细胞分析技术,是综合了计算机技术、激光技术、细胞化学等学科的一种自动分析技术[16]。然而,流式细胞仪测定基因组大小过程中,因测定方法和实验材料差异,经常会造成测定结果的差异[17]。因此,在前人工作的基础上,本研究综合考虑样品制备、染色、内参植物的选择,最大限度的避免误差,提高流式细胞术的精准性。利用流式细胞仪对荆芥基因组大小进行鉴定,选择玉米和番茄作为内参植物,测试结果显示荆芥基因组大小为0.76Gb。
随着高通量测序技术的发展,通过测序结合K-mer分析方法对测序片段的K-mer 分布进行统计,可以准确评估基因组大小[18]。通过测序技术除了能够获得物种的基因组大小,还能获得基因组的GC 含量、基因组杂合率和重复序列等信息[19]。伍艳芳等[20]利用高通量测序技术首次测定了樟树基因组大小为760 Mb,并用生物信息学分析了樟树的基因组杂合率较高。钟永达等[21]对鹅掌楸开展了基因组大小测定,评估出鹅掌楸基因组大小为1.57 Gb,属于高重复、高杂合基因组。周少华等[22]对药用植物青藤进行了全基因组调查,基于Illumina 测序平台,结合生物信息学方法获得了青藤基因组的大小、杂合率和重复序列等特征。
本研究对荆芥进行了前期调研,发现荆芥遗传多样性复杂,不同来源的荆芥种质,其株高、叶片大小、抗性都表现出差异性。为了更好的开展荆芥的分子育种工作,本研究基于流式细胞术,利用全基因组调查对荆芥基因组进行了评估,利用K-mer 17 分析显示荆芥基因组大小为0.903 Gb,杂合率约为0.32%,重复序列约为66.93%。由于荆芥基因组重复率较高,本研究进一步采用K-mer41 进行荆芥基因组的组装,获得荆芥contig总长为792 215 707 bp,contig N50 为960 bp,scaffold总长为813 473 842 bp,scaffold N50 为1 650 bp。结合流式细胞术和全基因组调查结果,本研究分析评估荆芥基因组大小在0.7~0.9 Gb 左右,序列重复比例偏高,属于高重复序列的基因组。本研究对荆芥基因组进行了初步的探索,为下一步开展荆芥分子生物学研究和基因组测序提供了参考依据。