APP下载

茜草叶绿体全基因组序列及其系统发育分析

2023-12-05陈晓颖胡本祥史嘉周杨冰月

西北植物学报 2023年11期
关键词:茜草密码子叶绿体

陈晓颖,胡本祥,2,史嘉周,杨冰月,张 岗,彭 亮*

(1 陕西中医药大学 药学院,陕西省秦岭中草药应用开发工程技术研究中心,“秦药”研发重点实验室,西安 712046;2 陕西国际商贸学院,西安 712046)

茜草(RubiacordifoliaL.),又名红茜根、满江红,为茜草科(Rubiaceae)茜草属(RubiaLinn.)多年生草质攀缘植物,广泛分布于中国西北、华北、东北及朝鲜、印度和日本等地[1]。茜草具有极高的药用和工业价值,其根及根茎是中国大宗中药材品种之一,具有凉血、祛瘀、止血、通经的功效,在传统中医中常用于治疗各种血液循环并发症,如痛经和血瘀等[2]。现代研究表明,蒽醌及其衍生物为茜草的主要活性成分,特别是茜草素和紫罗兰素,具有止血、抗炎、抗氧化、抗癌、抗菌等多种药理活性[3-6]。同时,茜草素和紫罗兰素也一直被用作棉、丝和羊毛织物的重要天然染料,具有良好的药用价值与经济价值[7-9]。

叶绿体是绿色植物特有的半自主型细胞器,拥有源于母系遗传的独立基因组,在植物细胞中发挥着重要作用[10]。叶绿体基因组是1个圆形结构,具有保守的四分体结构,包括1个大单拷贝(LSC)区和1个小单拷贝(SSC)区,2个相互倒置的重复(IR)区域,LSC和SSC正好被2个序列相同但方向相反的IR序列分开[11]。与核基因组相比,叶绿体基因组结构稳定,具有分子进化速率适宜、序列高度保守、基因密集度高等优点[12]。同时,叶绿体基因组的特点是单倍体、母系遗传、分子数量小和高度保守的序列结构,其序列变异可以为植物分类和遗传关系提供重要理论依据[13]。钟志敏[14]运用DNA条形码技术,结合植物叶绿体全基因组分析,对石斛属物种成功进行了鉴定;Cui等[15]基于3种豆蔻属植物叶绿体基因组进行了特征比较与系统发育分析;Chen等[16]把整个叶绿体基因组用作鉴别物种的超级条形码,对6种橐吾属植物进行了有效识别。由此说明叶绿体基因组在研究植物进化、物种鉴定、资源开发与分子标记等方面可作为有利技术手段[17]。

茜草属多种植物具有药用价值,它们外观形态相似,难以区分,在实际用药和生产中极易因物种差异而影响治疗效果[18]。研究证实,不同药用植物的化学成分与亲缘关系之间存在相关性,亲缘关系越近,成分越类似[19]。因此,获得茜草的遗传资源信息,解析茜草及其同属近缘种的亲缘关系,可为其新药源及其替代品的挖掘提供证据。目前,茜草的研究多集中于化学成分[20]、药理作用[21]、非药用部位[22]和染色[23]等方面,缺乏关于遗传和叶绿体基因组等方面的分析。基于此,本研究运用高通量技术对茜草全叶绿体基因组进行测序、组装、注释,并对测序结果进行结构特征和序列变异解析;同时,选取与茜草同科共20种植物进行系统发育分析,对其亲缘关系进行探讨与比较,以期为之后茜草的物种鉴定与区分、资源开发与利用、系统发育等研究奠定理论基础。

1 材料和方法

1.1 材 料

茜草样品采自陕西省咸阳市陕西中医药大学药用植物园(108°16′26″E,34°19′3″N),经陕西中医药大学胡本祥教授鉴定,凭证标本保存于陕西省秦岭中草药应用开发工程技术研究中心。取茜草新鲜叶片,清洗干净后液氮速冻,存放于-80 ℃冰箱。

1.2 方 法

1.2.1 基因组DNA提取与测序

运用植物基因组DNA提取试剂盒(TIANGEN)提取茜草叶片总DNA后,对其纯度、降解程度、是否存在RNA及蛋白污染、浓度进行测定;合格DNA样品运用超声技术随机打断,再通过末端修复、加A尾、加测序接头、纯化、PCR 扩增等方法,构建文库。利用Illumina高通量测序平台HiSeq X Ten测序,获得序列原始数据(raw data),原始数据质控合格后进行数据分析,最终得到高质量的clean data,以FASTQ格式提供[24]。

1.2.2 叶绿体全基因组序列组拼接与注释

运用Gurevich对序列拼接软件进行测试,以IDBA-UD和SPAdes效果最佳。本研究采用SPAdes v3.11.1拼接软件对clean data的优化序列进行拼接和组装,Kmer长度参数设置分别为107、117、127[25]。利用DOGMA软件对基因内序列长度、GC含量等进行预测,并利用Geneious软件对注释结果进行手动校正[26];使用OGDRAW软件绘制叶绿体全基因组图谱[27]。最终注释的叶绿体基因组提交至NCBI,获得登录号OK326894。

1.2.3 叶绿体基因组特征分析

采用MEGA11[28]进行密码子特征分析,包括同义密码子使用量、相对同义密码子使用值(RSCU)、碱基组成和密码子含量的变化特征。使用SSRHunter软件[29-30]鉴定叶绿体基因组中的简单序列重复序列(SSR),参数分别设置为8、5、4、3、3、3(单核苷酸至六核苷酸),且2个SSRs之间的最小距离为100 bp。SC/IR边界使用IRSCOPE[31]进行作图分析。mVISTA软件[32](https://genome.lbl.gov/vista/mvista/submit.shtml)做全基因组对比,分析时勾选全局对比(Shuffle-LAGAN)。

1.2.4 系统发育分析

从NCBI(https://www.ncbi.nlm.nih.gov)下载茜草科茜草亚科植物Rubiahorrida(KY378689)、Rubiacordifolia(OK326894)、Galiummollugo(KY562588)、Galiumaparine(KY562587)、Paederiafoetida(KY378691)、Paederiascandens(NC_049155)、Leptodermisscabrida(NC_049160)、Hedyotisovata(MK203877)、Gynochthodesparvifolia(NC_054151)、Gynochthodesofficinalis(NC_028009)、Morindacitrifolia(KY378694)、Damnacanthusindicus(MW548283)、Saprosmamerrillii(MK203879),共13种;下载仙丹花亚科植物Coffeacanephora(NC_030053)、Coffeaarabica(NC_008535)、Mussaendahirsutula(MK203878)、Emmenopteryshenryi(KY273445),共4种;下载金鸡纳亚科植物Mitragynaspeciosa(KY085908)、Cinchonaofficinalis(MZ151891)、Antirheachinensis(NC_044102),共3种,所选取的三类亚科的19种植物均属于茜草科,可直观对样品茜草与同科植物、同属植物之间的亲缘关系进行分析;同时,选择玄参科植物Buddlejaalternifolia(MN395662)和Buddlejacolvilei(NC_042766)作为外类群,利用MAFFT version 7[24]软件进行序列多重比对,输出注释好的文件,检查所得结果并进行校验;采用最大似然法(maximum likelihood method,ML)分析系统演化关系。用MEGA11软件生成系统发育树,除自展值Bootstrap value设为1 000外[33],其他参数设置为默认。

2 结果与分析

2.1 茜草的叶绿体基因测序结果分析

茜草叶绿体基因组共测得47 407 072条total reads,质控后获得47 404 064条高质量的clean reads,占比率高达99.99%,组装、拼接后获得叶绿体基因组序列(图1)。如图所示,茜草叶绿体基因组为典型的四分环状结构,基因组整体GC含量为37.2%;序列长度为153 959 bp,包括1个83 844 bp的大单拷贝区(large single-copy,LSC)、1个17 083 bp的小单拷贝区(small single-copy,SSC)和1对长度为26 516 bp反向重复区(inverted repeat region,IRs)。SSC、LSC和IR区的GC含量依次为30.9%、34.7%和40.3%(表1)。

表1 茜草叶绿体基因组碱基组成

图1 茜草叶绿体基因组图谱Fig.1 Gene map of Rubia cordifolia chloroplast genome

2.2 基因组成

茜草叶绿体基因组共注释得到124个基因,包括与植物光合作用相关的基因、与自我复制相关的基因,以及一些功能未知的基因,分别为79个蛋白编码基因、37个tRNA基因和8个rRNA基因(表2)。其中,6个tRNA基因(trnA-、trnI-、trnK-、trnL-、trnS-、trnV)、7个蛋白编码基因(rps16、rpl2、rpoC1、ndhA、ndhB、atpF、ycf1)中各包含1个内含子, 而rps12、clpP和ycf3基因则各包含2个内含子。

表2 茜草叶绿体基因组基因

2.3 密码子偏好性分析

茜草叶绿体基因组有64种密码子,总长78 113 bp,GC含量为37.67%。除终止密码子外,20种氨基酸由其他密码子编码而来。其中,以亮氨酸(Leu)使用最为频繁,其数量为3 680;其次是丝氨酸(Ser),数量为2 188;使用次数最少的是半胱氨酸(Cys),数量为402。RSCU分析结果表明,在所示的64种密码子中,有33种密码子的RSCU>1,占总量的72.39%,其中29种以A/U结尾,4种以G/C结尾(表3)。

表3 茜草密码子

2.4 重复序列检测

重复序列(SSR)广泛存在于叶绿体基因组中,常用于植物物种鉴定的研究中。在茜草叶绿体基因组中共检测到169个SSRs,包括129个单核苷酸、18个双核苷酸、11个三核苷酸,9个四核苷酸和2个五核苷酸,六核苷酸SSR未检测到;其中,单核苷酸居多,以A和T组成为主,表明在碱基形成过程中A和T被频繁使用(表4)。

表4 茜草叶绿体基因组的SSR

2.5 边界分析

文章选取了茜草科10种植物进行叶绿体基因组边界分析,分别为茜草亚科(6种)、仙丹花亚科(2种)和金鸡纳亚科(2种),从上至下依次为茜草Rubiacordifolia(OK326894)、糙叶野丁香Leptodermisscabrida(NC_049160)、鸡屎藤Paederiascandens(NC_049155)、四叶葎Galiummollugo(KY562588)、原拉拉藤Galiumaparine(KY562587)、卵叶耳草Hedyotisovata(MK203877)、中粒咖啡Coffeacanephora(NC 030053)、小粒咖啡Coffeaarabica(NC_008535)、美丽帽柱木Mitragynaspeciosa(KY085908)、正鸡纳树Cinchonaofficinalis(MZ151891),如图2。结果显示,所选取植物的叶绿体基因组共有4个边界。茜草、四叶葎、原拉拉藤、中粒咖啡、小粒咖啡和美丽帽柱木的JLB(LSC/IRb)位于rps19基因编码区内,且向IRb区有14~95 bp的扩张;正鸡纳树的JLB边界则位于rpl16基因上,向IRb区扩张了193 bp;糙叶野丁香JLB边界位于rps19和trnH基因之间;鸡屎藤的JLB边界位于rps19和rps12之间;仅卵叶耳草JLB(LSC/IRb)边界位于rps22和rps19之间。

图2 茜草科植物叶绿体基因组的IR/SC边界变化情况Fig.2 Changes of IR/SC boundary of chloroplast genomes of Rubiaceae species

在JSB(IRb/SSC)边界区,茜草缺失ycf1基因;除中粒咖啡、小粒咖啡和美丽帽柱木外,其他6种植物JSB边界均位于在SSC区的ndhF基因之内,且向IRb边界扩张了5~76 bp。10种植物的JSA(SSC/IRa)边界均位于ycf1基因内,长度向IRa区域不同程度扩张,为1 057~1 919 bp;在JLA(IRa/LSC)的边界处,10种植物均含有trnH基因,但糙叶野丁香的trnH基因位于IRa区域,其他9种植物则位于LSC区;茜草、鸡屎藤、四叶葎和美丽帽柱木的JLA边界位于rpl2与trnH基因之间;原拉拉藤、卵叶耳草、中粒咖啡和小粒咖啡的JLA边界则位于rps19与trnH基因之间;正鸡纳树的JLA边界位于rps3和trnH之间;仅有糙叶野丁香的JLA边界位于trnH与psbA基因之间。

从以上分析结果来看,茜草属不同亚科植物在进化过程中IR边界区中存在一定的收缩和扩张,且不同物种之间存在部分差异,但总体来说,IR区的变化幅度较小,叶绿体基因组较为保守。

2.6 茜草叶绿体基因组序列变异分析

以茜草(OK326894)叶绿体基因组作注释,使用mVISTA在线工具进行叶绿体基因组全序列对比分析(图3)。如图3所示,茜草科植物叶绿体基因组的基因区间组成差异性较小,较为一致。结合边界分析,可见本文所选茜草科植物总体上LSC、SSC区域变异程度高,大于IR区;从四大区段来看,LSC区变化异性最大,IRA区变化差异性最小,最为保守。从非基因编码区和基因编码区来看,非基因编码区变异程度较高,基因编码区较为保守,但在rps16、rpoB、ycf3、clpP、ndhF、ndhA和ycf1等基因编码区变异程度较大,存在显著差异。

图3 茜草科植物叶绿体基因组序列比对分析Fig.3 Genome sequence alignment of Rubiaceae chloroplasts

2.7 系统发育分析

以茜草科3个亚科(茜草亚科、仙丹花亚科、金鸡纳亚科)共20种植物为内类群,同时选取玄参科2种植物为外类群,采用最大似然法(ML法)构建植物系统发育树(图4)。结果表明,茜草Rubiacordifolia(OK326894)与登录号为KY378689的Rubiahorrida以100%支持率聚为一类,两者亲缘关系好;茜草属、拉拉藤属、鸡屎藤属共6种植物与糙叶野丁香、卵叶耳草聚为一小支;羊角藤属2种植物与海滨木巴戟、虎刺、琼岛染木树聚为一小支;两小支构成姐妹类群,支持率均为100%,为茜草亚科组。仙丹花亚科组4种植物与金鸡纳亚科组3种植物共同聚为一支,除咖啡属粗毛玉叶金花、美丽帽柱木正鸡纳树这个节点支持率分别为97%、81%外,其他节点均为100%。

图4 基于22个物种叶绿体基因组序列构建的系统发育树Fig.4 Phylogenetic tree constructed with 22 species chloroplast genome sequences

3 讨 论

茜草是一种分布广泛的多年生植物,最初以天然植物染料见于《诗经》中,后其根及根茎作为中药被记载于《神农本草经》中[34]。作为天然植物染料用,茜草染色效果好、着色牢固,中国、印度、波斯等地区曾先后将其用于棉、麻、丝、皮革的染色[35]。现代研究中,茜草也可用于合成材料如涤纶的染色[36]。作中药用,茜草具有凉血、止血、化瘀、通经的作用,临床多用于治疗血热引起的各种崩漏出血、肿瘤以及跌打损伤肿痛等症状[2]。可知,茜草具有极高的药用价值与经济价值,应用历史悠久。叶绿体基因组是被子植物中的保守结构,Daniell等[37]表明植物叶绿体基因组呈四分环状,长度在107~218 kb之间,包括小单拷贝区18~20 kb、大单拷贝区81~90 kb以及2个反向重复区20~30 kb。本研究中,通过测序、组装和注释获得的茜草叶绿体全基因组序列长度为153 959 bp(GC含量37.2%),其中大单拷贝区83 844 bp、小单拷贝区17 083 bp、反向重复序列区26 516 bp,符合被子植物叶绿体的特征结构[38];同时,与已发表的茜草同属植物紫参(155 108 bp,36.98%)[39]、同科植物丁茜(152 407 bp,37.63%)[40]相比,三者基因组大小、结构和组成以及GC含量高度相似,证明茜草科植物在进化过程中有良好的保守性。

密码子在生物体遗传信息传递中起着重要的作用,作为纽带联系核酸、蛋白质和遗传物质,其偏好使用对研究基因功能、物种进化等问题提供了可靠的信息[41-42]。本研究中茜草叶绿体基因组对A/U结尾密码子的偏好性高于G/C结尾密码子,这与李亚磷等[43]对茜草同科植物小粒咖啡的密码子偏好分析一致,说明物种之间亲缘关系越近,密码子偏好性使用越类似,印证了Liu等[44]的结论。简单重复序列(SSR)广泛分布于大多数植物中,主要存在于基因外部和基因非编码区,常被用在物种鉴定、遗传多样性分析及分子标记辅助育种等方面[45]。在本研究中茜草叶绿体基因组中共检测到169个SSR位点,单核苷酸最多,双核苷酸次之,且SSR位点多以A/T、AT/AT、AAT/ATT、AAAT/ATTT组成,证明茜草叶绿体基因组在碱基形成中A、T被频繁使用,这与已发表的其他植物叶绿体基因组结果[46]相似,检测到的SSR位点可为后续茜草的物种鉴别、亲缘关系分析和分子标记提供理论依据。除此之外,反向重复区的收缩、扩张和缺失都会引起叶绿体基因组的差异[47],对茜草科植物的 IR/SC 边界和序列变异分析发现,SSC/IR边界区域差异性较大,LSC/IR区域差异变化小,但总体来说,整个基因组仍然较为保守;存在部分差异的区域,可为茜草科不同物种鉴定和系统发育分析提供分子依据。

为了进一步揭示茜草科物种间亲缘关系,本文选取了20种茜草科植物以及玄参科2种植物作为外类群建立ML系统发育树。结果显示,样品茜草(OK326894)与同属植物Rubiahorrida以100%支持率聚为一类,茜草亚科、仙丹花亚科与金鸡纳亚科聚为姐妹类群,除咖啡属-粗毛五叶金花、美丽帽柱木-正鸡纳树这2个节点支持率分别为97%、81%,其他节点均为100%。此系统发育与同属植物紫参[39]分析结果相似,但本文增加了除茜草亚科以外的其他两种亚科的植物构建系统发育树,完善了茜草科植物的进化关系,证明茜草科植物在进化过程中保守发育。茜草科植物约有600多个属,13 000余种,在中国约有98属近700种[40],《中国药典》中仅收录有茜草RubiacordifoliaL.的根及根茎,部分同属植物被地方所收录;茜草伪品较多,除同属之间物种形态相似易混用之外,还有非同属植物被混作药用,市场上常将茜草科植物蓬子菜GaliumverumL.、唇形科植物丹参SalviamiltiorrhizaB.作为茜草混伪品使用,陈一龙等[48]运用DNA条形码技术对茜草及其混伪品进行了鉴别,但并未区分茜草属其他物种;本研究通过对茜草叶绿体基因组的全面解析,明确了其叶绿体因组的序列特征和系统发育关系,为准确鉴定茜草及其近缘物种提供分子依据,为茜草在药材选用、市场流通以及真伪品鉴别等实际应用方面提供数据参考。

猜你喜欢

茜草密码子叶绿体
密码子与反密码子的本质与拓展
基于3D技术和偏光技术的茜草鉴别研究
茜草与入骨丹(东南茜草)质量比较研究
10种藏药材ccmFN基因片段密码子偏好性分析
氢核磁共振法测定中药茜草中大叶茜草素和羟基茜草素的含量
3种茜草科植物的抗寒特性
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
茶树CsActin1基因密码子偏性分析
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析