基于高通量测序的怒江红山茶微卫星位点特征分析
2019-02-14王大玮沈兵琪王连春
王大玮 周 凡 沈兵琪 王连春*
(1.西南林业大学云南省高校林木遗传改良与繁育重点实验室,昆明 650224; 2.西南山地森林保育与利用省部共建教育部重点实验室,昆明 650224)
怒江红山茶(CamelliasaluenensisStapf ex Bean.)为山茶科(Theaceae)山茶属(Camellia)滇山茶系植物,是腾冲红花油茶的近缘种[1],主要分布在云南各地、四川西南和贵州西北部[2]。其根系发达,耐瘠薄,四季常绿,花色鲜艳,有较高的观赏价值[3];其种子富含优良油脂,是有发展前景的木本油科经济树种[4]。目前该树种仍处于野生状态,对其研究主要集中在资源调查[1]、优良单株选择[3]、繁殖技术[5~6]、经济性状和有效成份分析等方面[2,4,7],而分子水平的研究未见报道。
微卫星标记已经广泛应用于遗传连锁图谱构建[8~10]、遗传多样性分析[11~13]、指纹图谱构建[14]等研究领域。目前微卫星引物开发的方法有多种,较常用的有文库法[15~16],近缘种开发法[17~18],高通量测序法[19~21],这些方法各有利弊[22]。文库法因实验过程繁杂、效率低,目前已经很少利用此法进行开发[23]。利用现有的近缘种微卫星引物开发同属不同物种的通用性微卫星引物也是一种较实用的引物开发方法[24]。但SSR引物在同属不同种植物中的扩增效率差异较大[25],而且需要通过大量实验来进行筛选[26]。随着测序技术的发展,高通量测序技术凭借其大量全面的微卫星序列数据显著提高了SSR开发效率和通量[25],近年来通过转录组测序开发SSR标记已经成为微卫星标记开发的主流途径[27~28]。尽管山茶属植物的SSR引物已经开发[29~30],但高通量测序法更加高效快捷,所以我们选择利用转录组测序技术对怒江红山茶的SSR引物进行开发。转录组微卫星分布特征分析为SSR标记的开发及应用提供了支持[31~32]。本研究在对怒江红山茶进行转录组测序的基础上,搜寻和分析微卫星位点,并对怒江红山茶转录组中的SSR位点信息的分布及其序列特征进行分析,为其SSR标记的开发、遗传多样性、亲缘关系分析等研究奠定基础。
1 材料与方法
1.1 材料及测序
在云南省红河州石屏县异龙镇放羊冲村(23°53′51″、102°46′21″,海拔1 746 m)采集怒江红山茶植株当年生幼嫩叶片,液氮保存,采用改良的CTAB-LiCl法提取总RNA[33],送至北京华诺时代科技有限公司,利用Illumina Hiseq 2000平台进行测序,建库测序及拼接参照云南松转录组测序流程进行[34]。
1.2 SSR位点的搜索与统计
利用MISA软件对转录组数据中SSR位点进行搜索,搜索对象为1~6个核苷酸重复序列,搜索标准为:单核苷酸重复至少10次、二至四核苷酸重复至少5次、五和六核苷酸重复至少4次。然后再用Excel软件统计SSR的数量、出现频率、分布距离与密度、重复类型、基元组成、重复区段长度变化等,分析怒江红山茶转录组SSR的分布特征。
2 结果与分析
2.1 怒江红山茶转录组微卫星序列的分布丰度与距离
组装共获得怒江红山茶转录组140 996条无冗余的序列,总长97 501 954 nt,平均长度692 nt,其中聚类的有43 173条,单独的有97 823条。按照标准搜索1~6 bp的SSR,共搜索到32 696个SSR位点,出现频率为23.2%,分布平均距离为32.02 kB,即平均32.02 kB出现一个SSR位点。
2.2 怒江红山茶转录组微卫星序列的重复单元类型分析
在怒江红山茶转录组中,SSR类型比较丰富,对1~6 bp的SSR重复单元类型进行统计(表1),重复单元类型以二核苷酸为主,其次是三核苷酸和单核苷酸,四、五、六核苷酸的重复单元较低,但是五核苷酸的重复单元类型高于四核苷酸和六核苷酸的重复单元(图1)。若在不考虑单核苷酸的情况下,二、三核苷酸占总数的92.70%,四核苷酸重复最少。各重复单元类型的出现频率和SSR分布的平均距离也均有差别(图1)。其中二核苷酸SSR比例及频率最高(59.50%,13.80%),SSR分布的平均距离最小(53.81 kB);四核苷酸SSR比例及频率最低(1.29%,0.30%),SSR分布的平均距离最大(2 486.74 kB)。各重复单元类型的SSR数量和出现频率的变化规律为:二核苷酸>三核苷酸>单核苷酸>五核苷酸>六核苷酸>四核苷酸;不同重复类型核苷酸的平均距离各不相同,依次为:二核苷酸<三核苷酸<单核苷酸<五核苷酸<六核苷酸<四核苷酸,可以看出SSR位点的出现频率或数量越高,其平均距离就越小,分布密度就越大。
2.3 怒江红山茶转录组微卫星序列的重复基元碱基组成
不同核苷酸重复类型的重复基元所占的比例差异较大。其中单核苷酸的重复类型中以A/T基元居多,占10.92%,而C/G较少,仅占总数的2.56%。二核苷酸重复类型中各基元所占比例差距较大,其中AG/CT基元所占比例最大,达到49.72%,基本占了一半;AT/AT基元和AC/GT基元所占比例相差不多,分别为5.12%和4.59%;CG/CG基元所占比例最少,为0.07%,其基元所占比例顺序依次为AG/CT>AT/AT>AC/GT>CG/CG;三核苷酸重复类型中AAG/CTT基元所占比例较多,为5.56%,其次是ACC/GGT基元,ATC/ATG基元和AGG/CCT基元,所占比例分别为3.66%,3.00%和2.47%,AAC/GTT基元,AAT/ATT基元和AGC/CTG基元所占比例相差不大,分别为1.95%,1.23%和1.15%,而以CCG/GGC基元,ACT/AGT基元和ACG/CGT基元所占比例较低,都小于1%(表2,图2)。四、五、六核苷酸中各重复基元出现的频率均较低,所以未对其进行分析。
图1 怒江红山茶转录组SSR各重复单元类型的比例及出现频率Fig.1 The proportions and frequency of each type of repeats in C.saluenensis Stapf ex Bean. transcriptome
重复类型Repeat typeSSR数量SSR number比例Proportion(%)出现频率Frequency(%)分布的平均距离Mean distance(bp)平均长度Mean Length(bp)分布密度Distribution density(个·Mb-1)单核苷酸Mono-nucleotide440913.483.13237.4516.826.37二核苷酸Di-nucleotide1945559.5013.8053.8115.6628.11三核苷酸Tri-nucleotide676720.704.80154.7116.979.79四核苷酸Tetra-nucleotide4211.290.302486.7420.670.61五核苷酸Penta-nucleotide9152.800.651144.1720.271.33六核苷酸Hexa-nucleotide7292.230.521436.1036.001.05合计Total32696100.0023.2032.0213.5547.26
图2 怒江红山茶转录组SSR各重复基元及其比例Fig.2 Motif proportions of each type of repeats in C.saluenensis transcriptome
Table2TherelativepercentageofSSRrepeatmotifinC.saluenensisStapfexBean.transcriptome
重复类型Repeat type重复基元Repeat motif数量Number比例Proportion(%)各重复类型比例Proportion of each repeat type(%)单核苷酸MononucleotideA/T357110.9281.01C/G8382.5618.99小计Total440913.48100.00二核苷酸DinucleotideAG/CT1625849.7283.57AT/AT16725.128.59AC/GT15024.597.72CG/CG230.070.12小计Total1945559.50100.00三核苷酸TrinucleotideAAG/CTT18175.5626.85ACC/GTT11973.6617.69ATC/ATG9813.0014.50AGG/CCT8092.4711.96AAC/GTT6361.959.40AAT/ATT4031.235.95AGC/CTG3771.155.56CCG/GGC2460.763.64ACT/AGT1710.522.53ACG/CGT1300.401.92小计Total676720.70100.00
2.4 怒江红山茶转录组微卫星序列的基元重复次数
怒江红山茶转录组序列中各重复类型的重复次数差异较大(图2),其中主要的微卫星序列为二核苷酸重复(59.50%),其次为三核苷酸重复(20.70%)和单核苷酸重复(13.48%),四、五、六核苷酸重复序列较少,仅占6.32%(图3,表3)。其重复次数波动于4~23次,总体表现为重复次数随重复单元中核苷酸数量的增加而减少,其中单核苷酸重复12~23次,二核苷酸重复6~12次,三核苷酸重复5~10次,其余核苷酸重复4~6次,不同核苷酸重复类型主导的重复次数也不相同。SSR的出现频率随重复次数的增加而降低;与此同时,随着SSR重复类型碱基数的增加,重复次数减少。当重复次数大于12次后,SSR出现的频率明显下降,只有单核苷酸类型还有SSR出现,其他核苷酸类型已经没有SSR的出现(图2,表3)。总体来看,SSR的重复次数以4~10次最多,占85.50%,11~15次的占9.06%,重复次数在15次以上的不足5.5%(图4),表现为随着重复次数的增加,SSR数量呈降低的趋势。
表3怒江红山茶转录组微卫星序列的各重复次数及数量
Table3NumberandnumberofrepetitionsofmicrosatellitesequencesinC.saluenensistranscriptome
重复次数Repeat time单核苷酸Mononucleotide二核苷酸Dinucleotide三核苷酸Trinucleotide四核苷酸Tetranucleotide五核苷酸Pentanucleotide六核苷酸Hexanucleotide40000865729500358635050060466519787100703645112700080417874000904590000010020442000110325000012111680000136780000014477000001535800000162620000017261000001826200000193120000020307000002125200000229300000233100000总计Total4409194556767421915729
图3 思茅松转录组各微卫星重复类型重复次数分布频率Fig.3 Frequency of SSR repeat types for the various number of repeats in C.saluenensis transcriptome
图4 怒江红山茶转录组微卫星重复次数分布频率Fig.4 Distribution frequency of microsatellite repeats in C.saluenensis Stapf ex Bean
2.5 怒江红山茶转录组微卫星序列长度分布
怒江红山茶转录组SSR重复片段的长度波动于10~25 bp(图5)。单核苷酸的重复类型的长度变化在10~23 bp,平均长度为16.82 bp;二核苷酸的重复类型的长度变化在12~24 bp,平均长度为15.66 bp;三核苷酸重复类型的长度变化于15~30 bp,平均长度为18.35 bp;四核苷酸的重复类型的长度变化在20~24 bp,平均长度为20.67 bp;五核苷酸的重复类型的长度变化在20~25 bp,平均长度为20.27 bp;六核苷酸的重复类型的长度均为36 bp(表2)。综合来看,各重复区段碱基片段长度变化表现为随着重复类型碱基数的增加,片段的平均长度也基本随之增加,即从单核苷酸至六核核苷酸,除了二核苷酸片段的平均长度较一核苷酸减小,其他整体呈递增的趋势。
图5 怒江红山茶转录组SSR重复序列长度的分布频率Fig.5 Frequency of repeat sequence length in C.saluenensis transcriptome
3 讨论
通过对怒江红山茶进行转录组测序,共得到140 996条无冗余的序列,经过SSR位点检索,获得32 696个SSR位点,出现频率为23.2%。相较于山茶属短柱茶(Camelliabrevistyla)、浙江红山茶(Camelliachekiangoleosa)和普通油茶(Camelliaoleifera)[35~36]而言,怒江红山茶的SSR分布及发生频率较高,这可能与物种间SSR的分布、搜索的标准及数据库的大小有关[32],也可能与含有微卫星的基因表达丰度有关[23,37]。
怒江红山茶转录组序列所得到的SSR种类较为丰富,单核苷酸到六核苷酸类型都有重复,其中二核苷酸重复类型最多,所占比例达到59.50%,这与其近缘种普通油茶、短柱茶、浙江红山茶的研究相似,均以二核苷酸为主要的重复类型[35~36]。就近年来林木微卫星的研究报道来看,模式植物杨树[38]的重复类型以三核苷酸为主,思茅松(Pinuskesiyavar.langbianensis)[32]、红松(Pinuskoraiensis)[39]的重复类型则以单核苷酸居多。这种占优势的重复类型在不同植物中有所差异,但都以二核苷酸和三核苷酸重复类型居多[40]。通常认为,低级重复单元重复类型所占比例越高,则该物种的进化水平越高,而高级重复基元出现频率较高,暗示着其进化时间较短或变异频率较低[41~42]。怒江红山茶以二核苷酸重复所占比例最多,意味着它可能具有较久远的进化历史或者拥有较高的变异频率。相较而言,四碱基到六碱基重复类型较少,并且随着重复单元碱基数的增加,SSR的出现频率升高,即六碱基SSR类型较多。而在油茶[35]基因组序列分析中,六碱基的重复类型最少,这可能与检索标准、物种间SSR分布有关。但在云南松的研究中,也发现六碱基较四、五碱基多的情况,这可能与密码子以三碱基为一个单元有关,造成了三碱基位移[43]。
不同核苷酸重复类型的重复基元所占的比例差异较大。本研究中,二核苷酸重复类型以AG/CT基元占多数,三核苷酸重复类型以AAG/CTT、ACC/GGT和ATC/ATG基元较多,与油茶[35~36]和山茶属茶树(Camelliasinensis)EST序列微卫星的分布特征相似[44~45]。Li等[46]也认为植物微卫星中最主要的三核苷酸重复单元是AAG重复,但在对油茶基因组序列的研究中三核苷酸重复类型则以AAT最多[35~36],初步推断这可能与检索标准和基因库的大小有关。此外,怒江红山茶中还发现了23个CG/CG单元和246个CCG/CGG重复基元,这在双子叶植物中是比较少见的,其含量也远高于大多数植物,但其含量与已经报道过的山茶属植物相似。在杨树基因组微卫星的研究中SSR的GC含量与微卫星的功能密切相关[47],这也进一步证明怒江红山茶转录组SSR具有较高的特异性,但与其相关的功能还有待进一步研究。
微卫星位点的多态性主要是因为重复类型、碱基数以及基元重复次数不同而形成序列长度多态性[48],一般重复次数越多,变异性越大,其多态性潜力越高[49]。从重复类型来看,除单碱基外,怒江红山茶转录组SSR的丰度随各对应重复类型碱基数的增加而减少,并且二、三碱基微卫星的丰度明显高于其他类型,这在油茶[35]、浙江红山茶[36]、云南松(Pinusyunnanensis)[34]等其他研究中也出现过类似报道。因此,这种特征并不是怒江红山茶所特有的。从基元的重复次数来看,怒江红山茶微卫星数量随着重复次数增加呈递减趋势,重复次数为4~23次,其中六核苷酸重复微卫星理论多态性最低,而单核苷酸以及二核苷酸重复微卫星理论多态性最高。在一定程度上说明单碱基及二碱基在整个怒江红山茶转录组中变异最为活跃,这也表明了利用具有高度遗传多样性的单碱基或二碱基的SSR作为标记,开发怒江红山茶的SSR标记是可行的。
总体来看,怒江红山茶微卫星序列特征的分析表明其挖掘的32 696个SSR位点出现频率较高、分布距离较近、重复类型以及重复基元较为丰富,具有较高的多态性,基于这些序列设计的引物具有高多态性的潜力,可为怒江红山茶SSR引物的开发奠定基础,且获取的怒江红山茶微卫星序列较为完整,由此开发获得的SSR标记对于其与山茶属植物以及其他近源种的研究都具有一定的价值。