“红阳”猕猴桃全基因组SSR标记与基因密码子偏性分析
2020-06-22唐冬梅仲伟敏马玉华
王 宇,唐冬梅,仲伟敏,马玉华,张 敏
(贵州省农业科学院 果树科学研究所,贵州 贵阳 550006)
【研究意义】密码子(Codon)一般具有通用性与简并性,不同物种的密码子使用存在一定差异,这种不均衡使用模式称为密码子使用偏性(Codon bias),通常把使用频率较高的一种或几种同义密码子称为最优密码子(Optimal codon)[1-2]。FEDOROV等[3-4]研究表明,自然选择作用或突变压力是导致不同物种之间基因密码子偏性的主要原因。通过开展物种基因组密码子偏性研究,可以对其进化规律进行描述,此外,通过分析密码子使用模式,不仅可以进行目的基因最佳宿主预测,也可以通过基因工程手段,为目的基因表达提供最优的密码子使用模式[5-7]。【前人研究进展】分子标记具有数量多、多态性高、共显性好和准确性高等诸多优点[8]。应用分子标记评价、鉴定物种资源,通过筛选与目标性状相关的分子标记,能实现杂交后代的早期鉴定,缩短育种年限,提高育种效率[9]。目前,已有多种分子标记应用于猕猴桃野生资源和栽培品种的鉴定、遗传图谱的构建和杂交后代鉴定等研究,其中随机扩增多态性DNA标记(Random amplified polymorphic DNA,RAPD)与SSR标记(Simple Sequence Repeats,SSRs)应用较普遍[10]。【本研究切入点】猕猴桃属猕猴桃科(Actinidiaceae)猕猴桃属(Actinidia),又名杨桃、奇异果等[11]。“红阳”猕猴桃(Actinidiachinensiscv.Hongyang)系四川省广元市苍溪县农业局及四川省自然资源研究所选育的首个红肉型猕猴桃新品种[12-13]。其果实呈短圆柱形,光滑无毛,果心紫红色并呈放射状;鲜果果肉肉质鲜美,富含多种维生素、氨基酸及各种矿物质[14]。DENG等[15]对猕猴桃全基因组进行了测序,为后期从基因组水平上对重要功能基因进行挖掘、比较和功能预测提供了理论依据。【拟解决的关键问题】为了解红阳猕猴桃SSR位点分析及表达基因密码子使用偏性,以红阳猕猴桃全基因组数据为材料,分析红阳猕猴桃全基因组与基因密码子组成的各项指标,以期为红阳猕猴桃种质资源鉴定与分子标记进行辅助育种提供理论基础。
1 材料与方法
1.1 数据来源
从红阳猕猴桃的基因组数据库(http://bdg.hfut.edu.cn/kir/index.html)中下载全基因组序列,用于SSR位点分析;下载CDS序列,通过Perl语言程序对红阳猕猴桃基因组数据进行过滤筛选,筛选出碱基数不小于300 bp的蛋白质编码序列,用于分析密码子的偏性。从Codon Usage database(http:/ /www.kazusa.or.jp /codon /)下载酿酒酵母(Saccharomycescerevisiae)、大肠杆菌(Escherichiacoli)和毕赤酵母(Pichiapastoris)的密码子偏性数据用于对比分析。
1.2 研究方法
1.2.1 红阳猕猴桃全基因组SSR分析 采用将长DNA序列(默认值>2 MB)分组到适当长度以增加数据挖掘速度的策略。为准确进行SSR位点识别,在每个区块末尾设置1个短重叠区域(默认为20 bp),GMATA中的SSR挖掘模块允许对包括Motif长度和单元重复最小次数等参数进行调整,并将统计结果用于生成SSR信息分析。
1.2.2 红阳猕猴桃GC含量及中性绘图 利用 CodonW 1.4.2分析红阳猕猴桃基因密码子的碱基组成规律。GC1、GC2和GC3分别表示密码子第1、2和3位碱基的G、C含量,GC3s表示同义密码子第3位碱基G、C含量,GC1和GC2的均值用GC12表示。中性绘图参考ZHANG等[16]方法进行。
1.2.3 有效密码子数与ENC绘图 红阳猕猴桃单个密码子使用频率采用有效密码子数(Effective number of codons,ENC or Nc)衡量[17]。ENC值与基因密码子使用偏性相关[18]。ENC绘图以ENC值与GC3s分别作为纵坐标与横坐标进行作图。
1.2.4 同义密码子相对使用度及最优密码子分析 红阳猕猴桃密码子使用偏性以同义密码子相对使用度(Relative synonymous codon usage,RSCU)为衡量指标[19]。参考BELLGARD等[20]方法统计ENC值与RSCU值,分析最优密码子。
1.2.5 PR2分析 采用PR2(Parity rule 2,PR2)绘图进行密码子奇偶偏好分析[24],以红阳猕猴桃基因中A3/(A3+T3)统计数据为纵坐标,以G3/(G3+C3)统计数据为横坐标,平面做图揭示各基因碱基的组成情况。
2 结果与分析
2.1 红阳猕猴桃全基因组的SSR位点
扫描红阳猕猴桃全基因组得到247 012个 SSR 单元,存在于总长度631 450 069 bp 的拼接序列中。其中二核苷酸重复单元最多,占87.7 %;七核苷酸重复单元最少,仅占0.1 %(图1-A)。二核苷酸重复单元中,占比高的分别是TA(13.2 %)、AT(12.9 %)和TC(12.6 %)(图1-B)。在二核苷酸SSR重复单元中,含有GA/TC单元的数量最多,有61 660个,占25 %;在三核苷酸重复单元中,ATT/AAT单元最多,占1.1 %;在四核苷酸重复单元中,TTTA/TAAA单元最多,占0.5 %(图1-C)。在SSR单元中,有60 262条SSR单元未能匹配到对应染色体,占25 %;3号染色体与23号染色体上获得SSR单元最多,其数量与占比分别为9081和9018个,3.68 %和3.65 %;16号染色体与27号染色体上获得SSR单元最少,其数量与占比分别为4647和4226个,1.88 %与1.71 %(图1-D)。在获得的SSR中发现,随着SSR长度增加,其占比总体呈减少趋势,其中长度为10 bp 的SSR的占比最高,为33.4 %(图1-E)。
A.主要重复单元; B.主要基序; C.主要重复单元; D.SSR位置; E.SSR长度A.Top repeat types; B.Top motifs C.Top grouped motifs; D.SSR loci distribution; E. SSR length图1 红阳猕猴桃全基因组SSR位点分析Fig.1 Genome-wide analysis of SSR loci of the Actinidia chinensis cv. Hongyang
2.2 红阳猕猴桃GC含量及中性绘图
从表1看出,不同物种基因组平均GC含量以大肠杆菌最高,红阳猕猴桃其次,毕赤酵母第三,酿酒酵母最低;各物种基因密码子GC12含量以大肠杆菌最高,红阳猕猴桃其次,毕赤酵母居于第3位,酿酒酵母最低;基因密码子第3位碱基的平均GC含量以大肠杆菌最高,红阳猕猴桃其次,毕赤酵母与红阳猕猴桃接近,酿酒酵母的最低。说明,红阳猕猴桃密码子使用模式与介于大肠杆菌与毕赤酵母间,但与毕赤酵母较接近,与酿酒酵母存在着较大差异。
图2 红阳猕猴桃全基因组中性绘图Fig.2 Neutrality plot analysis of Actinidia chinensis cv. Hongyang
从图2看出, 红阳猕猴桃密码子GC12取值范围是0.269~0.813,GC3的取值范围是0.148~0.943,GC3s与GC12的相关系数为r=0.239,回归系数为0.44,即无显著相关性,说明红阳猕猴桃基因密码子使用模式受到自然选择的影响。
表1 不同物种密码子的GC含量
表2 红阳猕猴桃全基因组相关性
注:“**”表示在1 %水平上显著相关。
Note:‘**’represent significant correlation at 0.01 level.
2.3 红阳猕猴桃有效密码子数及全基因组ENC 绘图
研究显示,红阳猕猴桃基因有效密码子数(ENC)一般在25.88~61.00,平均为53.04。红阳猕猴桃基因有13条ENC小于35,只有少数基因具有密码子偏性。相关性分析(表2)表明,ENC与密码子数间达到显著水平,说明密码子数对ENC有较强影响。
从图3看出,大部分红阳猕猴桃基因均分布在标准曲线的周围,而小部分基因则分布在远离标准曲线较远的位置,说明红阳猕猴桃表达基因密码子使用模式不仅受自然选择的影响,也受突变压力作用的影响。
图3 红阳猕猴桃全基因组ENC绘图Fig.3 ENC plot analysis of Actinidia chinensis cv. Hongyang
2.4 同义密码子相对使用度及最优密码子
从表3看出,红阳猕猴桃共有28个同义密码子的相对使用度(RSCU)大于1,说明这28个密码子可能是红阳猕猴桃偏好使用,RSCU>1的密码子主要以A和U结尾。
从表4看出,对红阳猕猴桃基因进行高、低表达样本库的比较,筛选出红阳猕猴桃基因组样本的最优密码子共28个,分别是Phe:UUC;Leu:CUC、CUG;Ile:AUC;Val:GUC、GUG;Tyr:UAC;Cys:UGC;His:CAC;Gln:CAG;Asn:AAC;Lys:AAG;Asp:GAC;Glu:GAG;Ser:UCC、UCG、AGC;Pro:CCC、CCG;Thr:ACC、ACG;Ala:GCC、GCG;Arg:CGC、CGA、CGG;Gly:GGC、GGG。除CGA以A结尾外,其他密码子均以C或G结尾,说明红阳猕猴桃最优密码子偏好使用以C/G结尾的密码子。
表3 红阳猕猴桃同义密码子的相对使用度
续表3 Continued table 3
氨基酸Amino acid密码子Condon同义密码子相对使用度RSCU氨基酸Amino acid密码子Condon同义密码子相对使用度RSCUGUG2967071.22GAG4808280.99SerUCU3162331.44CysUGU1389721.05UCC1963860.90UGC1264950.95UCA2659491.21TERUGA167161.35UCG1476610.67TrpUGG1881341.00ProCCU2433851.31ArgCGU927100.70CCC1381970.74CGC768980.58CCA2413821.30CGA950700.71CCG1205730.65CGG955980.72ThrACU2299031.29SerAGU2104020.96ACC1761130.99AGC1775350.81ACA2086951.17ArgAGA2250591.69ACG970510.55AGG2145321.61AlaGCU3549371.43GlyGGU2824721.14GCC2192890.88GGC1897800.77GCA2958701.19GGA2869801.16GCG1226900.49GGG2328810.94
表4 红阳猕猴桃编码 CDS 高、低表达密码子的同义密码子使用频率
续表4 Continued table 4
氨基酸Amino acid密码子Condon同义密码子使用频率(次)RSCU高低氨基酸Amino acid密码子Condon同义密码子使用频率(次)RSCU高低TyrUAU0.44 (2758)1.40 (13465)CysUGU0.56 (2424)1.26 (9384)UAC*1.56 (9777)0.60 (5797)UGC*1.44 (6249)0.74 (5518)TERUAA0.81 (500)0.93 (575)TERUGA1.45 (895)1.23 (764)UAG0.75 (462)0.84 (518)TrpUGG1.00 (6066)1.00 (8784)HisCAU0.41 (2382)1.47 (15165)ArgCGU0.46 (2181)0.84 (6494)CAC*1.59 (9119)0.53 (5446)CGC*1.47 (6940)0.34 (2651)GlnCAA0.76 (5214)1.13 (20080)CGA*0.73 (3446)0.67 (5175)CAG*1.24 (8499)0.87 (15531)CGG*1.36 (6394)0.50 (3896)AsnAAU0.63 (5433)1.43 (28579)SerAGU0.43 (3107)1.19 (16801)AAC*1.37 (11867)0.57 (11255)AGC*0.96 (7004)0.61 (8640)LysAAA0.60 (6602)1.03 (28870)ArgAGA0.73 (3448)2.07 (16038)AAG*1.40 (15563)0.97 (27110)AGG1.25 (5890)1.57 (12130)AspGAU0.70 (8163)1.53 (40834)GlyGGU0.65 (5552)1.39 (18923)GAC*1.30 (15077)0.47 (12437)GGC*1.51 (12934)0.52 (7148)GluGAA0.59 (6989)1.18 (41603)GGA0.73 (6242)1.32 (17990)GAG*1.41 (16587)0.82 (28775)GGG*1.12 (9616)0.76 (10407)
注:“*”代表最优密码子。
Note:‘*’represents high frequency codon.
2.5 红阳猕猴桃全基因组PR2绘图
从红阳猕猴桃各基因密码子中第3位碱基的腺嘌呤A(11076.1821)、鸟嘌呤G(11452.5104999999)、胞嘧啶C(10328.0618)与胸腺嘧啶T(13742.6208)4种组分出现频次之间的关系(图4)看出,4个碱基均不均衡使用,红阳猕猴桃密码子第3位碱基T使用频率大于碱基A,碱基G使用频率大于碱基C,表明红阳猕猴桃基因密码子使用模式受突变压力和自然选择等多重因素的影响。
图4 红阳猕猴桃全基因组PR2绘图分析Fig.4 PR2 plot analysis of Actinidia chinensis cv. Hongyang
3 讨 论
由于SSR 标记具有丰富的多态性,该技术被广泛应用于品种的鉴定。在果树种质资源鉴定中利用尤为广泛,柑、柚、梨等果树品种已开展了相关研究[21-23]。全基因组测序技术成熟开启了大规模开发SSR标记的新纪元。通常,研究者通过对NCBI、EMBL及DDBJ等数据库内信息进行深度挖掘来获取对应课题的前期研究基础。以红阳猕猴桃为例,不同于对整个基因组进行新生物信息学手段进行序列拼接及预测分析[24],自红阳猕猴桃全基因组公布以来,有部分研究团队对猕猴桃基因组聚焦于某类基因家族的生物信息学分析[25]。研究采用GMATA首次完成了红阳猕猴桃基于全基因组序列的大规模SSR 标记的开发,研究发现二核苷酸重复中GA/TC 最多,该结果与多数果树[26-28]相同。有报道指出,Genomic-SSR与EST-SSR相比,具有多态性高的优势,该研究成果[29]为红阳猕猴桃在种质鉴定、遗传图谱构建及基因定位等研究奠定了良好基础。
GC含量高低不仅可作为基因组中碱基组成的一项指标,又可衡量生物突变方向性的强度。由于GC3含量不易受突变压力影响,因此可将GC3s含量作为主要参数用于密码子偏性研究。研究发现,红阳猕猴桃GC平均含量(47.10 %)和GC12含量(47.69 %)较接近,且均低于50 %,说明其基因中整体AT含量较GC含量略高。共确定28个最优密码子,除CGA以A结尾外,其他密码子均是以C或G结尾,表明红阳猕猴桃最优密码子偏好使用以C/G结尾的密码子,这与高等植物基因密码子中趋于以C/G结尾[30]的研究结果相呼应。其密码子使用模式与毕赤酵母较接近,毕赤酵母是较理想的表达载体。有研究表明,突变压力和自然选择可能使物种密码子使用模式受到影响[31-32]。通过中性绘图、ENC-plot绘图及PR2-plot绘图综合分析表明,自然选择和突变压力等多重因素都会对红阳猕猴桃基因密码子使用模式造成影响。
研究以红阳猕猴桃全基因组为数据来源,基于全基因组序列进行SSR位点分析,同时研究其密码子使用模式,确定表达基因最优密码子,一方面可以通过改造异源基因密码子提高其在红阳猕猴桃的表达水平,另一方面也可为红阳猕猴桃相关基因异源表达选择更佳宿主,提高基因表达水平,同时也可为种质鉴定、遗传图谱构建及基因定位等研究提供理论依据。
4 结 论
通过对红阳猕猴桃全基因组分析,共得到247 012个 SSR位点,其中二核苷酸重复单元占87.7 %;长度为10 bp 的SSR占33.4 %。综合中性绘图、ENC绘图及PR2绘图分析,红阳猕猴桃基因密码子使用模式受突变压力和自然选择等多重因素的影响。通过对红阳猕猴桃编码 CDS 高、低表达密码子的同义密码子使用频率及高、低表达样本库的比较,确定了红阳猕猴桃最优密码子偏好使用以C/G结尾的密码子。毕赤酵母的密码子使用模式与红阳猕猴桃较接近,是理想的异源基因表达宿主。