APP下载

基于33个遗传多样性水稻材料的泛基因组分析揭示“隐藏”的基因组变异

2021-07-02陈薇兰李仕贵

四川农业大学学报 2021年3期
关键词:基因组变异测序

钦 鹏,陈薇兰,王 淏,李仕贵

(四川农业大学水稻研究所,成都 611130)

基因组结构变异(SVs)和基因拷贝数变异(gCNVs)作为重要的遗传变异来源,越来越多的证据表明SV和gCNV在调控动植物表型多样性方面具有重要作用[1-2]。但基于短片段测序数据的SV和gCNV鉴定困难且不可靠[3]。即使利用长片段测序数据,仍然很难解决位于重复区域附近或非常大的SV[4]。近年来,由于高质量基因组组装方法的快速发展,越来越多研究利用高质量组来鉴定和分析SV[5-10]。但目前相关研究仅限于少数材料,少有利用群体水平的高质量基因组来研究SV,因此植物基因组的SV和gCNV变异情况仍不清楚。水稻作为世界上最重要的粮食作物和植物研究的模式生物,到目前为止,仅有利用短片段测序数据鉴定的SV结果[11-15],还未有群体水平上对水稻SV和gCNV全面准确的研究报道。

研究人员选取了遗传背景具有高度代表性的33个水稻材料,包括亚洲栽培稻各亚群代表性材料和非洲栽培稻材料,以及水稻生产和育种上广泛使用的优良品种和核心亲本材料。利用长片段测序和NCBI数据库,获得了31份材料平均深度~60倍的长片段序列数据。利用高质量基因组组装和注释流程,获得了31个均达到参考基因组水平的高质量基因组和基因注释。结合已发表的两个高质量基因组(日本晴和蜀恢498)和注释结果,构建了一个含66 636个基因的泛基因组。通过32个材料与日本晴基因组序列的比较分析,发现平均每个材料相对日本晴存在24 469个SVs,通过去冗余,共获得171 072个相对于日本晴基因组的非冗余SVs,并应用多种方法证明了鉴定到的SV具有较高的准确性。通过与已报道的SV比较分析,发现其中82.8%的SV未在先前基于短序列测序数据得到的SV中鉴定到。进一步对SV在基因组上分布的分析发现,SV在染色体上非均匀分布,存在140个SV热点区域。

研究人员进一步利用非洲栽培稻CG14作为外群,对亚洲栽培稻群体中SV序列的祖先型进行了推断,共对130 862个SV祖先型进行了推断,并将明确发生在亚洲栽培稻中的SVs定义为dSVs(derivedstate SVs)。对dSV相对基因位置的分析发现,53.2%的dSV位于基因附近(包括基因上下游2 kbp区域),其中大多数位于基因的非编码区且发生在较少材料中。基于基因的泛基因组中~50%(32 668)的基因上下游2 kbp区域在32个亚洲栽培稻种至少有一个dSV,其中包括1 406个已经报道的基因。这些dSVs对揭示亚洲栽培稻中自然选择和人工驯化过程导致基因组结构性变异的方向和生物学意义具有重要作用。例如先前报道的两个与独脚金内酯合成相关基因SLB1和SLB2被认为是在籼稻群体中缺失与优良性状(分蘖增加和独脚金萌发降低)相关而被人工选择到[16],本研究结合该SV的分化状态和群体分布等分析发现,很可能是在粳稻中进化或驯化过程中被插入含有SLB1和SLB2基因的基因组序列,因为其可能帮助磷的吸收提高产量从而被保留在粳稻中。

因为笔者发现大多数SV位于非编码区,研究人员进一步利用蜀恢527材料中存在与不存在SV的基因,分析了SV对基因表达量的影响。通过分析多份不同胁迫处理和不同发育时期的蜀恢527转录组数据发现,在整体表达水平上,附近存在SV的基因的表达量低于不存在SV的基因的表达量,且附近存在SV的基因的表达量对环境胁迫更敏感。利用33份材料苗期地上和地下转录组数据分析发现3 340个SV在地上或地下组织中与基因表达量显著相关,表明SVs在水稻进化和驯化过程中对基因表达模式有着广泛的影响。研究人员进一步分析了dSVs在亚洲栽培稻各个亚群中的分布,发现在可用于分析群体分布的20 965个dSV中,25.7%的dSVs被特异性地固定在一个或多个亚群中,暗示大量dSVs可能受到自然或人工选择并保留在相应的群体中。

研究人员利用泛基因组中基因的蛋白序列比对到33个基因组序列的策略鉴定分析gCNV,发现大量(25 549)基因在33个材料间存在基因序列拷贝数变异(gCNV),包括2 945个非洲栽培稻CG14特异的gCNVs,22 604个栽培稻中特异的gCNVs。结合33份材料苗期的地上和地下组织转录组数据分析发现,296和361个基因的拷贝数变异和表达量在之间存在显著地相关性。这些之前研究未发现大量具有gCNV的基因将加速优异自然等位变异的挖掘,比如OsVIL1在N22等7个材料中存在2个拷贝,且与表达量显著正相关。结合OsVIL1过表达能提高穗粒数[17],因此该2个拷贝很可能具有增加水稻穗粒数的功能。大量具有gCNV基因的鉴定也将有利于加快挖掘复杂区域中控制农艺性状多态性的基因组变异和应用,如之前报道的越光中早花QTL(qDTH7-3)[18],我们发现OsMADS18两个拷贝位于该区段,结合OsMADS18过表达的早花表型[19-20]推断OsMADS18两个拷贝很可能是控制该早花QTL的目标变异。

结合人类分析SV形成机制的流程,研究人员系统地分析了水稻中SV形成机制。发现水稻SV主要由TEI(转座子插入)和NHEJ(非同源末端连接)两种机制形成。但对于不同类型的SV,主要的形成机制有所不同,比如缺失和插入分别主要由NHEJ和TEI形成。结合SV边界序列与TE注释,研究人员发现73.2%的由NHEJ和NAHR(非等位同源重组)机制形成的SV的边界都具有TE序列。同时相比全基因组LTR的比例,NHEJ和NAHR产生的SV断点两端具有更高比例的LTR。这些结果表明TE,特别是LTR能更高频率产生DNA断裂为NHEJ形成SV提供可能,以及LTR能更高频率提供同源序列为NAHR产生SV提供可能。

研究人员进一步利用所鉴定到的PAV(presence and absence variation)和 variation graph toolkit流程,首次构建了水稻图形基因组。结合674份水稻材料的二代短序列测序数据和图形基因组共鉴定到47 952个PAV。与674份材料的SNP数据连锁分析发现,17.5%的SV表现出与其附近SNP非常低的连锁度,表明这些基因组变异不能被SNP代表。利用674份材料的叶片早衰表型和SNP、SV数据进行GWAS分析发现,最显著相关的位点只能被SV检测到。该SV位于Os06g13470基因启动子区域,表达量分析结果表明该SV可能特异性在灌浆期激活Os06g13470的表达,暗示该SV很可能是控制叶片早衰的候选变异位点。这些结果表明:在研究自然变异调控农艺性状多态性方面,图形基因组和SV具有SNP与线性参考基因组难以代替的作用。研究人员进一步搭建了包含基因组序列和基因组变异的数据库RiceRC.Com。本研究内容(图1)为水稻及其他作物功能基因组研究、优良等位基因挖掘和功能解析、分子设计育种奠定了坚实基础。

图1 本研究相关的主要内容Figure 1 This topic research primary coverage

猜你喜欢

基因组变异测序
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
第一代基因组设计的杂交马铃薯问世
牛参考基因组中发现被忽视基因
生物测序走在前
变异
基因测序技术研究进展
高通量测序技术及其发展
变异的蚊子