单分子测序技术(SMRT)在微生物研究领域中的应用*
2022-07-26余忠祥
刘 梦,庄 蕾,余忠祥,吴 森
(青海大学畜牧兽医科学院,青海 西宁 810016;青海省高原家畜遗传资源保护与创新利用重点实验室,青海 西宁 810016)
随着现代科技的迅速发展,生物测序技术已发展到了第三代单分子实时测序(SMRT Sequencing,Single Molecule Real-Time Sequencing),因其高通量、长读长等优点受到了广大研究者的欢迎。本文对几代测序技术进行了阐述,并对第三代测序技术在微生物研究领域的应用中存在的不足提出改正意见,以期该技术以后在生物领域方面发挥更好的作用,给越来越多的研究人员带来便捷。
1 测序技术的发展历程
1.1 第一代测序技术
Sanger 的链终止法[1]于1977 年登上历史舞台,其主要应用于人类基因组计划(HGP,Human Genome Project),研究学者耗时15 年花费30 亿美元完成了首个人类基因组图谱。虽然第一代测序的准确率高达99.999%,并且能达到1 000 bp,但是它的低通量和高成本限制了其广泛应用。以Sanger 法为代表的第一代测序技术对生物学意义重大,至今在基因测序中仍是金标准。
1.2 第二代测序技术
Illumina 的Solexa 和Hiseq 技术、ABI 的SOLiD技术、Helicos 的HeliScope 技术等[2]在第二代测序中是主要的罗氏454 技术平台。
第二代测序技术的通量相对较高,测序速度也相对提高,测序周期大大缩短,成本也大大降低。罗氏的454 技术是首个商业化的二代测序平台,在早期阶段已经被许多研究人员使用。罗氏454 技术使用焦磷酸测序,读取长度在300~800 bp 之间,且不能被准确测量。ABI 的SOLID 技术使用连接酶方法,而不是通常用于测序的其他聚合酶,将1 个8 个碱基的单链荧光探针与1 个模板配对,并识别1 个双基的荧光信号,用于双基测序。第二代测序的精度高,测序读长长度为100 bp,但后续拼接比较复杂。目前使用最广泛的平台是Illumina 的Solexa 和Hiseq,这2 个平台都是基于同步合成和测序的原理[3]。该技术在脱氧核糖核苷三磷酸(dNTP,deoxy-ribonucleoside triphosphate)方面是一对一,也就是说1 次只增加1个,可以解决均匀长度的精确测量问题。大多数测序错误是由于碱基替换,错误率在1.0%~1.5%之间。Helicos 的HeliScope技术[4]在第二代测序技术中是单分子测序,测序前不进行聚合酶链式反应(PCR,Polymerase Chain Reaction)扩增,采用聚合酶测序在引物上添加荧光标记的单核苷酸,因此,拼接困难、质量低、仪器成本高等问题使第二代测序技术未能广泛得到应用。
从两代测序技术之间的比较来看,第二代测序技术利用自身的优势在过去的10 年中迅速发展,以其低成本、高通量等优点被广泛应用在大量的探索性研究中,比如一个新物种的基因组测序,得到其区域或整个基因组,则将会突破转录组测序领域的重量、宏基因组测序和表观遗传修饰测序[5]。
1.3 第三代测序技术
第三代测序也叫单分子测序技术(SMRT Sequencing,Single Molecule Real-Time Ssequencing)。现在SMRT 测序技术主要分为两大阵营:一个是单分子荧光测序,另一个是纳米孔测序。其中,单分子荧光测序基于美国Pacific Bioscience 公司的PacBio 平台及相关技术,纳米孔测序主要基于英国Oxford Nanopore 公司的Nanopore 平台机器及相关技术。
1.3.1 SMRT 测序技术原理及特点
PacBio 的SMRT 技术是目前使用最为广泛的第三代测序技术之一,序列的信息综合也被广泛使用,并复制模板链进行排序策略。测序原理主要是使用SMRT Cell(芯片的载体)和制备好SMRT-bell 测定单分子序列结构。其中SMRT-bell 主要通过将待测DNA 片段化后,从而形成紧闭的环状单链模板[6]。在测序反应过程中,待测模板DNA 在以4 种荧光标记的dNTP 作为原料进行合成时,所连接的dNTP 会因为反应而在零模式波导(ZMW,Zero-Mode Waveguide)底部短暂停留,荧光收集设备则可以收集到配对dNTP 的荧光信号,从而实现高通量的精确测序[7]。
因为第一代和第二代测序过于依赖模板扩增、局限于测序读取长度等劣势,第三代测序技术登上历史舞台,第三代测序凭借其序列读取长度长等特点补救了前两代测序技术存在的劣势。但第三代测序也存在一定的缺点,例如错误率高,单碱基成本也高,因此需要结合第二代测序高通量、高准确率等优点对其进行反复纠正,以达到降低第三代测序错误率和成本费用高等问题。SMRT 最突出的劣势是错误率相对较高,然而,与第二代测序不同的是SMRT 测序错误是随机发生的,可以通过足够的测序时间来改正。第三代测序的测序策略包括计算机语音记录器(CLR,Continuous Long Reads)和环状一致性测序(CCS,Circular Consensus Read)2 种,其中15 次测序的CLR准确率超过99%[5]。
SMRT 还能在单碱基分辨率下直接检测DNA 碱基修饰,包括某些类型的甲基化修饰[8]展现序列的表观遗传学特征。通过SMRT 技术,可以对AT 或GC 富集区域以及大的结构变异,包括插入、缺失、倒位、易位、重复和串联重复等难以测序的区域进行测序[9]。
1.3.2 Nanopore 及荧光单分子测序
PacBio 测序平台采用SMRT 细胞作为测试单元,每个SMRT 芯片载体中都包含15 万个ZMW。通量低在PacBio 测序中是较明显的劣势,并且低于罗氏454和Illumina 平台。此外,PacBio 测序平台可通过复制过程中聚合酶的动态变化特征,直接检测碱基的修饰类型和位点信息,为表观遗传学研究提供了新的、方便的途径[10]。
纳米孔测序技术与电信号测序[11]为同一种测序,蛋白质纳米孔是该技术的测序核心。在2 个电解液室当中形成了1 个纳米孔,并且2 个电解液室之间有一层不渗透膜,蛋白质中的纳米孔(细微的孔洞,本质上就形成膜上的通道)被嵌入在合成膜上(具有很高的电阻),并浸泡在电生理溶液中;由于化学结构中存在的差异,4 种不同的碱基A、C、G 和T 通过纳米孔时会产生不同强度的电流,这可以被灵敏的电子设备检测到,进而可以识别DNA 链上的碱基完成测序。Nanopore 测序技术与第二代测序技术相比,纳米孔测序读长很长,能直接测定1 MB 以上的读长[12],通过16S rRNA 测序,可以准确识别致病微生物。纳米孔测序可以对单个DNA 进行测序,而无需对样品进行PCR扩增或化学标记;该测序也具有一定的缺点,错误率较高,主要由插入和删除碱基引起。表1 对测序技术进行了总结比较。
2 SMRT 测序在微生物研究中的应用
2.1 微生物概述
微生物普遍存在于自然界中,它们要么肉眼看不见,要么看不清楚。属于微生物的有细菌、病毒、真菌以及一些小型的原生动物、微型藻类等生物类群,具有体积小、结构简单、繁殖速度快、易突变、对环境适应性强等特点。在生活当中微生物是无处不在的,与人类关系密切。据估计,地球上有1 030 个微生物种类,它们在人体中的数量可以达到10 万亿,也就是细胞数量的10 倍[13]。微生物(细菌、真菌、支原体、衣原体、寄生虫、病毒等)与人体的健康系统稳定息息相关,人体中有由细菌、真菌、病毒等微生物组成的最为庞大与复杂的胃肠道系统,且人体许多疾病的发生都与微生物系统的失调或者微生物的入侵有极其紧密的关系,而高通量测序技术的出现为微生物菌群的鉴定检测与研究提供了有力的技术支持[14]。
由于第一代测序通量低、第二代测序读长短,致使第一、二代测序技术在微生物研究中的应用并不广泛,且具有一定的劣势。而第三代测序技术的优势刚好弥补第一、二代测序中的某些不足,且第三代SMRT测序技术在微生物研究中应用相对较广泛。但第三代测序技术错误率较高,需要结合逐步成熟的第二代测序,以提高其在应用中的准确性,降低其成本费用,在微生物研究中具有更广阔的应用前景。
2.2 在微生物基因组测序中的应用
2.2.1 全基因组测序
全基因组测序是对未知物种的单个基因组进行测序。利用第二代测序和第三代测序为微生物全基因组进行测序,准确地对样本块的微生物进行鉴定分析,并且可以根据耐药基因的定位进行分析。对发现的一种罕见或未知微生物进行全基因组测序是必不可少的[15]。WIBBERG 等[16]完成全基因组测序,是利用了第三代测序技术产碱假单胞菌CECT5344,该菌能消化吸收氰化物,并将其转化为无毒成分,可用于氰化物污染的治理。
虽然第三代测序技术仍有待提高,但测序技术的准确性进一步提高、操作和操作流程的简化以及突破性的进展肯定是指日可待的。在未来,高通量测序技术将继续发展,为价格、准确性和数据分析带来革命性的变化,并且有助于提高临床诊断效率。
2.2.2 在甲基化检测中的应用
在细菌的基因组中可以看出,甲基化类型包括N6-甲基腺嘌呤(m6A)和5-甲基胞嘧啶(m5C)[17]等。XIAO 等[18]通过SMRT 对人类DNA-m6A 进行了研究,证实了人类基因组中m6A 存在甲基化,并首次获得了中国DNA-m6A 修饰图。FANG 等[19]利用SMRT技术成功检测了致病性大肠杆菌基因组中的m6A 和m5C 位点信息,并评估了各修饰位点的甲基化率。SATOU 等[20]通过对8株幽门螺旋杆菌(Helico-Bacter Pylori)进行全基因组测序,从头组装得到了8个完整的重叠群,并且毒力因子相关的表观遗传修饰区域被获得的甲基化信息识别。
2.3 在微生物转录组学方面的应用
2.3.1 全长转录组测序
RNA 测序技术(RNA-Seq)的发展大大提高了基因表达的定量效果,然而这个方法的主要局限性之一是由于读长很短,所以根本无法解析最复杂的基因或包含许多类似转录本形式的基因家族的结构[21]。
Iso-Seq 是基于SMRT 测序技术,凭借超长读长的优势,在不中断RNA 分子的情况下,可以获得从5’末端到3’PolyA 尾巴的高质量全长转录本,从而可以对同源的异构体、选择性剪接、融合的基因、同源的基因、超家族的基因和等位基因的表达进行准确分析,而且Iso-Seq 允许在不使用参考基因组的情况下直接测序10 KB 以下的转录本[5]。2.3.2 在RNA 测序中的应用
生活中普遍存在的微生物在相关RNA 测序中被研究。LIAN 等[22]应用第三代单分子测序读长RNA 测序和短读长RNA 从头组装测序序列野生型和紫杉醇耐药型对人类乳腺癌细胞的RNA 进行测序,并揭示了紫杉醇抵抗乳腺癌的新目标。
2.3.3 在表观遗传学领域的应用
在表观遗传学方面,HIRAOKA 等利用SMRT 揭示了日本琵琶湖微生物群落的“宏表观基因组”[23],并从不同的细菌和古菌中重建了19 个基因组草图,DNA 化学修饰分析显示22 个甲基化修饰,其中9 个是之前没见过的,说明后表观基因组学是鉴定原核生物DNA 甲基化的有效方法。
总的来说,虽然这些测序需要更多病毒和更多场景进行更广泛的验证,但这项新技术将在不久的将来改变诊断的方式。
2.4 在微生物组学中的应用
微生物资源作为生物技术创新的重要来源,对生命科学的基础研究和生态经济的发展具有重要意义,对其各种各样的研究有利于微生物资源的充分开发和利用。微生物群落的多样主要包括物种多样性、遗传多样性和功能多样性[24],在环境、能源、食品与人体健康等诸多领域有着广泛的研究与应用。
2.4.1 在16S/18S rRNA 中的应用
16S rRNA 基因在细菌和古细菌中普遍存在,具有多个拷贝数,其总长度大概为1 500 bp。有9 个可随时变化的区域和10 个不变的区域交替组成该结构。18S rRNA 基因在所有真核微生物中均有发现,序列长度为1 500~2 000 bp。目前,微生物系统发育研究和分类鉴定中最常用的分子标记是16S/18S rRNA 基因。SMRT 测序技术的数据是结合了16S RNA 和18S RNA,获得更多的16S RNA 和18S RNA 全长序列[25]。
当微生物研究处在较为复杂的环境情况下,SMRT测序技术的优点已被研究员反复验证。MOSHER 等[26]通过不断改进PacBio 的RS 系统和SMRT 平台技术,提高了16S rRNA 基因扩增的准确性,将环境微生物鉴定到种水平是有希望的。
2.4.2 在细菌/真菌基因组学中的应用
在微生物蛋白质组学的研究中,有参考基因组的微生物数量远低于总体微生物量,除了微生物净化栽培困难,另一部分原因是第二代测序读长短,很难解决细菌/真菌基因组组装的高重复、高GC 区域问题。第三代测序技术以超长读长和无GC 偏好克服了上述部分问题,在单个细菌/真菌的基因组组装方面取得了重大突破。
随着第三代测序平台的完善和升级,测序通量的不断提高,第三代测序技术在基因组研究中的研究已逐步从小基因组扩展到大基因组。
2.4.3 在宏基因组中的应用
宏基因组测序是指直接从临床或环境样本中提取所有微生物核酸,构建宏基因组测序文库,并进行测序。
对于环境样品,如土壤、海水中复杂的微生物群落,以及人类口腔、粪便、肠道等中的样品,应用SMRT测序技术发现样品中一些不可培养或难以培养的微生物物种,在复杂样品中发现未知或罕见的微生物物种[27]。
3 讨论
随着分子生物学和科学技术的不断发展进步,高通量测序技术在短短20 年的时间里取得了长足的进步。全基因组/转录组等核酸相关组学测序技术在不久的将来会逐渐进入各个分子生物学实验室以供研究人员学习和应用。高通量测序技术带来的基因组学、转录组学等领域研究思路的转变将为蛋白质组学和代谢组学奠定基础,共同成为在系统微生物学发展中的基石,可有效帮助揭开微生物功能的诡秘面纱。在有SMRT 高通量测序技术帮助的情况下,研究者可以更全面、准确、直观地发现微生物基因组与转录组等其他组学之间的细微差异,方便探究微生物的生命及进化的痕迹,更好地了解微生物世界。
尽管现阶段高通量测序平台仍存在一定假阳性率的问题,而且测序价格偏高,但相信在未来随着技术的不断迭代,测序成本及价格会更加亲民,就如同现在的NGS 测序一样走进更多科研工作者的试验室。况且现在SMRT 高通量测序以其独特优势,已经在微生物病原体检测诊断、临床病原体感染诊断、疾病相关微生物病原诊断、遗传疾病检测、生命环境微生物筛选鉴定、环境微生物筛选鉴定、工农业发酵生产有效微生物筛选鉴定等方面崭露头角,为相关学科的研究提供了新的思路和新方法。相信未来SMRT 高通量测序技术也将在许多领域发挥作用,为人类探索自然生命奥秘提供更多帮助。