解读DNA鉴定
2018-12-28杨劲树
杨劲树
DNA 双螺旋结构与碱基配对图
DNA鉴定又称DNA分析,是随DNA双螺旋结构的发现及DNA测序技术的出现而发展起来的一门分析型技术学科,也是分子生物学技术最为常见的应用之一。
DNA双螺旋结构的发现
1962年,瑞典皇家科学院将诺贝尔化学奖授予吉姆·沃森、弗朗西斯·克里克和莫里斯·威尔金斯,以表彰他们在1953年前后发现并解析了DNA双螺旋结构。他们的发现,创立了分子生物学这一生命科学领域重要的分支学科,也让科学家们能够对生命的遗传物质DNA一窥究竟。而在这一无比优美的螺旋结构背后,是对DNA序列配对的严密量化计算。
DNA是由核苷酸(糖、磷酸和碱基)组成的长链分子,两条链以反平行方式形成右手螺旋结构。DNA结构中最重要的遗传信息存储载体是四种碱基——两种嘌呤(腺嘌呤A和鸟嘌呤G)以及两种嘧啶(胞嘧啶C和胸腺嘧啶T)。碱基位于双螺旋内部,其中A和T、G和C之间形成称为氢键的作用力,讓双螺旋结构得以稳定。由于两条链是相互配对的,理论上来说,我们只要有方法测定其中一条链的碱基序列,另一条互补链的信息便很容易获得。
简而言之,DNA双螺旋结构告诉我们,DNA结构是稳定的,而其中的遗传信息包含在碱基当中。
DNA测序技术的发明
1975年,英国生物化学家弗雷德里克·桑格发明了链终止法。作为DNA序列测定的金标准,链终止法(第一代DNA测序技术)凭借测序准确和读取DNA序列较长等优点,至今仍被广泛使用。
1990年,以美国科学家为主导,英国、法国、德国、日本和中国共同参与的人类基因组计划启动,目标就是利用链终止法测定人类基因组的全部序列。测定结果表明,人类全基因组由30亿个碱基对组成,其中含有2.5万个基因。2006年,人类基因组这一天书被人们完全破译,历时16年,耗资30亿美元。对于这本天书的解读工作一直持续至今(称为“后基因组时代”)。
第一代测序方法虽然相较之前的方法有了很大进步,但也存在着缺点,其最主要的就是成本高、通量低。2005年前后,出现了以罗氏公司454法和Illumina公司Solexa/HiSeq技术为代表的第二代DNA测序技术。不同于第一代测序的“合成后测序”,这些新技术采用“边合成边测序”的方法。其基本原理是将DNA分子打碎成小片段,在附着基质(玻片或者磁珠)上进行扩增和测序,通过检测每次合成释放出来的焦磷酸来获得相应的序列。玻片和磁珠可以同时容纳大量分子,通量巨大,也大大降低了测序成本。然而,第二代测序最大的缺点在于读长比较短,这给后续的序列分析造成了巨大困难。
2009年开始,以PacBio公司SMRT技术和Oxford Nanopore Technologies公司纳米孔单分子测序技术为代表的第三代DNA测序技术开始被应用,其最大特点就是单分子测序,无需进行扩增,本质上是检测DNA分子通过单分子纳米孔而造成光电信号变化的物理方法。由于第三代测序错误率比较高、应用有限,一般只用于一代、二代测序结果的验证。
DNA分析技术的应用
序列分析的基础是文本处理,即字母表中只有四个字母(ATCG)的文字分析。一般来说,用来测序的DNA分子体现出来的遗传信息是一条(或者一对)完整连续的碱基序列,而从测序仪上获得的却只有部分DNA片段序列,如第一代测序每个片段约1000个碱基,第二代测序约200个碱基。因此,如何把这些短片段拼接成完整的序列,便成了分子生物学家最亟待解决的问题。
序列拼接的基本原理,是利用两个片段之间的重叠部分来进行的。理论上,重叠部分越多的序列越容易拼接,而且部分序列越长,重叠部分越多。但是重叠序列会造成序列的重复读取,一般第一代测序可接受的测序深度(实际读取的序列长度与待测序列的真实长度之间的比值)是10倍,而第二代测序要达到几十倍甚至上百倍才能获得理想效果。
获得了DNA序列,接下来就得进行序列的比较了。在比较之前,首先要排除污染的可能性,因为PCR反应极其敏感,稍有不慎就会造成非目的序列的扩增。一旦我们获得了真实所需的DNA序列,接下来就要进行具体分析。
物种及个体鉴定
DNA 测序技术的发展历程
早在达尔文发表进化论之前,人们就已经对自然界存在的生物进行了系统分类,最出名也是最常用的是瑞典植物分类学家林奈发明的双名法,即将生物从高到低划分为界、门、纲、目、科、属、种七个分类单元,用“属名”+“种名”的拉丁文表示某一具体的物种,这一命名法一直沿用至今。在DNA鉴定技术出现之前,分类学家主要依靠形态学特征来对物种进行归类,但此法存在着效率低下、分类混乱和主观性强的缺点。DNA鉴定技术成熟后,我们通过对未知物种基因片段的扩增和测定,就可以根据与已知物种相同基因序列的相似程度进行归类,大大提高了分类效率,在不破坏原本分类框架的基础上解决了很多疑难问题。DNA鉴定技术与分类学的结合直接促成了一门新学科——分子进化生物学——的诞生,它的终极目标是建立完整的所有物种(包括现存和已灭绝)的“生命之树”,将达尔文进化论不断向前推进。
另一方面,DNA鉴定也可以应用于个体鉴定。对同一物种的不同个体来说,一般基因序列的相似性会高达99.99%,这0.01%的差异往往存在于一些非编码基因或者短的重复序列(微卫星序列)。我们可以扩增出这一部分的区域并测定其序列,用于区分不同的个体。最常见的应用是刑侦学上的身份鉴定和未知亲属关系的亲子鉴定。通过对比从犯罪现场获得的血液、毛发等样品以及疑犯或受害人遗留的组织样品中获得的微卫星区域序列,我们可以确定样品是否来自同一个人,为刑事案件的破解提供重要线索。此外,由于子女的基因组DNA各有一半分别来源于亲生父母一方,利用这一点也可以进行亲子鉴定。
目前主要从事个性化基因分析的公司
遗传性疾病诊断
基因体现性状,性状由基因决定。从某种意义上来说,任何疾病的发生和发展都与基因相关,如孟德尔遗传病(单基因突变就可以发病的一类遗传性疾病)。第一个被解析出的孟德尔遗传病是镰形贫血症,由于编码血红蛋白基因的单个碱基位点发生突变,造成合成的血红蛋白发生功能异常,携氧能力大大下降,导致机体缺氧性贫血,严重时可能危及患者生命。
截至2018年10月26日,“在线人类孟德尔遗传数据库”(OMIM)中一共收录了相关遗传病基因描述15983条。其中已知性状分子基础的有5348个,更多的基因以及与遗传病的关联数据还在不断更新中。但通过对致病基因区域的DNA扩增和序列测定,我们就可以鑒定患者是否可能患有某种遗传疾病,甚至通过分析序列信号是单一还是两种混杂,并确定患者携带的致病基因是显性还是隐性。此外,癌症的发生与基因组上的突变密切相关,但实际情况要复杂得多。一种癌症可能涉及到许多基因的突变,而一个基因的突变又可能与几种癌症相关。2006年,美国国家癌症研究院(NCI)和国家人类基因组研究院(NHGRI)共同启动了“癌症基因组图谱”(TCGA) 计划。目前,TCGA数据库中已经存储了20多种癌症的基因组数据,大大方便了通过DNA鉴定实现癌症在基因组层面上的相关性研究。例如,因检测发现携带致癌基因,好莱坞著名电影明星安吉丽娜·朱莉进行了预防性双乳腺切除手术。最近的一项技术甚至可以通过扩增和分析血液中提取DNA的相关基因序列,将癌症诊断的确诊期大大提前。
个性化基因分析
2006年,一家进行个性化基因分析的公司23andMe在美国硅谷成立。用户只需寄去唾液样本并付99美元,便可获得一份在线DNA报告,显示祖先起源。目前,23andMe的业务范围经由美国食品药品监督管理局(FDA)批准,已扩展至包括遗传导致的帕金森病、阿尔茨海默病等在内的10种疾病预测,大批用户根据检测结果调整了自己的生活方式。可以说,23andMe是将DNA鉴定应用于个性化基因分析上的成功范例。目前,我国的类似公司有WeGene和23魔方等,客户只需提供2毫升唾液样品和一些基本费用,便可以完成祖源、遗传风险、营养需求、药物反应、皮肤特质等在内的相关DNA鉴定,其中WeGene更提供了不到4000元的全基因组测序服务。然而,尽管个性化基因分析发展迅速,但它仍处于初级阶段,极大地依赖于科学家对人类基因组的解读和具体遗传病例的研究结果,检测结果更多体现的是个体与这些已有成果的相关性而非诊断性,因此宣传性意义大于实用性价值。
生命之树
世界上最小的测序仪MinION
DNA技术的展望
物种DNA标签库的建立
分类学家多年来心存一个梦想,就是将所有物种(包括现存和已灭绝)的分类关系整理完毕,形成一棵完整的“生命之树”,给生命进化理论划上一个完美的句号。对早期的形态学分类学家来说,实现这一终极目标简直是幻想,而DNA物种鉴定技术的出现为这一目标的实现提供了可能性。
由于基因组测定相对复杂得多,一般DNA物种鉴定只分析某些基因序列,最常用的是称为“生命条形码”的线粒体基因COI。目前,绝大部分物种在GenBank中都具有COI条形码的记录,大大方便了DNA物种鉴定需求。然而,COI条形码分析也存在缺点,最主要是其进化速率不能满足更低分类单元分析的需求,比如确定亚种和种群,这时候往往需要通过多基因共同分析。考虑到目前的测序技术和高昂成本,这一工程短期内还无法实现。
疾病基因库的完善
随着后基因组时代科学家对人类基因组解读的不断深入,以及对各种病例表型和基因型对应分析的不断清晰,包括OMIM和TCGA在内的基因(组)数据库收录的数据也在持续更新。目前,人们对于疾病与基因关系的理解是碎片化的:一方面,由于缺乏患者全基因组数据,能够检测到某种病症与某个基因的变化可能是不完全的;另一方面,人们总希望一种疾病对应一个基因,然而疾病的发生是许多基因共同起作用的结果。人们可能碰巧找到了其中一个关键基因,对它的操作恰好可以达到预期的治疗效果。但这种情况并非常态,对于绝大多数疾病来说,基因调控是一个错综复杂的网络系统,依据目前的认知根本无法彻底阐明,更谈不上从基因层面达到治愈的效果。
相信随着科学研究的不断深入和相关疾病基因库的不断完善,我们最终可以清晰地了解自身。