基因算命靠谱吗?
2017-07-12袁越
袁越
随着DNA测序技术的飞速发展,基因检测越来越火了。这是生物学研究领域的一次重大革新,它改变了科学研究的范式,标志着生命科学迈向了一个崭新的未知领域。
差异决定命运
2009年8月14日,朵拉(左)和弗雷德·贡克尔参加“23和我”公司进行的个体基因组测试
如果你想知道自己未来会不会谢顶或者发胖,有多大可能得糖尿病或者癌症,甚至想知道自己究竟能活多久,能否生出一个健康的孩子,你可以:A.请一位算命先生测测自己的生辰八字;B.找一个星座大师查查自己的星盘;C.把自己的唾液寄给一家基因检测公司。
选A和B的我们称为封建迷信,选C的则被视为科学,因为一个人的生辰八字和星座星盘没有理由决定他的命运,两者之间的逻辑链条是不清晰的,而基因则是所有生命现象的遗传基础,科学家们已经搞清了遗传的本质,明确了从基因到蛋白质之间的因果关系,用基因来算命应该是靠谱的吧?
没错,自从1953年沃森和克里克发现了DNA分子的双螺旋结构之后,我们终于知道生命信息是由DNA分子负责储存的,而基因则是由DNA分子当中的G、A、T、C这四种核苷酸依次排列而成,不同的排列方式决定了蛋白质的结构和功能。蛋白质不但是所有生命体的结构基础,也是所有生化反应的催化剂(酶),基因正是通过控制蛋白质来控制生命的,这条逻辑链不但相当完整,而且经受了时间的考验。
2003年,人类基因组计划宣告成功,来自全世界的科学家们通力合作,测出了所有30亿个核苷酸的全部DNA序列,其中包含大约2万个基因。值得一提的是,这2万个基因的长度加起来只占人类染色体总长度的1.5%左右,人类基因组中的绝大部分DNA序列都不编码任何蛋白质。但是,这并不等于说这些DNA序列都是没用的,它们很可能参与了基因性能的调控,并以这种方式控制了蛋白质合成的时间和数量,进而控制了生命的进程。
随着基因组测序量的增加,我们知道地球上所有人的基因组相互之间的相似度高达99.5%以上,剩下的这不到0.5%的差异之中,大部分是单个核苷酸的差别,比如某个位点大多数人是A,但少数人是G,这样的差异我们称为“单核苷酸多态性”(Single Nucleotide Polymorphism,以下簡称SNP)。除此之外,还包括多个核苷酸的插入、缺失和重复等其他类型的差异,但它们所占的比例很低,本文暂不考虑。
2013年9月7日,在美国北卡罗来纳州达勒姆的斯塔格维尔种植园,烹饪史学家迈克尔·特维蒂获知了遗传测试结果,确定他的祖先在北非
如果让一个外星人来研究人类基因组,他肯定会把研究重点放在那99.5%的相同部分,因为外星人感兴趣的是人类和其他生物的差异,那99.5%才是决定人之所以为人的主要原因。但是,人类科学家肯定会更加关心剩下的0.5%,因为人与人之间的差异,以及很多种疾病的病因都是由这0.5%造成的。
同样,算命先生肯定也只关心这0.5%的基因差异,因为人类共同的命运是不需要算的。算命爱好者关心的是自己和其他同类的不同之处,几乎所有这些不同之处都源于人类基因组内的SNP,市面上那些基因检测公司测的就是它们。
基因检测的芯片法
测SNP最准确的办法当然是直接测DNA序列,最先知道的人类SNP正是在基因测序的过程中被发现的。2008年开始实施的“千人基因组计划”(1000 Genomes Project)测量了来自26个不同族群的1000多个个体的全基因组序列,发现平均每个人的基因组内都有100万~300万个SNP,具体数量和这个人所属的族群有很大关系。
这个数字看似很大,但考虑到人类基因组一共有30亿个核苷酸,算下来一个人平均每1000多个核苷酸才会有一个和别人不一样,这说明SNP的出现概率其实是非常低的。
SNP是DNA复制差错导致的。随着人口总数的增加和基因组测序量的增大,科学家们发现了越来越多的SNP。截至2017年,国际单核苷酸多态性数据库(dbSNP)里已经收录了3.24亿个SNP,其中出现频率超过1%的SNP约为8500万个。这些SNP统一用以rs为开头的一串数字来命名,比如rs72921001就是一个位于第11号染色体上的SNP,假如你在这个SNP位点上的核苷酸是A,那么你很可能会喜欢吃香菜,如果是C的话,那么你很可能会觉得香菜有股让人恶心的肥皂味儿。
如果你想知道自己到底喜不喜欢吃香菜,当然可以把自己的第11号染色体上的那段相应的DNA序列测出来,但这么做成本太高了。既然我们已经知道了这段DNA序列,那就可以不用测序,而是通过更加廉价的“探针法”将其检测出来。事实上,为了区分不同的SNP,国际SNP数据库通常会列出该SNP两边各几十个核苷酸的序列,这就为科学家们合成出相应的探针提供了便利。
顾名思义,所谓“探针”(Probe),就是事先制作好的一个和目标基因互补的DNA短片段,用它可以从庞大的基因组中钓取出特定的SNP序列。比如前文提到的这个rs72921001,如果我们想要知道自己在这个SNP上到底是怎样的话,只要根据数据库里提供的信息,事先合成出一个带有荧光标记的DNA探针,覆盖了这个SNP两边的几十个核苷酸序列,然后把这个探针和自己的基因进行杂交,SNP位点的不同会导致杂交强度出现差异,从而引起荧光强度的变化。我们只要设法测出荧光的强度,就可以推断出自己在这个SNP位点上到底是A还是C了。
安吉丽娜·朱莉在得知自己携带乳腺癌基因后,参考了多方面因素,最终决定预防性切除乳腺和卵巢
探針法最大的好处就是可以把探针做得非常小,然后将很多探针集成到一块芯片上,通过机器来自动读取荧光信息,这就大大提高了基因检测的通量,降低了成本。最早采用这个办法的就是大名鼎鼎的美国基因检测公司“23和我”(23andMe),这家公司早在2007年就推出了全世界第一个基于芯片法的个人基因测试盒,后来的所有这类面向普通消费者的基因检测公司大都沿用了他们发明的这项技术,其中就包括国内的诺禾致源、博奥颐和、碳云智能和23魔方等等不下几十家公司。
总部位于深圳的“微基因”(WeGene)也是其中之一,这家公司采用了96孔和24孔两种规格的芯片板,其中24孔板就是在一块尺寸大约为12厘米×6厘米的塑料板上安置24块芯片,每块芯片上事先放置了60万个荧光探针。顾客把自己的唾液吐进专门从国外定制的收集管里寄回公司,这批管子被集中送至同样位于深圳的“华大基因”(BGI)公司的实验室,由专门的实验人员从唾液中提取出顾客的DNA,在恒温箱中和芯片进行杂交。之后这块芯片板被送入专门的仪器中读取荧光信号,再用相应的软件进行分析,就可以获得这位顾客基因组内的60万个SNP位点的遗传信息了。
“单个荧光信号并不能直接告诉我们该位点的遗传信息,必须把来自多个芯片的信号数据整合起来分析,才能判断出某个SNP位点到底是哪个核苷酸。”“微基因”的首席技术官陈钢对我介绍说,“我们通过大量试验,对芯片读取技术进行了多次优化,终于把数据的重复率提高到了99.6%。也就是说,同样一块芯片,分析两次得出的结果有99.6%都是一样的。”
判断一家基因测序公司的好坏,数据的可重复性是很重要的指标。另一个重要指标当然是探针的设计和SNP数据的分析方法,这里面的学问就更多了,值得我们好好讨论一番。
祖源分析的科学基础
祖源分析一直是全球绝大部分基因检测公司的主要业务项目,我们可以先通过这个项目了解一下基因检测到底是如何进行的。
从某种意义上说,祖源分析就是基因亲子鉴定的扩增版,两者的理论基础是类似的,都是基于这样一个事实,那就是基因突变的发生频率非常低,绝大部分基因突变(包括SNP)都只发生过一次。所有这些突变都会遵循基本的遗传法则在人群中扩散,只要掌握了这套遗传法则,就可以根据相应的遗传特征判断出两个人是否有亲缘关系,以及一个人的祖先究竟来自哪里,大约是在什么时候和其他人群分家的。
这套分析方法的原理并不复杂,但实施起来却并不容易,需要事先对不同的族群进行全基因组测序,从中找出最具代表性的SNP。比如,如果我们能找到一群一直生活在某一非洲地区的原住民,分析他们的DNA,再和世界其他地方的人做对比,找出哪几个SNP是这群非洲人独有的。之后,如果我们在基因测试的过程中再次发现了这几个SNP,就可以推断出这个测试者是那群非洲原住民的后代,甚至可以根据一套复杂的算法大致估算出这位测试者到底是从什么时候开始从那个非洲部落里走出来的。
这套分析方法要求SNP的遗传规律相对简单,人类基因组当中只有线粒体和Y染色体符合这个要求,因为它们在复制的过程中不会发生基因重组,最适合用于祖源分析。
虽然线粒体和Y染色体不会发生基因重组,但依靠它们进行祖源分析还是很难的。线粒体虽然很小,但也有1.67万个核苷酸,Y染色体虽然是所有染色体当中最短的,也含有大约6000万个核苷酸,科学家们需要积累很多的DNA数据才能得出可靠的结论。
最早开始研究线粒体和Y染色体的是欧美国家,他们采样的范围肯定偏向欧美人群,所以欧美等国在这方面的数据积累得特别多,得出的结论也就更加精确。再加上欧美等国的居民成分本来就相对要复杂一些,那里的消费者对于自己祖先来源的兴趣也更大,所以祖源分析在欧美消费者当中很有市场,很多欧美人之所以去测基因,主要目的就是为了测祖源。
相比之下,中国在这方面的优势就没那么明显了。比如我在“微基因”测过自己的祖源,发现我是99.66%的北方汉族。这个结果对我来说几乎一点意义都没有,不过我有几个少数民族的朋友还是测出了一些不同的成分,不能一概而论。
这个分析结果的理论基础来自十多年前由复旦大学金力教授牵头实施的“东亚男性Y染色体大调查”,研究人员深入到许多偏远地区,收集到了1.2127万个Y染色体样本,分别来自163个不同的东亚人群。这些人群的分布情况和迁徙路线大都是已知的,这就给研究人员提供了很多优质的参考数据,准确地把基因和族群特征联系了起来。“微基因”只要测出我的基因组内与此相关的若干个SNP的情况,就可以知道我的祖先来自哪里。
女性没有Y染色体,只能通过线粒体来进行祖源分析。但是线粒体本来就短,东亚人群的线粒体研究也做得不如Y染色体好,所以依靠线粒体进行祖源分析不如Y染色体那么可靠。不过,“微基因”收集了很多位于常染色体上的祖源特征,也可以借助常染色体的SNP信息来测祖源。
如果你信不过中国的基因检测公司,去国外做检测,效果会不会好一点呢?答案是否定的,因为欧美人祖先的迁徙路线和中国人很不相同,欧美公司自然会偏向他们,专挑那些和欧美人的祖源有关联的SNP去测。前文说过,算命的基础是差异性。如果你测的SNP在中国人当中只有万分之一的出现率,那就说明你需要测一万个中国人才会出现一次不同的结果,这样的SNP对于中国用户来说是没有意义的。
因此,对于中国用户来说,如果你想更精确地知道自己的祖先来自哪里,只能希望中国科学家们多多努力了。中国人的祖源成分虽然有可能不如欧美人那么富有戏剧性,但在中国这块土地上发生的族群迁徙和融合事件一点也不会输给欧美,长达3000多年的有文字记载的中国历史就是明证,仅仅用“北方汉族”这四个字来概括是远远不够的,应该可以分得更细才对。
华大基因的技术员在操作“微基因”公司的基因芯片
問题在于,人类基因组测序是很费钱的,相关数据的收集整理需要耗费大量的时间和精力,一般人缺乏动力,除非能一边收集数据一边挣到钱才会去干。不过,这不就是“微基因”这样的公司正在做的事情吗?事实上,全世界几乎所有的基因测序公司都是在一边提供服务一边收集数据,希望能从消费者提供的数据中发现新的东西,“微基因”自然也不例外。
“不过,我们毕竟是一家面向普通消费者的商业公司,不可能一上来就要求使用者填一大堆表。”陈钢对我说,“我们会使用一些技巧,比如填一次表可以拿到一张优惠券之类的,鼓励用户把他们的一些个人信息告诉我们。当然了,我们会事先向用户说明这些信息的用途。”
对于祖源分析来说,“微基因”需要的无非就是用户的出生地、籍贯和民族等普通个人信息,收集起来难度不大。用户在提供这些信息的同时,也就帮助了“微基因”积累更多的数据,提高祖源分析的准确性。要知道,对于“微基因”来说,光有一大堆SNP数据是没有用的,必须把每个人的遗传信息和他的民族籍贯等真实信息结合起来才有价值。
陈钢还告诉我,他们最近开始尝试一种新的玩法,鼓励使用者上传自己的正面免冠照片,然后他们在后台把和使用者基因型相似的所有人的照片整合起来,用软件加以平均,生成一张“祖源平均脸”。“微基因”希望通过这个方式,发现面部特征的遗传基础。如果这个目标真的能实现的话,将来便可以通过一个人的基因型推断出他的长相。美国联邦调查局(FBI)也在研究类似的技术,他们已经利用该技术破获了一起刑事案件。
这项看似天方夜谭的技术真的靠谱吗?答案是:有待确定。一个人的肤色、眼珠颜色、鼻梁高低和毛发是否卷曲等特征确实和种族有关,推测起来应该不难,但决定一个人长相的并不仅仅是以上这些,还包含了面部骨骼的很多细微变化,这些变化是由遗传和环境这两个因素双重控制的,没人知道两者各占多大的比例。即使遗传所占的比例很高,能够影响脸型的基因也很可能有很多个,怎么可能预测准确呢?
事实上,基因检测的核心问题就出在这里。
从基因型到表型
依靠基因检测来进行祖源分析之所以还算靠谱,原因在于基因型和祖源是直接相关的,中间没有多余的环节。但是,如果你想通过基因检测来预判自己未来能长多高、会不会发胖、喜不喜欢吃香菜,或者预测自己生某种病的概率,可靠性就没那么高了,这是因为从基因型到表型之间还有很多步骤,每一步都存在诸多变数,太复杂了。
基因可以看成是制造蛋白质的工程图纸,从基因型到蛋白质之间还要经过转录、翻译和翻译后修饰等若干环节,两者之间并不是简单的一一对应关系。同样,从蛋白质到表型(Phenotype,也就是身高体重、头发颜色、是否会生病等等后天表现出来的整体性状)之间同样也要经历很多步骤,这些步骤相互之间可以有互补和互惠等不同的关系,也不能简单地画等号。
就拿遗传病来说,有一类遗传病只需要一个基因发生变异就可以表现出来,科学术语称为“单基因遗传病”。国际遗传病数据库中收录的单基因遗传病种类大概有8000种,其中4000多种病的致病机理是比较明确的,基本上可以建立一对一的关系。这类疾病理论上是可以通过基因检测测出来的,比如“微基因”就列出了30项中国人当中比较常见的单基因遗传病,包括苯丙酮尿症、肥厚型心肌病和葡萄糖-6-磷酸脱氢酶缺乏症等。其中肥厚型心肌病不做检查的话很难看出来,患者如果不注意的话有可能在做剧烈运动时发生猝死。葡萄糖-6-磷酸脱氢酶缺乏症又名“蚕豆病”,患者进食新鲜蚕豆后会诱发溶血性贫血,严重的有生命危险。
如果基因检测查出一个人携带有某种致病基因,并不等于他一定会得病,因为单基因遗传病大都是隐性遗传的,即只有两条染色体上携带的都是致病基因时才会发病。即使在这种情况下,基因检测仍然是有用处的,因为如果夫妻双方都是携带者,那么他们生出的孩子将有四分之一的可能性患病,因此如果某人在基因检测时被查出是某个遗传病的基因携带者,那么配偶就应该也去做检查,防止生出患病的下一代。
不过,绝大部分单基因遗传病的发病率都很低,一般人中招的可能性很小。但像糖尿病、心脏病和癌症这类高发性疾病则大都是由多种遗传因素叠加而成的,很难通过消费者级别的基因检测做出可靠的判断。另外,像智商这样的表型背后的相关基因就更多了,一般的基因检测是根本查不出来的。
还有,绝大部分疾病不但和遗传有关,还和环境有很大关系。比如乳腺癌的发病率不但和致癌基因有关,还和患者的初潮年龄、生育年龄和家族史等等很多因素密切相关,即使是携带有BRCA1或者BRCA2这两个著名的乳腺癌基因也并不意味着一定会得癌症。安吉丽娜·朱莉之所以决定预防性摘除乳腺和卵巢,绝不仅仅是因为基因检测,还和她的好几位直系亲属都已得了癌症有很大关系,这个决定是在参考了多方面因素后才做出来的。
一种表型到底和遗传有多大的关系?这是个非常难以回答的问题,因为疾病的遗传性不但难以界定,而且是会随着环境的变化而发生改变的。举例来说,身高的遗传性在最近这100年里有了显著的增加,但这不是因为我们的基因发生了变化,而是因为人类的营养水平普遍提高了,营养不良对于身高的影响力大大下降。再比如,肺癌一直被认为是一种和后天生活环境(比如吸烟和空气污染)关系密切的疾病,但如果一个村庄坐落在一家管理不善的火电站旁边,或者该村的村民人人吸烟的话,那么肺癌对于这个村的村民来说就变成一种具有高度遗传性的疾病了。
正因为如此,像“微基因”这种面向普通消费者的基因测试结果是不能用于医疗诊断的,该公司也取消了“健康建议”栏目,因为他们不相信消费者有能力区分遗传因素和环境影响之间的差别。但他们仍然保留了一些和健康有关的项目,比如运动基因、营养代谢、健康风险和药物指南等等。不过,虽然这些项目的理论基础大都来自可靠的科学论文,但使用者在解读时仍需谨慎。
比如,运动基因栏目中的“膝盖前交叉韧带保护能力”是和胶原蛋白的合成能力挂钩的,理由是韧带的主要成分是胶原蛋白,但真实生活中一个人的韧带保护能力还和他的腿部肌肉力量有关,所以这个指标只能作为运动时的参考。再比如,营养代谢栏目中的“乳糖代谢能力”衡量的是成年人体内的乳糖酶的活性,但其实乳糖酶基因谁都有,只是有些人成年后不再表达了而已,这个基因的表达通路经过适当的训练是可以重新恢复的,因此这项检测肯定会有很多人觉得不准。
以上这些测试结果之所以不完全可靠,最根本的原因在于相应的科学论文都属于纯粹的相关性研究,并没有对双方的因果关系做出合理的解释。
相关与因果
镰刀型细胞贫血症是几乎所有遗传学教科书上都会拿出来详细解释的一种遗传病,因为这是人类第一个完全搞清楚致病机理的单基因遗传病,从致病基因到贫血症之间的因果关系是非常明确清晰的。
当初科学家们先是从镰刀型红细胞入手,发现患者血红蛋白β-肽链的第6位置上的谷氨酸被缬氨酸所代替。随即进行的生化实验表明,仅此一项变异就能降低病人血红蛋白的携氧能力,并导致红细胞从圆盘形变成镰刀形。之后,科学家们找到了编码镰刀型血红蛋白的基因,发现DNA序列中的一个核苷酸T变成了A,正是这个变化导致了它所编码的氨基酸發生了改变。
这个例子象征着传统研究范式的胜利。这套研究方法的核心诉求就是寻找因果关系,研究思路则围绕着“假说”(Hypothesis)做文章。研究者首先必须提出一个可被证伪的假说,然后设计出精巧的科学实验,通过改变预设条件并观察相应的实验结果来验证(或者证伪)该假说。然后,研究者会把这一过程重复很多次,这才能找到自然现象与科学理论之间的因果关系。
这套研究范式统治了科学研究几百年,取得了一大批丰硕的成果,极大地提高了人类的生活质量。但是,自从人类基因组计划完成后,情况悄悄地发生了变化。
就拿前文提到过的香菜基因来说,这个基因的发现过程和科学界常见的研究范式背道而驰。首先,“23和我”公司的研究人员并不知道去哪里寻找香菜基因,也没有提出过任何假说,而是在自己的用户群中发放了一份调查问卷,其中有一条就是询问他们是否喜欢吃香菜。问卷收集上来之后,研究人员按照用户对香菜的态度把所有人分成两组,然后从他们的SNP数据中寻找规律,rs72921001就是这么被发现的。直到今天,科学家们也只能说这个SNP很可能与嗅觉功能有关,但它和香菜之间真正的因果关系尚不清楚。
不知道因果关系并不妨碍基因检测公司利用这一信息为用户提供服务。事实上,各家基因公司在更多的人群中收集到的数据表明,用这个SNP来预判用户对香菜的态度还是很靠谱的,只在中国遇到了一点小麻烦。因为中国烹饪大量使用香菜,很多中国人即使觉得香菜味道像肥皂,也渐渐地接受了这个味道,起码不那么讨厌它了。
这个香菜SNP的发现和“23和我”公司的芯片设计很有关系。人群中喜欢香菜和讨厌香菜的人都很多,因此这个香菜基因的多样性肯定是非常高的。这家公司的科学家在芯片上放置了一大批专门针对高频SNP的DNA探针,虽然这些SNP的功能还是未知的。等到公司收集了很多用户,积累了大量数据之后,就可以利用这些高频SNP来寻找有意思的基因了,香菜基因只是其中一个比较好玩的例子而已。
事实上,这就是大部分这类普通消费者级别的基因检测公司的生财之道。“23和我”公司2007年底刚开业的时候,一个基因测试盒的售价高达1000美元,但第二年就降到了399美元,后来更是降到了99美元的最低价,其目的就是为了收集更多用户的基因数据,最终以此来盈利。其实这也是谷歌这类互联网公司的生财之道,“23和我”正是从谷歌那里学会了这一招。
就这样,在坚持了很多年,积累了80万用户之后,“23和我”终于在2015年初挣到了第一桶金。著名的生物技术公司基因泰克(Genentech)宣布付给“23和我”1000万美元现金,用于购买该公司收集到的和帕金森氏症有关的SNP数据,希望能从中寻找到和这个病有关的基因,从而开发出针对这一绝症的新药。如果成功的话,基因泰克公司还将支付5000万美元,使得这项合作的总价值有可能高达6000万美元。
“微基因”显然也想复制“23和我”的成功模式。陈钢告诉我,他们设计的芯片上有10万个探针检测的是已知功能的SNP位点,另外50万个探针检测的是未知功能的SNP位点,后者是专门为中国人量身打造的,包括了一大批在中国人群中出现率很高的SNP位点,他们希望能把中国人群的遗传多样性都包括进来。
但是,这里面存在两个问题。第一,这些位点的选择必须考虑到探针的灵敏度问题,有些SNP位点出现率很高,但因为自身顺序的原因导致探针很难设计,从生产工艺的角度讲麻烦太多,只能被舍弃。第二,光有基因数据一点用处也没有,必须同时收集到用户的个人健康信息才有用,这就涉及个人隐私的保护问题。其实这类研究的目的是造福全人类,用户在购买服务的同时还能为科学研究做点贡献,本身应该是件好事,可惜很多中国人对于疾病的认识还处在原始阶段,觉得生病是一件丢人的事情,不愿意让别人知道。
有家公司自认为能够一举解决这两个问题,这就是同样位于深圳的华大基因。
大数据的魅力
“我们一直没有在针对普通消费者的基因检测方面做太多事情,因为我们觉得现有的数据量还不够大,相关性不够可靠。”华大基因的创始人兼现任董事长汪建在接受我专访时开门见山地说,“所以我们决定先从自己的员工做起,而且是从全基因组测序再到生化指标检测再到影像系统数据收集等等一起做。我们有6000多名职工,加上家属有3万到4万人,足以构建一个非常庞大的优质数据库了。”
采访是在位于深圳郊区的国家基因库进行的,这是在发改委等国家部委的支持下,由华大基因研究院负责组建并运营的国家级研究机构,其基因测序和数据储存能力在全世界都是数一数二的。华大基因本来就是靠DNA测序起家的,当年曾经代表中国参与了人类基因组计划,负责并完成了其中1%的测序工作。
基因测序可以很好地弥补探针设计上的缺陷,在基因检测领域有着不可替代的作用,但汪建显然早就不满足于只测DNA了。“如果基因是A,健康是Z,从A到Z之间还有很多步骤呢,包括小分子代谢、维生素和氨基酸调控等等等等,所有这些步骤都有很多数据需要研究,只有掌握了这些数据,才能搞清楚两者之间的因果关系。”汪建一边打着手势一边说,“我有一次讲课时给每位学员发了一串糖葫芦,第一个葫芦是DNA,第二个是RNA,然后是氨基酸、蛋白质、组织、器官……如果生命是一串糖葫芦,那么我们必须把所有的葫芦都串起来,把所有的关节都打通,否则是不行的。”
在汪建的构想中,华大基因最终将会变成一家医疗健康服务机构。为了实现这个目标,他决定先从公司员工做起。他不但自己以身作则,还在公司内部强力营造了一个健康生活的氛围。比如国家基因库里面居然没有电梯,上下楼只能爬楼梯。他还在每个楼梯口放了一台体重秤,时刻提醒大家注意控制体重。我还注意到,国家基因库的办公室桌上散落着好多握力器,他随手抓起一个对我说:“我们公司开会发言的时候每个人都拿一个握力器,握多久就讲多久,我一次能握100下!”
不过,除了“少食多动”这些常见的口号之外,华大基因极力发展的大数据分析并没有为员工们提供太多有针对性的健康建议。不过这也很容易理解,因为这项工作才剛刚开始,数据量积累得还不够多,不可能从中总结出什么惊世骇俗的健康理论。
“我给你讲个故事吧,这个故事给我留下很深刻的印象。”汪建一边捏握力器一边对我说,“新中国刚成立的时候流行过一阵子克山病,这是一种心肌病变,没人知道病因。80年代初期,联合国发展署为了帮助中国攻克克山病,送给中国政府一大堆仪器设备,能够对环境中的微量元素进行分析,分析结果发现,克山病高发区的土壤中硒的含量很低,于是中国政府开始有针对性地为老百姓补硒。到了1986年,这个病终于消失了。当年我还是个医生,被派去大理和楚雄做调研,发现那里的土壤和水系中的硒含量非常高,但当年那两个地区照样有克山病,我百思不得其解。后来我才意识到,当年云南很穷,得病的人都是因为吃不饱肚子,后来经济发展了,老百姓有饭吃了,克山病自然也就消失了。”
这真是个很有意思的故事,从中可以总结出很多道理。
首先,这个故事说明相关性研究有很多陷阱,一不小心很容易找错目标。这方面还有一个著名的案例,有人曾经发现尼古丁受体和肺癌有很强的相关性,但如果你想研究尼古丁受体分子到底是如何致癌的,结果恐怕会令你失望,因为两者之间并没有生物学上的关系,两者的相关性纯粹是因为尼古丁受体和吸烟有关,而烟草才是导致肺癌的真正杀手。
总之,我们不能轻信相关性研究的结论,而目前大多数消费者级别的基因检测的结果大都是基于相关性的研究,只能作为参考,不能成为医生治病的依据。“23和我”公司曾经受到美国FDA的惩罚,原因就在于该公司夸大了基因检测的可靠性,导致很多用户把检测结果当成制定医疗方案的根据了。
其次,这个故事说明新发现往往来自于新技术的应用。在克山病的故事里,联合国提供的环境微量元素测量设备是关键,没有它就没有硒理论的出台。同理,基因研究领域近年来的飞速发展同样得益于DNA测序技术的进步。要知道,2003年测出的第一个人类基因组序列耗时13年,总花费约为30亿美元。14年后的今天,这两个数字分别降到了数天和数百美元,甚至有可能在未来的几年里降到一天和100美元的水平。相比之下,RNA和蛋白质测序的技术仍然停留在10年前的水平,小分子代谢领域的研究方法也没有太多改进,这就使得DNA成为生物学研究领域的一匹黑马,而且早就一骑绝尘,把其他研究手段远远地甩在了后面。如今生物学之所以会出现那么多关于基因型和表型之间的相关性研究,根本原因就在这里。
第三,虽然相关性研究不太可靠,但如果采样范围足够广、数据量足够大的话,相关性总有一天会转变为因果关系,隐藏在大数据中的事实真相早晚有一天会浮出水面。
就拿基因研究来说,如果我们能把全世界所有人的基因组顺序都测出来,相关性肯定就变成了非常可靠的因果关系了。即使做不到每个人都测,只要能测出一定比例的基因组,比如把三分之一的人口都测一遍,那么隐藏在基因组中的很多秘密一定会迎刃而解的。问题在于,基因组研究的数据量非常庞大,“微基因”把原始数据发给了每一位用户,我那份数据的大小是14.5MB,大致相当于一首高质量的MP3歌曲。我每次用记事本打开它时都要等很久,因为普通文本文件很少有这么大的。
这还只是60万个SNP位点的简要信息,如果是全基因组测序的话,光是记录测序结果的文件就有1GB左右,大致相当于一部高清电影的大小。标准的全基因组测序结果还会加上质量评分和测序深度等附加信息,通常是90GB左右,如果换成音乐的话恐怕一辈子都听不完。如果再算上转录组学、蛋白质组学和代谢组学等等中间步骤的数据的话,任何一个人的健康数据都将是TB级别的。对于这个级别的大数据,无论是存储还是分析都将耗费大量的电脑资源,任何一家公司要想开展这方面的研究,都必须首先把大笔投资放在计算机系统上。好在IT领域近年来发展神速,计算机的速度越来越快,硬盘的储存量越来越大,价格却越来越低了,无论是华大基因还是国内另一家以测序为主业的旗舰型基因公司诺禾致源(Novogene)都已经有了几十PB级别的数据储存能力,足以应付目前的研究任务。
同样是最近这几十年才发展起来的新兴行业,生命科学和计算机科学的差距为什么越拉越大呢?原因就在于研究范式的不同。
研究范式的改变
前文提到,最近这半个多世纪的生物学研究是以研究因果关系为主的,研究人员首先必须明确自己的研究目标,要么是一个基因或者一个蛋白质,要么是一种化学药物或者一个治疗方法,然后研究人员必须在实验室里建立一个细胞模型,把实验条件变来变去,考察每一次改变所导致的结果,并在这个过程中搞清其作用机理。这一步完成之后,还要再转移到昆虫或者小鼠中,利用动物模型来做实验,直到动物模型也做得差不多了,这才敢转移到人身上。无论从何种角度来看,科学家直接在人身上做实验都是不现实的,因此只能绕这么一个大弯子。
这套模式导致的结果就是一名科学家往往只关心某一条生化路径,找到的新药也只能解决某一条路径出现的问题。在汪建看来,这是现代生物医药领域最大的瓶頸所在。
“分子生物学在最近这50年里所犯的最大错误就是高估了单一基因的作用,因为人类的复杂程度是超出我们想象的。”汪建对我解释说,“一个人年轻的时候有很多代偿性机制可以用来弥补单一基因缺陷所带来的隐患,但他年纪大了之后这些代偿机制很可能就逐渐失灵了,所以人老了才更容易生病。现在的绝大多数化学药都只是堵住了某一条代谢路径,这个思路是行不通的。”
在汪建看来,现代医学确实提高了人类的寿命,但主要的功劳来自抗生素和疫苗的使用。这两样发明都是针对病菌的,可以较为容易地在培养皿里做实验。但像癌症和老年痴呆症这样的疾病就没办法做实验了,所以进展缓慢,逐渐变成了现代人最厉害的杀手。大数据研究方式则可以绕过这个障碍,不用拿人来做实验,仅仅通过分析各种数据,从中找出规律就行了。
“在我看来,目前的基因大数据领域有两种玩法,分别代表了两个哲学层面的概念。一个是Why Not(为什么不),一个是For What(为了什么)。”汪建对我说,“像‘23和我这样的公司玩的是前者,反正就是闹着玩的,靠不靠谱无所谓,只要消费者玩得起就行。我虽然也在玩前者,但我最想玩的其实是后者,这就必须要有确切的科学证据才敢去做,于是在很多人眼里我就显得有些保守了。”
汪建的这段话很可能是有感而发的,因为他曾经的部下,担任过华大基因CEO的王俊不久前刚刚离开华大,创立了碳云智能公司,准备立即把他那套“糖葫芦”理论付诸实践。
“不过呢,新生儿遗传缺陷、癌症和传染病这三个领域有些不同,因为这相当于和死神赛跑,病人等不了了,所以我决定先从这三个领域入手,做点实际的事情。”汪建补充道。
他所说的新生儿遗传缺陷,指的就是华大基因开发的一套无创产前诊断方法,用的是华大最擅长的高通量测序法。以前孕妇要想做产前诊断的话只能抽羊水,存在一定的流产风险。华大的这套方法只需抽取孕妇5毫升静脉血就可以判断出胎儿的第13、18和21号染色体有没有出现异常情况,其中21号染色体三体就是唐氏综合征的病因。
癌症指的是癌细胞的基因检测,这是目前流行的癌症靶向药物在使用前必须经过的一步。传染病指的是用基因测序的方法判断感染源,同样可以帮助医生迅速判断出到底应该用什么抗生素。
稍微想想即可知道,这三个领域用的都是纯粹的高通量基因测序技术,和前文所说的那些研究不太一样,肯定不是汪建和华大基因最终想要实现的目标。但那个目标太过遥远,要想实现它,华大基因首先必须生存下去,于是这家公司正在将工作重心从纯粹的基因测序服务转移到医疗领域的实际应用上来,其医学部分马上就要上市了。
可惜的是,中国目前没有任何一种基于基因检测的诊断方法被列入医保,中国患者只能自费。
至于华大基因未来的那个目标到底是什么,其实谁也说不清,因为研究范式已经发生了改变。“我们是一家Data-driven(数据驱动)的公司,不再是Hypothesis-driven(假说驱动)了。”汪建说,“这个意思就是说,我们先生产出数据,然后再从里面找假说。”
至于说能否找得到,那就要看数据的总量和质量了。每一个自费花钱做基因测序的人,其实都是在为这个目标做出自己的一份贡献。
结语
汪建是一个直性子的人,采访结束后的闲谈过程中,他提到自己最近正打算驾船沿着达尔文当年的足迹来一次环球旅行,把达尔文当年研究过的动植物的基因组统统测一遍。“这事就是纯粹的Why Not,虽然尚未得到政府的支持,但我现在自己也玩得起了,于是我就想痛痛快快地玩一把。”
达尔文的那次环球旅行在人类历史上留下了浓重的一笔,因为他就是在那次旅行途中开始思考进化论的。事实上,在达尔文的时代,生物学并没有多少理论可以提供指导,也没有多少假说可供研究,还处在发现相关性的时代。那个时代的博物学家们满世界寻找新颖的动植物标本,有点类似于现在的基因学家到处给人测序。最终,达尔文在浩如烟海的动植物标本中发现了规律,写出了《物种起源》这本现代生物学的奠基之作。在他之后的生物学便一直沿着他定下的道路前行,取得了一大批丰硕的成果。
如今生物学再一次遇到了瓶颈,医学研究领域的发展速度明显慢了下来。也许这就是一个信号,告诉我们生物学又到了需要发现相关性的时代了,生物大数据研究就是在这个大背景下火起来的。此时汪建重走达尔文之路,好似生物学迎来了一个新的轮回,只不过这个轮回发生在更深的层次上,其结果也很可能像当年的进化论一样,让所有人大吃一惊。
让我们拭目以待吧。