数纳百川 生命流长
——访中国科学院数学与系统科学研究院、国家数学与交叉科学中心李雷研究员
2012-09-11黄雪霜严永红
本刊记者 黄雪霜 严永红
数纳百川 生命流长
——访中国科学院数学与系统科学研究院、国家数学与交叉科学中心李雷研究员
本刊记者 黄雪霜 严永红
数学是一门基础学科,很多学科都是在数学的基础上诞生、发展成熟的,同时又推动了数学的进展;如牛顿的经典《自然哲学的数学原理》奠定了力学的基础、Shannon的经典《通信的数学理论》开创了信息论的研究。
生物学是研究生命现象和生物活动规律的科学,而分子生物学和基因组学是现代生物学的重要内容。如何分析、计算分子生物学和基因组学中的高通量数据、阐明其中的数学原理,系统地认识生命是当代科学家面对的极富挑战性的问题。李雷从1995年开始,就致力于这一领域的研究,并且成效显著。
李雷,中国科学院数学与系统科学研究院研究员,获北大学士和硕士学位,1998年于美国加州大学伯克利分校统计系获博士学位,并作为当年统计系唯一的优秀毕业生获得Evelyn Fix纪念奖章。2000年秋在加利福尼亚大学洛杉矶分校纯粹与应用数学研究所做博士后。1998-2002年在佛罗里达州立大学任助理教授,2002-2010年在南加利福尼亚大学计算生物及数学系任教并于2005年获终身职务。2003年与Michael Waterman教授、Simon Tavare教授等在南加州大学建立了世界上第一个计算生物系。2010年入选中国科学院“百人计划”。作为一名数学、生物两栖科学家,其研究覆盖统计学,信息论,计算,计算生物学、系统生物学,基因组学和老龄生物学等领域,获得若干具有原创性的成果。
数融乃大,以数学模型认识“生命”
李雷在中学时就对数学有着浓厚兴趣。1984年,他以优异成绩考取北京大学数学系,本科毕业后师从谢忠洁教授从事时间序列分析的研究。在美国加州大学伯克利分校攻读博士期间师从于国际著名统计学家、澳大利亚科学院院士Terence P. Speed教授。这期间李雷充分感受着数学的博大精深与美丽,吸收着数学、统计学的养分。2000年在UCLA做博士后研究期间又得到Wing Wong教授指点。经过多年钻研,他渐渐在科学实践中形成了自己的研究哲学和风格。
在若干经典的数学问题上,包括最优无损失编码长度问题(Shannon第一定理的经验公式)、谱分解、带正约束的广义线性反问题、最小截断方差解的计算、“将来”与“过去”之间的交互信息量, 李雷的研究处于世界领先地位。
类似于经典统计学中的点估计,区间估计,假设检验,预测等方法,李雷从科学实践中总结出了一类新的统计问题:盲反问题。它提供了一个全新的形而上的应用统计学概念。基于盲反问题的原理,李雷与Speed教授提出了新的DNA测序技术中的光度校正方法,并证明了它的最优性。这个方法已成为新一代Illumina高通量测序仪的工业标准。目前世界上规模首屈一指的测序机构-中国华大基因研究院的主力测序仪就是Illumina平台。
为了提高DNA测序精度,李雷对反卷积这一经典应用数学问题,提出了全新的理论和算法,其中包括参数反卷积方法。在文献中,反卷积经常被认为是不适定问题。李雷通过自己的工作证实只要spike-convolution模型是现实问题的良好近似,那么反卷积是适定的统计问题。
数学是开启其他学科的钥匙,而原创的有效的数学方法和原理就像是一把新“钥匙”,不仅为李雷打开了数学之门,也打开了一道数学和生物学之间彼此隔离的大门。
源远流长,探索生命无止境
20世纪末,人类自然科学史上三大工程之一——“国际人类基因组计划”的进展速度振奋人心。这期间,李雷有幸与Speed教授、计算生物学先驱、美国科学院院士Michael Waterman教授等世界一流的科学家等合作,由此踏上了综合运用统计、概率、计算等数学方法解决分子生物、基因组学中的科学问题的交叉研究之路。
DNA测序是基因组学研究的基石。李雷研究组给出了基因组学中评估DNA测序精度的完整数学模型。此外,包括人类基因组工程在内,最初发表的基因组都是由多模本组合而成的。也就是说,DNA的一个片段来自于一个模本,另一个片段可能来自于另一个模本。李雷研究组为双倍体的测序问题建立了一个完整的统计模型,提出了构造双倍体DNA的算法和对结果的统计评估。研究小组利用已有的DNA测序数据给出了第一个有统计评估的双倍体基因组, 即玻璃海鞘的双倍体基因组,此工作早于人类的双倍体基因组的研究成果。
基因组学和系统分子生物学中数学建模基本问题分为两类:测量(包括DNA测序,基因芯片,光学映像等)和统计推断(包括细胞活动,表达调控,网络重建等)。李雷研究组为主要的生物测量技术如基因芯片,光学映像建立了完整的数学模型。
基因的表达是通过转录蛋白质和其它因子调控实现的。如何从基因表达谱和相关生物信息中推断调控机制是一个非常有挑战性的崭新的统计问题。李雷的小组发展了一套基因调控的推断方法,称为BASE (Binding association with sorted expression differentiation)方法。从概念上,这一统计推断方法超越了经典的Pearson相关函数方法。从实践上,他们已发表了若干成功的案例。
信息技术的发展改变了人类的生活方式,而基因工程的突破将帮助人类延年益寿。人类将挑战生命科学的极限。对这项极富意义和挑战性的工作,李雷表现出了极大的兴趣。从2004年起,他与南加州大学的老龄分子遗传专家Valter Longo博士合作,以酵母菌为模型,共同研究生命如何健康长寿的问题。利用李雷研究组发展的基因芯片分析工具,他们探明了若干长寿的机制。比如,他们发现在长寿的菌种细胞中,存在乙醇向甘油的能源转换;在营养减少的过程中,线粒体核糖体基因表达在野生型细胞中上调,而在长寿的菌种细胞中则保持平稳。此前,人类已经发现了老化和长寿的一些线索。比如,端粒体理论,free radicals理论,ERC理论。值得一提的是,李雷在此期间完成了自己研究生涯中的一大亮点成果:采用功能性基因组的方法,从分子系统生物学的角度,发现长寿的sch9Δ细胞可以协调呼吸(TCA cycle,产生free radicals的主要过程)与rRNA processing及核仁活动。这个发现第一次将衰老的free radicals 理论与rDNA理论联系起来。它们将对设计更科学的饮食方式和治疗方式产生深刻的影响。
围绕关键科学问题,多学科交叉,共筑和谐新世界
“要想在数学、计算和软件开发,分子生物等多个学科中自由穿梭,游刃有余,确实非常具有挑战性。”李雷说,在不同学科之间探讨新的科学道路虽然艰苦,但也充满探索的快乐。他坚信在科学的发展方向上,多科学的交叉领域是很有前途和社会回报的。而且还有可能形成新的产业,这对中国的产业升级具有重要意义。因而,如何增强交叉科学研究和更有效地培养年轻的两栖及多栖科学家也是他在不断思索的一个问题。他认为这是一个重要的科学战略问题,应该引起科学决策者的更多关注。
值得庆幸的是,国家已经意识到这一战略要求,2011年底,中科院依托数学院成立了国家数学与交叉科学中心,李雷参加了中心下属的数学与生物/医学交叉部,具体参加重大慢性多发疾病的动态网络构建的项目。虽然启动时间不长,但李雷和他的同事们的工作进展还算顺利。目前他们与北京大学医学部合作,以小鼠为模型,研究2型糖尿病的发生发展机制,以应对近年来糖尿病高发对社会家庭造成的巨大负担。此外李雷指导学生继续进行计算生物学中的基础研究,包括新一代高通量测序与碱基辨识中的一些问题,以及癌症的基因组学研究等。
李雷也非常希望重拾因回国而中断的衰老和长寿方面的研究。中国已逐渐进入老龄社会,这方面的科学研究对国民健康、家庭和谐、医疗社会保险政策的制定都非常有意义。而这也恰好契合了当初他选择应用数学的初衷:数学搬下高阁,飞入寻常百姓家。长寿机制的研究,使得老百姓的生命有了“细水长流”的希望。
最后,李雷说他所在的国家数学与交叉科学中心生物/医学交叉部,希望有更多海内外有实力的计算生物学家、生物信息学家、种群遗传学家加入到他们的队伍中来,多学科荟萃交融,共筑和谐新世界。他们同时希望与更多生物学家、医院、医生广泛合作,运用他们的数学与计算能力为生命科学服务,特别是为中国的农业科技和改善人民健康服务。
book=66,ebook=37