跨越抽象数学到生物医学的鸿沟
——记中国科学院数学与系统科学研究院、国家数学与交叉科学中心研究员王勇
2018-01-02汲晓奇
本刊记者 汲晓奇
跨越抽象数学到生物医学的鸿沟
——记中国科学院数学与系统科学研究院、国家数学与交叉科学中心研究员王勇
本刊记者 汲晓奇
王勇
从古代科学时期,人类直观地认识自然界,并将所获得的知识包罗在统一的古代哲学之中;到近代科学时期,人类开始对自然界进行系统地观察、设计精确的实验,并初步建立起严密的逻辑体系;再到现代科学时期,科学的发展把人为分解的各个环节重新整合起来。在这100多年时间里,始终勃兴的交叉科学面对消除各学科之间的壁垒的挑战,有望填补它们之间边缘地带的空白。特别是从抽象的数学到实际的生物医学,需要跨越一道道鸿沟。
为实现这一跨越,众多学者在生物信息学、系统生物学交叉研究这片广袤的沃土上耕耘并收获着创新性成果,而中国科学院数学与系统科学研究院的研究员王勇是其中一员。一直以来,他致力于用手中的数学工具为看似遥远的抽象数学和实际的生物医学“牵线搭桥”,将“天堑”变成通途。
在生物医学的后花园“玩耍”
1995年,王勇作为国家首届数理基地班的学生得以免试推荐到内蒙古大学。一开始他身肩繁重的课业压力,既要学习数学又要学习物理。到大三专业分流时,他最终选择兴趣更为浓厚的数学,从此踏入数学研究的大门。之后,他又经免试被推荐到大连理工大学攻读硕士。一路走来,王勇刻苦拼搏,勇往直前。2005年,他从中国科学院数学与系统科学研究院获得运筹学与控制论博士学位,博士论文研究内容为基于神经网络的蛋白质结构预测与分类研究。
对于攻读博士阶段转向生物医学研究,王勇给出了解释:“生物医学是一个庞杂的大学科,近年来在测序等新技术的推动下产生了大量的数据,需要在数学上找出产生数据的最佳的模型,揭示生物学家关心的因果关系;需要研究生物数据的基本数学结构,最优的分离信号与噪声;需要研究如何最优地集成生物医学数据。这些都离不开最优化建模。”而他数学研究的背景,恰好就是“最优化”。就像是一座桥梁,“最优化”将数学与生物医学连接起来,也将王勇和生物医学的缘分连接了起来。
但“牵线搭桥”并不是那么容易,如何将其与最优化进行交叉研究是个值得思考的问题。王勇渐渐摸索出一条可行的道路。“从一些前人已经研究透彻、数学意义比较清楚的问题入手,采用计算的方法从数学角度来研究生物医学问题,慢慢对生物的积累和理解就多了。”如今的王勇越来越了解生物医学的研究方式,他可以站在生物学家的角度思考,提出一些他们所关心的问题,再寻找一些“有趣的数据”来进行数值试验。对此,他戏称自己“这是在生物医学的后花园玩耍。”
2005年10月,王勇远赴日本从事系统生物学方面的研究。在日本,他第一次接触到“基因调控网络”。“基因调控网络”就是以基因为节点、基因之间调控作用为边建立的生物分子网络。王勇强调,这里的调控作用指的并不是两段基因之间的物理相互联系,而是一种间接通过mRNA、蛋白质、代谢物或者非编码RNA实现的调控作用。
每个细胞都有一套完整的基因调控系统,用来保持体内代谢过程的正常状态、适应多变的环境、防止生命活动中的有害后果、产生细胞周期特异性和外界信号的响应特异性。因此,研究基因调控网络具有非常重要的理论和应用价值。它是系统生物学里的研究热点,一改传统“集邮式”的研究方法,强调以网络、相互作用、动态行为等整体论观点,并结合数据整合的观点对复杂生命现象进行理解和诠释。
然而,如何推断基因调控网络成为摆在众多研究者面前的难题。由于生物实验条件的限制,每个时间序列数据集只能在相对很少的时间点上取得观测数据(一般少于20点),相比之下基因数量是非常庞大的,比如模式生物酵母菌中有6000多基因,两两基因间可能的调控关系有3600万,需要找出和数据最匹配的调控关系的集合是个非常困难的问题。这种模型复杂性和时间序列数据严重不足之间的矛盾,就是通常讲的“维度灾难”。在希尔伯特提出著名的23个数学问题的整100年后,美国数学会召开了题为“21世纪的数学挑战研讨会”。会议上美国科学院院士、压缩感知的提出者之一——Donoho教授发表了题为“高维数据分析中的维数灾难”的主题演讲,特别指出,维数灾难是个核心的问题,在科学各领域中无处不在。王勇与合作者针对这个困难,提出了基因调控网络重建的最优化模型与算法,系列结果发表在生物信息学顶级杂志Bioinformatics上,目前被引用300多次。基于该方法,他们用计算方法重建了小鼠24小时节律基因调控网络,识别出一些新的重要基因,受到美国科学院院士、美国加州大学圣地亚哥分校Steve Key教授的高度评价,生物领域顶尖综述期刊Annu. Rev. Genet.的综述认为王勇等通过卓越的努力,成功地整合多样和不完整的数据集,用数学建模弥补了数据的稀缺。
驰骋于广阔原野
回忆起在国外的求学经历,王勇坦言,收获很多,能在交叉研究领域一直坚持下来,得益于很多好老师——博士生导师章祥荪研究员、大阪产业大学陈洛南研究员、波士顿大学夏煜教授、斯坦福大学王永雄院士等。通过和这些老师合作,王勇在研究方法和方式上都得到了很大的启发和帮助。
访问波士顿大学生物信息学中心和斯坦福大学Bio-X中心,给王勇最深的感受就是“国外做交叉学科的条条框框很少”,习惯于成立“program”,往往是跨院系、跨研究组、将兴趣相投的一群优秀人才聚集在一起开展自由探索研究。这样相较于传统学科的研究方式,他们拥有更广阔的天地和更加自由的发挥空间。王勇喜欢把他们这些做交叉研究的学者比作“旷野上的牛仔”,他们的猎物就是有趣的课题。而他所要做的就是选择合适的工具伺机展开猎捕。这或许就是交叉学科的魅力所在。
2017年,王勇提升为中科院数学与系统科学研究院研究员,他的研究水平也更是上了一个阶梯。他开始探寻更加前沿的全新领域。
半个世纪以来,基因调控的DNA编码和转录因子编码从物理、生化角度得到广泛关注,但在基因调控与环境等外部因素交互等研究方面遇到了困难。因此,近年来位于中间层面的表观编码特别是染色质开放、被修饰和甲基化状态得到密切关注,并形成遗传学中一个前沿领域:表观遗传学,其重点研究基因的DNA序列在没有发生改变的情况下,基因功能发生了可遗传的变化,并最终导致表型的变化。有越来越多研究表明,染色体状态从表观遗传学层面为基因调控的研究注入了新的元素,同时也开辟出新途径。
针对基于染色质状态的基因调控网络研究中高通量数据的快速积累问题,已有的单层次数据方法还存在很多局限。“这需要对来自染色体和转录组两个层次数据的集成方法进行深入研究,建立一系列可以应用于这些数据分析、整合的,且有严格数学与信息学理论支持的模型与算法,并应用到具体问题对生物机理进行探索,”王勇道出了问题的关键。
以染色质上基因的调控元件的开放状态为核心,王勇梳理出了几个核心问题,即染色质调控元件开放状态参与基因表达调控的机理;调控元件的上游调控因子是什么?受这些功能区域调控的下游基因是什么?如何集成调控元件上下游的定量信息揭示基因调控机理? 他与美国斯坦福大学王永雄教授、清华大学自动化系江瑞副教授开展合作,针对调控元件的开放状态和基因表达相互作用机理和多层次数据特点,构建基因调控网络来探索表观遗传与遗传因素互作机理,极大地扩展了传统基因调控网络的概念。发表于《国家科学评论》的综述文章“集成染色质开放状态和转录组数据的调控网络建模”中,介绍了这一方面的最新进展。他们合作开发的利用匹配的染色体开放状态和转录组两层次数据推断调控网络的研究工作近期发表在《美国科学院院刊》上。
最近,参与中科院先导专项研究“动物复杂性状的进化解析与调控”,让王勇感到尤为兴奋。各个研究所,不同背景的研究人员被集中在一起,针对“进化的基因型、表型的系统生物学eGPS”进行研究。项目由昆明动物所牵头,基因组所、上海生科院、遗传发育所、北京动物所以及数学与系统科学研究院共同参与,王勇参与的是模型和算法部分的课题。
展望未来,王勇表现得尤为专注和踏实,他表示会按照兴趣继续探索下去。庆幸的是,中科院数学与系统科研学院为他提供了宽松的平台,也给予他充分的时间来专注基础研究,对此,王勇十分珍惜机会。未来,他期望以数学为器,在医学的后花园种植出更多的丰硕果实。