腾蛟起凤,与数据“共舞”
2021-03-10李刚
李刚
小麦肤色,宽正的脸庞,经常钻研在复杂庞大的数据资料当中——他是标准的理科男,对统计学专业有着十足的热情,他是云南大学数学与统计学院副院长潘东东。十几年来,潘东东致力于统计遗传学、生物医学统计、生态统计学等方向的研究。从研究生求学至今,他来回穿梭于北京与云南两地,既圆了自己深入钻研学科交叉前沿的追求,又报答了母校对自己的培育之恩。在他的科研工作中,始终流动着对统计专业与数据科学的热爱。
而这一切,都源自于一场机缘巧合。
柳暗花明
2002年9月,潘东东站在昆明市中心翠湖旁云南大学东陆校区的腾蛟牌坊下叹了口气。他所在的这所位于西南边陲的学校自1922年建成之日起,便一直备受世人关注。被誉为我国现代数学先驱的熊庆来教授曾在此担任校长,许多著名数学家如华罗庚、陈省身等也曾在此任教。其中,老校长王学仁教授在20世纪80年代开创了我国“数学地质”研究先河并创建云南大学统计系,浓厚的学术风气让这里成为很多立志做科研的学子梦寐以求的地方。然而此时潘东东并没有心思考虑这些。他原本在高考志愿上填报的是生物技术专业,机缘巧合之下却被调剂到统计学专业,而在此之前潘东东对统计专业一无所知。面对腾蛟、起凤的牌坊,他对自己的前景感到了迷茫。
然而很快,潘东东不仅驱散了心中的迷茫,还成为系里学习最刻苦的学生之一。深夜的自习室里常常能看见他的身影,桌上是厚厚的一摞统计专业教材,他提笔埋首在书桌上,脑子里想的都是统计学的方法和数字,浑然忘记了时间。原来,当真正开始学习概率统计的专业知识后,他就迅速被里面复杂的概率不等式及各种各样的统计方法吸引了。“这个专业太适合我了,以数学为基础、与数据打交道、突出应用导向,这正是我一直向往的本科专业。”
所谓“塞翁失马焉知非福”,机缘巧合之下进入统计学专业的潘东东意外找到了自己最喜欢的领域。本科毕业后,他获得推免资格继续在本系读研,在昆明完成研一上学期的学业后,他还得到了进入中国科学院数学与系统科学研究院接受联合培养的机会。当时正值云南大学数学与统计学院院长唐年胜要挑选6名学生到中国科学院数学院进行联合培养,而潘东东就因为成绩优异在入选之列。作为我国数学和统计领域科研“国家队”,中国科学院数学院院士云集、学术氛围浓厚,对学习数理统计理论和方法的人来说,这里是一块可以提升自己的肥沃土地。潘东东在这里度过了他的硕士和博士阶段,并且遇到了他人生中重要的指路人——他的博士生导师李启寨。李启寨老师对学生要求极为严格。“我们的论文必须要在他规定的时间内提交,晚一天都不行。”潘东东回忆说。其次,李启寨老师对实际问题中统计方法创新的敏锐性也让他受到很多启发。在李老师的带领下,他从一个科研“小白”逐渐成长为应用统计领域的优秀青年学者。
创造更多的应用价值
求学生涯结束后,潘东东回到了云南大学统计系任教,2013年和2014年两次到香港大学统计及精算学系短期访学,2018年9月至2019年8月在美国耶鲁大学生物统计系跟随国际著名生物统计学家张和平教授开展合作研究。2017年7月,他获云南大学“中青年骨干教师”称号,2019年2月入选首批云南省“万人计划”青年拔尖人才,2020年6月获云南省第四次全国经济普查先进个人。随着教学和科研经验的不断积累,潘东东对统计学有了更为深刻的理解:“统计学可以和其他不同的学科结合,通过数据分析进行交叉研究,创造更多的应用价值。”
随着现代生物技术的进步,以人类全基因组数据为研究对象的关联性检验方法已成为识别复杂疾病遗传基因和致病机理的一种有效方法。该类方法主要以基因组上数以万计的单核苷酸多态性(SNP)为出发点来研究复杂疾病与潜在的危险因素之间的关系。针对病例-对照设计下0-1型性状数据已有许多成熟的统计分析方法,相较之下,数量性状的关联分析更具挑战性,对其统计方法的研究正处于不断进展中,并逐渐成为遗传关联研究领域的热门方向之一。
潘东东带领团队侧重研究连续型性状的定量数据与SNP变异之间的关联,考虑遗传模型不确定性因素,提出了新的具有稳健性质的检验统计量;同时给出了一种基于改进的F统计量的两阶段设计方案及相应的P-值计算方法;他们还针对稀有变异,提出适用该类型数据的稳健统计检验方法;另外,他们通过研究多个SNP之间的交互作用对复杂疾病的影响,给出了相比已有方法具有功效优势的检验统计量,并通过模拟研究和实际数据分析的结果验证了所提新方法的可行性和准确性。
近年来,在“常见变异-常见疾病”假设下开展的GWAS识别出的变异远远不能解释复杂性状的遗传机理,研究人员逐渐形成的一个共识是罕见变异更可能解释一部分“丢失的遗传力”,但体量庞大、结构复杂的罕见变异数据也给统计分析带来了更大的挑战。
在全面系统地掌握最新的基于下一代测序技术的数量性状与罕见变异关联分析的统计方法的研究成果基础上,潘东东正带领团队发展具有更好适用性和更高功效的统计推断方法。
自2012年7月参加工作以来,潘东东博士已主持完成国家自然科学基金项目2项、教育部产学合作协同育人项目2项、云南省应用基础研究计划项目2项,参与国家自然科学基金重点项目、国家社科基金项目一般项目等国家级课题10余项。2018年11月获第三届全国应用统计专业学位研究生教育教学成果奖三等奖,2021年9月获第九届云南省高等教育教学成果奖一等奖。除此之外,他热心促进应用统计的普及和推广,担任中国现场统计研究会副秘书长、中国现场统计研究会计算统计分会副理事长、中国现场统计研究会旅游大数据学会副理事长、中国现场统计研究会资源与环境统计分会理事,全国工业统计学教学研究会青年统计学家协会常务理事、2018—2022年云南省高等学校统计学类专业教学指导委员会秘书长、云南省应用统计学会理事、云南省统计专业高级统计师评审委员会委员等社会兼职。
风雨润桃李
2020年1月,潘东东被学校任命为数学与统计学院副院长。在繁杂的行政管理和服务工作之外,潘东东还承担着指导十余名硕士研究生学习的任务。对于刚刚正式踏入科研领域的学生们,他在沟通指导上会给予充分的耐心。“我也是从这个阶段过来的,能够理解他们当下遇到的问题。”当然,除了耐心之外,他也对学生们特别严格,每周都会开一次组内的讨论会,进行课题进度汇报等工作。
多年的教学经历,让潘东东对本科教育有了自己独特的看法。今年云南大学贯彻教育部以本为本的方针,提升了本科阶段综合测评中学习成绩的比例。“之前一等奖学金的获得者主要是学生干部或者在学校其他活动中表现比较活跃的学生。”潘东东认为,锻炼学生的实践技能固然重要,但本科阶段还是要以学习专业知识为主。而调整综合测评制度中的专业课成绩比重至80%以上,能够极大地提升本科生学习的积极性。
十年树木,百年树人。“每当看到学生们认真钻研的样子,我都会想起当年自己在自习室埋头苦學的日子。”潘东东说,培养人才是一个漫长的过程,每一步都要充分考虑到学生的发展需求。同时,他也清醒地认识到,不管教学水平提升方面还是科研视野开阔方面,自己都还有很长的路要走。“在未来,我将会更加深入地钻研统计学与医学、生态学、遗传学等学科的交叉融合,凝练和解决生物多样性保护、碳达峰碳中和科学测算等国家和地方经济社会发展重大需求中的关键统计问题,让数据产生价值。”这是他多年以前就认定要走的路。
3370501908258