敲开复杂数据之门 奏响学科发展强音
2020-06-03祝传海
祝传海
世界著名统计学家西·雷·劳(C.R.Rao)教授曾说过,“在终极的分析下,一切知识皆为历史;在抽象的意义下,一切科学皆为数学;在理性的基础上,所有的判断皆为统计。”可以说,在现代社会中,统计的身影无处不在,越来越扮演着更加重要的角色。
而所有的统计,又都必须基于数据。随着现代科技的迅速发展,数据愈趋复杂,包含的时空信息、维度、异构等特征越来越多,传统的统计分析方法显得力不从心。特别是当面对结构复杂的函数型数据,现有的研究手段更是应付不来。这也是目前统计学界研究的热点和难点。
国家特聘专家、北京大学讲席教授、统计科学中心主任姚方长期致力于函数型数据分析与研究,与合作者成功功克了多个困扰同行的科研难题,是国际知名的统计学专家。2019年3月,他毅然辞去多伦多大学的终身教职,全职回到北京大学(以下简称“北大”),为我国统计学的研究与应用、学科建设、人才培养等贡献力量。“能携手最好的平台推进祖国的统计学科建设,为自己的国家培养人才,这种自豪的感觉是在国外工作多年无法体会的!”姚方表示。
偶然:一见倾心 与统计结缘
姚方2019年满40岁,可他从事统计学相关研究已经有20多年了。在工作中,姚方擅长从偶然中寻找必然,从随机性中发现必然性。有意思的是,他与统计结缘,恰恰源于一次偶然。
“年少懵懂的时候,在妈妈工作的医院里,看到用统计方法整理的病历数据给工作带来了很大的便捷,我便萌发了对这门学科的好奇。”回首往事,姚方始终记得与统计学初见的情景。这份最初的惊艳,让他初识了统计学的魅力,让他对统计学产生了浓厚的兴趣,也给他未来的专业选择指出了方向。
1996年,高考结束,姚方毫不犹豫地选择报考中国科技大学统计系,准备一窥统计学世界的究竟。在一批学术功底深厚、学风质朴的老教授的指导下,年轻的姚方在统计学知识的海洋里自在畅游,由最初的惊艳,到逐渐认识到这门学科研究之深,应用范围之广,更加意识到能够在一堆随机事件中找到规律并帮助解决实际问题“真的很有意思”,加深了对统计学科的兴趣。
统计学是一门关于数据收集、表达、整理与分析的科学,它利用概率论建立数学模型,通过量化分析、成果展示和总结,做出推断和预测,从而为相关决策提供依据和参考,广泛应用于工程、医学、自然科学、社会科学、资讯工程、金融经济等各个领域。20世纪90年代末,我国统计学科尚处于起步发展阶段,与国际存在较大差距。
在浓厚兴趣的驱使下,本科毕业后,姚方选择出国深造,进一步探索统计学的奥妙。勤奋好学的他,仅用了3年时间就取得加利福尼亚大学戴维斯分校统计学方向的博士学位,博士阶段的学习和研究更是极大地开拓了他的视野。“博士阶段在导师穆勒教授指导下的学习和研究极大地开拓了我的视野,让我真正地体会到了科研的乐趣,而穆勒教授严谨的治学态度、与学生开放平等的交流都让我受益终生。在科研中沉淀自己,让我明确了自己的热爱所在——把统计研究作为自己一生的追求和事业。”姚方坚定地说。2003年博士毕业后,姚方便顺利地在科罗拉多州立大学统计系获聘助理教授职位。经过3年的努力耕耘,2006年,姚方加盟多伦多大学统计系。凭着出色的科研能力和教学水平,他在2008年获得多伦多大学统计系终身教职。这一年,他刚刚29岁。
作为人工智能研究的起源地之一,多伦多大学的统计系与计算机系有很多交叉合作。作为年轻的科研工作者,姚方得以与众多世界知名的专家学者交流学习,其中包括Geoffrey Hinton(2018年度图灵奖获得者之一)和Nancy Reid(美国、英国、加拿大等国家科学院院士)。“他们那时已经很有名了,这些世界顶级学者对年轻人、对同事谦虚平和的态度给我留下了深刻的印象,也对我的研究生涯影响很大。”姚方回忆。
在统计学研究领域,“传统数理统计以向量型变量为研究和观测的对象,而在实际应用中,数据记录都是随时间和空间发生连续变化的。”姚方告诉记者,这种关于曲线曲面或任何连续变化信息的数据,在学术上被称为函数型数据,例如股票交易记录、脑电波及脑图像等,是目前统计学中的研究热点之一。要以“变化的眼光”看待数据模型的建构,“就像我们发朋友圈,此时我们显示的地址还是这里,下一秒就有可能转移了”。
在变化的数据中寻找不变的规律,其难度可想而知。在国外的10多年间,姚方就一直从事函数型数据的研究,与合作者做出了一系列奠基性与开创性的工作:首次提出针对稀疏观测的函数型数据主成分分析的方法和理论,此工作被广泛引用并引领了稀疏函数型数据研究的发展(SCI引用418次);首次提出了混合內积空间的概念,以及如何在此空间上定义函数型数据的密度以及构建具有数据自适性的混合模型;首次提出普遍适用于稠密和稀疏观测的基于主成分分解的函数型线性回归方法,引起了广泛关注(SCI引用225次),成为此方向的奠基性工作;首次提出了结合函数型与高维自变量的部分函数型线性回归,并对其模型估计和变量选择提出了新的方法和理论,引发了其他学者在这方面的研究。凡此种种,在函数型数据研究领域,姚方取得了一系列在国际上有影响的研究成果,其中大多数论文发表于统计学的国际顶级期刊JRSSB、Ann. Stat.、JASA、Biometrika。科研成果被包括美国与澳大利亚科学院院士P. Hall,COPSS奖获得者R.Carroll等国际知名统计学家等多次引用,被认为填补了相关领域的空白。基于R和Matlab开发的集成大量最新研究成果的函数型数据分析软件包PACE,已被国内外统计学者以及其他科学领域的学者大量使用。
二十余载寒来暑往,弦歌不辍,姚方已经成长为国际统计学界知名的专家学者。由于在函数型数据分析领域所做出的开创性贡献,2012—2014年,姚方获加拿大自然与工程基金委发现促进奖(Discovery Accelerator Supplement Award,类似于美国自然基金CAREER Award或国家自然基金的“杰青”);2014年,姚方获加拿大统计学会和数学研究中心联合颁发的CRM-SSC奖(用以奖励博士毕业15年内在加拿大取得突出贡献的统计学家)。并于2017年、2018年分别当选国际数理统计学会会士(IMS Fellow)和北美统计学会会士 (ASA Fellow)。
必然:学成归国 服务国计民生
“人只有出了国,才能够真正发现自己爱国。”这是无数海外游子的切身体会。姚方也深有同感,在国外工作生活的时间越长,他归国的思绪就越如蔓草般疯长。在科研道路上,快速成长的姚方比同龄人更早触碰到了那块无形的“天花板”,很多科研想法难以实现。近年来,统计学在国内上升为一级学科,得到了快速发展,厚植了人才施展本领的沃土。2019年,阳春三月,姚方放弃了国外优渥的待遇和稳定的工作,回国全职加盟北大数学科学学院任讲席教授,为我国统计学科的发展贡献力量。
北大统计学科历史悠久,是我国最早开展概念统计的教学科研单位,陈家鼎等老一辈统计学家都曾为统计学科的发展谋划。2017年,北大统计学科被教育部评为A+学科,2018年入选教育部“双一流”建设学科。近年来,得益于国家和学校的大力支持,吸引了全球资深的专家和学者的加盟,统计学科迎来高速发展期。这是姚方施展抱负的舞台。
尽管回国时间不长,姚方的各项工作已经全面展开:由他牵头的关于复杂结构的函数型数据的分析与研究的重点项目已经获批,一支梯队明显、优势互补、兼具国际视野的科研团队已经初具雏形,其中既有函数型数据分析方面的资深学者,也有从事复杂数据分析的中青年学者。他还担任了发展与整合北大统计学的统计科学中心主任,承担着为北大招揽和培养统计与数据科学人才的重任。这让姚方感受到了前所未有的归属感和使命感,他说:“很多与国家战略发展相关的项目都能做,很多想法都有可能得到支持,这在国外是无法想象的。”
回国后,在此前工作的基础上,姚方和团队在函数型数据分析领域又取得了可喜的成果。考虑到研究脑图像等结构复杂并带有时序性数据的需求,他们把黎曼流形的思想引入函数型数据的表达降维中,构建了黎曼空间上函数型数据主成分分析的统计理论与方法,在文献中尚属首次。在函数型数据研究的另一个核心方向上,他和团队观察到复杂函数型数据的非线性结构,从流形的角度首次提出把函数型协变量看作来自低维流形空间的带有误差的观测变量,避免了函数型数据非参数回归的“维度诅咒”,利用局部协方差算子与相应的主成分分析构造了收敛速度最优的函数型数据流形回归的估计方法和理论。相关成果均发表在国际重要刊物上,受到业内的广泛关注。
“把函数型数据和具有高维与复杂结构的模型方法进行有机结合,包括流形、图模型和网络数据等,提出创新的统计模型和解决相关的理论问题,从而可以有效应用到大规模可扩展的数据中。”现阶段,姚方的主要研究方向依然是针对复杂数据的统计学方法和理论,但是他已经将目光放得更远了——让科研成果服务国计民生。据了解,这类研究在众多的科研领域和社会经济中均将有广泛的应用,诸如人类的生长曲线,艾滋病患者血液中CD4细胞数量曲线,脑扫描图像和心电图波动过程与各类生理疾病及心理认知的关系,气候和环境研究中随时间和空间变化的观测过程,国民经济和金融市场随时间变化的过程与机制等。如果关键问题得以突破,那么就可以量化其中的随机变异,解释不同群体间的差异和回归预测等复杂关系,将大大促进各领域的研究和发展。
近年来,越来越多的数据呈现出非欧几何,尤其是微分流形的特征。类似的微分流形结构也越来越多地出现在函数型数据中。“这些函数型数据的共同特点是,每个观察到的函数的取值都落在一个非线性的黎曼流形上,如正定矩阵空间或者多维球面。除此之外,经典的函数型数据也可能呈现流形结构。这些数据,学术上统称为黎曼函数型数据 (Riemannian functional data)。”姚方告诉记者。
这给研究者带来了新的挑战。“在处理这类函数型数据时,传统的方法不能直接应用,或者效率低下。因此,我们需要开发和研究能够处理黎曼函数型数据的统计方法。”姚方表示。在理论上,由于函数型数据的无穷维特征和微分流形的非线性特点,开发这样的统计方法和理论是一个极具挑战的任务。例如,由于非线性,对于黎曼流形上的概率分布,传统的平均值和协方差并不存在。除了理论研究,他和团队还需要设计和实现可扩展的计算软件,以方便广大的数据分析工作者在实践中使用针对此类数据的先进统计方法。由于不同的流形具有不同的结构,设计一个具有高通用性的计算软件包也并非易事。
面对困难和挑战,姚方和团队早已成竹在胸,他们计划从3个方面展开攻关:从主成分分析與表示理论入手,分别研究稠密黎曼函数型数据和稀疏黎曼函数型数据的主成分分析问题,然后研究黎曼函数型数据的分类和广义回归,在此基础上,开发计算软件包并设计一个通用的黎曼流形数据分析平台。目前,各项研究工作正在紧张进行中。
“数据科学并不是阳春白雪,是需要服务于社会和科学需求的,这也是这门学科吸引我的重要原因。”姚方说。让统计学科在多学科和经济建设中发挥更大作用,也是他回国的初衷之一。他希望在已有的与工程、医学、遗传学及经济学等专家进行有效合作的经验基础上,能够以最新的统计工具协助其他学科发现新现象,提出新方法及理论,开展和企事业单位的有效合作,促进统计学在快速发展的社会经济中广泛正确的应用,进而改变国内统计学的应用长期落后于发达国家的现状。目前,他和团队已经与北大心理认知学院有了初步的交流和合作,在不久的将来,将通过统计学的方法,为医学诊疗提供更直观、更简单的预测和推断。
期然:兴趣+恒心 寄语莘莘学子
交叉性是统计学的本质特征之一。它被广泛应用在各门学科之中,从物理和社会科学到人文科学,甚至被用在工商业及政府的情报决策之上。随着数字化的进程不断加快,人们越来越希望能够从大量的数据中总结出一些经验规律从而为后面的决策提供一些依据。统计学专业不是仅仅像其表面的文字表示,只是统计数字,而是包含了调查、收集、分析、预测等。
因此,就要求统计学科的学生不仅要有很强的数学与统计学的基础,同时还要对社会现象、科学问题和热点有必要的关注。“我们需要的不仅是数学能力,更需要过硬的综合能力和对于科研的敏锐直觉。”姚方强调。
既要深度,又要广度,这对学生的培养提出了很高的要求。因材施教,激发学生本身对学科的兴趣,是姚方的教学之道。他说,每个人的特长和兴趣都不一样,如果采用一样的引导和一样的进度,势必造成学生知识吸收和能力进步的不均衡。看重每个学生作为独立个体的长处,充分挖掘他们的学术潜质,是教师分内的重要工作。
对本科生,在授课之余,姚方总会抽出时间,向学生们介绍这门基础课程在学术研究中的应用。“比如讲线性模型时,这是最基础的一门统计专业课了,但是在很多前沿的研究中都有它的影子。”姚方举例。他还鼓励学生多听学术报告,了解专家学者的最新研究。在潜移默化中,让学生了解自己所学专业的研究前景,了解本学科的研究动态,对学生们今后的学习和成长都大有裨益。
姚方倡导“早尝试”“早接触”,他鼓励对科研有兴趣的同学尽早投入到科研的实践中。北大数学学院近期开设的“3+X”讨论班,姚方认为对学生成长很有帮助,能让中高年级的本科生在繁重的课业之余抬眼看世界,了解最新的学术进展,开拓思路,润物细无声地引导学生走入真正的科研殿堂。
对研究生,姚方则强调自由发展,给学生充分的自由探索和钻研空间,充分培养学生的兴趣,培养学生良好的科研习惯,“如果没有足够的兴趣和持之以恒的热忱,科研很难坚持下来,也很难取得成績”。他还注重培养学生的批判性思维,激发学生自己的想法,不做科研民工,不唯上,只唯实,不追热点,真正从兴趣出发,持之以恒地瞄准研究方向。
与在国外的教学经历相比,姚方觉得,在国内教学更有自豪感和获得感。他认为,北大有最优秀的学生,无论是本科生还是研究生,普遍天资聪颖又非常勤奋,带领他们做科研是非常快乐的事情。姚方很高兴地看到,新一代的年轻人非常善于学习交流,加上他们扎实的理论基础,在交流时常常能碰撞出思想的火花。更让他欣喜的是,近几年,国内各方面发展迅速,国家不断加大对科研和教育的投入力度,在各个领域里,与发达国家的差距越来越小,优秀人才在国内完全大有可为。“能够为培养新一代人才贡献力量,或者对他们的成长起到一点推动作用,我觉得这有一种说不出的自豪感。”姚方表示。
每天,姚方都要处理大量的、各种各样的数据,在旁人看来这是一件非常枯燥的事。在他看来,却是乐事一桩。在他眼里,这些数据不再是静止的,而是动态的,不再是平面的,而是立体的,其中隐藏着很多宝藏。读懂弄通它们,就可以敲开一扇未知的大门,将其应用在广阔的天地。一片数据的蓝海,正等待着善泳者的到来。
专家简介
姚方,国家特聘专家、北京大学数学学院讲席教授、统计科学中心主任。2000年获得中国科学技术大学理学学士学位,2002年和2003年分别获得加利福尼亚大学戴维斯分校统计学方向硕士和博士学位。主要研究包括无限维和高维空间的函数型数据分析,例如函数主因子分析和各类函数回归,分类和聚类模型;复杂结构数据的模型选择和降维方法;对非独立相关型的纵向数据和生存分析的综合模型的研究。由于其在函数型数据分析领域所做出的奠基性和开创性的贡献,2014年获得由加拿大统计学会和数学研究中心联合颁发的CRM-SSC奖(授予博士毕业15年内在加拿大做出突出贡献的统计学家),并当选为数理统计学会会士、美国统计学会会士、国际统计学会当选会员。现担任《加拿大统计期刊》主编,迄今担任9个国际统计学期刊编委,包括顶级期刊《美国统计学会期刊》与《统计年刊》。