彩云之南 数信飞翔
2020-11-09杜月娇
杜月娇
“彩云之南,我心的方向……”一首《彩云之南》唱出了世人对这片净土的向往之心。伴随着悠扬的歌声,记者来到滇池脚下的巍巍学府——云南大学。
2015年1月,国家主席习近平在考察云南时,为云南的发展点明了新的定位:“云南要主动服务和融入国家发展战略,闯出一条跨越式发展的路子来。”
谆谆教诲犹如灯塔指明了云大人创新发展的航向。几年来,他们始终牢记习总书记的殷切嘱托,以脱胎换骨之勇气和自我革新之精神,主动融入国家和地方建设,闯出一条创新发展的路子。2017年9月,在国家“双一流”建设高校名单中,云南大学赫然在列。
“被列入‘双一流是新机遇,也是新挑战,往后的发展任重道远。”云南大学数学与统计学院院长唐年胜如是总结“双一流”带来的影响。15年来,他和所带领的团队融入在云大跨越发展的浪潮中,奏响了一曲来自数学与统计学的现代创新之歌。
坚守初心
——让数学与统计为民所用
运用统计学的方法,从某些人的生活特性和生活习惯所展现的数据中找出异常点和影响点,以此判断他有没有老年痴呆症的前兆;
建立数学模型,通过数据分析识别出一个人的甲状腺结节属于什么阶段;
…………
进入唐年胜及其团队构建的研究世界,你会发现数学和统计并不是枯燥难懂的数字和公式,而是人们生活中实实在在用到的灵巧工具。“将数学搬下高阁,带入寻常百姓家。”这其实是唐年胜最初投入统计研究的初心,也是他多年坚持其中的动力源泉。
时光倒回到20世纪90年代初,纯真朴实的四川伢子唐年胜还在重庆师范大学数学系攻读学士学位的时候,有一天在图书馆里看到统计学应用于天气预报的相关文献,瞬间联想到家乡农民“靠天吃饭”的疾苦。如果能将所学应用到天气预报上,提高天气预报的准确度,不就可以帮助家乡父老乃至全国农民早日摆脱“靠天吃饭”的困境吗?带着朴实的愿望,唐年胜从此投身其中,这一干就是近30年。
近30年间,他从一名普通的本科毕业生,一路攀爬象牙塔,先后成为云南大学统计系理学硕士、东南大学数学系工学博士,之后到香港中文大学心理学系担任副研究员并在统计系从事博士后研究工作。在此之后还先后成为美国哥伦比亚大学医学院博士后研究员、香港浸会大学数学系访问学者、美国北卡罗莱纳大学生物统计系访问教授……“读万卷书,不如行万里路。”多年积累,收获了居于学科前沿的观念技术,为他之后带领云南大学数学与统计学院奔涌在相关学科理论和应用研究浪潮前端奠定了坚实的基础。
當新世纪的钟声敲响,人类进入了一个信息化的时代。彼时经常流转在国内外统计学研究殿堂学习进步的唐年胜对国家在相关领域的大力举措和投入发展有着深刻的体会。师夷长技以自强,和众多海外华人及学子一样,他也愿意将自己所学所得带回祖国、报效祖国。
2005年,唐年胜开始全职回到母校——云南大学担任统计系主任,至此扎根彩云之南,将多年在数学与统计领域收获的居于前沿的思想和技术在云山之巅散发出其特有的光芒。
搬下高阁
——研究成果润泽大地
随着现代科学技术尤其是计算机、网络信息和生物医学工程等的发展,大量的数据出现在诸如:生物医学、经济、金融、环境科学、医疗健康等学科领域,并以前所未有的速度产生和积累。
“从统计学的角度来看,这类大数据的主要特点是维数高,样本量大但通常小于变量的个数,并且具有复杂的相依结构。”如何把这些高维数据准确利用起来,是唐年胜及其团队这些年来一直关注的焦点。
传统的统计分析方法、统计计算和统计推断理论并不能胜任,立足国际前沿,他们通过大量的摸索和调整,创新地提出“惩罚指数倾斜似然方法”,并在传统假设不成立的情况下,利用“惩罚”函数方法将可能不重要的变量个数尽可能地压缩至可接受的范围,通过降低重要变量的个数从而巧妙地达到降维的目的。
为更好地提高效率,唐年胜还带领团队与香港中文大学合作对超高维齐性分类数据提出了独立于模型假设的筛选重要变量的分类自适应方法。这一方法的独特性在于适用响应选择(Responseselective)抽样数据分析,在1∶1还原数据原本属性情况下,既得到准确的统计推断,还可提高数据处理速度。
目前,部分研究成果已成功运用于医院甲状腺结节的病例筛查中。医生只需通过患者的临床观察,输入其年龄、性别、生活习惯、C T数据等,利用建立的模型,即可快速探测是否存在甲状腺结节的症状,不需要过度依赖医生的经验,探测准确率基本可达到90%左右。事实上,这只是唐年胜及其团队研究应用于医学研究领域的“冰山一角”。
针对生物医学研究中的有序分类数据、动态空间数据和缺失数据等复杂数据,唐年胜及其团队提出了分析处理这类复杂数据的新理论和新方法。特别是,在不假设不可忽略缺失数据机制模型的具体形式的情况下,找到了估计方程在给定观测数据和缺失数据示性函数下的条件期望的一个非常重要的、简洁的公式,该公式是推广和发展可忽略缺失数据估计方程的统计推断理论的一个至关重要的成果。
在日常生活中,我们常常遇见很多统计数据都不同程度的存在部分缺失。针对数据缺失的问题,唐年胜及其团队在假设缺失数据机制是不可忽略缺失的情况下,提出了查补缺失数据的一些新方法,如基于倾斜得分的非参数查补方法等。模拟研究表明:这些方法对查补缺失数据是非常有效的,可用于处理经济、金融、心理学、社会学等领域中的缺失数据。
“识别数据集中的强影响点或异常点以及评价模型微小扰动对统计推断的影响是统计学中一个重要的研究领域。”唐年胜对这一重要研究领域展现出极大的兴趣。“统计建模就是把可能对响应变量有影响的因素作为协变量建立一个简单的回归模型,但是存在一个自然的问题,这些模型假设是否合理?数据与假定的模型是否大致一致等”,对此唐年胜开展了统计诊断研究,而这正代表了他多年研究的独特性。