在沉默中生长 追寻希望之光
——记北京邮电大学计算机学院教授石川
2023-06-06吴应清
吴应清
石川
当人们点击购物网站上搜索框的那一刻,一个个与搜索人相关的推荐词就会立刻出现。这些推荐词精准定位了人们的喜好和需求,不仅促进了购买欲望,同时也为电商平台创造了大量的经济价值。
这些神奇而便捷的功能是怎么实现的?它其实得益于一批又一批深耕数据分析科研工作者的努力,北京邮电大学教授石川是其中一员。据石川介绍,异质图是一种具有多种节点类型或多种边类型的图数据结构,用于刻画复杂异质对象及其交互,具有丰富的语义信息,为图数据挖掘提供了一种有效的建模工具和分析方法。推荐词的产生,正是由于用户、商品和查询词之间存在着交互关系而产生了异质交互图,基于用户的访问信息、使用习惯等,可以进行更准确的关键词推荐。
如今,关于异质图的研究不仅在工业界中得到了广泛的认可和应用,也深入到我们日常生活的方方面面。它就像一棵枝繁叶茂的大树,充满生命力。可这样一棵大树,曾经也是一粒默默无闻的小小种子。
成长岁月——沉默的日子,是为了扎根
异质图的分析一开始并不是热门的研究方向。石川接触到这方面研究的时候,它正处于低谷期,在国际上也鲜有人关注,没有人知道这项研究的未来在哪里,就这样,石川成了当时国际上少数几个坚持研究的人。“我很看好这个方向,它提供了更好的建模方式,分析方法也很新颖,在一些应用中也得到了不错的效果。我一直在等待一个时机。”就这样,在最初的时光里,石川一直默默地坚持在这个方向的研究中,就像一颗沉默的种子,等待遇到适合自己生根发芽的环境。
对于石川来说,坚持并不是一件意外的事。1997年,石川就读于吉林大学计算机专业。那个年代,电脑是稀罕物,互联网也刚兴起。“在大学时我们做了一个组装机,希望通过自己拆装,了解电脑的内部结构。我在装机时机器冒烟了,把我吓坏了,还好是数据线的问题不是核心部件坏了……还记得第一次接触互联网,电脑城为了吸引大家,允许免费上网10分钟。排了半天队,终于轮到我的时候,我发现自己根本不知道该怎么用,这些事情都让我印象很深刻……”这些小故事也许只是日常生活的小片段,但也正是这一件件难忘的小事,让石川真正走进了计算机的世界。
大学毕业后,石川没有直接工作,而是决定考研。当时,毕业后选择继续读研的人并不多,这是一个“冷门”的决定。但石川却选择了去武汉大学继续深造,正是这个选择让他真正喜欢上了做研究。在读研期间,石川成为康立山教授的学生。康立山教授多年坚持做研究。耳濡目染下,石川渐渐产生了想从事科学研究的念头。当时,学校每周都有讨论班,讨论班崇尚自由平等的氛围,石川在那里接触了各种新思想,还发表了论文。硕士毕业后,他到中国科学院计算技术研究所读博士。“读博刚开始我经历了一些挫折……是史忠植研究员给我了继续学习的机会。也正是在这段时间里,我真正理解了勤奋和时间的重要性。”求学的经历帮助石川不断进步,成了一个勤奋自律的人。
终于,改变人生的事情发生了。2010年秋天,石川前往美国伊利诺伊大学芝加哥分校进行博士后研究。在那里,他成为数据挖掘领域泰斗俞士纶教授的第一个中国内地访问学者。也是在那里,他意识到了国内外研究的差距,更加如饥似渴地学习。那时,异质图分析在国际上刚出现,石川就这样开始了这项并不热门的研究。异质图的研究在起步时,在国际上一直处于低谷,直到2016年、2017年,网络表示学习的方式才渐渐开始在工业界使用。到了2018年,异质图神经网络研究更是迎来了爆发期,在工业界大规模应用。石川等人多年默默坚持终于待到山花烂漫。
研究领先——向光而生,枝繁叶茂
虽然异质图神经网络的研究在工业界是热门,但石川和团队要面临的挑战却变得更多了。他们之前一直从事理论研究,并未真正接触过工业界中的实际问题。摆在他们眼前的首个难题是到底该如何建模。作为国内最早开始这方面研究的学者之一,石川没有成熟的经验可以借鉴,只能依靠自己。他花费大量时间和精力与企业深入交流,逐渐了解业务。在经历了艰难而长期的摸索后,异质图神经网络得以真正在工业界得到应用。时至今日,石川所建立的异质图建模方法已经在头部互联网企业成功应用了十几个案例。
“在异质图神经网络方面的研究,我们是国际上最早开始的。在理论上我们一直处于引领地位,在实践上也是最早把异质图神经网络运用到工业界当中的。”除了在国际上最早取得理论与实践的成就,石川团队所建立的异质图建模和表示理论还解决了图数据的复杂异质结构处理难题,不仅奠定了异质图建模的理论体系,还推动了复杂交互系统建模从同质图到异质图的转变。
在学习模型方面,石川的研究也有突破性的成果。他提出了可信图神经网络模型,缓解了图结构知识的可信学习难题,突破了图神经网络模型的可信性瓶颈,探索了可信人工智能的实现途径。除此之外,在技术平台方面,石川设计了面向典型应用的图学习技术,研发了开源图学习平台,攻克了实际工业应用中的结构知识利用难题,降低了图学习的工业应用门槛,极大地促进了图智能技术的广泛应用。不仅如此,石川还率先将图建模与分析技术应用到重要领域,除了上文提到的推荐系统以外,还有网络安全领域。比如,异质图神经网络帮助支付宝中的花呗进行了风险管理,从用户、商家和手持设备三者之间构成的异质图中分析出用户的行为模式,以此来判断用户是否存在用花呗套现的风险等。
曾经小小的种子等到了属于自己发芽的机会,它克服困难,破土而出,最终长成参天大树,结出了硕大的果实。
造福社会——研究顶天,技术立地
从2018年至今,石川已将图学习技术广泛应用到电商推荐、金融风控、客户营销等业务场景中,产生了显著的经济效益和社会效益。2022年,由石川作为项目第一完成人研发的“大规模复杂异质图数据智能分析技术与规模化应用”项目获得了中国电子学会科学技术科技进步奖一等奖。能够取得如此优异的成绩,除了石川本人的努力之外,自然也离不开其优秀的研究团队。关于自己团队的优势,石川认为最重要的是圈内耳熟能详的一句话——研究顶天,技术立地。
在研究上,团队保持专注。正因为专注,团队关于异质图的研究才在国际上保持领先。团队始终秉持技术一定要有实用性的理念。研究不仅是为了发表论文,更重要的是要思考研究可以应用在哪里,要落地。石川和他的学生会深入企业一线,和企业的业务人员进行深入地沟通交流,真正帮助他们解决实际中遇到的痛点问题。多年来,他们与诸多企业一直保持着良好的合作,研究取得的成果也真实地应用在很多业务场景中。
从2011年石川走上研究异质图的道路开始,至今已有十几个年头。从最初的孤军奋战,缺少经费和人才,发展到现在能够创建实验室,组建一支稳定的团队,石川一路走来实属不易。他希望自己的实验室能成为国际上同领域里知名的实验室,做国际领先的研究。在实验室老师和学生的建议下,实验室最终起了一个响亮的名字——图形数据挖掘与机器学习实验室(GAMMA Lab)。同时,实验室也创立了自己的公众号,一方面推广实验室的研究成果,另一方面为宣传图计算领域的研究进展贡献自己的力量。至今,公众号已经发表了原创文章130多篇,粉丝上万,成为同领域老师、学生,以及企业界人士主要关注的内容。
对未来,石川有着清晰的规划:“在研究上,我还是专注于图机器学习,希望在这个方向的研究上能够在国际上拥有一席之地;在局部上,希望我们能够起到引领作用;在产业界,我希望建立起国产图学习的生态系统,让图学习得到广泛的普及和应用。”作为领域里“一棵茁壮成长的绿树”,石川和团队愿意追寻希望的光芒,枝叶生根,深入土壤,生生不息,创造出一片更具生命力的“图学习”森林。