中国人工智能国际合作顶尖专家识别与评价
2022-02-27黄浩海
林 卓,黄浩海
(1.福建省科学技术信息研究所,福州 350001;2.福建省信息网络重点实验室,福州 350001)
1 引言
人工智能作为第四次科技革命的关键核心技术之一,已经成为国际竞争的新焦点和经济发展的新引擎,在该领域的竞争意味着一个国家未来综合国力的较量[1]。虽然中国人工智能发展起步较晚,但无论是学术界还是产业界,中国人工智能在国际同行中均有不错的表现,在世界人工智能舞台上扮演重要角色,极可能形成中美两国竞争的格局[2-4]。国际竞争的实质是以经济和科技实力为基础的综合国力的较量,而综合国力的较量归根到底是人才的竞争,人才是科技创新最关键的因素[5,6]。在人工智能第三次发展热度席卷全球的背景下,大数据、云计算、深度学习等技术的普及离不开顶尖专家在学术领域提供的重大理论贡献,而在产业应用方面,部分顶尖专家还与企业合作,推动人工智能技术落地[7-9]。因此,本研究依托Aminer 科技大数据平台[10]对中国人工智能国际合作的顶级专家进行识别与评价,聚焦顶尖专家与中国的合作情况,以期从学者人才的角度来反映中国人工智能国际合作的现状,并对中国人工智能未来发展的国际合作进行探索。
2 研究数据来源及主要方法
2.1 人工智能研究领域数据采集与处理
AMiner 是由清华大学唐杰教授建立的具有完全自主知识产权的科技情报分析与挖掘平台,自2006 年上线以来,服务于全球科研人员,覆盖了220 个国家和地区近千万独立IP 用户。平台拥有1.3 亿专家数据、3亿论文索引数据、8 000 万知识概念、11 亿的引用关系,长期聚焦跟踪计算机相关领域的研究成果。基于该平台数据对 “人工智能” 领域进行研究具有一定的权威性及可信度。
人工智能是计算机科学的一个分支,现阶段的人工智能研究的范畴已远超出传统人工智能的研究领域。因此需对人工智能学术研究所涉及的领域进行确认。通过文献分析法、德尔菲法等传统方法结合自然语言处理技术及知识图谱构建技术,自底向上的重构了本研究中“人工智能” 所涉及的子领域范畴,其过程包括:①基于ACM(Association for Computing Machinery,国际计算机学会)计算分类系统CCS2012 的人工智能相关领域论文获取;②利用TF-IDF 值去除区分度低的词,并引进人工/ 正则法筛选去除一些概念性关键词,对获取的论文进行关键词抽取和过滤;③使用深度学习工具word2vec 对关键词与领域的映射关系处理[11,12]。
基于关键词领域的映射归类结果,归并相似领域,最终确定21 个人工智能研究子领域(L0 层):经典人工智能(Artificial Intelligence)、数据挖掘(Data Mining)、机器学习(Machine Learning)、社交网络(Social Network)、可视化(Visualization)、计算机图形学(Computer Graphics)、计算机视觉(Computer Vision)、虚拟现实(Virtual Reality)、多媒体技术(Multimedia)、人机交互(Human-Computer Interaction)、知识工程(Knowledge Engineering)、语音识别(Speech Recognition)、物联网(Internet of Things)、信息系统(Information System)、计算机安全与隐私(Security and Privacy)、信息检索(Information Retrieval)、数据库(Database)、自然语言处理(Natural Language Processing)、机器人学(Robotics)、操作系统(Operating System)、推荐系统(Recommender System)。利用人工智能研究子领域词(L0 层)与其下位词(L1 层,映射关键词共2391 个)组成关键词知识图谱,采集相关的人工智能专家数据,数据来源包括PubMed、IEEE、Scopus、国家专利局等数据库及一些高校/企业的门户网站,对采集的数据进行预处理,主要包括:专家信息页面去重、多源异构数据融合、关联关系语义发现、专家命名消歧等[13-15]。
2.2 中国人工智能国际合作顶尖专家识别算法
进一步明确本研究识别专家的标准,基于学者发表的学术论文成果,并综合考虑专家的研究领域、职称、研究机构等因素,结合数据预处理筛选的体量,最终选择h index≥40 的有影响力的人工智能专家,将这部分专家定义本研究中的 “顶尖专家”。同时,建立中国国际合作专家识别算法:抽取每位专家论文合作者数据与专家机构地理数据,对每位专家论文合作者国家与专家迁移国家进行分析,最后识别出符合要求的专家名单。本研究对“中国国际合作” 的定义包含4种专家类型:①论文合作者国籍中有外国的中国专家;②论文合作者国籍中有中国的外国专家;③无论文国际合作,但有国外学习或工作经历的中国专家;④无论文国际合作,但有中国学习或工作经历的外国专家。算法流程详见图1。特别说明,在确定专家出国经历或来华经历是否属于国际合作时,主要基于分析除论文外的数据(如专家项目合作、学术活动、专利成果等),有且满足至少一类合作类型才会纳入顶尖专家数据库。
图1 中国人工智能国际合作专家识别流程图Fig.1 Flow chart of expert identification in international cooperation of artificial intelligence in China
3 中国人工智能国际合作顶尖专家画像
通过上述研究方法,识别出人工智能领域最具影响力且与中国有国际合作的顶尖专家共621 人。现从专家基本画像、专家所属研究机构、国际合作类型等3个方向进行统计分析。
3.1 专家基本画像
(1)从专家国籍来看,621 个与中国有合作的顶尖专家的国籍涵盖了28 个国家,美国国籍专家有273人,占总人数的44%,中国籍专家有204 人,占总人数的33%。中、美两国合作的顶尖专家数都远高于其余国家之和,表明在美国籍专家是中国人工智能国际合作的主要对象。
(2)从专家性别来看,中国人工智能国际合作的顶尖专家中以男性为主导,女性比例极低。男性专家在人工智能国际合作领域占比远超女性专家,男性专家578 人,女性专家仅有43 人,比例约为13:1。虽然女性在中国国际合作中的占比较少,但女性顶尖专家所取得的成就却巾帼不让须眉,较为知名的有Daphne Koller(达芙妮·科勒)、Fei-Fei Li(李飞飞)、Dawn Song(宋晓冬)等。
图2 中国人工智能国际合作顶尖专家国籍画像Fig.2 Nationality of top experts in international cooperation of artificial intelligence in China
(3)从专家职称/职务来看,中国人工智能国际合作的顶尖专家中以高级职称/职务的专家为核心,但新兴力量逐渐壮大。从统计数据来看,拥有高级职称/职务的顶尖专家有572 人,占总人数的92.1%,其中大多数为正高级别的专家,但一部分助理教授、副教授在人工智能各子领域的研究上也取得了较有影响力的成果。
3.2 专家所属研究机构
(1)各大洲区域分布:中国人工智能国际合作的顶尖专家所属机构主要分布于北美洲(331 人,占53%,以美国机构为主),其次是亚洲(175 人,占28%,以中国机构为主),欧洲(97 人,占16%,以英国、德国机构为主),最后是以澳大利亚机构为主的大洋洲(18 人,仅占3%)。
(2)各国家(地区)分布:从图3 来看,中国人工智能国际合作顶尖专家所属机构分布在全球21 个国家(地区)。总体上,与中国国际合作的顶级专家大部分都来自美国,这些专家的任职机构星罗棋布,在旧金山湾区、纽约、波士顿、西雅图、芝加哥地区都汇聚着众多的顶尖专家所属机构。在高校/ 科研院所方面,卡耐基梅隆大学、斯坦福大学、约翰·霍普金斯大学、马里兰大学等学校顶级专家较多,说明这些高校在培养人才和吸引人才方面都处于领先地位。中国与加拿大顶尖专家的合作也较多,其中与多伦多大学合作最多,阿尔伯塔大学、不列颠哥伦比亚大学的国际合作紧随其后。
图3 中国人工智能国际合作顶尖专家所属研究机构各国家(地区)分布画像Fig.3 Distribution of research institutions of top experts in international cooperation of artificial intelligence in China by country(region)
除了美国机构外,中国国内机构也十分重视与国际顶尖专家的合作。而国内顶尖专家主要集聚在北京、哈尔滨、长三角、香港等地区。中科院系统、清华大学、北京大学、上海交通大学、哈尔滨工业大学、浙江大学、香港科技大学、香港中文大学等高校/科研院所都有一批顶尖专家坐镇,引领中国人工智能国际合作研究的方向。国内顶尖专家依托地域资源优势,呈聚集态势。
英国、德国则是欧洲人工智能的研究中心。中国与英国的牛津大学、剑桥大学、帝国理工学院、伦敦大学学院、爱丁堡大学等机构以及德国的不莱梅大学、慕尼黑大学、德国人工智能研究中心等高校/科研院所都保持着长期的国际合作关系。
此外,在亚洲,日本的东京大学,新加坡的新加坡国立大学、南洋理工大学,韩国的韩国科学技术院,以色列的希伯来大学、特拉维夫大学也汇集着一批与中国进行人工智能领域国际合作的顶尖专家。在大洋洲的,澳大利亚也是中国国际合作的主要对象之一,主要有悉尼大学、悉尼科技大学、澳大利亚国立大学等。
(3)机构类型分布:人工智能的研究最终目的是为了落地应用,因此,越来越多的顶尖专家拥有双重身份:一方面在学校进行研究;另一方面也在企业中任职,为人工智能技术产业化应用做贡献,大约有13%的顶尖专家在企业任职,这些专家或是在科技龙头企业中担当首席科学家、技术总监等职位,或是专家自己带领团队在细分专业领域进行创业。美国企业方面,微软(Microsoft)的顶尖专家相对较多,谷歌(Google)、脸书(Facebook)其次,其他的一些专业领域的公司(如ClopiNet ChaLearn、Citadel)的首席技术专家或创始人也出现在中国国际合作的顶尖专家名单中。中国企业方面,BAT(百度、阿里巴巴、腾讯)也招揽了一批顶尖专家作为企业发展的技术指导,后起之秀如今日头条、滴滴出行也十分重视人工智能国际合作,在引进国外专家方面也不惜重金。
3.3 国际合作类型
本研究将中国人工智能国际合作类型分为学术论文合作和学习工作迁移合作两种。在识别出的顶尖专家中,有论文合作的专家为551 人,有迁移合作的专家为314 人,既有论文合作又有迁移合作的专家为244 人。
(1)学术论文合作。以学术论文形式进行国际合作的顶尖专家中,中国籍专家有176 人,美国籍专家有255 人;其他国籍的专家有120 个。顶尖专家库中的所有专家除了与中国有论文合作外,还与其他55 个国家有过合作,其中美国是第二大合作国家,仅有12位专家未与美国进行论文合作,即97.8%的顶尖专家在与中国专家或机构合作的同时,也与美国的机构或专家进行论文合作。由此表明,中、美两国的专家在人工智能学术研究上引领全球的人工智能的发展。中美之外,与中国国际合作较多的国家分别有欧洲的德国、英国、法国,北美洲的加拿大,亚洲的日本、韩国、新加坡,大洋洲的澳大利亚。
进一步分析中国籍专家论文合作的国家分布。中国籍顶尖专家论文国际合作的国家有40 个(除中国外),最多仍是美国,有93.8%的中国籍专家与美国有论文合作,其次是新加坡,有27.8%的中国籍专家有合作,与法国、德国、希腊、印度、日本、英国等国合作的专家比例大概都在14%~22%之间。
(2)学习工作迁移合作。除了学术论文合作外,这些顶尖专家还以技术输入或对企业技术赋能等 “智力” 引进的模式与中国进行国际合作,或是中国学者到国外学习或者工作,在学习国外先进的理论和技术后进行国际项目合作。
以迁移合作的形式进行国际合作的专家中,中国籍专家有203 人,美国籍专家有62 人;其他国籍专家有49 个。由此可见,迁移合作主要是以中国学者到国外学习深造或工作交流为主,而对于国外顶尖专家引进的迁移合作,美国专家仍是优先选择的对象。
深入分析中国籍专家的迁移国家,中国顶尖专家迁移合作的国家有58 个,其中有美国迁移合作经历的专家数最多(196 人,占96.6%),其次是新加坡(76人,占37.4%)、加拿大(62 人,占30.5%)、英国(61 人,占30.0%);第三梯队国家为印度(47 人,占23.1%)、日本(43 人,占21.2%)、澳大利亚(38 人,占18.7%)、德国(29 人,占14.3%)。这些国家是中国专家学习深造或工作交流的主要选择,反映出这些国家在人工智能领域的研究都各具特色。不难发现,几乎所有的中国籍顶尖专家的国际迁移合作(学习深造或工作交流)都有美国,侧面反映出美国在人工智能领域的绝对领先。
4 基于Topsis 的顶尖专家学术水平综合评价
为研究中国的国际合作,剔除任职中国(大陆)机构中的中国籍顶尖专家后,选取非中国籍或任职于非中国大陆研究机构的与中国有国际合作(论文或迁移)的顶尖专家(509 人),加上与中国无国际合作的顶尖专家(295 人)组成专家学术水平综合评价的基础对象。通过Topsis 综合评价结果进一步识别与中国国际合作的顶尖专家,并探讨那些暂未与中国有(直接)国际合作的顶尖专家在人工智能领域研究的影响力,以期为中国下一步的国际合作确定可行性目标。
4.1 专家学术水平评价指标
深入挖掘专家学术水平,构建专家学术水平的定量评价指标体系。依托Aminer 平台,选取了专家的论文数、论文引用数、h 指数、g 指数、学术活跃性指数、研究多样性指数、学术社交性指数、领域新星指数等8 个评价指标来反映专家的学术水平。所有专家数据的采集及处理截止时间为2019 年10 月。8 个指标的定义及公式如下。
(1)论文数(papers):表示学者的论文数量。
(2)论文引用数(citation):以学者群体论文被引用数为基础的反映学者研究成果被关注程度的量化指标。
(3)h 指数(h index):学者发表的所有N 篇论文中至少有h 篇论文分别被引用了至少h 次,其他(N-h)论文每篇小于或等于h 次。
(4)g 指数(g index):论文按被引次数排序后相对排前的累积被引至少的平方次的最大论文序次g,即第(g+1)序次论文对应的累积引文数将小于(g+1)的平方次。
(5)学术活跃性指数(activity):综合学者近年发表论文的频率和数量,以及每篇论文的重要性,得出每个学者的学术活跃度指数。
其中,在n 年(n 属于近N 年)中,Gn 是学者在n 年发表的一组论文,Weight(n)=αthisyear-n,对于n 和α的值采用以下原则:如果当前月份在上半年(月份<7月),则设置N=4 和α=0.75;如果当前月份在下半年,则设置N=3 和α=0.85。
(6)研究多样性指数(diversity):按照学者兴趣领域广度得出每个专家的研究多样性指数。使用会议主题模型获取每个专家的研究领域,然后自动将作者论文分配给每个主题。根据分配结果计算主题分布。PA(t)主题分布公式为:
则多样性指数被定义为该分布的熵值,公式为:
(7)学术社交性指数(sociability):综合考虑学者合作者数量及合作论文数量得出每个学者的学术社交性指数,公式为:
其中#copaperc表示为是专家和合著者c 之间合著的论文数量。
(8)领域新星指数(new star):考虑近5 年新发表论文学者的活跃度而得出的量化指标,该指标基于学者学术活跃性指数计算得到。
4.2 评价方法及过程
Topsis 法(Technique for Order Preference by Similarity to Ideal Solution)是系统工程有限方案多目标决策分析的一种常见方法,基本思想是:基于归一化后的原始数据矩阵,找出有限方案中的最优方案和最劣方案(分别用最优向量和最劣向量表示),然后分别计算各评价对象与最优方案和最劣方案的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。具体过程如下。
设有n 个评价对象、m 个评价指标,原始数据可写为矩阵X=(Xij)n×m。对高优(越大越好)、低优(越小越好)指标分别进行归一化变化,即
归一化得到矩阵Z=(Zij)n×m,其中各列最大、最小值构成的最优、最劣向量分别记为:
第i 个评价对象与最优、最劣方案的距离分别为
第i 个评价对象与最优方案的接近程度Ci(值越大综合效益越好)为Ci=(Di-)/(Di++Di-)。
利用德尔菲法与领域专家沟通,鉴于h index、g index、引用量、论文数等指标公开度及认可度较高,故指标权重确定为1;社交性、多样性、活跃度、领域新星是Aminer 平台根据搜集的数据自主确定的评价指标,因此除领域新星指数外,其他3 个指标权重确定为0.5;由于领域新星指数是基于活跃度指数计算,且在定义上主要是为了挖掘领域新人,指标更倾向于青年学者,为了避免对资深专家评价结果的影响,领域新星指数权重确定为0.2。
4.3 综合评价结果分析
Topsis 建立的所有指标都是高优指标,通过计算得到综合评价结果,由于篇幅限制,表1 仅列出排名前10 位的顶尖专家的各项评价指标值,并对顶尖专家进行简单介绍。
表1 排名前15 位的顶尖专家的Topsis 评价指标结果Table 1 Topsis evaluation results of top 15 experts
4.3.1 Top10 的国际人工智能顶尖专家情况简介
Geoffrey Hinton(杰弗里·辛顿),综合排名第1位,被称为 “神经网络之父” “深度学习鼻祖”,多伦多大学的特聘教授,2018 年图灵奖的得主。与中国无国际合作。
Jiawei Han(韩家炜),综合排名第2 位,数据挖掘领头人,美国伊利诺伊大学香槟分校计算机系教授,IEEE 和ACM 院士,美国信息网络学术研究中心主任。与中国有论文合作,及迁移合作。
Andrew Zisserman(安德鲁·基泽曼),综合排名第3 位,牛津大学教授,曾在国际计算机视觉大会上3 次拿到马尔奖(Marr Prize)。与中国无国际合作。
Jue Wang(王珏),综合排名第4 位,前Adobe 首席科学家,在计算机视觉、计算机图形学、人机交互三大领颇有成果。2017 年,加入旷视科技(Face++)。与中国有迁移合作。
Michael I.Jordan(迈克尔·乔丹),综合排名第5位,美国加州大学伯克利分校的教授,著名机器学习实验室AMP Lab 的联席主任,美国科学院、美国工程院、美国艺术与科学院三院院士。与中国有论文合作。
Martin Vetterli(马丁·韦特利),综合排名第6 位,洛桑联邦理工学院现任校长,数字信号处理科学家,瑞士国家科学基金会主席。与中国有迁移合作。
Anil K.Jain(阿尼尔·杰恩),综合排名第7 位,美国国家工程院院士、密歇根州立大学教授。与中国有论文合作。
Yoshua Bengio(约书亚·本吉奥),综合排名第8位,蒙特利尔大学教授兼人工智能公司Element AI 的联合创始人。“深度学习三驾马车” 之一。与中国无国际合作。
Philip S.Yu(俞士纶),综合排名第9 位,美国伊利诺伊大学芝加哥分校教授,2013 年获得IEEE 技术成就奖(IEEE Computer Society Technical Achievement Award),2017 年获得数据挖掘领域最高奖SIGKDD Innovation Award。与中国有论文合作,及迁移合作。
H.Vincent Poor(文森特·珀尔),综合排名第10位,美国普林斯顿大学教授,2001 年当选为美国国家工程院院士,2005 年当选为美国艺术与科学院院士,2009 年当选为英国皇家工程院外籍院士,2011 年当选为美国国家科学院院士,2013 年当选为欧洲科学院外籍院士,2017 年当选为中国科学院外籍院士。与中国有论文合作。
4.3.2 核心顶尖专家统计分析
从评价指标的构成,以及Top10 顶尖专家简介综合来看,Topsis 评价结果较为合理,可进一步分析顶尖专家组成。结果显示,Topsis 指标Ci值范围为0.015 6~0.590 5,其中Ci值0.1 以上的顶尖专家共有215 人,因此,在一定程度,将这215 人是认为是国际上人工智能领域的核心顶尖专家。从合作关系上来看,有61 人跟中国无(直接)国际合作,约占28.4%。与中国有(直接)国际合作的专家154 人,其中有论文合作的专家有135 人,有迁移合作的专家有90 人,两者皆有的71 人。由此可见,中国人工智能的国际合作虽然已经全面铺开,但是与部分顶尖仍然未建立有效的(直接)交流合作,且其中不乏人工智能领域中的绝对权威。
从专家基本画像分析与中国有合作的154 位核心顶尖专家,发现:①从国籍来看,核心顶尖专家中,美国籍专家最多有73 人,其次是中国籍43 人。这43个中国籍的专家就职于非中国(大陆)机构,其中任职于美国机构的最多,有34 人、澳大利亚4 人、新加坡3 人、英国1 人、中国(台湾)1 人。由此可见,在核心顶尖专家的国际合作中仍是由中、美两国主导,但中国与美国仍存在较大差距。②从性别上来看,154人中仅有6 人为女性,占比仅为4%。③从核心顶尖专家所属机构,进行国际合作的核心顶尖专家有70%(108 人)都在美国高校/ 科研院所或企业任职。其次是澳大利亚、英国、中国,其中在中国机构工作的专家中,美国籍的6 人,新加坡籍1 人。不难看出,中国人工智能领域核心技术的(直接)交流合作,其首选仍然是美国,美国在人工智能领域研究的霸主地位仍然无法动摇。
5 结论
本研究以人工智能研究领域顶尖人才作为研究对象,对人工智能研究各子领域进行分类树重构。在此基础上,依托Aminer 科技大数据平台识别与中国有(直接)国际合作的人工智能领域顶尖专家,并对顶尖专家综合学术水平进行评价,以期从专家人才的角度来反映中国人工智能国际合作的情况。针对与中国有国际合作的顶尖专家识别结果,发现:①中、美两国的专家合作数远高于其余国家之和;②专家以男性为主导,女性比例极低;③专家所属机构分布在全球22个国家(地区),机构分布与各地区的科技、经济实力情况大体一致;④部分专家拥有学校研究人员及企业科学家双重身份;⑤中、美专家在论文学术领域的国际合作占据主导地位。国际迁移合作以中国学者到国外学习深造或工作为主,同时对国外专家引进的迁移合作,仍以美国专家作为优先对象。同时,利用Topsis 进行顶尖专家学术综合评价结果较为合理,从合作关系上来看,有61 人属于跟中国无(直接)国际合作,约占28.4%,表明中国人工智能的国际合作虽然已经全面铺开,但是与部分顶尖专家仍然未建立有效的(直接)合作。
在研究过程中,由于使用的方法及数据都是基于人工智能领域专家的论文文献以及部分多源公开的事实性数据,在数据收集时,不可避免的会遇到部分数据的缺失以及未核准的情况。因此,谨希望通过定性和定量的研究,对中国人工智能领域的发展提供一定参考。