APP下载

6163篇AI论文谈到的趋势与变化

2017-12-06KakaoAIReport

机器人产业 2017年6期
关键词:关键字次数论文

□文/Kakao AI Report

6163篇AI论文谈到的趋势与变化

□文/Kakao AI Report

最近,有关人工智能(AI)的研究在各个领域都取得了显著的成果。这主要归功于长期以来一直致力于这个研究领域的AI研究人员的努力。如果根据引用次数、参与人数、接受论文数量和历史记录来看,关于AI的最重要的学术会议就是ICML(International Conference on Machine Learning) 和 NIPS(Neural Information Processing Systems)。相较于ICML的重点是机器学习,NIPS涵盖的课题领域更为广泛,包括认知科学和应用机器学习。在37年前的1980年,ICML举行了首次学术会议,并于今年8月在悉尼举行了第34次会议。NIPS成立于1987年,计划于2017年12月在加利福尼亚举行第30届会议。

为了研究AI领域的最新趋势,研究小组对2005年至2016年期间ICML和NIPS发表的6163篇科学论文进行了荟萃分析。最新的研究结果揭示了AI研究的最新趋势和变化。通过对过去12年来被引用次数最多的论文进行研究,从各种角度,如从诸如累积引用,作者的合作网络,及论文中关键字的变化等角度入手,以分析AI研究领域最新的发展趋势和变化。

过去12年接受的论文数量的变化

从2005年到2016年,ICML总共接受了2315份论文。2016年接受的论文数量为322篇,比11年前的134篇论文翻了一倍还多。

而至于NIPS,接受的论文数量从2005年的207份增加到2016年的568份,增加了一倍多。

图1 ICML在过去12年接受的论文数量的变化

研究团队可以证实,对于ICML和NIPS来说,2012年接受的论文数量与2011年相比都有显著上升。这是2012年人工智能研究历史上的一个重要事件。2012年,Geoffrey E.Hinton教授和他的团队(多伦多大学)在Imagenet大型视觉识别大赛(ILSVRC)中使用深度神经网络展示了一个很好的成果。

图2 NIPS在过去12年接受的论文数量的变化

作者引用次数

表1显示了(分别为NIPS和ICML)中接受论文和被引用总数最高的前30名作者。 (原始文件在这里:https∶//github.com/giallo41/Data_Science/blob/master/Conf/data/ALL_most_cited_author_Graph.xlsx)

图3 在过去的12年里,ICML中被引用次数最高的前20名作者

图4 在过去12年里,NIPS中被引用次数最高的前20名作者

图5 在过去12年里,ICML和NIPS中累计被引用次数最高的前20名作者

该研究小组调查了在ICM和NIPS中排名前15位的作者的12年变化趋势。结果表示,那些在接受论文数量上逐渐变化的作者,每年也会不断地发表论文。在GitHub上可以找到完整的ICML和累计引用的列表。

合作网络

图6显示了ICML和NIPS接受的论文中被引用最多的作者的协作网络。粗体线意味着他们经常作为合作者出版。为了更好地进行分析,研究团队创建了由15位被引用次数最多的作者发表论文的共同作者的关系网络图。分析中使用的数据可以在GitHub中找到。

表1 NIPS和ICML中接受论文和被引用总数最高的前30名作者

表2 大多数引用的文章由这15位作者撰写

最常用于标题的关键字

为了间接地展示出过去12年里人工智能领域的研究课题的变化,研究团队分析了论文标题中的关键字的变化。首先,团队在过去的12年中,用了词“云”来了解趋势变化的大致情况。过去12年在ICML和NIPS中使用频率最高的两个关键字是“学习”和“模型”。由于这两个词是目标研究期间在论文标题中出现的频率最高,所以团队认为,除了这两个词之外的其他关键字将显示AI研究的趋势变化。选定的基础年份是2006年、2011年和2016年。选择5年的时间间隔能够更为清楚地研究变化。

图6 具有较高引用率的作者协作网络

图7 ICML年度关键词

出现在ICML接受的论文标题中的关键词(更大的词意味着它们更常用于标题中。)

对于ICML收录的论文,2006年论文题目中最常使用的关键词是“贝叶斯”、“核”和“分类”。 但是,2016年收录的论文则频繁出现“网络”、“算法”、“优化”,“深度”等关键词。

NIPS收录的论文标题中出现的关键字(越大的词意味着它们更常在标题中出现)。

对于NIPS收录的论文,2006年论文题目中最常使用的关键词是“贝叶斯”、“核”、“分类”和“聚类”,与ICML收录的论文中出现的相似。相比之下,“深度”、“自然”、“网络”和“随机”等词在2016年被NIPS收录的论文中出现最为频繁。对这些关键词的考察,我们了解了过去10年研究主题的变化。

为了了解过去10年人工智能研究课题的变化,对频繁出现的标题关键词进行了分析。

虽然关键字“深度”在ICML中没有出现,但在2006年的NIPS中出现了一次。但2016年“网络”一词成为最显著的关键字,在ICML中出现了22次,在NIPS中出现了43次。

AI领域研究员网络

AI研究网络的主要broker是Michael I.Jordan。

图8 NIPS年度关键词

图9 ICML录用论文中的标题关键词比较:2006年和2016年

图10 NIPS录用论文中的标题关键词比较:2006年和2016年

研究团队还根据NIPS和ICML的录用论文,对研究人员网络进行了研究。特别注意网络中研究人员的身份。所选择的基本指标是度中心性(degree centrality),其通过对每个实体对网络中的其他实体的直接链接的数量进行计数来衡量实体的连接度,以及中介中心性(Betweenness Centrality),指的是作为连接网络中的其他实体的broker的能力。为了将这两个概念应用于研究网络,度中心性意味着研究人员之间的直接联系的程度,而中介中心性意味着研究人员之间broker的能力。对于构成网络结构的研究人员数量,NIPS为5878人,ICML为3949人。

对于NIPS来说,加州大学伯克利分校教授Michael I. Jordan在度中心性和中介中心性领域排名第一。Jordan也是吴恩达的指导教授,他被称为四大AI大神之一。在ICML中介中心性领域Jordan排名第一。这意味着Michael I. Jordan是AI研究网络的灵魂人物。换句话说,他是连接两个研讨会研究网络研究人员的关键实体。通常,broker对网络内的通信进行控制,网络的成员依赖于broker。网络分析表明,Michael I. Jordan一直是人工智能研究的中心人物。

除了Jordan,所谓的AI大神,如Jordan的学生吴恩达,Geoffrey E. Hinton和Yoshua Bengio也占据了网络排名的顶层。在韩国,密歇根大学计算机科学与工程系教授Honglak Lee在ICML排名第十九位,他是在吴恩达的指导下完成博士论文的。

1.数据收集

ICML 会 议 ∶http∶//www.machinelearning.org/icml.html

NIPS 进程 ∶https∶//papers.nips.cc/

2005年至2016年期间录用的论文被使用情况。

2.抽样

使用了2005年至2016年间在ICML录用的2315篇论文和NIPS录用的3848篇论文。

3.论文引文

使用网站 https∶//scholar.google.co.kr检查文章标题的引用。随着新论文的录用,现有论文的引用次数逐渐增加。为分析目的,引用次数为4月21日的数量为基础。

4.分析方法

https∶//github.com/giallo41/Data_Science/tree/master/Conf

研究团队收集的数据文件和用于分析的Python源代码可以在这里找到。

·ICML和NIPS论文题目、作者以及过去12年每篇论文的引用次数以Excel格式统计,并使用Python的Pandas DataFrame进行分析。

·添加了每个作者过去12年的累计引用次数,并且使用dataframe.sort()方法选择了大多数引用的作者。

·对于论文标题分析,标题中的单词被分隔并转换为小写。那么这样的话,就像‘∶’,‘?’,‘for’,‘a’,‘an’ ,’in’, ‘of’,‘with’,‘and’, ‘the’, ‘to’, ‘on’, ‘from’, ‘by’,‘using’, ‘very’, ‘via’, ‘it’, ‘that’, ‘as’,‘,’ ,’which’, ‘-’, ‘through’, ‘without’,‘while’, ‘is’, ‘than’, ‘where’, ‘much’,‘many’, ‘or’ 和 ‘so’被丢弃。

·由Python提供的单词云包用于词云分析,其描述了每个关键字在相对字体大小方面的发生频率。

5.网络分析的概念和方法

(1)概念

有时研究人员独立主导完成研究,有时与其他人合作进行研究。我们假设有研究员A,研究A可以参与研究(a),也参与研究(b)。在这种情况下,研究人员A可以作为两个研究之间的桥梁。正如我们从这个例子中所看到的,中间人有可能在一个网络中连接不同的信息或知识。在许多对网络结构感兴趣的领域,包括组织社会学,(可能)担任中间人角色的实体对已经使用“中介中心性(betweenness centrality)”的概念进行了研究。该方法也适用于本文。此外,考察实体之间的联系程度的度中心性(Degree Centrality)也被用作测量指标。度中心性确定一个实体对与其相关的其他实体的影响程度。

(2)方法

对2005—2016年期间NIPS和ICML录用的论文作者做出总结。ICML的研究人员为3949人,NIPS为5878人。作者的列表被排序成行和列,产生一个方形矩阵。 ICML是一个3949×3949矩阵,NIPS是一个5878×5878矩阵。我们计算了每位研究人员与其他研究人员一起写论文的次数。如果A和B一起写了四篇论文,那么A列B列中的值为4。这个矩阵是使用UCINET 6.0进行分析的,这是一个网络分析工具。从分析结果中,我们提取了分别为度中心性和中介中间性前20名。

猜你喜欢

关键字次数论文
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
成功避开“关键字”
本期论文英文摘要
本期论文英文摘要
本期论文英文摘要
2013年5—12月最佳论文
智能垃圾箱