APP下载

基于突现检测的中美人工智能领域研究前沿对比分析

2019-11-29张福俊1李玉华

关键词:卡耐基术语发文

张福俊1,李玉华,庄 晓

(1.山东科技大学 图书馆;2.山东科技大学 计算机科学与工程学院,山东 青岛 266590)

人工智能(Artificial Intelligence)自1956年诞生以来,先后经历了发展、低潮、再发展的曲折过程,直至2016年3月,AlphaGo战胜了人类职业围棋冠军,引发了人工智能技术的又一热潮。本次热潮呈现出技术引领、国家重视、企业推动以及需求牵引四大特点,世界多国政府近年来相继出台政策,迅速将人工智能上升为国家战略,将其视为国家核心竞争力的基本要素和重要标志。美国政府于2016年10月13日发布了《国家人工智能研究与发展策略规划》,我国政府于2017年7月20日印发了《新一代人工智能发展规划》,在2018年中国政府工作报告中更明确提出“加强新一代人工智能研发应用”。《中国新一代人工智能发展报告2019》指出[1],美国、中国、英国在人工智能发展方面表现突出,已跻身世界“第一梯队”,因此,探究人工智能领域的研究前沿,有利于了解当前人工智能的研究方向及发展趋势,为我国科研政策制定提供数据支持和决策参考。

在全球人工智能领域研究方面,研究者从专利或文献数据入手,探究整个领域的研究前沿。如,张振刚等[2]以专利为数据源,利用CiteSpace绘制共词图谱并识别出专利突变术语,以此分析人工智能技术的研究前沿;余厚强等[3]从关键词节点指标、网络指标和聚类分析等多个角度识别国际人工智能的研究前沿,并从聚类关键词构成、互信息词和核心文献三方面对研究前沿进行示例解读。在研究前沿检测上,吴静等[4]使用突现检测技术,对国际技术创新研究的时空分布、热点和趋势等展开分析;王梦婷[5]采用突现检测方法,对10年内的竞争情报文献数据进行研究,并根据主题突变的特点划分出5种不同突变类型。

本文旨在以文献数据作为来源,以中美两国人工智能领域发展现状作为研究对象,从总体发文量、高产机构、高产作者等方面分析两国开展人工智能研究的异同,判别中美两国在人工智能领域的研究方向、研究优势,从而识别两国研究前沿和研究热点,为我国人工智能未来的发展方向提供参考。

一、数据来源与方法

(一)数据来源

本文选择Web of Science核心合集数据库作为数据来源,分别检索2010—2018年中美两国在人工智能领域发表的文献,检索式限定WC=(Computer Science,Artificial Intelligence)AND CU=(USA) AND PY=(2010—2018),以及WC=(Computer Science,Artificial Intelligence)AND CU=(China)AND PY=(2010—2018),文献类型选择“Article”,检索时间为2019年6月11日。共检索到来自中国的文献32439篇,来自美国的文献17318篇。

(二)研究方法

突变术语是指一个学科内突然发生变化的专业术语,表现为在某些年份发表文献中骤增,可用来表征研究前沿。[6]Kleinberg[7]于2002年提出了突现检测(Burst Detection)算法,他认为词的重要性体现不在于词出现时的时间长短,而是词出现时的密度,即那些频次相对增长率突然增加的词——突变词。突现检测算法能在不受外界因素影响的情况下及时发现未达到词频阈值但具有情报意义的词[8],它更注重领域内研究活跃并具有潜在影响的热点因素,而不管它是低频词还是高频词,它认为频次增长率突然增加的词更有可能涉及领域局部热点的变化,有助于发现和推动学科领域中的微观因素,在揭示学科发展上更具有及时性和情报价值[9]。突变权重越大表示研究主题越热门[10],突变术语成为领域新兴研究趋势的可能性也就越大。

本文采用CiteSpace软件自带的突现检测工具进行突现检测,构建术语共现网络,从大量专业术语中检测出突变术语并依据其权重进行排序,从而探析领域研究热点的演进轨迹。软件的操作与参数设置如下:Time Slicing中时间段为2010—2018年,时间片设置为1,Term Source 选择Title + Abstract +Author Keywords(DE)+Keywords Plus(ID),Term Type选择名词短语(Noun Phrase),Node Types选择Term,阈值设置为TOP50;其次,计算方式设置主要为网络模型优化方式设置,剪切方式(Pruning)选择路径发现(Pathfinder)和修剪合并网络(Pruning the Merged Network);最后,结果展示方式设置为对可视化方式的选择,可视化方式(Visualization)选择静态聚类视图(Cluster View-static)和显示合并网络(Show Merged Network)。

二、研究结果与综合分析

(一)总体发文量对比分析

对文献数量进行统计分析,有利于在宏观上掌握某一领域的发展规模,从整体上把握学科的发展脉络。[11]而发文数量的变化可以直观地看到某学科在特定时间段内研究热度的变化,是衡量该学科在该时间段内发展态势的重要指标。[12]选择Web of Science核心合集数据库作为数据来源,时间限定为2010—2018年,共检索出全球人工智能领域文献111 332篇。其中,中国发文32 439篇,占比29.14%,位居各国家/地区发文量首位;美国发文17 318篇,占比15.56%,位居世界发文量第二位。中美两国合计发文量达到49 757篇,占世界发文总量的44.7%。利用CiteSpace软件自带的突现检测工具,对2010—2018年中美两国发表的文献进行突变术语检测,将检测到的术语按照突变年限进行排序,形成主题词突变演化表,如表1和表2所示。

由表1可知,中国人工智能研究领域共产生22个突变术语,近九年来的发展状况主要呈现以下特点:

(1)2010年前后,研究前沿集中在系统、算法以及逻辑层面,主成分分析、人工神经网络、支持向量机、进化算法等关键词在2010年甚至更早的时间点发生突变,说明我国在2010年以前就已经在人工智能理论研究方面取得进展,研究的主要阵地集中在基础算法领域,同时呈现出向具体应用领域转化的趋势。

表1 中国人工智能领域研究主题词突变演化

(2)2011—2013年,我国对人工智能领域的研究从纯理论转向了较为具体的前沿应用领域,如粗糙集理论、稀疏表示、模糊集、泛化表现、群决策等;同时,硬件设备的发展也促使人工智能向大数据挖掘时代迈进,这一阶段的研究相对短暂。

(3)2015年至今,人工智能的研究涉及层面广泛,呈现出对新问题、新方法的关注[10],基准功能、时变延迟、高精确度等关键词在2015年发生突变,但关注度仅维持到2016年,而数据挖掘、先进方法(the-art approach)等关键词在2015年发生突变后,热度一直持续到2018年,目前仍处于研究的热点位置。

由表2可知,美国人工智能研究领域共有48个术语发生突变,美国在人工智能领域的研究呈现出起步早、研究前沿多、学科分布均匀的特点。

(1)2010年前后,美国人工智能领域出现的突变词较多,决策树、进化算法、模式识别等关键词的突变时间仅持续到2011年,说明美国在人工智能理论研究领域开始时间早,处于领先地位;2010—2011年期间,研究领域不仅涉及支持向量机等基础理论算法,同时在图像分割、特征提取等具体应用领域也有所突破。

(2)2012—2014年期间,美国继续在基础算法和图像处理等领域展开研究,这一阶段平均每项研究持续2—3年,如降维、训练集、稀疏表示、自然图像等在2012年发生突变的术语基本在2014年前后完成突变;少数术语如分类性能等持续热度时间较长,截至目前仍处于热点位置。

(3)2015年至今,发生突变的术语达到16个,其中多数保持着高热度,如特征空间、大数据、计算效率等全球性的新兴研究;同时还包括社交媒体、计算模型、训练样本、现实训练集等现实应用研究点。

表2 美国人工智能领域研究主题词突变演化

从突变词检测的角度探析中美两国在人工智能领域的研究概况可以发现,尽管中国的发文总量近乎美国发文量的两倍,但从术语突变趋势上看,中国在人工智能领域的研究在2012年以前是落后于美国的,其研究重心局限于理论及算法领域,与此同时,美国在人工智能的研究上一方面代表了研究的前沿方向,另一方面起到了引领作用;2015年以后,中国逐步跟上世界研究前沿的步伐,大踏步地赶上甚至超越美国,在先进方法(the-art method)研究上比美国研究早了一年。

(二)高产机构发文量对比分析

科研机构是开展科学研究的基本单位之一,从机构角度探究其研究前沿并进行对比,有助于明确机构在领域发展中的位势、研究的侧重、整体实力与机构间研究的差异。[13]利用CiteSpace软件对清洗后的数据进行机构发文量的统计,节点类型选择Institution,其他参数设为默认值,中美两国排名前10位的高产机构如表3所示。

表3 中美两国排名前十位的高产机构及其发文量

由表3可得,在发文数量上,中国各机构对人工智能领域的研究明显多于美国,说明我国对人工智能的研究较为重视且有相当的成果产出。其中,中国科学院发文量居于首位,发表论文量达到2242篇,排名前十位的高产机构发文量占我国发文总量的30.9%。美国发文量排在前十位的高产机构中,卡耐基梅隆大学发文604篇,位于美国各机构首位。

以下以中美两国发文量最高的两所机构(中国科学院、卡耐基梅隆大学)为例,对其研究前沿进行探测和对比分析,从而反映中美两国在人工智能领域的研究现状及未来发展趋势。采用与前文同样的突现检测算法对两所机构发表文献中的术语进行检测,得到研究机构的突变演化表如表4和表5所示。

1.中国科学院人工智能领域研究主题词突变演化趋势

(1)对2010—2018年中国科学院发表的2242篇文献进行突变词检测,共得到19个突变术语,如表4所示。由表可知,中国科学院2010年发生突变的术语包括线性判别分析以及主成分分析,由于本文检索时间限定为2010年及以后,这两个突变术语可能在前期已经投入研究。线性判别分析及主成分分析均为经典的数据降维方法[14],由此可见,中国科学院在2010年前后对降维方法的关注度较高。

(2)2011年至2014年,中国科学院多个术语发生突变。数据挖掘、特征选择、面部识别、图像处理等术语的突变反映出中国科学院将关注点放到机器学习以及图像处理领域,在相关方面取得一定程度的进展。

(3)2015年至今,自适应动态规划、闭环系统、交替方向法等术语发生突变,其热度一直持续至今,表明近年来中国科学院仍旧将重点放在深度学习、机器学习领域,完成从理论层面向应用层面的转化,致力于解决实际问题。

表4 中国科学院人工智能领域研究主题词突变演化

表5 卡耐基梅隆大学人工智能领域研究主题词突变演化

2.卡耐基梅隆大学人工智能领域研究主题词突变演化趋势

(1)对2010—2018年卡耐基梅隆大学发表的604篇文献进行突变词检测,共得到12个突变术语,如表5所示。由表可知,2010—2014年未能检测到突变词,最早发生突变的术语为数据挖掘,始于2015年,一直到2018年依旧保持高热度,仍是当前的一个研究热点。2015年发生突变的术语达到8个,包含行为识别、先进方法、先进算法等,其中部分术语的突变一直持续到2018年。

(2)卡耐基梅隆大学近三年来的突变术语包括计算机视觉、训练数据、面部识别、机器学习等,表明近期的研究热点多集中于图像处理和机器学习领域。此外,卡耐基梅隆大学在视觉及图像方面的研究多用于无人机对场景的探测以及图像内容的分析等方面。

以上对中国科学院和卡耐基梅隆大学进行研究前沿的对比分析可知,中国科学院和卡耐基梅隆大学在研究领域上各有侧重又有所交叉,从突变术语发生突变的时间来看,两所机构研究热点的步调基本一致,均处于世界人工智能领域研究的领先地位;从领域研究的侧重点来看,中国科学院致力于算法模型等方面的研究,在应用方面的研究略少于理论研究,卡耐基梅隆大学集中于智能应用方面的研究,以应用为导向;两所机构的相同之处在于近年来的研究均涉及机器学习、图像处理等领域,侧面反映出全球人工智能领域的一个研究热点。

(三)高产作者发文量对比分析

作者是科学研究的主导者,一方面基于学识、经历与洞察力等探求着科学技术发展的趋向,进而产生可能引导学科领域发展的研究成果;另一方面受到正在兴起的研究领域或者方向的影响,追随着已有的研究而创造新的产出。[15]本部分从作者层面出发,利用CiteSpace软件对清洗后的数据进行作者发文量的统计,分别得到中美两国人工智能领域发文量排在前二十位的高产作者,如表6所示。

表6 中美两国人工智能领域高产作者

由表6可知,发文量在100篇以上的中国作者有11位,徐泽水发文量达到202篇,位居中国作者发文量首位;美国作者RONALD R YAGER发文量为92篇,为美国高产作者之最,发文量在50篇以上的美国作者有8位,30篇以上的作者有15位。论文中某些术语频次的突然增加体现了作者的研究方向发生了转变[16],为此分别对中美两国发文量排在前十位的作者进行突变术语检测,结果如表7和表8所示。

表7 中国高产作者及其突变术语

检测结果显示,中国排名前十位的作者在近年来的研究中均出现了突变术语,其突变词涵盖了人工智能领域的基本术语和方法理论,其中突变次数较多的术语为图像分类、图像分割、训练样本、先进方法、神经网络等。从突变术语发生的时间来看,人工智能领域的发展呈现出从理论算法向实践应用转化的趋势。以图像处理技术和自适应动态规划等为特点的机器人领域受到越来越多的关注,同时以神经网络为代表的机器学习、深度学习领域始终处于中国学者研究的热门地位。

对美国排名前十位的作者进行术语的突现检测后发现,仅有RONALD R YAGER、QI TIAN和HAIBO HE三位作者产生了突变术语,其余7位作者未能检测到突变词。由于本部分致力于从作者角度出发探索中美两国人工智能领域的研究热点,因此对于未能检测到突变术语的作者,选取其文献中的高频术语进行统计分析,统计结果如表8所示。

表8 美国高产作者及其突变/高频术语

从单个作者的角度来看,这些突变术语是其研究兴趣或研究方向转变的体现,而从领域整体来看,这些研究前沿代表着领域内的研究热点和研究趋势。[13]因此,由表8可知,美国作者出现的高频词汇包括特征选择、神经网络、具体数据集等,反映出美国人工智能发展在进行理论研究的同时注重应用领域的研究。其突变/高频词汇集中在图像处理、机器学习领域,同时在控制系统的研究方面有所涉猎,体现出美国在学科交叉以及智能应用方面的发展趋势。

三、总结与展望

本文分别从总体发文量、高产机构、高产作者角度分析了中美两国在人工智能领域近九年来的研究前沿。从发文量角度来看,中国的发文总量近乎美国发文量的两倍,位居世界第一位。从整体发展情况来看,中国在人工智能领域的研究起步略晚于美国,且早期注重理论研究,2012年前后转向应用领域,随后保持高速发展;美国在人工智能领域的研究呈现出前沿数量多、覆盖面广的特点,近年来发展平稳,始终位于世界领先地位。

从高产机构角度出发,通过对突变术语的检测,解读近年来中国科学院和卡耐基梅隆大学在人工智能领域研究前沿的变化趋势。结果表明两所机构在研究重心方面各有侧重又有所交叉,中国科学院致力于算法模型等方面的研究,而卡耐基梅隆大学以应用为导向,侧重于智能应用方面的研究。

从高产作者角度出发,分别对中美两国排名前十位的作者进行突变术语的检测,检测结果表明,两国作者在领域前沿研究的步调基本保持一致,近年来致力于深度学习、图像处理领域的挖掘和探索;同时注重跨学科融合发展,在智能机器人、调度控制系统等方面呈现出发展的新趋势。

此外,本文存在一定的局限性,主要包括对高产机构、高产作者层面进行突现检测的数据量偏少,对软件相关参数没有充分调优,未能呈现全面准确的突变术语;其次,仅从机构、作者发文的数量角度对比分析两国研究前沿,未能考虑到文献的引用情况;另外,由于突现检测算法中,越是词频较小的词越容易产生突变,而真正重要的高频词因为比较平稳,反而不太容易产生突变,因此突现检测算法错过了对于高频词和热点词的分析,这也是算法本身存在的一个弊端。在后续研究中将获取更多的数据量,充分考虑文献的发文量和引用情况,以增强结论的可靠性和说服力。

猜你喜欢

卡耐基术语发文
戴尔·卡耐基
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
校园拾趣
爷孙趣事
以牙还牙
没有什么不可能
卡耐基等樱桃
一把樱桃
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势