国际深度学习领域科研主题演化研究
2022-01-07田亚丹
田亚丹
(中共广东省委党校(广东行政学院)图书馆,广东 广州 510053)
0 引言
深度学习一词最早是在教育领域被提出的,1976 年,瑞典哥特堡大学的Marton 等[1]在研究学生学习过程时发现不同学习策略下的学习效果不同,由此提出深度学习的概念,指出深度学习是知识迁移的过程,有助于学习者解决问题及进行决策。而深度学习作为机器学习领域中一个新的研究方向,其首次被提出是在2006 年,多伦多大学的Hinton 等[2]提出深度学习的概念,最初的应用主要是在图像和语音识别领域,如今则拓展到自然语言处理[3]、故障诊断[4]、目标检测[5]等领域,其应用更为广泛,影响愈加深远。2020 年是深度学习技术发展的第15 个年头,利用科学计量学方法梳理该领域研究内容与演化进程,可帮助研究人员理清发展脉络、把握研究方向,从而为深度学习研究提供参考,推动机器学习技术的进步与发展。
目前,利用计量学方法分析深度学习领域的文献大多是基于Citespace 进行的,通过绘制知识图谱、分析相关题录信息分布情况,并结合高频词分析、引文分析、聚类分析等方法挖掘研究热点[6]。如张海等[7]使用Citespace 描绘国际深度学习领域的知识图谱,得到主流算法、多模态识别、教育应用场景3 个研究热点,并对深度学习在教育领域的应用趋势进行分析;何晓萍等[8]使用Citespace 研究深度学习领域的核心期刊分布、核心文献分布、核心著者分布等;庄诗梦等[9]运用CiteSpace 对深度学习研究领域的国家及机构、关键词、突变词、共被引等进行可视化分析,探寻相关研究热点。但这些研究更多侧重于教育背景下的深度学习技术,针对主题随时间的动态演化研究较少,只是单纯地找到研究热点,分析研究现状,而无法呈现出研究主题的全周期发展历程,也缺少对科研主题演化规律的挖掘。
格拉纳达大学开发的SciMAT 是一款新的开源知识图谱工具,其基于Cobo 等[10]2011 年提出的科学图谱分析方法,可探测连续时间内一个研究领域的知识演化情况,把复杂的领域知识演化进程通过可视化方法直观、清晰地展示出来,在表现主题演进方面独具特色,相较于传统基于词频的热点统计或基于关键词网络的聚类分析更具优势[11]。如刘艳华等[12]利用SciMAT 对国际青少年阅读领域进行主题演化分析,探测出两条重要的演化路径;赵蓉英等[13]利用SciMAT 探究Altmetrics(替代计量学)领域的主题演进动态,并总结研究现状。鉴于此,本文拟从主题动态演进的角度出发,利用SciMat 软件对深度学习领域的研究主题及其演化过程进行动态分析,以更大体量的数据综合呈现各时期研究主题分布情况及主题间演化关系,探寻领域发展脉络,梳理深度学习领域研究现状,以期为今后的研究提供参考,为科技决策提供依据。
1 研究思路与数据收集
1.1 研究思路
本文研究思路分为3 个阶段,分别是数据收集阶段、数据处理阶段及分析与研究阶段。数据收集阶段主要包括文献检索、下载与整理;数据处理阶段主要对文献题录信息进行预处理、时区划分,配置相应参数,为分析工作作准备;最后的分析与研究阶段主要从关键词总体变化、主题分布、主题演进3 方面对深度学习领域进行研究,总结其演化规律,探讨未来发展方向。
1.2 数据收集
以核心数据库(Web of Science,WoS)2006-2019 年深度学习领域相关文献作为研究对象,检索主题词为“deep learning”,文献类型为article,并于2020 年4 月27 日进行检索。由于2020 年的数据不完整,而后续分析需使用完整年份的数据,故将检索年限设置为2006-2019 年,共获得14 641 篇文献。对深度学习领域文献进行信息计量统计,有助于从宏观上把握国际深度学习领域发展态势,了解该领域研究基本情况。从图1 可以看出,深度学习领域发文量在2014 年后开始激增,增长速率均超过2 倍。这是深度学习领域的快速发展期,受到了学者们的广泛关注。虽然在机器学习领域,“深度学习”一词于2006 年才正式提出,但在很大程度上弥补了神经网络的不足与缺陷。随着深度学习相关理论与方法研究的不断深入,该领域体现出很高的研究与应用价值,研究热度逐年攀升,值得研究人员尤其是情报学研究人员的重视。
Fig.1 The changes in the number of papers published in the field of deep learning图1 深度学习领域发文量变化情况
2 数据处理与参数设置
2.1 数据处理
数据处理阶段主要是对作者关键词进行预处理,先利用SciMat 中的关键词自动清洗功能合并单复数形式的关键词,再手动合并缩写与全称,剔除检索词deep learning,以及如model、algorithm、tool 等意义宽泛的高频词,防止极端数据对结果的影响。
在SciMat 软件中,选择作者关键词作为分析单元,分析时期为2006-2019 年,根据各时期文献数量,将2006-2008、2009-2011、2012-2014 年分别合并为一个时期,2015-2019年每一年单独作为一个时期,共得到8 个时期。
2.2 参数设置
数据精简阈值与网络精简阈值控制着聚类网络中的主题数量,阈值越大时,主题数量越少,具体参数设置参考文献[14-15]。为使生成的图谱更加清晰,经过多次实验发现,当本研究中每个时期的数据精简阈值为(1,1,2,2,2,2,3,4)、网络精简阈值为(1,1,1,1,1,2,3,4)时,各时期聚类主题数量在合理范围内,主题间关联清晰。本文选择聚类网络最大值为10、最小值为1 来限制网络大小,相似度指标为E 指数。聚类算法为简单中心算法,将文档数量与h 指数作为评估指标,之后使用共现矩阵建立网络,选择Jaccard 系数作为演化图与重叠图的相似度指标。
3 分析与发现
3.1 关键词总体变化分析
图2 是使用相似性度量构建的2006-2019 年深度学习领域的关键词重叠图。
Fig.2 The overlapping map of keywords图2 关键词重叠图
在图2 中,圆圈代表各个时期,圈内的数字代表各时期的关键词数量,水平箭头上的数字代表两个时间段共享的关键词数量。括号中的数字为重叠系数,重叠系数的高低也从侧面反映了相邻时期重叠关键词的多少。上方进入的箭头代表该时期新出现的关键词数量,输出的箭头代表该时期存在而下个时期消失的关键词数量。
从不同时期的进入箭头和输出箭头来看,各时期新输入关键词的数量总是比流失的关键词多,且关键词总数也逐年递增。这在一定程度上反映了深度学习领域不断出现新旧研究的交替,总体研究内容日趋丰富,研究范围逐渐拓宽。从各个时期的水平箭头来看,该领域共享关键词数量逐年增加,前期稳定性波动上升,2016 年后呈缓慢上升趋势,说明有越来越多关键词得到了持续且深入的研究。
3.2 主题分布分析
为探究深度学习领域的研究主题分布情况,本文对该领域的主题战略图进行分析,如图3 所示(彩图扫OSID 码可见,下同)。
主题战略图在一个二维空间展示了主题聚类的中心度和密度,圆圈中的数字代表每个时期聚类主题的H 指数,圆圈大小与H 指数成正比。SciMat 根据每个聚类的密度和中心度把主题分成4 类,分别是:①位于第一象限的引擎区,具有高中心度和高密度,对应的主题聚类发展较好且较为重要;②位于第二象限的专业区,具有低中心度和高密度,对应的主题聚类一般为专业性或外围性的主题;③位于第三象限的新兴/衰退区,具有低中心度和低密度,对应的主题聚类如果年代较新,则可能是新出现的主题,如果年代较为久远,可能是即将消亡的主题;④位于第四象限的基本区,具有高中心度和低密度,对应的主题聚类是横向广义且基本的[13,16]。通过该分类方法可识别出历年来支撑该领域发展的技术基础与应用专业领域,以及引领深度学习领域发展的主要研究及新兴技术。将得到的77 个主题聚类按不同战略区域进行划分,如表1 所示。
Fig.3 The topic strategic diagram of eight periods图3 8 个时期主题战略图
结合图3 与表1,综合考虑聚类节点体积和数量。主题节点体积反映主题的H 指数,球体体积越大,H 指数越大,说明该主题的影响力越大。2016 年以前,影响力大的主题在各个区域都有分布,主题分布的区域性特征不明显。2016 年之后,影响力大的主题全部位于第四象限,说明很多技术和算法开始趋于成熟与稳定,其中2016-2018 年影响力最大的主题为卷积神经网络,2019 年影响力最大的主题为机器学习。
对于节点数量,2012 年以前,深度学习在教育领域研究较多,相关主题包括教学方法、概念地图和主动学习等。经过几年的发展,到2016 年主题数量增多,进入发展成熟期,研究主题更多地转移到计算机领域,且主要分布在第二象限和第四象限,这两个区域的主题占全部主题的66%。其中第四象限主要是一些基础算法,如卷积神经网络、机器学习和特征提取算法等,第二象限则是应用于不同领域的相关技术,如涉及生物医学领域的核磁共振成像与光学相干断层扫描技术,涉及智慧城市领域的行人重识别与物联网技术,涉及航空航天领域的视觉导航技术等。
Table 1 The topic clustering area表1 主题聚类区域
对比同一时期的四大聚类区域可以发现,第一象限和第三象限的主题聚类数量明显少于第二象限与第四象限,说明深度学习领域每个子时期引领发展的技术及新兴算法不是很多,整体研究处于稳步前进的态式。
3.3 主题演进分析
主题演化图通过展示不同时间段内的关键词关联状态帮助人们探测主题的演化与起源。如图4 所示,球体节点表示各时期的主题聚类,球体体积表示聚类的H 指数。节点间的连线表示聚类主题具有持续性,实线表示主题间有继承关系,虚线表示次一级主题的继承关系,线的厚度与杰卡德相似度(Jaccard’s index)成正比。连线越粗,表明两个主题的相似度越高,演化关系越强。如果节点没有链接到下一个周期的主题,则该节点是一个即将消失的主题;如果节点与前一时期的主题没有关联,则该节点是一个新兴主题[17]。
对深度学习领域的主题演化图进行梳理,观察主题间的实线连接关系,本文定义跨越4 个及以上时期的主题演化为长期演化,跨越4 个时期以下的主题演化为短期演化,共得到50 条长期演化路径和8 条短期演化路径。将长期演化路径按照演化终点进行分类,可得到特征提取、机器学习、迁移学习和遥感4 个研究方向,且4 个研究方向中最长的线路最后都与深度置信网络有关联,说明深度置信网络是很多持续演化研究的基础。
Fig.4 The topic evolution map图4 主题演化图
8 条短期演化路径分别为:①脑机接口→脑机接口→脑电描记法。脑机接口是脑科学与计算机科学交叉领域的前沿技术,一般通过脑电描记法采集脑电信号,并利用深度学习方法对脑电信号进行特征提取或分类,被广泛应用于康复医学和神经科学等领域[18];②视觉导航→机器人与自动化的深度学习。机器人通过视觉感知周围环境,规划自身行为轨迹,完成一系列自动化动作,这些都需要与深度学习技术相融合[19];③物联网→智慧城市→物联网。完整的物联网体系是智慧城市建设的基础,大数据、云计算、深度学习等技术的进步也推动着智慧城市的发展,智能物联时代已经到来;④生成对抗网络→生成对抗网络。生成对抗网络是非监督学习中的重要方法之一,具有能充分拟合数据、生成样本更锐利、速度更快等优点,在超分辨图像生成、视频预测等方面有着广泛应用,有学者称生成对抗网络突破了深度学习的发展瓶颈,是深度学习领域未来的发展方向[20];⑤老年痴呆症→老年痴呆症和光学相干断层扫描→光学相干断层扫描[21]两条演化路径都属于深度学习技术在临床医学领域的应用,使用深度学习方法分析医学图像,实现对老年痴呆症[22]、眼病等疾病的筛查与诊断,可提高临床诊断水平,具有较高应用价值;⑥自然语言处理→ML。深度学习技术在自然语言处理中有显著效果,可实现机器翻译、情感分析等;⑦合成孔径雷达图像→遥感。深度学习是图像识别领域重要的技术手段之一,在合成孔径雷达图像分割[23]、遥感图像变化检测[24]等方面都有应用。
将主题战略图与主题演化图结合起来进行分析,总结出深度学习领域的主题演化规律如下:
(1)大部分长期演化主题间连线较细,而短期演化主题间连线较粗,说明该领域具有长期演化主题间关联性弱、短期演化主题间关联性强的特点。主要原因为该领域在早期发展阶段相关研究较少,大部分属于探索性研究,关注点较为分散,所以主题演化关联性较弱。关联性强的短期演化主要发生在近3 年,说明近年来该领域学者的关注点较为集中,大家着力攻克重点及难点,重视关键领域的前沿技术应用。
(2)在长期演化过程中,与其他主题产生关联最多的主题是卷积神经网络,演化图中球体体积最大的3 个节点也是卷积神经网络,与战略图分析一致,足以证明其是深度学习领域的代表性算法,广泛应用于图像与文本特征提取等方面[25-26]。
(3)在长期演化过程中,第四象限的基本类主题最多,占69%,其次是第一象限的引擎类主题占18%、第二象限的专业类主题占9%、第三象限的新兴/衰退类主题占4%。在近3 年的长期演化路径中,聚类主题全部属于第四象限的基本类,说明长期演化越到后期越趋于稳定,这些长期演化主题已发展成熟。另外,64%的基本类主题是由引擎类主题演化而来,74%的引擎类主题由专业类主题演化而来,说明区域之间也存在一定的演化规律。由专业、外围的第二象限演化到发展较好的第一象限,之后进入较为稳定、基本的第四象限。
(4)对于演化图中无连线的孤立主题,其大部分属于第二象限的专业类,如2006-2009 年的概念地图、地球系统科学和教学方法,2010-2012 年的学习方法和主动学习等。这些主题没有形成很大的研究聚类,也没有与其他主题产生关联,说明如果外围、专业型的研究主题没有与其他主题产生合作,会随着时间慢慢消亡。
4 结语
本文利用SciMat 得到深度学习领域的主题战略分布与主题演化脉络,实现了对深度学习领域主题的动态分析。从时间上看,深度学习领域研究已取得长足发展,整体研究数量呈上升趋势。2016 年之后,随着人工智能技术的兴起,针对深度学习领域的研究也大幅增加,且研究内容日趋丰富,最具代表性的算法为卷积神经网络与机器学习,其他基础算法还包括神经网络和特征提取算法等,涉及的应用领域包括生物医学、智慧城市和航空航天等。在演化方面,本文共识别出4 类长期演化路径和8 条短期演化路径,发现在该领域早期发展阶段,研究主题较少,主题演化的关联性较弱。2017 年之后,出现了关联性强的短期演化,智慧城市、生物医学等领域的研究主题得到了广泛重视。不同类型主题之间也存在一定的演化规律,一般是由外围、专业类主题演化为重要、发展较好的引擎类主题,经过一段时间的发展最终趋于稳定,演化为基本类主题。
领域发展规律带给研究者很多启示:应扎实掌握深度学习领域的主流技术和算法,从长期演化规律中追溯关键性的基础算法;重点关注近年来的新兴主题,从近几年的短期演化过程中找到新的研究方向,在智慧城市、生物医学、数据分析、机器人自动化等领域加大研究力度;掌握不同主题所处战略位置,适当调整研究布局,对于专业性较强的研究主题,可尝试不同领域间的交叉融合,从而促进深度学习领域持续、健康发展。