基于中国知网数据库的深度学习文献计量分析
2020-06-22梁立锋曾紫云邹玉如刘秀娟
梁立锋,曾紫云,邹玉如,刘秀娟
(岭南师范学院 物理科学与技术学院,广东 湛江 524048)
深度学习是机器学习的子领域[1],是一种对数据进行表征学习的方法[2],还是一个含有多层网络的模型,其学习过程是由低到高逐层映射到新的特征空间,具有层次化和分布式抽象的特点,这样可以拟合复杂的非线性函数,方便处理更高维度的非线性输入数据[3]。自2006年深度学习被提出后,这一课题开始受到学术界的广泛关注[4],十几年间在深度学习应用方面不断发展创新,特别是近几年,深度学习取得惊人的进展[5-6],我国必须加强研发以及推广深度学习的应用,以解决更多复杂的模式识别难题。
本研究对涉及深度学习领域方面的文献在中国知网数据库(简称CNKI)上进行检索和分析,探究深度学习领域CNKI论文的发文特点,如年度发文数量、论文基金来源、重点发文机构、主要期刊、研究热点等,为我国科研人员提供在该领域的科研活动、研究布局、管理等有用信息[7]。
一、文献数据收集与方法
(一)文献收集
以CNKI为研究分析的文献数据来源,在高级检索条件下[8],以“深度学习”为检索词,“摘要”为检索范围进行检索[9],剔除重复及无关的文献。
在检索条件中利用“不含”选项排除无关文献,其特点是:根据“有关文献”的主要特征——主题词、分类号等,缩小检索范围。
本文通过人工阅读在文献分类目录中去除无关的文献类别,结合阅读文献标题及摘要,剔除以教育学类、课堂为主题以及新闻快讯、通知等的无关文献。剔除文献时通过阅读文献的标题以及摘要,可以判断是否为有效文献[10],经排除无关文献,最后得到共7 891篇有效文献。
(二)统计方法
文献计量是一种基于数理统计的定量分析方法,它用科学文献的外在特征作为研究对象探讨相关研究的特征和规律,是一种成熟的文献分析和信息挖掘方法[11],有助于研究人员掌握某一科研领域的变化趋势[12]。
本文对文献的发表年度、基金资助状况、文献类别、主要机构、主要研究作者等信息利用CNKI的计量可视化分析以及人工计量的方式进行统计[13],将数据导入Excel,利用Excel软件的统计功能进行统计分析,并得到分析结果[14]。
二、结果与分析
(一)发文总数及年度发文分析
根据统计,关于深度学习的文献发文量近十年年际分布如图1所示。根据图1可以看出,2008-2013年有关深度学习的文献数量非常少,总量不足100篇。从2014年开始,其增长速率不断增大,发表文献的数量呈逐年递增趋势,并且在过去几年里有两个明显的增长点,分别是2017年和2018年,到2018年已经高达4 322篇。
图1 深度学习主题文献年度发文量分布图
(二)文献科学基金资助情况分析
通过统计得到基金资助的文献,获得表1数据(见下页),表1表示的是对有关深度学习的文献基金资助前13类基金及获得资助的总文献篇数。国内的基金资助项目都是根据国家和地区的发展情况制定,科研基金资助能体现科研探索的先进性和独特性[15]。根据表1可知,前13类基金占总基金资助超过85%,其中国家自然科学基金、国家重点基础研究发展计划和国家高技术研究发展计划基金支持为前三的基金支持,总占比约为70%;然后是北京、江苏、浙江、广东等我国东南部城市的自然科学基金,这些地方的基金支持约占20%。这说明国家对于深度学习这一领域的发展是非常重视的,但省级之间基金资助情况地域差别大,资助较多的省份主要分布在东部沿海一带,说明深度学习研究还需要大量的政策支持以及推广。
表1 文献所属基金资助情况
(三)研究深度学习的主要机构分析
高产机构是某一学科或研究领域学术成果的主要生产者,具有较大的学术影响力[16]。将得到的数据对文献发表机构进行整理排序,对文献发表较多的机构进行分析,结果如表3所示,主要发文机构有哈尔滨工业大学、西安电子科技大学、北京邮电大学以及电子科技大学、清华大学等,共占所有机构的73.8%。
表2 文献所属机构情况
(四)文献学科类别分布
以“深度学习”为摘要,排除无关文献后对所有文献进行分析,由于文献涉及的学科范围较广,选取前8的学科进行统计并分析如表3。
从表3中可发现有很大部分的研究是关于计算机和控制工程类的,其中计算机这一类别就有3 810篇,控制工程有2 766篇,两者总占比约83%,信息通信、交通运输、临床医学、交通运输、电气工程、通用技术、航空宇航约占14%,其他学科类别总占约3%。这反映出在深度学习领域的研究热门学科是计算机和控制工程,说明其他领域在深度学习方面的应用还有很大的潜力[17]及提升空间[18],因此在这些学科类别中需要适当加大对深度学习的研究和应用。
表3 文献所属学科类别分析
(五)研究深度学习的主要作者分析
对有关深度学习文献的发表作者进行整理分析,如表4所示,其中发表量超过10篇的只有3人,最高者发表了13篇,并且发文量最高的几个作者均属于新疆大学,他们之间合作的文章数量较多,田生伟和禹龙两人合作的文献数高达12篇,而根据统计的数据来看,发现相同机构的作者合作相对较多,而不同机构的作者之间合作较少[19]。发表2篇论文以上的大多数作者都是以非第一作者的身份发表论文,第一作者的发文总量较少,文献被引用总数较少,且研究者所在的机构比较分散、分布地区与基金资助较高区存在明显的差别,缺乏核心作者群[20]。
表4 文献主要作者情况
(六)资源类型、期刊分布分析
在CNKI中对7 891篇关于深度学习的摘要的文献进行分析,得到表5资源类型分布。根据表5可知,硕士论文文献篇数最高,占比59.4%,然后是期刊34.2%,相关的博士论文有385篇,国内会议、国际会议及学术辑刊的文献数目则较少,共123篇。博硕士的文献总篇数约占64.3%,这反映关于深度学习研究的作者科学水平较高、文献的研究质量较高。
表5 文献资源类型分析
文献来源中,博硕士的论文主要由哈尔滨大学、清华大学等大学机构发表。深度学习文献发布的主要期刊如表6所示。根据表6显示,主要发文期刊主要是计算机科学、计算机工程与应用、计算机应用等。发表文献篇数较多的还有自动化学报、中国图像图形学报、农业工程学报等核心期刊,这些期刊的影响因子较高。
表6 文献分布主要期刊
(七)文献关键词频次分析
关键词凝聚着文献的主题,而高频的关键词可以体现出该方面研究的热点方向[10]。对搜索的文献进行整理,除去“深度学习”,对总数前9的关键词进行分析得到表7。根据表7数据可知,出现频率最高的是“卷积神经网络”,其频次高达2 099次。
表7 文献关键词频次分析
三、结 论
通过利用CNKI对深度学习方面的文献进行检索、统计、分析,取得结论如下:
1)数据统计结果表明:在2008-2010年,关于深度学习的研究较少,说明这方面的研究还处于冷门阶段;2015年开始,关于深度学习的文献数量快速上升,且每一年的增长速率都明显提高,研究方向主要是计算机方面,同时还应用在信息科技、电子设备、控制工程等方面。
2)深度学习研究机构主要分布于经济发达的东南部城市,这或许跟我国的区域经济发展程度高低有关,经济发展程度在一定程度上能够反映科技发展水平,这与深度学习在科技快速发展的产生背景相对应。
3)研究作者主要是田生伟、胡清华、程学旗、唐杰等人,在这些作者中基本都是以非第一作者的身份参与研究,说明深度学习方面的研究还处于发展阶段,未出现领军人物。同一机构作者之间的合作程度相当高,但与其他机构作者合作并不紧密。