NSFC 计算机图像与视频处理领域项目关键词分析*
2019-10-24侯素娟赵瑞珍
侯素娟,赵瑞珍,宋 苏
1(山东师范大学 信息科学与工程学院,山东 济南 250014)
2(国家自然科学基金委员会 信息科学部,北京 100085)
通讯作者:赵瑞珍,E-mail:zhaorz@nsfc.gov.cn
国家自然科学基金申请书通常反映相关领域目前最新进展和成果.申请书一般都附有关键词,这些关键词能够迅速、准确地反映出一份申请书的主题内容和重点,也是函评阶段计算机辅助指派系统进行专家匹配的重要因素之一.对某个研究领域较长时间段的大量基金申请书进行关键词的词频和趋势规律分析,有助于揭示本领域研究的热点、总体内容特征、内容之间的内在联系、学术研究的发展脉络与发展方向等[1].文献[2]对国家自然科学基金自动化领域1986 年~2017 年项目申请和资助数据进行了大量分析,发现自动化领域基金资助的相关领域反映了国内外研究前沿;同时发现,热点领域理论研究的比重大于应用基础研究.
近些年,随着网络和存储技术的快速发展,多媒体数据量呈爆炸式增长,图像和视频数据的研究已成为计算机应用领域研究的热点.2019 年,国家自然科学基金委员会信息科学部明确将“社交媒体大数据分析与处理”作为优先支持的研究领域之一[3].目前,计算机学科(对应一级代码F02)共设有65 个三级代码.近5 年,计算机图像与视频处理领域(对应三级代码F020502)的项目申请量和项目资助量在65 个三级代码中均排第一位,具体地,在申请方面,2014 年~2018 年度各类项目总量共计2 445 项,占计算机应用(F0205)项目总量的27.4%,占整个计算机学科项目总量的10.4%;在资助方面,2014 年~2018 年度各类项目总量共计646 项,占计算机应用项目总量的30.09%,占整个计算机学科项目总量的11.5%.因此,本文选取2014 年~2018 年计算机图像与视频处理领域的项目关键词进行统计和分析.
1 关键词标引量与资助率
在进行项目申报时,国家自然科学基金委员会要求每个项目标引5 个以内(含5 个)的关键词.我们统计了2014 年~2018 年计算机图像与视频处理领域的项目申请量及其标引的关键词数量(本文统计的关键词数量包含了重复出现的关键词)、项目资助量及其标引的关键词数量,见表1.
Table 1 Number of projects and keywords in the field of computer image and video processing from 2014 to 2018表1 2014 年~2018 年计算机图像与视频处理领域的项目数量和关键词数量
根据表1 中的结果统计,2014 年~2018 年申请项目2 445 项,标引关键词10 686 个,篇均关键词4.37 个.资助项目646 项,标引关键词2 844 个,篇均关键词4.40 个.
同时,我们还统计了计算机图像与视频处理领域关键词标引量(关键词标引量:申请书中所标注的关键词的个数)及其对应的项目申请量,如图1 所示.
由图1 可以看出:大多数申请项目的关键词标引量集中在4~5 个,其中,标注了4 个和5 个关键词的项目数量分别有673 项和1 377 项,分别占总项目的27.53%和56.32%,二者之和所占比例达83.85%.
此外,笔者还统计了计算机图像与视频处理领域关键词标引量及其对应的项目资助占比,如图2 所示,其中,括号内的数字为关键词标引量对应项目数量的占比.
Fig.2 Number of keywords and corresponding project funding rate图2 关键词标引量及其项目资助占比
由图2 可以看出,近5 年资助项目的关键词标引量具有以下特点.
(1)大多数获资助项目的关键词标引量集中在4~5 个,其中,标注4 个和5 个关键词的项目共计544 项,占项目总数的84.21%;标引5 个关键词的项目资助占比最高,相对于同为5 个关键词的项目申请占比(56.32%)高2.5%;
(2)结合图1 数据,可以计算出标引1~5 个关键词的项目资助率分别为25%,20.69%,26.83%,24.37%,27.6%,其中,标引5 个关键词的项目获得资助的比例相对较高.
以上分析表明,获资助申请书其关键词标引量绝大多数在4 个或以上,当申请书的关键词标引量为5 时,获资助比例较高.
2 关键词词频与资助率
2.1 关键词词频统计
词频用于定义关键词在某一研究领域中出现的频次高低[4].我们对2014 年~2018 年计算机图像与视频处理领域申请及获资助项目的关键词词频进行统计,表2 中列出排序在前10 的关键词及其词频(注:申请及获资助项目的关键词总量分别为10 686 和2 844).
由表2 的统计结果可以看出:
(1)从关键词反映出的申请项目的研究热点与专家的认可度基本一致,例如:申请项目和资助项目词频排序在前2 位的均依次为“深度学习”和“特征提取”.然而,两者其他关键词的研究热度和专家认可度并不一致,如“图像理解”在资助项目的关键词词频排序中列第3 位,而在申请项目的关键词词频排序中列第7 位;
(2)高频词确实反映了计算机图像与视频处理领域的热点:a)随着AlphaGo 战胜人类围棋世界冠军,人工智能迎来第三次热潮,深度学习成为本领域备受关注的研究内容,这在表2 的词频统计结果中得到了充分体现;b)图像特征提取是图像和视频研究的关键,特征提取的效果直接决定着图像和视频应用的性能.如何从原始图像中提取具有较强表示能力的特征,是计算机图像与视频处理的一个研究热点.这从表2 中也得到体现.
Table 2 Top 10 keyword frequency in the field of computer image and video processing from 2014 to 2018表2 2014 年~2018 年计算机图像与视频处理领域项目关键词词频TOP10
2.2 关键词词频与资助率
我们对计算机图像与视频处理领域的项目出现频次较高的关键词的资助率进行统计,并将统计结果按照资助项目的关键词词频高低进行排序,表3 给出了资助项目词频排序在前10 的关键词的资助率统计结果.
Table 3 Keyword frequency and project funding rate in the field of computer image and video processing from 2014 to 2018表3 2014 年~2018 年计算机图像与视频处理领域的项目关键词词频与关键词的资助率
从表3 可以看出:
(1)词频高的项目,其资助率不一定高.例如:“图像理解”在资助项目的关键词词频排序中列第3 位,在申请项目的词频排序中列第7 位,其资助率较高;“目标检测”在资助项目的关键词词频排序中列第8 位,在申请项目的关键词词频排序中列第4 位,其资助率较低;
(2)涉及“深度学习”和“图像理解”的项目相对容易得到同行专家的认可.
3 研究热点变化
词频分析法是利用词频来确定该领域研究热点和发展动向的计量学方法[4].申请书中关键词词频的高低,可以反映本领域的研究热点和主要研究方向,由关键词词频分布特征可以分析出本领域研究的集中程度.为了分析近5 年计算机图像与视频处理领域研究热点的变化,笔者运用词频分析法从词频方面分别对申请项目和资助项目的关键词词频进行逐年统计,并列出词频排序在前10 的关键词(见表4).由表4 的统计结果可以看出:
(1)对于词频最高的关键词,申请项目和资助项目两者完全匹配.例如:2014 年,申请项目和资助项目词频最高的关键词均为“计算机视觉”;2015 年~2018 年,关键词“深度学习”的词频排序持续保持第一.目前,深度学习发展迅速,其研究价值和潜力正不断地被挖掘,在图像检索、语音识别、人脸识别、机器翻译等领域均取得了突出的应用效果;
(2)对于其他关键词,申请项目和资助项目两者的词频排序基本不匹配,具体表现在同一关键词不仅在同一年度的申请和资助的词频排序各不相同,而且不同年份的词频排序变化波动也较为明显.以“图像检索”关键词为例,图3 给出其近5 年在申请和资助两方面词频排序的变化.
Table 4 Top 10 annual keyword frequency of the field of computer image and video processing from 2014 to 2018表4 2014 年~2018 年计算机图像与视频处理领域项目关键词TOP10 逐年统计
Table 4 Top 10 annual keyword frequency of the field of computer image and video processing from 2014 to 2018表4 2014 年~2018 年计算机图像与视频处理领域项目关键词TOP10 逐年统计
Fig.3 Change of Word Frequency Ranking towards Image Retrieval from 2014 to 2018图3 关键词图像检索在2014 年~2018 各年度的词频排序变化
4 总结
本文从申请项目和资助项目两个方面,对2014 年~2018 年计算机图像与视频处理领域的关键词进行统计,分别对关键词的标引量和词频进行分析,并探讨了它们与资助率的关系,最后,透过热频关键词的变化分析了计算机图像与视频处理领域研究热点的变化.可以看出,“深度学习”在计算机图像与视频处理领域已持续成为大家关注和感兴趣的研究课题.