国际仿生计算研究的文献生产力与特征分析
2016-11-29万小萍
游 鸽, 刘 向,万小萍
(华中师范大学 信息管理学院, 武汉 430079)
国际仿生计算研究的文献生产力与特征分析
游 鸽, 刘 向*,万小萍
(华中师范大学 信息管理学院, 武汉 430079)
该文试图运用文献计量方法和知识可视化技术对仿生计算研究领域的全球生产力、主要研究主题、核心期刊、高效率生产国以及出版物中最常用的关键字和高被引用论文进行分析.研究结果表明,这个领域主要关注算法,模型和系统;美国是仿生计算研究的领导国以及该领域的国际合作的中心;仿生计算的研究正朝着仿生智能算法优化和集成化智能软硬件系统等方向发展.
仿生计算; 群智能算法; 可视化; 文献计量; Citespace
仿生计算(biologically inspired computation),其缩写为(bioinspired computation)是自然计算的重要分支.仿生智能计算以仿生学、数学和计算机科学为基础,涉及物理学、生物学、管理科学、智能科学和工程学等学科,具有自适应、自组织、自学习等特性和能力.部分仿生智能计算的方法的前期工作获得了诺贝尔奖,比如诺贝尔生理学或医学奖得主Frisch破译的蜜蜂跳舞行为是人工蜂群算法的基础(artificial bee colony,ABC)算法的基础;诺贝尔生理学或医学奖得主Watson和Crick所提出的双螺旋结构、诺贝尔化学奖得主Mullis所提出的聚合酶链接反应是DNA计算的基础;而诺贝尔生理学和医学奖18次多的免疫学则是人工免疫算法(artificial immune algorithm,AIA)的重要基础.
在21世纪初期,仿生计算的研究开始走向繁荣,越来越多的研究机构和个人开始关注该领域,出版了一系列高质量的论文.如2002年Deb K提出了一种快速精准的多目标遗传算法(NSGA-II)[1];同年通过对粒子群算法的运动轨迹进行了分析,提出了一系列优化粒子群算法的成果[2].2003年Zitzler E和Thiele L提出了一种多目标进化算法的绩效评估体系[3].2003年研究人员对二元约束满足问题的进化算法做了较为详尽的比较研究,并指出了一些优化修正模型的不足,提出了很多的改正意见[4].其后一种处理多目标的粒子群优化算法被提出,它是以允许该启发式搜索来处理问题与几个目标函数的方法,与其他的通过延长粒子群算法来解决多目标优化问题相比是相当有竞争力的[5];同年Juang等人结合遗传算法和粒子群递归网络设计了一种新的进化学习算法HGAPSO[6].2008年Karaboga D将人工蜂群算法与差分进化算法,粒子群优化算法和进化算法进行了比较研究,得出人工蜂群算法可以更有效的来解决高纬的工程问题[7].2009年Qin AK等人提出了一种适应战略全局数值优化的差分进化算法(SaDE),该算法的两个试验矢量生成策略及其相关的控制参数值是逐渐自我适应,因此在搜索匹配过程的不同阶段伴随着它的参数设定可以自适应地确定更合适的生成策略[8].2012年一种通过模糊粗糙集特征选择的方式提高进化实例选择算法在遗传算法的基础上结合了模糊粗糙集的特征选择过程,大大提高双方的进化搜索过程和最终预处理后的数据集[9].2013年诞生了分子进化遗产分析工具的高级版本(MEGA6),它可以用于基因和蛋白质的序列比对,推断系统的发育的历史,并进行分子进化分析等[10].
本文主要运用文献计量的方法对仿生计算领域里每年论文产量,学科类别,核心期刊,高产量国家,富有成果的研究机构进行定量分析.此外,利用可视化软件CiteSpace做了仿生计算研究领域的关键词和引文的可视化分析用来预测该领域研究的发展趋势.
1 数据与方法
1.1 数据来源
本文以SCI(Thomson ISI)网络版Web of Science中的科学引文索引扩展版(Science Citation Index Expanded)数据库为数据来源检索方法选定为高级检索,检索词为检索的关键词确定仿生计算/算法(bioinspired computation、bioinspired computing、biologically inspired computing、biologically inspired computation、bioinspired algorithm、biologically inspired algorithm)、群智能算法(Swarm intelligence algorithm)、演化算法(Evolutionary Algorithms)、生物计算(Biocomputing),各个检索词之间用or连接,数据库选定为Web of Science TM核心合集,检索期限设定为1995年~2014年,其中文献类型设定为article和review共计19 399条记录符合条件数据,下载的方式设定为全纪录并且包含所引用的参考文献,数据下载结束的时间为2015年10月20日.
1.2 研究工具与方法
在仿生计算文献计量研究中,主要对其每年论文产量,主要类别,高产量国家,主要作者和核心期刊,通过使用定量分析方法进行了深入研究,并将数据分析的结果通过MS Office Excel 2010和Ucinet绘制成图,以便于从图中获得尽可能多的信息.
此外,本文还采用可视化工具CiteSpace进行关键词和引文的可视化分析.CiteSpace是美国Drexel大学陈超美博士用Java语言开发出来的知识图谱可视化分析工具[11].采用CiteSpace软件,选定相关算法,设定时间跨度为1年,绘制关键词共现、文献共被引的网络可视化图谱,借此来探测仿生计算的研究前沿和变化趋势.
2 文献生产力分析
2.1 生产力年度表现
由图1可以看出,仿生计算相关论文在过去的20 a里急剧增长.从1995年~2000年,仿生计算的研究开始萌芽,其相关出版物相对较少且在Web of Science数据库中数量不超过800篇,2000年之后,仿生计算的相关论文迅速增加,年产出从1995年的不到30篇到2014年2 000多篇.最近几年变化稳定,特别是自2002年后,有关仿生计算的论文以一个稳定的速度增长.由图中拟合的二项式曲线可以看出,仿生计算研究在21世纪初步入快速成长期,并且可能在下一个十年里进入它生命周期中的成熟期.
图1 仿生计算文献量近20 a来变化图Fig.1 Variation on literature quantities of bioinspired computation over the last two decades
2.2 高生产力地区
如图2所示,在所有仿生计算的刊物中,美国和中国贡献了大部分的论文.美国仿生计算研究开始的较早,早在1975年开始有人着手仿生计算的研究,但是在2011年之后产出却落后于中国.其他如德国、意大利、英国和西班牙在仿生计算相关出版物上产出较低且维持一个较为平稳增长的态势.然而在所有欧洲国家发表的论文比前面的那些国家要多.从图2可以看出中国在仿生计算研究领域的活跃度较高,说明中国比较重视仿生计算方面的研究.
图2 每年仿生计算论文的国家产出情况Fig.2 Literature production of bioinspired computation in difference countries each years
通过图3可以发现美国获得最高的引用,证明其在仿生计算这一领域拥有较高的研究水平.单篇论文高引用来自北美国家(如美国和加拿大)和欧洲国家(如英国和德国).中国的平均引用率相对来说低于大多数北美和欧洲国家以及印度等,但是总引用量方面并没有比他们低多少,仅次于美国和英国.
图3 SCI中仿生计算论文引文分布情况Fig.3 Distribution of citation on bioinspired computation literature in SCI
图4中节点的大小代表国家间文献合著的中心度的大小,节点间的连线粗细代表节点间的连接强度,从图4中可以看出,在仿生计算研究论文的国际合作方面,美国、德国和中国的节点中心度较高,之间的合作较为密切.同时从图中还清楚的表明美国是仿生计算研究合作中处于中心地位.其他国家如意大利、西班牙和瑞士等在SCI出版物中的仿生计算研究合作相对较少.国家间合作网络反映了在这些国家间仿生计算研究领域的知识传递.
2.3 高生产力期刊
从图5中可以看出,在所有来自SCI数据库的期刊中,计算机科学的相关杂志上刊载了大部分的仿生计算研究的论文.在仿生计算研究的出版物中,LectureNotesinComputerScience产生了1 350篇排在第1位,IEETransactionsonEvolutionary以466篇位居第2位,AppliedSoftComputing以450篇位居第3.
图4 SCI中仿生计算的国际合作网络Fig.4 International cooperation network of bioinspired computation in SCI
图5 SCI中仿生计算领域高产出期刊的分布情况Fig.5 Distribution of productive journals in the field of bioinspired computation in SCI
图6描绘了每年有关仿生计算论文出版的分布情况.这个研究领域从2000年开始吸引了科学家的重点关注.过去的15 a里,LectureNotesinComputerScience《计算机科学讲义》作为有关仿生计算的主要刊物,在2004年和2006年几乎发表了这10 a里主要的论文,而后几年几乎没有发表有关仿生计算的论文.而IEEETransactionsonEvolutionaryComputation《电气和电子工程师协会进化计算杂志》、AppliedSoftComputing《应用软计算》和ExpertSystemswithApplication《专家系统与应用》在2007年曾一度达到了LectureNotesinComputerScience的水平.在SCIE数据库中,其他期刊在过去的10 a中保持一种平稳出版态势,大约每年出版30篇论文.
图6 每年仿生计算论文的期刊产出情况Fig.6 Production of journals on bioinspired computation each year
3 文献研究特征分析
3.1 主题分析
图7展示了仿生计算的相关研究主题分布,主要有计算机科学、工程学、数学、管理运筹学、生物化学和分子生物学、自动化控制系统等领域,而且仿生计算大多数研究论文集中在计算机科学,主要是由于它最初也是被应用在计算机科学领域.随着时间的推移,这种方法逐渐推广被用来解决生物科学或工程学中许多问题.根据SCI论文的数据显示,目前越来越多的学科领域开始关注和运用仿生计算,这些都证明了其在科学研究中的优越性.
图7 SCI中仿生计算领域论文主题分布情况Fig.7 Distribution of main subjects of bioinspired computation literature in SCI
图8描绘了仿生计算主要研究学科领域论文的年度出版的分布情况.从图8中可以看出计算机科学、工程学、数学等仿生计算相关的学科领域从1995年开始就有零星的仿生计算的研究论文出版,并在过去的20 a里,仿生计算研究领域的主要学科领域年发文量有了长足的进步,其中计算机科学与工程学这两大领域文章增速较快,其他学科领域增长则较为平稳,这些说明在过去的20 a里仿生计算被广泛的应用于计算科学与工程学这两大领域,其他学科领域对仿生计算的关注度也越来越大了.
3.2 关键词分析
关键词是作者对文章核心研究内容的精炼,学科领域里的高频次出现的关键词是从数据样本中对每一篇文献进行提取后分析出的名词短语可被视为领域里的研究热点[12].可借助CiteSpace可视化软件绘制关键词聚类图谱,来探测学科领域研究热点.通过绘制生物信息学领域的高频词(关键词和短语),来明确其研究的热点主题.在CiteSpace中设定相应参数并选择探测关键路径的路径算法(Pathfinder)绘制图谱,该算法经过模型运算来剪切网络中大部分较不重要的节点关联,只保留最重要的节点关联,同时让所有的节点均保持不动,以便从最大程度上将原网络简化为一个最小值网络[13-14].近20 a来仿生计算研究领域的研究热点聚类图如图8.
图8 主要学科主题中仿生计算论文年度生产力演化趋势图Fig.8 Evolutional trend for annual productivity of bioinspired computation literature within the main subjects
图9共有175个节点,130个连接线,图中每个圆形节点代表关键词节点,节点的大小代表该关键词出现的频次,节点越大表明这个关键词出现的频次越多节点之间的连线代表两个关键词共同出现的次数,连线越粗表明共现次数越多.在知识图谱中,仿生计算领域共现频次高于100的关键词有72个,优化(optimization)位居第一位,其它频次位于前十位的分别是:遗传算法(genetic algorithm &genetic algorithms)、进化算法(evolutionary algorithms & evolutionary algorithm)、设计(design)、算法(algorithm & algorithms)、微粒群算法(particle swarm optimization)、模型(model)、系统(systems &system)、进化计算(evolutionary computation)、差分进化 (differential evolution) 等词.具体频次分布如表1(前20个高频关键词)所示.
图9 近20 a仿生计算领域关键词共现知识图谱Fig.9 Knowledge map for keyword co-occurrence on bioinspired computation literature over the last two decades
表1 关键词频次分布表
3.3 引文分析
通常,高频被引文献中传递的知识易在某一时间段内获得较多研究者的认同,并且相关研究者往往将这些高被引文献内所包含的观点、知识作为开展下一步研究的知识基础[15].因此,高被引文献对仿生计算领域研究具有重大的参考价值,是该领域相关研究的知识基础.利用CiteSpace软件,网络节点选择参考文献,以论文标题、摘要和关键词(包括描述词和标识符)作为前沿术语来源,设置参数运行CiteSpce并选择时间线(Timeline)视图,得到仿生计算研究领域共被引文献时间序列演化知识图谱.
图10 仿生计算研究领域的共被引文献时间序列演化知识图谱Fig.10 Temporal evolution on knowledge map for co-citied literature in the field of bioinspired computation
如图10所示,我们发现仿生计算的研究可追溯到1945年,并在1966年后,越来越多的人开始关注这一领域.与此同时我们还从图中发现仿生计算的高被引文献主要集中在1985年~2002年这一区间内,选取共被引频次≥300的10篇文献作为近20 a国际仿生计算领域的高被引文献.按照被引频次高低,第1篇是1989年Goldberg DE发表的“Genetic algorithms and Walsh functions: I. A gentle introduction”一文,该文从原理和用法上对遗传算法和Walsh函数进行了简单介绍[16].第2篇是2002年Deb K发表的“A fast and elitist multiobjective genetic algorithm: NSGA-II”,该文提出了一种快速精准的多目标遗传算法(NSGA-II),与帕累托进化算法相比,NSGA-II能更好的收敛[1].第3篇是2001年Deb K发表的研究论文“Design of truss-structures for minimum weight using genetic algorithms”,该文提出用遗传算法最小重量来设计桁架结构的方案[17].第4篇是1989年Holland J H等人发表的“Classifier systems and genetic algorithms”一文,该文提出了“分类系统”这一概念,指出分类系统是大规模并行消息传递规则为基础的系统,它旨在从这样的环境中不断吸收新的信息,而不显著干扰已经获得的能力,制定套竞争假设(表示为规则)的[18].第5篇是1999年Zitzler E和Thiele L发表的研究论文“Multiobjective evolutionary algorithms: a comparative case study and the strength Pareto approach”,该文对1985年以后产生的多目标算法进行了定量比较的研究[19].限于篇幅,仅对前面的5篇文献做详细的说明.具体的10篇高被引文献按被引频次从大到小排列如表2所示,这些说明了1985年~2002年间,仿生计算的研究开始慢慢起步,许多经典的文献都出自这一时期.而自2002年后少有高被引文献出现,主要由于文献出版年限较短,时间累计效应不足,以至该时间段内文献被引频次相对不高.
表2 共被引网络中被引频次排名前10位的文献(高被引文献)
续表2
4 结论
本文采用科学计量方法、可视化分析法和内容分析法对全球仿生计算文献的影响进行了研究,且最开始通过参照仿生计算研究的文献对其研究历史进行了回顾.出版历史追溯到1945年,并从最近4~5年开始蓬勃发展.从1985年~2002年左右,仿生计算的研究处于起步阶段,然后步入快速增长阶段,现在到达其生命周期中的成熟期前期.可以预见,在不久的将来这个领域的出版物将会在一段较长时间内继续保持膨胀态势.
仿生计算在计算机科学和工程学等领域的应用越来越广泛,除此之外管理运筹学、生物信息计量、人工智能、工程计算等领域也越来越关注仿生计算,可以预见,未来仿生计算的应用还将向力学、化学、材料科学等学科领域拓展,在这些学科领域的应用将越来越广泛.
仿生计算研究主要集中在计算机科学这个学科中.在SCI数据库中,所有的产出主要集中在两个期刊上,如LectureNotesInComputerScience《计算机科学讲义》和IEETransactionsonEvolutionaryComputation《电气和电子工程师协会进化计算杂志》.在社会网络分析中发现,仿生计算研究合著论文已经逐渐成为主流,一个关于仿生计算研究的协作网络正在慢慢形成.
在所有国家中,仿生计算的相关论文分布不均.美国、中国和英国是该领域SCI论文高产国家.一些欧洲国家例如西班牙和德国发表的高影响力论文超过了中国和英国这两个高产国家.根据国家和机构分析的元数据可以看出,在过去的几十年间,仿生计算的研究中心位于美国.
仿生计算的研究领域主要集中在遗传算法、差分进化算法和微粒群算法等智能算法的优化和集成化智能软硬件系统的开发应用上.通过研究关键字,在科学数据库中,除了“优化”,“遗传算法”、“进化算法”和“微粒群算法”,“系统”是另外被高度使用的关键词,这表明在仿生计算研究领域仿生智能算法的优化和集成智能软硬件的开发和应用将是未来的研究热点.
[1] DEB K,PRATAP A,AGARWAL S,et al. A fast and elitist multiobjective genetic algorithm: NSGA-II[J]. Evolutionary Computation,IEEE Transactions on,2002,6(2): 182-197.
[2] CLERC M,KENNEDY J. The particle swarm-explosion,stability,and convergence in a multidimensional complex space[J]. Evolutionary Computation,IEEE Transactions on,2002,6(1): 58-73.
[3] ZITZLER E,THIELE L,LAUMANNS M,et al. Performance assessment of multiobjective optimizers: an analysis and review[J]. Evolutionary Computation,IEEE Transactions on,2003,7(2): 117-132.
[4] CRAENEN B G W,EIBEN A E,VAN HEMERT J I. Comparing evolutionary algorithms on binary constraint satisfaction problems[J]. Evolutionary Computation,IEEE Transactions on,2003,7(5): 424-444.
[5] COELLO C A C,PULIDO G T,LECHUGA M S. Handling multiple objectives with particle swarm optimization[J]. Evolutionary Computation,IEEE Transactions on,2004,8(3): 256-279.
[6] JUANG C F. A hybrid of genetic algorithm and particle swarm optimization for recurrent network design[J]. Systems,Man,and Cybernetics,Part B: Cybernetics,IEEE Transactions on,2004,34(2): 997-1006.
[7] KARABOGA D,BASTURK B. On the performance of artificial bee colony (ABC) algorithm[J]. Applied Soft Computing,2008,8(1): 687-697.
[8] QIN A K,HUANG V L,SIGAMTJAM P N. Differential evolution algorithm with strategy adaptation for global numerical optimization[J]. Evolutionary Computation,IEEE Transactions on,2009,13(2): 398-417.
[9] DERRAC J,CORNELIS C,GARCS S,et al. Enhancing evolutionary instance selection algorithms by means of fuzzy rough set based feature selection[J]. Information Sciences,2012,186(1): 73-92.
[10] TAMURA K,STECHER G,PETERSON D,et al. MEGA6: molecular evolutionary genetics analysis version 6.0[J]. Molecular Biology & Evolution,2013,30(12): 2725-2729.
[11] CHEN C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology,2006,57(3): 359-377.
[12] 赵蓉英,许丽敏. 文献计量学发展演进与研究前沿的知识图谱探析[J]. 中国图书馆学报,2010(5): 60-68.
[13] CHEN C. Visualising semantic spaces and author co-citation networks in digital libraries[J]. Information Processing & Management,1999,35(3): 401-420.
[14] CHEN C,PAUL R J. Visualizing a knowledge domain’s intellectual structure[J]. Computer,2001(3): 65-71.
[15] 邱均平,吕 红. 近五年国际图书情报学研究热点,前沿及其知识基础——基于 17 种外文期刊知识图谱的可视化分析[J]. 图书情报知识,2013(3): 4-15.
[16] GOLDBERG D E. Genetic algorithms and Walsh functions: PartⅠ,a gentle introduction[J]. Complex Systems,1989,3(3):129-152.
[17] DEB K,GULATI S. Design of truss-structures for minimum weight using genetic algorithms[J]. Finite Elements in Analysis and Design,2001,37(5): 447-465.
[18] BOOKER L B,GOLDBERG D E,Holland J H. Classifier systems and genetic algorithms[J]. Artificial Intelligence,1989,40(1): 235-282.
[19] ZITZLER E,ThIELE L. Multiobjective evolutionary algorithms: a comparative case study and the strength Pareto approach[J]. Evolutionary Computation,IEEE transactions on,1999,3(4): 257-271.
Productivity and characteristics analysis of literature on international bioinspired computation
YOU Ge,LIU Xiang,WAN Xiaoping
(School of Information Management,Central China Normal University,Wuhan 430079)
The bibliometric methods,knowledge visualization technologies were employed on analyzing global production,main subject categories,key journals,top productive countries,most frequently used keywords and the papers with top citations. The results suggest that the major focus in this field are algorithms,models and systems. The USA is the leading country and center for international cooperation in the field of bioinspired computation. Research on bioinspired computation extends to bionic intelligent algorithm optimization and intelligent hardware and software systems integration.
bioinspired computation; swarm intelligence algorithm; visualization; bibliometrics; Citespace
2016-05-04.
国家自然科学基金项目 (71303090,71673106).
1000-1190(2016)05-0713-08
TB17
A
*通讯联系人. E-mail: xiangliu@mail.ccnu.edu.cn.