基于 CiteSpace的计算机视觉文献大数据可视化分析
2022-03-24陆安永杨会勤黄梦园齐金山
陆安永, 杨会勤, 杭 鹏, 黄梦园, 费 驰, 齐金山
(1.淮阴师范学院 计算机科学与技术学院, 江苏 淮安 223300; 2.贵州大学 明德学院 贵州 贵阳 550025)
0 引言
计算机视觉是研究如何使用机器来模拟人眼的视觉功能,是人工智能的一个重要领域.计算视觉作为近年来的一门新兴学科,其目标在于对目标的识别检测形成从二维图像到三维图像认知能力的转变.更简单的说法就是用电脑和相机代替人的眼睛对所要观察的目标进行识别、分割、分类、跟踪和检测,从检测的图像中提取观察事物的信息,对信息进行图像加工处理,使电脑成为更适合人眼观察或检测图像的仪器设备,完成人类难以完成的任务,从而提高工作的效率.计算机视觉依托神经网络、机器学习、图像处理、信号处理等技术来完成视觉信息的分析和处理,从而建立从图形、视频、音频以及三维表现数据中进行信息提取的人工智能系统.从工作原理的角度来看,所谓视觉技术主要指的是以成像系统为基础来模拟人的视觉器官,将其作为计算机的输出手段,通过计算机来完成信息的处理和解释.计算机视觉容易受噪声、光照等环境因素以及检测训练集大小的影响,因此并不意味着计算机视觉就能完全替代人脑,其只作为我们解决问题的辅助手段,即计算机、相机设备以及各种成像系统并不一定完全按照“人眼”的方法完成数据的处理.
计算机视觉目前已广泛应用于医疗、工业、航空航天、军事、交通等领域.在工业方面,随着工业生产的高度机械化、智能化、自动化以及产品质量的标准逐步提高,因此对工业视觉系统的精准性、有效性、时效性有很高的要求.为了满足工业需求的发展,在工业领域引入了计算机视觉,将工业视觉和计算机视觉相融合以加快数据收集、整合数据的速度,提高机器和人工工作效率,进而促进工业信息化的快速发展.罗易智[1]详细阐述了工业视觉系统、计算机视觉技术的发展状况,分析了视觉技术中所使用的检测技术、图像处理技术,同时针对视觉技术进行了多方位的综合分析.李瑞娟[2]从缺陷种类的角度对印刷品进行了分析,随后重点对图像处理法以及方向图像识别等两种缺陷检测方法进行了分析,针对各种检测方法的优缺点进行了分析,对印刷品缺陷检测的未来发展进行了展望.我国工业发展在无人机行业的快速发展下取得了较大进步,在未来无人机巡线也将成为一个主要发展趋势.张兆云等[3]在机器视觉在无人机巡线中的应用综述对计算机视觉巡检技术以及其面对巡检时目标检测容易受天气、噪音以及设备故障识别率低和通信信号延迟等问题做了详细的阐述.在教学方面,刘明[4]选择体育动作项目基于计算机系统设计出了一种硬件系统进行模拟,并将其实现了与体育教学实践的融合,利用虚拟场景对体育运动员的各种姿态进行交互进而能对体育运动训练和教学提供客观、有效的数据支撑.医疗行业是当下人们最关心的问题,基于计算机视觉深度学习在医学得到了发展,彭璟等[5]提出了医学影像分割是计算机视觉在医学影像处理过程中的一个重要领域,应用全卷积神经网络的方法和循环神经网络的U-Net方法从医学影像中分割出目标区域以完成聚类分割,对医学影像进行数据的分析,为疾病诊断和治疗提供帮助.戴卫兵[6]在研究中以计算机视觉为基础研发出一种汽车驾驶系统的图像信息采集摄像头技术,能对行驶中的交通信号灯、车辆等进行检测和识别,与此同时可以将检测结构件反馈给驾驶员,辅助驾驶员保证安全驾驶.该系统具备了较高的目标识别精确度,识别速度快,且具有较强鲁棒性,在市场中的应用前景广泛.异常驾驶行为是造成交通事故的主要原因之一,为了保障行车安全,避免交通事故的发生,郭佳伟[7]在研究中开发出了一种建立在计算机视觉基础上的驾驶员异常识别和预警系统,该系统具备了较高的识别精准度和较强的实时性,其能够在行使过程中针对驾驶员的状态进行及时监控和评估,及时发现异常行为并进行预警.
为进一步了解目前计算机视觉领域的研究现状和热点,本文运用文献计量法和数学统计法,以Wed of Sciences核心合集数据库收录的与计算机视觉(Computer Vision)相关的近3万篇文献为研究对象,借助信息可视化软件(CiteSpace),根据相应的需求对计算机视觉研究的文献发文量、热点国家、热点机构、学科分布等情况进行分析并生成可视化知识图谱,对相关图谱进行深度分析以求探索计算机视觉的研究趋势和研究前沿,为该领域的研究提供一定的参考依据.
1 研究方法和数据收集
1.1 软件介绍
CiteSpace是一款应用于科学文献中识别并显示科学发展新趋势和新动态的软件,也是一款很实用的可视化分析软件,尤其是在科学引文分析方面,经过该软件分析后最终得出的就是一种被人们称为是“知识图谱”的可视化图形.利用CiteSpace从事某一领域的研究分析时,通过文献共被引和耦合网络分析、主题和领域共现网络分析、关键词共现分析、学科分布分析、国家和作者分布分析等可绘制出各个学科领域的可视化科学知识图谱,同时也可以生成知识基础和研究前沿间的聚类视图、时趋视图、时间线视图探索其研究前沿、热点和演变过程.运用CiteSpace分析学科领域的研究现状、发展进程、热点前沿及其相对应的基础知识,科研人员可以从文献中识别并发现所研究领域的发展新方向和新动态.
1.2 研究方法
基于CiteSpace文献计量法从作者、国家、学科、机构、关键词等热点分布突现文献分析计算机视觉领域的国际热点话题和研究前沿.首先将位于input文件夹的download.txt文件下载到CiteSpace中,并将其中数据完成导入,选择2000-2020年作为时间段,同时设置1年的时间切片(Years PerSlice),以摘要(Abstrct)、关键词 (Author Keywords DE)、标题(Title)和增加关键词(Keywords PlusID)作为关键术语.词类型(Term Type)、节点类型(Node Type)、连线(Links)、算法分析(Pruning)、可视化视图(Visualization)等相关参数可根据文献分析需求进行相应的设置和调整,完成参数的设定和相关的操作点击可视化信息软件CiteSpace的“GO!”即可生成计算机视觉研究文献的科学知识图谱并且导出为文本格式,进而将导出数据整理到数据处理软件Excel中,结合知识图谱和Excel表格数据对计算机视觉领域的研究现状、国际热点话题和研究前沿进行深度分析.
2 科研合作分析
2.1 国家分布
确定研究文献的关键词: 计算机视觉(Computer Vision), 机器视觉(Machine Vision), 卷积神经网络(Convolutional Neural Network), 人工智能(Artificial Intelligence), 深度学习(Deep-Learning), 图像处理(Image processing), 特征提取(Feature-extraction), 图像预处理(Image preprocessing), 目标检测(Target detection), )图像分割(Image segmentation).
CiteSpace选择2000-2020年作为时间段,同时设置1年的时间切片(Years Per Slice),以国家(Country)作为节点类型Node Types,以Cosine来为相应的连线强度,Within Slices作为其范围,Pathfinder和Pruning sliced networks为其主要算法(Pruning),Cluster View-Static 和Show Merged Network时期主要可视化视图,以此为基础来完成了软件参数以及阈值的设定,并最终绘制出了一种可视化的科学知识图谱.
计算机视觉研究国家分布图谱如图1所示,其中连线代表不同国家合作关系,粗细程度表示的合作关系的密度,两个国家的合作越紧密连线越粗.该知识图谱中总共包括的节点数量为95个,另外连线的
图1 计算机视觉研究国家分布图谱
条数达到82条,联系密度(density) 为 0.0184、LRF=3.0、LYB=5、e=1.0;不同节点表示的不同的国家,根据图谱可以将全球范围内不同的计算机视觉领域的分布情况进行清晰展示.另外也可以发现,不同节点之间连线的粗细以及密度都不高,这也说明不同国家之间的合作关系一般,各个国家关于计算机视觉研究仍处于相互独立状态.在针对CiteSpace知识图谱进行分析时,将其中心性定义为大于或者等于1的节点作为关键节点.在整个网络中心中CT主要指的是不同节点产生的最短路线的数量,可以面向整个网络来衡量其节点之间的连接作用.如果对某个节点来说其CT数值越大,就表示存在越多的最短路径,也就表示其作用具有更大的影响程度.
分析计算机视觉文献发表国家可视化图谱和计算机视觉研究国家CT分布(表1)可知, 按照CT进行数学统计, 排名前三的分别是中国(CHINA)、 美国(USA)、 英国(ENGLAND),其次是法国(FRANCE)、
表1 计算机视觉研究国家CT分布
阿拉伯(ARABIA)、印度(INDIA),西班牙(SPAN).说明各个国家之间的相互影响还是比较大的.更加值得注意的是,通过知识谱图能看出各个国家在科技领域存在着较大的竞争.
2.2 机构分布
节点类型(Node Types)、选择机构(Institution)设置参数与国家分布的参数设置一致,由可视化软件CiteSpace生成计算机视觉相关研究机构合作图谱(图2).所得图谱与计算机视觉相关研究的热点国家合作关系图谱较为相似,说明从事计算机视觉领域研究的机构在全世界也同样分布广泛,但机构之间的相互合作也和国家之间的合作关系呈较弱的态势.国家科研机构以及高校的合作是机构合作密度的主要体现,说明各个科研院所和高校在整个的计算机视觉研究领域中起着重要作用,为计算机视觉的发展做出了贡献.本文的研究重点是从文献的角度来分析计算机视觉研究现状,因此最终会得到关于高校以及机构的大量文献.从图2中可以看出,目前计算机视觉研究机构分布比较广泛,其中学术研究机构居多.
为更好地分析计算机视觉研究的热点机构,本文结合了中介中心性(CT)做进一步分析,如表2所示.分析表2中的数据可以发现,来自中国的4家研究机构(高校)进入了前10名,说明我国科研机构从
事计算机视觉领域研究的人员越来越多.从计算机视觉研究机构的CT排名表中,香港中文大学(Chinese Univ Hong Kong)、福州大学(Fuzhou Univ)以及中国科学院(Chinese Acad Sci)的CT值都超过了0.1,说明在计算机视觉方面我国的科研机构也有着较大的影响力.通过计算机视觉热点机构的可视化图谱分析并结合CT表,发现目前在计算机视觉研究领域中,中国、美国、英国等国的科研机构在文献发表数量方面都处于世界领先地位并有着密切的合作.在该研究领域同时排名靠前还有美国卡内基·梅隆大学(Carnegie Mellon Uni)、哈佛大学(Harvard Uni)以及英国伦敦大学学院(UCL).
3 计算机视觉研究热点和前沿分析
研究热点是指在某一个学科研究领域中有着重大影响和作用且处在核心地位的一个或者多个研究主题,表明当前该研究领域的研究人员最为关注的主流研究方向和发展动态趋势.对于科研人员能够清楚地认识到所要钻研领域的研究热点是至关重要的.因此,为了分析当前计算机视觉的研究热点,本文从已收集文献中提取关键词,运用可视化信息软件CiteSpace对文献采用共词分析,同时结合最短路径算法(Shortest path algorithm Path-finder),绘制文献共引知识图谱并对其关键路径进行标识,从而生成计算机视觉领域的热点知识图谱,如图3所示.该知识图谱是将大量文献的研究方向进行聚类操作,从而得到共引文献分析,即关键词和共词共现可视化网络分析图谱.其由536个节点,429条连线组成,其中节点大小表示相关文献被引次数,相应词汇在共引文献中的出现频次,各节点之间的连线反映研究、文献热点词汇之间的联系强度.通过词汇共现生成的聚类科学图谱,可得到当前计算机视觉领域的热点话题和研究前沿的网络模式结构,找到计算机视觉研究进程中的研究热点和发展态势.
图3 计算机视觉研究共引文献及前沿分析图谱
利用CiteSpace运行得出的数据,借助Excel软件可绘制出计算机视觉研究文献共被引排名分布表(表3).从表3中被引频次高的文献可分析出计算机视觉领域的研究热点等情况.但是笔者发现由于研究文献的引用关系还要受到期刊类别(Journal category)、影响因子(Impact factor)等因素的影响,因此如果只按照研究文献的被引频次进行分析会导致一定的偏差.
表3 计算机视觉研究文献共被引排名分布表
通过CT分析并参考表3中文献共被引CT函数值较大的研究文献,可以更加准确地了解该领域研究的热点话题.通过对比表3和表4,可以得出结论,即CT值较高的文献被引用的次数也相对较高.通过分析He K M在2016年、Long A在2015年、Ren S Q在2017年发表于高中介中心性相关文献,可以发现近几年计算机视觉研究主要集中在图像识别、神经网络、目标检测等阶段,其起到的影响较强,从中也能得出计算机视觉研究领域的相关理论知识.
表4 计算机视觉研究文献共被引CT排名表
结合计算机视觉研究共引文献及研究热点生成的时区视图(图4).综合分析可得出从2015年开始有关计算视觉领域的研究文献以及研究人员开始逐年增多,其研究方向集中在行为识别、机器学习等研究热点.根据TimeLine图谱呈现的分析结果进行分析可以说明这些研究主题一直是计算机视觉研究的热点领域,并且在2015-2018年间的研究热点在不断地增多,近两年(2019-2020)研究热点的增长幅度有所减小,但是从更深层次的角度来看计算机视觉的研究热点已“崭露头角”. 行为识别、人工智能、机器学习、深度学习等研究热点相继问世,并且这些热点向其他热点不断地进行渗透、延伸,更加说明了前几年的研究热点依然会是计算机视觉领域的主要研究方向.当前计算机视觉研究的热点集中在工业、医疗、航空航天、交通等多个领域,这表明计算机视觉研究已经开始从基础性的学科理论知识向实际应用研究转化,即将理论转化为实践;同时计算机视觉领域的研究也不会止步,在此基础之上仍然会向新的研究方向进发,不断地为人类社会的发展做出边际贡献.
图4 计算机视觉研究共引文献TimeLine图谱
4 结论
结合当前我国计算机视觉研究和应用现状,基于CiteSpace文献计量法对2000-2020年间Web of Sciences核心合集数据库收录的与计算机视觉研究相关文献进行分析,结果表明该领域存在着文献发表数量不多,各国家以及各个机构之间的合作关系不紧密,计算机视觉研究仍然集中在基础研究和应用层面,具体表现如下:
1) 总体层面上形成的文献数量较少.从文献发表数量上看,关于计算机视觉研究在2013年之后,相关文献数量呈现上升态势,但总体发表数量还是不多,说明计算机视觉研究力度不够.
2) 不同国家以及机构之间没有形成紧密合作.根据发表文献分布状况可知,在各国以及各机构内关于计算机视觉研究文献较多,合作主要以机构之间为主,国家之间的合作关系相对较弱.
3) 以基础性学科研究为主.计算机视觉研究处于基础阶段,大部分研究还是集中于微观层面.因此,计算机视觉研究需要进一步的规模化、量产化、实际化.
计算机视觉研究目前还是一片待发现和研究的“蓝海”,其发展潜力还需要研究人员进一步探索和挖掘,需要进一步将理论研究转化为边际贡献.希望本文的分析能够为计算机视觉相关领域的研究提供一定的借鉴.