基于CiteSpace的可视化分析在医学领域的应用
2020-03-04石晶晶石树青杜柏王欢王丹丹许荣荣胡元会
石晶晶,石树青,杜柏,王欢,王丹丹,许荣荣,胡元会
学科知识可视化分析是指将可视化分析法用于学科知识的分析,以探索学科的结构及其演化特征和规律[1]。随着信息技术、大数据等领域研究的进一步推进,运用可视化软件处理海量信息己成为一种方便快捷、直观可靠的方法[2]。CiteSpace可视化分析工具是进行可视化分析常用的工具之一。
1 可视化分析
可视化分析的实质在于科研工作者运用可视化工具和方法,通过对大量相关的文献数据信息的分析和处理,形成信息可视化图、表,依靠内在数据的关系,借助计算机的相关工具绘制的图像,从中发现所关注信息的研究热点和发展趋势,有效帮助科研工作者更好地发现知识背后隐藏的信息[3]。
2 CiteSpace
CiteSpace是Citation Space的简称,是一款着眼于分析科学分析中蕴含的潜在知识,并在科学计量学、数据和信息可视化背景下逐渐发展起来的一款引文可视化分析软件。通过CiteSpace分析得到的可视化图形,称为“科学知识图谱”[4]。该软件可以提供对作者、机构、国家/地区、关键词、期刊等知识单元进行共现分析以及对参考文献、作者、期刊等进行共被引分析。CiteSpace主要是用于找出与研究领域相关的前沿动态以时间划分,通过部分之间的联系得出总体的联系,直观地展现某一领域发展的状态。该软件通过分析一段时间内某领域的研究文献,用图的方式展现各个元素之间的关系,显现出该领域的研究热点、主题演变、研究前沿等内容,既能够展示某个研究领域地整体状况,也能够突出显示那些在该领域发展历程中地一些特定重要文献或节点,帮助读者更好地理解所研究的领域。
3 CiteSpace的应用
CiteSpace软件系统最早开发于2004年, 在实际应用中科学有效而又简单易用,且具有丰富而美观的可视化效果, 因此在国内外信息科学领域得到了广泛应用[5]。
3.1 在英文科技论文中的应用情况通过web of science核心数据库以CiteSpace为主题词进行检索,共获得241篇SCI文献,进一步对发表在web of science的应用CiteSpace的科技论文进行统计分析发现,应用CiteSpace的国家/地区有30多个,中国和美国是应用CiteSpace较多的国家,应用领域多达86个,主要的研究领域是环境科学,情报科学图书馆科学,绿色可持续科学技术等。通过对相关文献中关键词进行可视化分析(图1,表1),出现较多的关键词是“引用空间”、“新兴趋势”“文献计量分析”“可视化”‘科学’“科学计量学” “影响”“共被引”“图谱”“中国”,说明各研究领域运用CiteSpace主要对研究现状的可视化和研究趋势进行探索。在研究中CiteSpace的文献/期刊/作者共被引功能是使用较多的分析功能,中国是应用CiteSpace最多的国家。
图1 关键词共现可视化图谱
表1 出现频次排名前10的关键词
文献共被引是指两篇文献共同出现在了第三篇施引文献的参考目录中,则这两篇文献形成共被引关系。通过对一个文献空间数据集合进行文献共被引关系的挖掘的过程就可以认为是文献的共被引分析。文献共被引分析可以在海量的被引参考文献信息中高效便捷地定位出研究领域重要的知识基础[5]。通过对CiteSpace相关文献的文献共被引分析,得到文献共被引可视化图谱(图2,表2),由图表可知,共被引频次排名前五篇的文献的第一作者均是CiteSpace软件的开发者——陈超美教授。陈教授是美国德雷塞尔大学计算机与情报学教授,被国内外同行专家评价为当代信息可视化与科学知识图谱学术领域中的国际顶尖级领军人物。
3.2 在中文科技论文中的应用情况2019年12月20日,通过中国知网提供的主题检索功能,以CiteSpace为主题词检索,共得到2653篇文献,对CiteSpace软件在中文科学研究的应用相关文献进行统计分析,结果见图3。
图2 文献共被引可视化图谱
表2 共被引频次排名前5的文献
图3 CiteSpace相关文献年发文量趋势图
由图可知,CiteSpace软件在中文论文中的应用在2006年至2019年一直呈增长趋势,2006年至2014年呈稳步增长趋势,从2015年开始,年发文量呈倍数趋势增长,反映了CiteSpace在近5年应用的广泛程度。进一步对中国知网文献数据库以CiteSpace相关文献的主题词进行统计发现,使用CiteSpace分析的这种方法通常被被描述为“知识图谱(923)”“可视化分析(810)”“知识图谱分析(236)”“可视化(226)”等,使用CiteSpace分析的目的有“研究热点(474)”“研究前沿(92)”“研究现状(86)”“研究进展(64)”“热点分析(58)”等;采用的方法有“文献计量(172)”“文献计量分析(96)”“计量分析(54)”等。在中文研究中,采用的数据库有CSSCI(98),web of science(52),中国知网(44);合用的其他计量学软件较多的是VOSviewer,主要分析的内容是发文量(388),中心度(43), 核心作者(40)突现词(38)等。
CiteSpace在适用领域上没有限制,分析所有检索的文献的学科领域(图4)。如图所示,CiteSpace的应用主要在图书情报档案领域,教育、语言、体育、农业经济、工商管理、旅游经济、新闻传播、计算机、临床医学、环境、经济、政治、社会管理、科学学与科技管理、基础医学、公共卫生与预防医学等学科领域。
CiteSpace在学位论文中的应用也非常广泛,2019年12月20日,通过中国知网学位论文的主题词检索,发现以CiteSpace为主题进行研究的学位论文有145篇,研究的领域涉及信息科技,社会科学,经济与管理科学,医药卫生科技,哲学与人文科学,显示了CiteSpace在国内各领域研究的重要性(图5)。
图4 CiteSpace相关文献的学科分布图
图5 CiteSpace相关学位论文的学科分布图
3.3 在医学领域的应用CiteSpace在适用领域上没有限制,即自然科学和社会科学的研究都可以进行分析。医学学科的发展迅速,新理论、新概念、新发现等形形色色的变化相对频繁、内容变化幅度大,通过CiteSpace可视化分析可以很好的体现此类变化。故CiteSpace在医学相关领域的应用相当广泛,其研究内容丰富,可以分析难治性疾病、研究热门疾病、合并病、发病机制、病理因素、诊断及治疗方法、甚至特定细胞在各个及疾病疾病中的研究现状及趋势也可以采用CiteSpace进行分析。在中医领域中,CiteSpace可用于研究证候及相关诊断标准等。如:①在难治性及热点疾病的可视化分析方面:张亚妮等对系统性红斑狼疮治疗研究进行了可视化分析,结果显示,系统性红斑狼疮和狼疮性肾炎的药物治疗和并发症及充质干细胞治疗是相关领域的研究热点,狼疮性肾炎的预防和免疫治疗可能是未来的研究焦点[7];许革新等对干细胞治疗阿尔茨海默病的研究进行了了可视化分析,阐述了干细胞治疗阿尔茨海默病研究的演进路径与干细胞移植研究密切相关[8];高血压是研究较多的热点疾病,利用CiteSpace可以分析高血压疾病[9]、高血压靶器官损害风险因素[10]及相关中医和西医[11]治疗方法或药物的研究热点和趋势,其他还有关于心肾综合征[12]、心肌病[13]、门静脉高压症[14]等疾病的可视化研究。②在对合并病进行研究方面,如计龙等对阻塞性呼吸睡眠暂停综合征与心血管疾病关系[15]进行了可视化分析③在对影响疾病的因素的可视化分析方面,李志刚等运用可视化分析方法研究了运动与老年痴呆关系的研究现状及进展。④在发病机制的可视化分析方面,段明香等对糖尿病发病机制的相关研究进行了可视化分析[16],分析了2型糖尿病机制研究的发展历程;薄荣强等应用CiteSpace软件对心血管疾病领域单核细胞亚群相关研究进行了梳理分析,发现心血管研究领域中,研究单核细胞亚群的主要病种有急性心肌梗死、冠心病、心衰、急性冠脉综合征等,单核细胞亚群在心血管疾病中研究内容主要与炎症或免疫相关[17]。⑤在中医学领域中,秦义等将基于CiteSpace的可视化分析方法运用到证候诊断研究中,并绘制气虚证[18]、血瘀证[19]、气阴两虚证[20]等证候诊断标准研究的知识图谱。崔德华等对中医体质学说进行了可视化分析[21]。
应用CiteSpace处理数据,通常要经过数据收集、数据预处理、数据聚类分析、数据可视化、数据可视化挖掘等过程, 数据搜集过程是可视化分析的第一步,是数据可视化分析的基础,要想获得理想的结果、更好地显示数据间的关系,就得保证预处理数据的质量[22]。因此在数据收集时,需要制定合理的文献信息检索策略。在作图过程中,需要进行适当的参数设置,防止造成做出的图谱信息混乱或者信息过载。Citespace可视化软件的聚类算法主要是利用名词性术语来探测学科研究热点,发现图谱中的突变词,进一步帮助科研工作者探析研究热点,把握研究方向。在对图谱信息的解读时,需要有一定的专业领域的知识储备。