APP下载

科学知识图谱视角下CiteSpace 的学科基础与原理分析

2024-02-18胡乙

中国设备工程 2024年1期
关键词:图谱可视化领域

胡乙

(江苏经贸职业技术学院,江苏 南京 211168)

CiteSpace是CitationSpace的简称,是一款分析文献中潜在知识的可视化分析软件,广泛适用于各学科研究。但在实践中,部分作者只是借助该软件更好地展示数据,而不是利用软件的强大功能深入地发掘文献间隐藏的信息,据此,研究拟从情报学可视化技术入手,详细阐述CiteSpace发明过程中涉及的学科知识,并据此分析该软件的主要功能与原理,以此为基础,研究者能更深入地发掘该软件的价值。

1 可视化技术与科学知识图谱

可视化技术推动了对知识图谱的研究,而CiteSpace软件是文献图谱专用绘制工具之一,其能辅助研究者有效识别学科热点与研究前沿。

1.1 可视化概念及分类

可视化是图书馆学情报学一般研究方法之一,是将数据转化为可视表示形式的过程。从离散数学考察,其本质是建立从抽象数据集合到可视化结构数据集合之间的映射。可视化分类包括数据可视化、科学计算可视化、信息可视化与知识可视化。可以将可视化视为连接人与电脑信息处理系统的桥梁。

可视化的产生涉及诸多跨学科知识与技术,如高等代数、计算机图形学、图像处理等。其能将知识之间的联系以表格、节点、图等方式展现在屏幕上,这种方式有助于人们对数据或信息集合从一个全新的角度进行观察分析,以发现过去研究中遗漏的隐藏情报。在大数据、人工智能、5G 通讯背景下,可视化技术为文本挖掘、情报挖掘等提供了新的的工具。例如,目前流行的科学知识图谱与专利地图就是可视化技术在情报学中的具体应用。

1.2 可视化与科学知识图谱

知识图谱的概念,源于万维网之父Ti.m Bener-Lee关于语义网的设想。其旨在运用图结构来构建世间所有万物之间关系及知识,以便实现更确切的搜索。其在搜索引擎、语言理解、大数据分析决策等领域得到了广泛应用,已经成为自动化知识获取、大规模图挖掘与分析等领域不可或缺的工具。

狭义的知识图谱特指一类知识表示,本质上是一种大规模的语义网络;广义的知识图谱是大数据时代知识工程一系列技术的总称。从狭义角度考察,此种大规模的语义网络包括实体、概念及其之间的各种关系,其中,语义网络是知识图谱的本质。与传统的语义网络相比,知识图谱代表的语义网络规模巨大、语义丰富、质量精良、结构友好。语义网络是一种以图形化的形式,通过点与边描述知识关系的方法。图形中的点可以描述实体、概念和属性。实体称为对象或实例,它是一切属性的物质基础,是有明确指代意义的。概念又称类别、类,其是指一类人,这类人有相同的特征。概念所对应的动词称为概念化和范畴化,概念化一般指识别文本中的相关概念的过程,例如,拉格朗日的中值思想;范畴化一般指实体形成类别的过程,如具有若干哲学思想的人们组成某个特定的哲学派别,则这一学派的形成就是典型范畴化的过程。每个实体都有一定的属性值,包括数值、日期、文本等,知识图谱的推理即是建立在实体、属性与关系之上。

科学知识图谱在图书馆学情报学应用领域,包括识别学科领域热点、展示学科研究前沿、分析引用关系等。

2 CiteSpace 的主要学科基础理论

从哲学、社会学、数据科学,数学等学科入手,可全面理解软件包含的学科基础知识。

2.1 科学革命的结构

CiteSpace设计灵感之一,是来源于托马斯·库恩的《科学革命的结构》。库恩重塑了科学的真理形象,其“范式论”“不可通约论”为科学史研究提供了新的视角。

库恩思考的根本问题可以概括为“科学进步的机制是什么”。这是需要借助科学史研究才能回答的问题,但传统的研究方法存在缺陷,而作者尝试从科学史的编著工作中找到突破口。科学知识的历史不是简单增长过程,其中某个阶段必定会发生根本性的转变,新的科学观应以研究此类根本性转变为宗旨。同时,科学研究活动并不是单个人的孤立活动,而是群体活动。为了能顺利有效地开展研究,科学共同体一般会就研究的基本事项达成共识。此类共识具有历史性与偶然性,并且预定了科学知识的类型。正是这些共识的变迁带来了科学知识系统的大转换,也就是科技革命的发生,决的重大疑难问题,

《公务员法》和《劳动法》都有规定:公务员和劳动者患病在医疗期间不得被辞退的相关表述,但对于超过医疗期的劳动者和公务员是否应当被辞退,法律没有硬性规定,出现大部分公务员生病期间也会受到很好的待遇,薪酬基本不会降低,但企业特别是民营企业的做法是辞退员工。由于单位性质的不同,员工患病后也会出现截然不同的待遇。

2.2 结构洞

20 世纪90 年代初,美国社会学家伯特提出了结构洞理论。该理论描述了网络中不同节点是如何影响行为人收益的。概括地说,如果网络中的行动者所连接的其他行动者之间不存在直接联系,则这个行动者就占据了结构洞的位置,能够通过中介机会获取社会资本收益,从而带来竞争优势。该理论创造性的从结构角度对网络进行分析,不仅有助于挖掘关键的行动者和关键位置,更有利于拓展研究与发展的视野。自问世以来,该理论在管理科学、社会科学与经济学等多个领域得到了广泛的运用。

结构洞来源于网络分析学派的理论成果,并与社会资本共生理论密切相关。人的行为,不仅是受所处网络结构影响,也受人自身欲望影响,人具有选择行为的主动性。如行动者彼此越接近,关系越密切,则其拥有的资源也基本相同,此种密切关系难以使个体获得稀缺资源。相反,行动人能从弱的关系中寻找到更有价值的资源,由此引出社会资本概念。社会资本来自构成社会的诸要素,单独的个人并不能完全拥有社会资本,只有参与交换网络,并与他人建立关系,才能获得所需收益。总之,处于结构洞的行为主体往往能接触更多的信息,并能占据更大的优势,没有中间人,则部分群体或者个人无法发生交换关系。而位于结构洞的行为主体即可视为发挥连接作用的中间人。

2.3 图论

离散数学通常以逻辑与集合论开端,并以此为基础讲授函数、数列、算法等后续内容。而图论在各个领域中可进行可视化处理,图模型为多个学科与领域提供了求解问题的新思路。图是由顶点连接顶点的边构成的离散结构,根据图中的边是否有方向、相同顶点对之间是否可以有多条边相连,以及是否允许存在短路环,可将图分为多个类型。图模型在多个领域中均可用于建立数学模型,例如,文献计量学或科学计量学用图表示论文引用关系以及研究人员、研究机构与团队间合作关系等。一个图是由顶点非空集合与边的集合组成,每条边有一个或两个顶点与它相连,这些顶点称为边的端点,边连接它的端点。点与边使得可视化分析有了可能。图的类型、同构、连通性、通路等问题,为科学计量与可视化研究提供了新的思路。

3 CiteSpace 主要功能分析

从引文网络分析、中介中心性、突发性检测、共词分析等入手,可深入理解软件的主要功能与操作步骤。

3.1 引文网络分析

引文网络分析是科学计量领域的重要研究方向,其通过研究参考文献被引用的网络特征来探索科学知识发展的特征与规律,为学科研究、技术创新、科学评价等科技活动服务。引文分析是对科学文献参考模式的探索,多用于影响力分析、知识流和知识网络等多个社会科学领域中。该方法有助于解决研究、管理或信息服务等相关问题,例如,学校排名、研究评估、知识可视化等,受到了诸多领域学者的好评。

要进行科研合作网络分析,可运用CiteSpace科学合作网络分析功能。该分析包括三个层次:作者合作网络、机构合作网络、国家与地区合作网络。其中节点大小代表了各成员发表论文的数量,节点间连线描述了不同主体间合作关系。以作者合作网络分析为例,依照前述步骤新建项目后,在节点类型中选择Author,可得到初级作者合作网络。在合作网络图中,选中某一节点,右击Node Detail即可查询该作者发表论文的时间统计及论文内容。在机构合作、国家地区合作网络中也可运用上述功能。

3.2 中介中心性分析

节点的中介中心性有助于发现有价值的、新颖的成果。仅仅有好想法,出于风险最小化和利益最大化考虑,人们会谨慎行动。学术中的新发现往往具备高风险,但同行的支持有助于降低这种风险,使新的成果产生。如发现已经有学者在研究类似的问题,则同行进行同一研究的风险会显著降低。具有争议性的结果发表后,往往会带来更多的研究,即对风险与收益重新审视后,学者在新环境下更容易积极行动。

3.3 突发性检测

克莱因伯格认为,文本挖掘的一个基本问题是从随着时间连续到达的文档流中提取有意义的结构。电子邮件与新闻报道是文档流的自然例证,它们均以出现的主题为特征,在一段时间内强度突然增加,然后逐渐消失。在特定领域中发表论文的数量在较长时间内也表现出类似的现象。文档流中主题的出现是一种突发活动的信号,随着某个特定主题的出现,某些特征的频率会显著上升。如果能开发一种简便算法,对此类突发活动建立数学模型,则有可能稳健高效地识别它们,并且有可能为分析底层内容提供组织框架。

在CiteSpace中,有两处可以对节点进行突发性检测:(1)在可视化界面,点击CitationFrequencyBurst;(2)点击控制面板Burstness功能区的Refresh。如果存在具有突发性特征的节点,则电脑会将这些节点标注特殊颜色。

3.4 共词分析

共词分析法最早由法国文献计量学家Callon提出。其通过统计一组词在同一篇论文中同时出现的次数,以此为基础,对这些词进行聚类分析,以发现这些词组之间的亲疏关系,进而分析论文所涉及学科领域中主题之间的关系。如果一对关键词在同一篇论文中出现次数越多,则表明两者之间距离越近,关系越密切,学者对这两个词所涉及的领域也较为关注,同时,这些研究主题可能是该领域的研究热点。

以关键词分析为例,该方法是对论文集合中作者与数据库提供的关键词进行共现分析。在webofscience中,则对DE与ID所存储的数据进行共现分析。在节点类型中选择Keyword,在功能区设置相关参数后,CiteSpace可生成关键词共现网络。

以术语共现分析为例,该方法从论文标题、关键词、摘要中提取名词性术语后,通过自然语言处理的过程形成共词网络。在CiteSpace功能参数模块TermTypes选择NounPhrases,此时会弹出part-of-speech.TaggingOpinion对话框,首次支行时需要点击CreatePOSTagS,CiteSpace会显示相关时间跨度与论文数量信息,此时在节点类型中选择Term后可创建共现网络。

以科学领域共现分析为例, 该方法涉及wc(webofscienceCategory)与sc(Subject.Category), 两者是webofscience对期刊在更加广阔视野中的科学分类。wc比sc分类更为细致,在CiteSpace中,在节点类型中选择Category,可建立科学领域共现网络。在共现图谱中,右击可选择节点细节以观察某一领域研究的时序特征,也可以对不同领域发文突发性进行检测。

4 结语

未来研究中,知识图谱仍在发展,现实应用对知识图谱技术提出了众多挑战。在知识表示层面,未来研究应关注知识图谱与规则等其他知识表示相联合的方式。在知识获取层面,未来研究将关注如何和降低自动化知识获取过程中的成本。在知识应用中层面,未来研究将关注增加器学习能力,实现可解释人工智能等目标。

猜你喜欢

图谱可视化领域
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
领域·对峙
“融评”:党媒评论的可视化创新
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
新常态下推动多层次多领域依法治理初探
肯定与质疑:“慕课”在基础教育领域的应用