APP下载

基于CiteSpace的免疫学知识图谱分析

2022-11-03刘伟彦

现代信息科技 2022年17期
关键词:免疫学免疫治疗聚类

刘伟彦

(澳大利亚蒙纳士大学 信息技术学院,澳大利亚 墨尔本 3800)

0 引 言

知识图谱是通过数据挖掘、信息分析、计量和图形绘制等一系列处理,来可视化地展现某一领域的知识的方法,能起到相关数据分析和知识导航的作用,2005年引入我国以来,在我国勃然兴起并获得长足的发展。

科学知识图谱是以知识域(knowledge domain)为对象,显示科学知识的发展进程与结构关系的一种图像。它既是可视化的知识图形,又是序列化的知识谱系,显示了知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多隐含的复杂关系,而这些关系正好表明了某些规律性和新的知识点。

1 研究方法与数据来源

知识图谱是一种结构化的语义知识库,其价值在于通过推理,实现对现有的字符串模糊匹配,实现概念检索,同时,对非结构化知识,以图形化方法,向运用人员展示经过分析、归类、整理的知识,实现知识的结构化。CiteSpace 作为分析、挖掘和可视科研文献数据的应用系统,通过分析寻找某一学科领域的研究热点,选用频次(Freq)和中心性(Centrality)进行知识图谱分析。

考虑到免疫学的主要内容没有具体的免疫活动,且为了保证数据的完整性与权威性,检索条目为“免疫”“免疫学”。在中国知网上搜索相关内容能搜索出将近9 万条相关文献记录。同时在进行时间相关的研究时,作者选择以2003—2020年期间免疫学相关的研究领域进行研究,并以一年为单位进行时间切片,数据样本选自中国学术期刊出版总库(CNKI 总库)。选择相关性排序的前1 490 余篇论文作为研究素材,找出相关领域的研究热点并转化为可视化方式进行呈现,将此作为研究的主要对象。

2 关键词分析

2.1 文献来源与数据清洗

关键词一般能展示出论文的核心观点,对于掌握相关领域热点有相当大的帮助。为了了解免疫学在这段时间内的研究热点和新兴领域并预测学科未来走势,作者对所有论文进行了爆发词分析。具体操作为从中国知网查找2003年至2020年4月免疫学相关的文献,排除会议摘要和报道等,以“主题词=*免疫*or *免疫学*”进行检索。共得检索结果51 495 条,选择相关性排序的前1 490 余篇论文作为研究素材,然后以refworks 的格式进行保存,找出相关领域的研究热点并转化为可视化方式进行呈现,并将此作为本次研究的主要研究对象。

2.2 分析结果

这里以标题(title)、摘要(abstract)、作者关键词(author keywords)和增补关键词(keywords plus)作为聚类词来源;聚类词库选择爆发词(burst terms);节点类型选择关键词(keyword),构建知识图谱,结果如图1所示。

图1 关键词分析知识图谱

图1关键词分析知识图谱显示了2003年至2020年期间免疫学相关论文中高频出现的关键词。包含306 个节点,740条节点之间的连接。网络密度0.015 9。出现次数较多的点由较大的节点表示。分析可知除免疫学、免疫外,疫苗、免疫细胞和免疫治疗是出现次数较多且具有一定代表性的关键词。这些关键词可以大致反映出17年间免疫学涵盖的研究范围。由于其网络密度较高,且大部分关键词之间的连接都呈网状我们可以推断出这些不同的领域之间虽有较强的联系。

3 聚类分析

知识图谱的聚类分析可以将所有有关联且属于一个领域的知识点聚集起来形成聚类,以一个整体展现出来。这样的显示方式能更加明显直观地表现出学科构成和领域间的关系。

这里以标题(title)、摘要(abstract)、作者关键词(author keywords)和增补关键词(keywords plus)作为聚类词来源;聚类词库选择爆发词(burst terms);节点类型选择关键词(keyword),进行关键词知识图谱的构建工作和聚类,结果如图2所示。

图2 免疫学聚类知识图谱

图2使用点来代表结点,使用线来表示关系。这张图中一共包含622 个节点,874 条节点之间的连接。同时图片以颜色的不同用以区分聚类的不同。我们可以看出免疫学是一门涵盖领域相当多的学科在对数据进行聚类的时候,这里选择的算法是基于目录的聚类算法,该算法将免疫学分为11个类其中以涵盖节点数量为评判标准最多的是免疫失败、免疫治疗、免疫、免疫学、免疫功能、免疫应答、体液免疫和免疫原性这几个类别。

图2与表1均为CiteSpace 用基于目录的聚类算法进行的聚类分析图。通过图与表我们可以看出,免疫学的范围非常宽泛,各个不同主题之间总是有很多联系和共通点。总体呈现一种独特的网状结构。从包含节点数量来看,免疫失败、免疫治疗、免疫、免疫学、免疫功能、免疫应答、体液免疫和免疫原性是免疫学几个主要内容。各个主要聚类相互重合的区域很大,可见各个学科之间联系紧密,且经常有同时包含多个据类内容的中间学科,而免疫学这个整体也由这些小学科相互链接主要聚类构成。可以看出,这些聚类中也有少量仅与免疫学本身相关的独立学科,如淋巴细胞凋亡和隐球菌的。

表1 关键词共线网络聚类表

对图2的聚类图谱进行爆发点分析即可得到关键词突现图,如图3所示。进行结点分析可得表2关键词共现网络聚类表。

图3 免疫学相关关键词突现图

表2 关键词共现网络聚类表

分析表2我们可以看出,免疫学和免疫在2013年出现,随后于2014年左右又出现了免疫治疗、免疫抑制等比较受人关注的新技术领域。在2020年之后,免疫学还迎来过一次教学改革,相关内容也受到了较高的关注。

由图3的爆发点分析我们可以得到如下结论:免疫学的研究主流大致变化轨迹是乙型(2013—2017)、肝炎(2013—2016)、免疫机制(2013—2015),随后是肝炎疫苗(2014—2016)和动物模型(2014—2020),之后再有儿童(2015—2020)和免疫(2015—2017),最后安全性(2016—2020)、婴儿(2016—2018)、免疫反应(20916—2020。其中持续最久的研究内容是动物模型,一共维持热点长达6年之久。未成年人相关的热点出现过两次。

可见在将来,“动物模型”可能继续是教育相关的免疫学热门研究领域,而研究热点则会集中于系统性红斑狼疮、医学免疫学、类风湿关节炎、病原生物与免疫学上。

为了更加直观的显示出聚类之间的联系和时间关系,这里选择利用CiteSpace 对免疫学聚类知识图谱进行分析,得到关键词时线图谱如图4所示。

如图4所示,免疫学的各个领域中最受关注的,被论文调用次数最多的其实是免疫治疗、免疫、免疫学、体液免疫和免疫原性。隐球菌相关的领域也经常被作为关键词被引用。相关的热点研究开始时间大都在2014年到2018年,只有基础医学和免疫学有较长的研究历史。而在未来,免疫学相关的热点研究可能主要集中于免疫治疗、免疫、免疫学、体液免疫和免疫原性这两门至今还是研究热点的学科上。

图4 免疫相关关键词时线图谱

4 结 论

免疫学是一门涵盖范围较广,牵涉学科较多的科目。其主要的内容分为免疫学、免疫治疗、体液免疫和免疫原性几大块。按照免疫学总览聚类知识图谱分析方法,对免疫学的其他关联分支,同样能进行深入分析。

医学免疫学在17年间的研究领域内出现过大量的研究热点。同时医学免疫学近年来出现过微信平台和翻转课堂这样迎合时代潮流的项目,可谓是与时俱进。预计将来的热点研究将集中于微信公众平台、课程整合、翻转课堂这几个部分。

基础医学比较注重教育教学相关的研究,同时很多基础医学的论文也会提及基础医疗保险的相关内容,可见两者之间的紧密联系。其下的影响因素和虚拟仿真技术相关研究预计在将来会有进一步的发展。

细胞免疫学十分平稳,但在17年里没有大量爆发点,可见其内涵的领域大都已经被相当深入的研究过了。不过这些领域依旧被近年来的论文频频提起。在将来细胞免疫功能,巨噬细胞和癌症相关的研究(如化疗和胃癌)还会有新的发展。

这几个主要内容之间又有特殊的关系。免疫治疗、免疫功能之间的关系十分紧密,因为它们包含很多共同研究内容。而细胞学则是十分独立的学科,它仅与免疫功能相关内容有少量交集。同时免疫学这门学科与信息技术,科技教育甚至医疗保险等其他领域的研究也有一定关联。

免疫学作为一门古老而新兴的学科如今依旧有相当活跃的表现,相关论文的发文量正稳步增长。从事免疫学研究的机构和个人也有很多。然而机构之间和作者之间的合作较为稀少,合作进行得不够密切。总体呈现出一种部分集中,整体分散的状态。这可能对部分研究的进行有负面作用。

在2020年左右,免疫学相关的教育教学发生了一些变化,在基础医学和医学免疫学上有明显表现。具体是基础医学教育方面的热点结束,医学免疫学随即开始出现以改善教育教学为目的的研究。

猜你喜欢

免疫学免疫治疗聚类
自身免疫性脑炎免疫治疗进展
基于数据降维与聚类的车联网数据分析应用
免疫治疗:无效必改,效不更方
基于模糊聚类和支持向量回归的成绩预测
中国迎来肿瘤免疫治疗时代
靶向吲哚胺2,3—双加氧酶IDO的肿瘤免疫治疗小分子抑制剂研发进展
基于密度的自适应搜索增量聚类法
中医药院校《医学免疫学与病原生物学》教材分析与创新
浅谈民语言医学生免疫学实验教学的体会