APP下载

从宏观结构及微观分布揭示医学学科发展战略情报*

2022-09-07杨立菁陈斯斯

医学信息学杂志 2022年7期
关键词:共词高频词主题词

杨 颖 杨立菁 徐 爽 许 丹 韩 爽 陈斯斯

(中国医科大学图书馆 沈阳 110122)

1引言

1.1 学科战略情报研究意义

学科发展情况是高校整体实力评价的重要因素,也是体现高校执教能力、办学水平的重要标志,加强学科建设是高校可持续发展的必由之路,同时也是提高教育质量的重要途径。“双一流”建设视域下,高校相继出台“双一流”学科建设方案。医学高校图书馆承担着学科服务重任,应把握“双一流”建设契机,拓展医学情报服务领域,其中为学校领导和发展规划部门提供医学战略情报服务是创新发展的重要举措[1]。医学战略情报研究有利于医学科研人员把握“双一流”学科重点领域发展方向,结合自身优势, 开拓创新, 迅速获取前沿热点。图书馆学界针对“双一流”学科建设战略服务情报从理论研究到实证案例均有报道[2-3]。

1.2 有关方法

学科发展战略情报分析常应用信息计量学方法,包括共词分析、共被引分析、引文分析等,以挖掘学科热点前沿结构并通过可视化方式进行直观展现[4-5]。可视化研究不局限于单一可视化图谱,而是从多角度探索学科分布及发展。最常用到的共词可视化——战略坐标,用于揭示某学科领域内部联系及领域间的相互影响情况;此外网络分析方法展现出网络在顶点相互作用下的分布状况,以及网络在时间序列下的动态演变。社会网络分析可以通过UciNet、Pajek、NetDraw等软件进行可视化,常用于探索科学研究中的合作关系网络[6]、引用被引关系网络[7]以及共词关系网络[8]。

1.3 目前相关研究不足之处

不同的共词分析图谱从不同角度揭示学科发展情况:战略坐标从宏观角度阐释学科核心热点结构,而社会网络图谱是从微观角度揭示核心主题。目前关于共词分析图谱的研究大多关注构建独立图谱、揭示不同问题,而忽略了图谱之间相互关联问题,如对战略坐标宏观结构的内部微观状况,即每个核心主题在热点结构中的贡献度、在热点结构之间的互通关系均未能体现。本研究拟将社会网络分析嵌入战略坐标分析,揭示学科领域宏观结构及微观分布。

1.4 本研究主要内容

将免疫学科的ESI高被引论文作为数据源进行共词分析、可视化分析。从方法上,一方面,突破传统的以高频词对为研究对象的共词聚类分析,拟对高频词-来源文献的词篇矩阵进行双向聚类;另一方面,突破社会网络分析和战略坐标的单一图谱分析,拟将社会网络分析嵌入战略坐标分析,捕捉内部潜在知识内容,分析免疫学科的宏观结构及其内部主要贡献的核心主题构成。

2 资料与方法

2.1 数据源选择与数据收集

在探索学科结构及趋势演变计量分析中,数据选择对分析结果至关重要。通常情况下原始数据选择有以下几种情况:全面选择数据[9]、核心数据[10]、热点数据[11]等。目前对热点数据隐藏知识的挖掘受到广泛关注。ESI高被引论文是被引用量排在前1%的研究论文,反映近年来某学科高质量、高水平的重要科研成果。针对高被引论文的统计分析,相关文献[12-15]分别对高被引论文进行学术特征、国际合作情况、文献计量及知识图谱研究。未见对ESI高被引论文高频词对和来源文献同时进行聚类分析热点结构和前沿内容的文献。本文选择Web of Science核心合集数据库,检索式为WC=immunology,再通过“ESI精炼”,发表年份限定为2015-2018年,文献类型限定为article和review,即该领域4年来的ESI高被引论文824篇,在PubMed下载xml格式文件作为数据源。

2.2 数据处理

利用书目共现分析系统(Bibliographic Item Co-Occurrence, BICOMB)分析PubMed数据库下载的免疫学文献,统计其主要主题词出现频次,抽取频次≥8的48个高频主题词并生成这些高频词与来源文献的词篇矩阵。利用gCLUTO软件完成对词篇矩阵的双向聚类,生成聚类图谱和山丘图谱。通过聚类结果和共词矩阵在Excel中绘制共词战略坐标。利用Ucinet和Netdraw绘制社会网络分析图谱,最终将社会网络分析结果嵌入战略坐标图中,实现共词可视化图谱整合。

3 结果与讨论

3.1 双聚类结果

3.1.1 可视化山丘 根据每个类内数据分布得到山峰图,见图1。其高度与类内相似度成正比,类内相似度大则山丘陡峭。其体积与类内对象数量成正比。红色代表低类内相似度标准差,蓝色代表高类内相似度标准差。图1中cluster 0类内高频词相似度最高,表明类内高频词具有高度一致性。图中7个山峰各自独立,高度与体积适中,聚类效果较理想。

图1 可视化山丘

3.1.2 双聚类可视化矩阵 可视化矩阵分别从行和列两个维度展示高频词和来源文献的聚类结果,见图2。聚类图形的行聚类(图的左侧)表示高频词分类,图的右侧列出相对应的高频词,横线将每个类隔开,一共分为7类;聚类树图的列聚类(图的上方)表示来源文献的聚类,图的下方对应列出所代表的来源文献。可视化矩阵中颜色代表矩阵原始数据值,白色表示近零值,红色表示较大的值,图2中颜色的深浅表示高频词出现的频次。矩阵的行重新排序使得同一组的行聚在一起。

图2 ESI高被引论文可视化矩阵

3.1.3 热点结构分析 通过对ESI免疫学领域高被引论文的二分法聚类得到聚类树图。图1显示该学科领域的热点结构分为7类。根据主题词构成,见表1,结合7类代表性文章总结出7个热点结构。(1)肿瘤免疫治疗。免疫学的一个重要分支,免疫疗法已成为肿瘤治疗的重要手段。PD-1是免疫检查点研究热点。该类主要涵盖探索新的肿瘤免疫检查点、T细胞耗竭、新的肿瘤免疫抑制细胞亚群以及肿瘤免疫治疗新策略等方面内容[16-17]。(2)艾滋病疫苗的免疫学。艾滋病疫苗开发从体液免疫到细胞免疫再到两者结合不断推进。Abbott R K、Lee J H和 Menis S等[18]将具有种系VRC01 B细胞受体的B细胞转移到同类受体中,阐明前体频率、抗原亲和力和亲合力对免疫后B细胞应答的作用。Vinuesa C G、Linterman M A和Yu D等[19]介绍滤泡辅助T细胞引发B细胞启动卵泡外和生发中心抗体反应,对亲和力成熟和体液记忆的维持至关重要。(3)B7-H1/程序性细胞死亡1受体抑制途径与效应T细胞功能关系,治疗人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV)感染的机制。B7-H1与其受体PD-1结合降低肿瘤细胞免疫原性,诱导细胞毒性T淋巴细胞(Cytotoxic T Lymphocyte,CTL)凋亡,促使免疫细胞发生逃逸。PD-1是肿瘤免疫抑制的明星分子,也有其与HIV感染的免疫机制研究。Philips G K和Atkins M[20]介绍两者抗肿瘤的治疗用途。未来研究将倾向于此方法的生物标志物,以及如何单独或与其他免疫疗法、放射疗法、化学疗法和小分子抑制剂联合使用。(4)脱敏方法及免疫学机理。脱敏疗法能通过改变过度活跃的固有免疫应答产生免疫特异性的记忆性Th2细胞,使外周血中高表达的细胞因子水平恢复至正常,降低高敏反应和炎性反应,达到缓解和治疗的目的[21]。(5)寨卡病毒感染致中枢神经系统损伤的免疫机制。寨卡病毒感染相关神经系统损伤主要有吉兰-巴雷综合征和小头畸形。通过逆转录-聚合酶链反应可诊断寨卡病毒感染,影像学检查可提高合并中枢神经系统(Central Nervous System,CNS)并发症诊断的准确率。然而目前尚无针对寨卡病毒感染的特效药物及疫苗。(6)自身免疫性疾病、肿瘤的免疫学机理以及炎症和感染的免疫学。炎性小体和细胞因子参与炎症和自身免疫相关的许多先天免疫过程。从研究自然杀伤细胞(Natural Killer Cell,NK)记忆中获得基本概念,提供关于先天免疫的新见解,可能为传染病和癌症治疗提供新策略[22]。(7)免疫调控中的细胞分化与信号转导过程。免疫细胞的发育涉及转录因子、细胞信号传导蛋白和生长因子的复杂相互作用。研究发现microRNA是先天免疫细胞发育、功能以及免疫稳态维持的关键调节因子[23]。

表1 免疫学热点结构及其主题词构成

续表1

3.2 战略坐标分析

本研究得到共词战略坐标:位于第1象限的有词团5和词团0,位于第2象限为词团3,位于第3象限的是词团4、6与2,位于第4象限的是词团1,见图3。

图3 共词网络的战略坐标

3.3 社会网络分析

3.3.1 原始共词矩阵图谱 原始共词矩阵图谱展现了高频主题词的共现关系:每个节点代表高频主题词,大小与其在共词网络中出现的频次成正比;主题词之间连线表示有共现关系,粗细表示联系的紧密程度,直观体现出词对之间的关系,见图4。节点1最大,说明肿瘤免疫出现的次数最多,节点5、节点7、节点16之间连线粗,说明其共同出现的频率大。

图4 原始共现网络

3.3.2 K-core分析 图5中展现了免疫学高被引论文共词网络的核心边缘主题。得到8个K核等级,K的最高级数为8,即在K=8的核中每个词都最少和同一个核中其他词共同出现的次数≥8,是整个共词网络中连接最强、关系最紧密的部分,包括位于中间的红色节点,代表最核心的主题。K<8时,按降序依次代表次核心、中间主题和边缘主题,用蓝色、灰色、黑色、湖蓝、粉色、草绿色和翠绿色表示。

3.4 两种可视化方法的相互嵌入融合

3.4.1 原始共词网络与战略坐标相互嵌入 将每个节点赋值(标上类号),按照战略坐标分布,在社会网络图中加入坐标轴,将相同类别的词放置到一起,得到高频主题词原始共词矩阵。战略坐标排列的网络图可以清晰地显示出战略坐标中类间与类内各主题之间的关系,见图6。

图6 原始共词网络与战略坐标相互嵌入

3.4.2 K-core共词网络与战略坐标相互嵌入 用不同颜色标识核心边缘程度,在战略坐标中的位置标识核心成熟程度,将战略坐标结果(成熟度-核心度)与社会网络分析中的K核分析结果(核心-边缘)相结合,见图7。结合后的K核分析可以看到核心边缘主题词在每个聚类的类别中,而每个类别的成熟程度在战略坐标中已经体现出来。

图7 K-core共词网络与战略坐标相互嵌入

4 讨论

4.1 战略坐标分析

图3显示第1象限中的词团5密度高,表明炎症和感染免疫机理内部联系最紧密;词团0向心度最高,表明肿瘤免疫治疗与其他词团联系较广,处于研究主题核心。第2象限中的词团3处于近原点位置,表明致敏与脱敏虽位于边缘位置但已经受到关注,有望进入第1象限。第3象限的词团密度和向心度都较低,处于研究领域边缘,研究尚不成熟。第4象限的词团1中心度高但密度低,说明肿瘤免疫治疗构成的主题领域也是核心,但不成熟。

4.2 免疫学领域学科结构类间与类内各主题之间的关系

原始矩阵的共词网络图与聚类及战略坐标相结合后,清晰展现出免疫学领域学科结构类间与类内各主题之间的关系。第1象限中类团5和类团0内的各类内、类间的连线明显比第3象限中类内、类间的连线多且粗,说明炎症与感染免疫机理及肿瘤免疫治疗内部链接和外部链接均多于其他类团。战略坐标中的向心度越高的类别,在社会网络图谱中与其他类别连线越多、越粗;战略坐标中密度越高的类别,类内各个主题间的连线越多、越粗。例如图6中的第5类,主要由1号主题词贡献了向心度,同时1号主题词与本类中其他主题词连线最粗,贡献了密度,肿瘤免疫是整个领域中最为关键的方向;第0类,主要由5号主题词贡献了向心度,其与7号、16号主题词最密切、连线最粗,贡献了此类的密度。整合结果更有利于解读,能够直观地看出类内、类间每个词的关系及其对向心度、密度所起的作用。

4.3 学科研究热点层次及热点词的关系

战略坐标结果(成熟度-核心度)与社会网络分析中的K核分析结果(核心-边缘)相结合后,可以明显展示出核心领域宏观结构中微观主题的分布情况,挖掘出每个核心-非核心结构中的关键因素,清晰展现出该学科研究热点的层次及热点词的关系,见图7,聚类第5类的1、2、14、39主题词,聚类第0类的5、6号主题词为核心研究热点,显示出每个词的地位及与其他词的关系。

5 结语

双聚类分析可以反映出高频词与来源文献的对应关系,用于某学科领域的学科热点结构和近期前沿研究。基于以免疫学为样本的共词分析,绘制聚类树图展现某学科领域的主题结构、战略坐标,描绘各个研究主题在整个学科结构上的重要性或特性、社会网络图谱以进一步展现出主题内部关系。不同可视化结果的相互嵌入可多方位展现学科结构的发展过程,宏观结构与微观分布一目了然,增强可视化图谱的易读性,各种方法相互补充可以指导专业人员了解学科结构及前沿分布,帮助决策层规划学科布局,调整学科方向,促进学科发展。

猜你喜欢

共词高频词主题词
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
关键词的提取与确定
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
《中国骨与关节杂志》2016 年第五卷英文主题词索引
基于共词知识图谱技术的国内VLC可视化研究