APP下载

基于CiteSpace 的结直肠癌生物信息知识图谱分析*

2021-01-24尹懋龙常永虎

科技创新与应用 2021年4期
关键词:图谱直肠癌文献

尹懋龙 ,常永虎

(1.遵义医科大学,贵州 遵义 563000;2.华北电力大学,北京 102206)

引言

结直肠癌(colorectal cancer,CRC)是胃肠道中常见的恶性肿瘤,早期无明显临床表现,但随着癌肿的增大而表现排便习惯改变,会出现便血、腹泻、腹泻与便秘交替、局部腹痛等症状,晚期则表现贫血、体重减轻等全身症状[1]。其发病率和病死率在消化系统恶性肿瘤中仅次于胃癌、食管癌和原发性肝癌。人类已经受结直肠癌这种疾病影响了几千年。但是在古人看来,结直肠癌是一种无法治愈的疾病。

多种因素会增加发生结直肠癌的风险,其中包含高脂肪饮食,膳食纤维不足,也包含遗传因素(家族聚集性,结肠癌较直肠癌更为明显)[2]。

科学知识图谱(Mapping Knowledge Domain)是利用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,显示科学知识的发展进程与结构关系的一种图形[3]。它以科学知识为计量研究对象,是一种新型计量学工具,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,为学科研究提供切实的、有价值的参考。CiteSpace(引文空间)是一款眼着于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。本文利用CiteS-pace,将国内CRC 生物信息相关文献进行知识图谱描绘,分析近年来该研究领域的发展及演进趋势,为后续的研究工作提供有价值的借鉴和参考。

1 资料与方法

1.1 数据来源

图1 文献筛选流程图

数据库:中国知网数据库(CNKI)。检索策略:高级检索,主题:“结直肠癌”“生物信息”,关键词:“基因”“临床表现”。时间范围:2000年 1月 1日-2019年 12月 31日。检索时间:2020年 4月 27日。

1.2 文献处理

选取以结直肠癌生物信息为主题的文献,包括基因表达、临床表现、研究进展等。去除无关主题、重复文献、会议论文及科普宣讲等,将筛选得到的文献以RefWorks 格式导出并用CiteSpace 去重,最后得到1116篇文献。筛选过程如图1。

2 方法与结果

2.1 文献数量

使用Excel 对文献发表数量进行统计并制作统计表,分析结直肠癌研究领域文献发表数量的时间分布情况,如图2。可见,2000-2004年发文量平缓增长,年均10.8 篇,2005-2016年在波动中快速增长,年均66.7 篇,并在2016年达到峰值,说明该领域的研究在这段时间内受到国内学者的持续和大量关注。此后,从2016-2019年总体呈下降趋势,年均83.7 篇,研究热度有所下降。

2.2 文献作者

将数据导入CiteSpace5.6.R4 软件。参数设置:时间分区 (Time Slicing):2000-2019;时间切片 (Years Per Slice):1年;节点类型(Node Types):Author;阈值(Top N Per Slice):50。共有197 位作者进入结直肠癌生物信息文献作者共现图谱(见图3),发文量≥4 篇的作者见表1。

图2 2000-2019年结直肠癌生物信息领域发文量

图3 2000-2019年结直肠癌生物信息文献部分核心作者时区分布图谱

图4 2000-2019年结直肠癌生物信息领域主要研究机构时区分布图谱

根据普莱斯定律[4],核心作者最低发文量为3 篇,由此可得国内结直肠癌生物信息的核心作者为41 人,共发文144 篇,约占总发文量的12.9%。远低于普莱斯定律要求的50%。结合作者聚类视图可知,国内对结直肠癌生物信息的研究有多个团队,但各团队内部合作比较多,不同团队之间的合作则较少,这意味着该领域的尚未形成稳定的核心研究团队,研究者比较分散。

表1 2000-2019年结直肠癌生物信息文献部分高发文量作者情况

表2 2000-2019年结直肠癌生物信息领域高发文量研究机构(前14 位)

2.3 研究机构

利用 CiteSpace 5.6.R4,节点类型选为“Instructions”,其余设置与“2.2”相同。将相同的医疗或科研机构合并,生成结直肠癌生物信息研究机构的市区分布共现图谱(见图4)。同时生成发文量前14 位的机构(见表2)。

图4 中,N=427,E=142。说明该领域领域 1116 篇文章是由427 个机构完成,圆形节点代表研究机构,节点的大小与发文量成正比,节点间的连线代表合作发表论文的情况。由表2 可知,全国范围内对结直肠癌生物信息领域比较有影响力的机构有北京军区总医院,中山大学附属第一医院和宁波市李惠利医院。由图2 可知,各机构之间连线比较少而且稀疏,说明机构间合作较少。

表3 2000-2019年结直肠癌生物信息文献前20 位关键词

2.4 关键词

2.4.1 热点方向

利用 CiteSpace 5.6.R4,NodeTypes 选择为 KeyWord,修剪方式为Pathfinder 和Pruning the merged network。其余参数与“2.2”相同。将一些异名同义词进行合并处理,例如:将“结直肠癌”和“结肠直肠癌”合并,将“p53 基因”和“p53”合并,将“k-ras 基因”和“kras 基因”合并。利用CiteSpace 生成关键词聚类示图,如图5。统计得前20 位关键词,如表3。

目前对于结直肠癌生物信息的研究主要集中在基因表达,临床表现。基因表达部分有“k-ras 基因”“基因突变”“基因多态性”“抑癌基因”等关键词,临床表现有“甲基化”“临床特征”等高频关键词。

中介中心性是CiteSpace 知识图谱中测度节点在网络中重要性的指标[5],具有高中介中心性的文章通常连接两个不同领域的关键枢纽。作为生物信息的研究,结直肠癌(0.56)成为整个领域的重要节点,结直肠肿瘤(0.39)和基因(0.28)紧随其后。

2.4.2 前沿研究

利用CiteSpace 从论文题目、关键词和摘要等字段提取后选专业术语,通过跟踪他们不同时间区间内出现频率的变化(激增),识别出代表研究前沿的若干名词术语,突发值为衡量该类名词术语激增的指标,突发值越高者,说明它的增长速度越快。利用软件将发值前25 位的名词术语按出现及持续时间大体分为3 个阶段(见图6)。2000年-2007年,代谢酶基因、p53 基因、聚合酶链反应等术语迅速增长,基因及蛋白质的研究较为热门。2008年-2012年,“西妥昔单抗”“免疫组化”“靶向治疗”等术语迅速增长,对抗体,治疗方向的研究迅速增加。2013年-2019年“肿瘤转移”“临床特点”“错配修复基因”等关键词迅速增长。说明这一时期对该问题的研究转移到临床表现上来。三个时期经历了从基因到治疗到临床表现的转变。

图5 2000-2019年结直肠癌生物信息文献高频关键词图谱

3 讨论

从文献作者的数据来看,结直肠癌生物信息研究的主要作者有李世拥、肖文华、李秋立、杨祖立、黎莹等。其中,国内对该领域研究影响力最大的团队为李秋文、肖文华、赵慧霞团队、杨帆团队和杨祖立团队。李秋文团队主要研究结直肠癌患者粪便中SEPT9(Septin9)基因的甲基化状态,并得出了粪便DNA SEPT9 基因甲基化检测可代替癌组织用于结直肠癌的早期诊断和筛查的结论[6]。杨帆团队的研究表明,结直肠癌组织中Lgr5 和MIF 蛋白均呈明显高表达,其可能与结直肠癌的发生、发展以及转移存在密切相关[7],通过对上述因子的表达水平进行调控,可能是临床上治疗结直肠癌的新靶点。

从研究机构的数据来看,只有宁波市李惠利医院、阿斯利康中国创新中心、第二军医大学东方肝胆外科医院和解放军第113 医院这几所机构有合作,其他机构基本是在独立研究该领域的问题。从机构地域来看,发文量多的机构集中在北京和上海,且地区间合作较少。

从关键词数据来看,“基因”一词反复在文献中出现,研究表明,某些基因突变可能在结直肠癌的发生、发展中起重要作用,而且与淋巴结转移和肝脏转移有密切相关,可作为判断结直肠癌恶性程度的一个分子生物学指标[8]。

4 结论

本此次研究借助CiteSpace 5.6.R4 软件,对CNKI 上有关“结直肠癌生物信息”的1116 篇相关文章进行了文献计量分析,为研究人员开展结直肠癌研究提供了参考。

图6 2000-2019年结直肠癌生物信息文献突发值提取的名词术语图

结直肠癌生物信息领域的研究热度近年来有所下降。初期以蔡世荣团队为主,主要研究裸鼠结直肠癌肿瘤生长和临床病例分析[9],中期以李秋文团队为主,主要研究一些特定基因甲基化在结直肠癌早期诊断中的应用[10]。后期以李世拥团队为主,主要研究特定蛋白在结直肠癌组织中的表达及临床意义[11]。

不同团队和时期对该问题的研究角度方法均不同,也表现在团队和机构间合作并不紧密,之前涌现的研究力量主要集中在生物信息方面,虽然总结了大量临床病例,但尚未形成稳定的研究方向。这也提示我们,下一步关于结直肠癌的研究应该在总结临床实践经验和研究生物信息的基础上寻求突破点。

猜你喜欢

图谱直肠癌文献
基于图对比注意力网络的知识图谱补全
MRI在直肠癌诊断中的价值及预后的应用研究
Hostile takeovers in China and Japan
多晒太阳或可降低结直肠癌发病率
早期结直肠癌患者凝血指标异常及其临床意义
绘一张成长图谱
基于U-net的直肠癌肿瘤的智能分割
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
图表
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges