国内呼吸机相关性肺炎研究的可视化分析
2020-03-26杨小梅
杨小梅
(河西学院附属张掖人民医院,甘肃 张掖 734000)
呼吸机相关性肺炎是指通气两天后或撤机两天以内出现的肺炎疾病,发病率占总机械通气者的6.0%~68.0%,给病人身心健康、家庭经济带来严重影响[1]。本文利用应用数学、图形学、信息可视化技术等学科的理论与方法,通过情报分析软件将共词分析[2-3]的结果深入浅出地转换为知识图谱,更为直观地展示学科专业核心结构、发展历史、前沿领域以及整体知识架构,即为可视化研究[4]。本研究采用图形双聚类可视化软件gCLUTO和Ucinet的NetDraw等为基础,利用可视化矩阵和山峰图等,展现呼吸机相关性肺炎文献的高频关键词聚类关系,对我国呼吸机相关性肺炎的研究进行知识图谱的绘制,展现我国近14年呼吸机相关性肺炎的研究情况,提供未来研究的可能方向。
1 资料与方法
1.1 文献检索策略
于2018年11月在CBM数据库以“呼吸机相关性肺炎”为主题词对1994年12月至2018年11月的文献进行主题检索,同时进行高级检索,用“OR”连接起来,不限定年限,排除新闻、指南、摘要、论文中没有关键词等类型的文献,将检出文献以Endnote格式导出,获取题目、摘要、作者、作者单位、基金、关键词等信息,共选中文献6 663篇。
1.2 研究工具与方法
采用中国医科大学信息管理与信息系统(医学)系开发的数据挖掘工具书目共现分析系统(BICOMB)[5],对纳入文献的关键词、基金、作者、作者单位等进行统计分析并建立相应词库。同时将关键词的同义词规范合并为同一个关键词,并建立关键词、基金、作者、作者单位等共现矩阵,将矩阵导入Ucinet进行转换,经NetDraw工具绘制关键词、基金、作者、作者单位等之间的共现关系网络。在该网络图中,排列接近中心的节点即在整个关系网络中处于核心地位,节点的远近反映了各关键词间的亲疏关系。同时,词频越高的节点越大,关键词彼此关系越密切则结点间连线越粗。双聚类方法即对数据的行和列同时进行聚类,可同时使用对象及其属性来提取它们的联合信息。在数据挖掘或文献计量学中应用双聚类分析,在很大程度上克服了传统聚类分析方法的缺陷[6]。本研究应用gCLUTO软件,能够实现行与列同时聚类,因此,双向聚类分析可以反映出高频关键词的对应关系,可用于总结该领域的学科基础结构和近期研究热点。将关键词矩阵导入gCLUTO软件,聚类数量根据聚类结果的优劣进行调整,形成山峰图。图中山丘的体积越大,表示该类别所含关键词数量越多,山丘越高,则该类别类内的相似性越大,山丘顶部颜色有红、黄、绿、浅蓝和深蓝5种,所代表的类内相似度标准差依次增高。采用Create Matrix Visualization创建可视化矩阵,矩阵原始数据值用颜色表示,白色代表接近0值,逐渐加深的红色代表较大的值,红色深浅表示关键词出现的频次高低。由于行与列同时聚类,可视化矩阵可以直观显示出各类别所包含的高频关键词。
2 结果
2.1 发文基金分析
采用可视化软件选中频次较高的前11个基金,将其导入Word2013绘制成饼图(见图1),占比最高的基金是国家自然科学基金和国家自然科学基金资助项目,并且国家级的基金资助占总基金的3/5左右。
图1 发文基金分布
2.2 发文期刊分析
采用可视化软件选中发文频次较高的前10个期刊,将其导入Word2013绘制成柱状图(见图2),出现频次最高的是中华医院感染学杂志,紧接着是临床肺科杂志、中国医药指南等,出现频次最低的是护士进修杂志和齐鲁护理杂志。本研究发文频次较高的前10个期刊中,核心期刊为中华医院感染学杂志和护理研究,两者频次总和为525,占这10个期刊总出现频次的 42.4%(525/1 239)。
2.3 作者发文频次分析
在作者发文频次排序中(见表1),可知发文频次最高的前4名作者分别为侯改英、马杏云、左泽兰和张玉英。
表1 作者发文频次排序
2.4 发文作者单位分析
由发文作者单位关系网络图(见图3)可知,网络图密集,各单位之间连钱较多,说明各单位之间合作较频繁。从发文作者单位排序(见表2)可知,出现频次最高的前3个单位分别是重庆医科大学附属第一医院、四川大学华西医院和重庆医科大学附属儿童医院。
图3 发文作者单位关系网络图
表2 发文作者单位排序
2.5 发文作者所在省/市分析
在发文作者所在省/市中(见表3),可知广东、江苏、浙江、河南、山东、北京、四川、广西、河北、上海、湖北和湖南这12个省/市的发文量较多,都在200篇以上,其中广东省最多(957篇)。发文量多的省/市除了北京、河南、河北、山东是北方地区,其余基本是南方地区,南方和北方地区还是有很大差别的。
表3 发文作者所在省/市
2.6 高频关键词共现网络分析
本研究对部分近义词、同义词进行相应的合并处理后,使用BICOMB软件统计关键词,选择出现频次较高的15个关键词,通过Netdraw软件绘制成关系网络图(见图4)。在入选的15个高频关键词中,频次最高的3个分别为“呼吸机相关性肺炎”“机械通气”和“ICU”。这说明造成呼吸机相关性肺炎的原因大部分是发生在ICU的机械通气病人。
图4 高频关键词共现网络分析
2.7 高频关键词双聚类
在可视化矩阵图中(见图5),左侧表示高频关键词分类,右侧对应列出高频关键词。高频关键词聚类分3类,即聚0类:呼吸衰竭、慢性阻塞性肺疾病;聚1类:气管插管、口腔护理、集束化护理、机械通气、护理、预防、呼吸机相关性肺炎、新生儿;聚2类:耐药性、病原菌、危险因素、ICU、医院感染。
图5 可视化矩阵图
采用gCLUTO软件得到双聚类结果的可视化山峰图(见图6),3座山峰相对独立,分布明显,表明聚类效果良好,图中数字为聚类号。聚0类:山丘最高,表示该类别内相似性最高;聚1类:山丘体积最大,表示该类别所含关键词数量最多,相似度标准差最小;聚2类:山丘体积较大,表示该类别所含关键词数量较多,相似度标准差小。
图6 可视化山峰图
3 讨论
3.1 呼吸机相关性肺炎研究基金资助大,受国家重视度高
基金论文量是评价某一领域研究者科研能力与水平的一项重要指标,研究其分布情况,可以得出科研过程中受到各级各类科学基金的资助状况,论文受到资助的基金级别越高,影响力越大[7-8]。从图1看出,国家自然科学基金和国家自然科学基金资助项目占比最多,分别为24.1%和18.9%。说明国家对国内呼吸机相关性肺炎的研究重视度高、投入资金多。经研究发现,呼吸机相关性肺炎发病率占总机械通气者的6.0%~68.0%[1],给病人身心健康、家庭经济带来严重影响。这也充分说明国家要投入大量的资金去研究呼吸机相关性肺炎,以减轻个人、家庭以及社会的负担。一些省级的基金资助比如广东省科技计划项目、广东省自然科学基金和天津市卫生局科技基金项目等投入较大,尤其是广东呼吸疾病研究所是国家重点实验室,在呼吸系统疾病的发病机理研究、临床诊断研究以及治疗干预等领域处于国内先进水平,并且有着先进的技术设备和科研人才,对呼吸机相关性肺炎的研究贡献大。
3.2 呼吸机相关性肺炎研究分布范围广,地区差异明显
国家/地区的发文量体现该国/地区对本研究领域的重视程度[9]。从表3我们可以看出,广东省的发文量居首位,遥遥领先于其他省/市,是国内呼吸机相关性肺炎研究的主要力量,在一定程度上可代表此领域的研究水平。全国大部分省份(除了西藏等少数省份)均有关于呼吸机相关性肺炎的研究,说明我国呼吸机相关性肺炎的研究地域分布广泛。但是也要注意,发文量多的省/市除了北京、河南、河北、山东是北方地区,其余基本是南方地区,这说明东西部差异很大。不难看出,关于呼吸机相关性肺炎的研究多集中在经济发达的东部沿海地区。究其原因,一方面可能与经济发展水平有关,经济发展水平高的地区卫生资源条件相对较好;另一方面可能与重视程度有关,相比东部沿海地区,西部经济欠发达,资源条件较差,人们的重视程度不够。同时,国家对西部的资金投入还需要加大力度。
3.3 不同研究机构合作密切,核心期刊较少
论文作者合作度指在一定时期内某一研究领域每篇文献的平均作者数,合著率是合作论文数占总论文数的比例,两者从不同的角度反映了作者的合作程度[10-11],可以反映出研究课题相互渗透与交叉的程度,一般而言,合著率越高、合作度越大,文章越有深度,该领域的探究水平与成果质量也越高[12-13]。同时不同作者的研究情况也反映了不同机构的研究程度。通过对作者单位的关系网络图(图3)分析可知,不同机构作者合作密切,关系网密集,说明国家对呼吸机相关性肺炎的研究高度重视。表2显示,发文量多的这些机构大多是学校的附属医院或者医学院校。究其原因,一方面学校的附属医院或者医学院校的护理人员借助其良好的学术氛围、丰富的信息资源以及较便利的接触新理念和新事物的机会[14],科研水平相对较高;另一方面学校的附属医院多为大型综合医院,是获得各项基金资助较多的机构,在此基础上开展的护理研究有较充分的人力、物力,研究具有一定的深度。对于其他的机构如一、二、三级医院,应加大力度培养科研型人才。从图2发文期刊可以看出,本研究发文频次较高的前10个期刊中,核心期刊为中华医院感染学杂志和护理研究,两者频次总和为525,占这10个期刊出现频次的42.4%。可以看出,在核心期刊上的发文量仍较少,说明研究水平和深度有待提高。
3.4 研究领域集中,研究热点明确,广度和深度有待提升
关键词网络图谱可以反映一个研究领域的热点,关键词之间共现的次数越多,则他们之间的关系越紧密。通过对高频关键词的网络图、矩阵图和双聚类山峰图的分析可以看出,呼吸机相关性肺炎、机械通气、ICU、护理、危险因素、病原菌和新生儿位于共现网络图的核心地位,节点较大、连接数量较多,对其他关键词影响较深,是研究机构持续关注的热点。呼吸系统疾病对人类健康的威胁逐渐引起人们的关注,近5年关注较多的呼吸系统疾病为慢性阻塞性肺疾病和呼吸机相关性肺炎,呼吸机相关性肺炎是机械通气病人最常见的并发症[15]。对于ICU呼吸衰竭的病人使用机械通气是挽救病人生命的重要手段,机械通气采用气管插管和气管切开的同时可能会由于种种原因而发生难以预料的并发症[16]。经研究发现,近几年,机械通气已经被广泛应用在新生儿重症监护中,且获得了较好的临床效果,但导致新生儿机械通气失败的主要因素是早产儿呼吸机相关性肺炎,早产儿呼吸机相关性肺炎的高危因素众多,其中机械通气时间长、气管插管次数多、胎龄小、留置胃管以及出生体质量低等因素都可以增加早产儿呼吸机相关性肺炎的临床发生率[17]。对呼吸机相关性肺炎的研究越来越偏向早产儿,为了减少早产儿的发病率,我们仍需要投入更大精力。关于该研究领域的热点仍是危险因素、病原菌和新生儿。
4 结语
通过对呼吸机相关性肺炎的研究,发现国家对该研究的重视度越来越高,资金投入也越来越多,不同机构作者的合作密切,但该研究呈现不同的地区差异。本研究的研究领域比较集中,危险因素、病原菌和新生儿仍是接下来的研究热点。仅选取CBM作为数据来源,对处理含义相近关键词的合并、类别数目和聚类效果的选择方面,依赖并取决于笔者自身相关学科的专业知识和主观判断,研究结果可能导致偏倚,存在一定局限性。因此,后续研究应当采取多库检索方式,避免数据失真;对于关键词的合并、类别判断、聚类结果的解读等,应咨询该领域专家;同时也可以采用其他软件对结果进行对比分析,从而验证双聚类的效果。