基于SEER 数据库的乳腺癌研究的文献计量学分析
2021-01-21雷珍珍江思源于世博朱丽喆
雷珍珍 ,陈 鹏,江思源,于世博,朱丽喆,闫 宇,任 予
(1.西安交通大学第一附属医院乳腺外科,陕西 西安 710061;2.商洛市中心医院乳甲外科,陕西 商洛 726000;3.三原县人民医院普外科,陕西 三原 713800)
乳腺癌(breast cancer)是女性最常见的恶性肿瘤之一,也是癌症死亡的主要原因之一。2018 年全球癌症统计显示,2018 年全球有超过200 万例乳腺癌新发病例,居女性恶性肿瘤发病率首位,约占全年肿瘤新发病例的11.6%,死亡病例高达62 万[1]。我国2015 年女性乳腺癌新发病例达26.8 万,死亡病例约6.9 万[2]。研究报道,乳腺癌已成为危害女性健康的发病率最高的恶性肿瘤[3]。为减少人群癌症负担,美国国立卫生研究院下属的美国癌症研究所于1973年针对本国肿瘤患者建立了监测、流行病学和最终结果数据库(SEER),这是北美最具代表性的大型肿瘤数据库之一[4]。SEER 数据库共有18 个数据登记站,覆盖了大约28%[5]的美国人口,记录了美国50余年的已确诊肿瘤患者的人口统计数据和临床特征,并且不断更新随访结果,完善相关数据[6]。因其纳入人群数量大、资料较为齐全、平台开放、操作便捷等优点,目前为止已为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的肿瘤疾病的相关资料,尤其是为恶性肿瘤和罕见肿瘤的研究提供了宽广的路径[6]。近年来,国内外越来越多的研究者尝试利用统计学方法或机器学习方法对SEER 数据库开展肿瘤的预后研究[7]。在此背景下,本文以PubMed 数据库刊载的文献为统计源,对2010~2019 年基于SEER 数据库的乳腺癌研究态势进行分析,为今后的相关研究提供参考依据。
1 资料与方法
1.1 数据来源 在PubMed 数据库中检索2010~2019年基于SEER 数据库的乳腺癌相关研究的文献。登录PubMed 数据库 (https://www.ncbi.nlm.nih.gov/PubMed),进入高级检索,以文献标题、摘要中含“乳腺癌”及“SEER”相关词汇的文献作为研究对象,数据获取采用尽可能提高查全率的检索思路。检索式:(((((Breast Cancer[Title/Abstract]) OR Breast Neoplasm[Title/Abstract]) OR Breast carcinoma[Title/Abstract])OR Mammary Neoplasm [Title/Abstract]) AND SEER[Title/Abstract]) AND (“2010/01/01”[Date -Publication]:“2019/12/31”[Date -Publication])。检索时间为2020 年3 月10 日,共检索出812 篇文献。
1.2 纳入与排除标准 纳入标准:①基于SEER 数据库的乳腺癌相关的临床研究;②能提供足够信息的摘要或可以获取全文资料的文献。排除标准:①不在研究时间内的文献;②无法获取作者的文献;③无法获取摘要的文献;④其他与研究目的不相符的文献。数据筛选是由2 位作者独立从所有符合条件的文献中仔细提取的。
1.3 方法 通过Excel 2016 对文献内容进行分类整理,对纳入文献各年度的发文量、国家、期刊、作者、高被引文献和研究热点等进行统计分析。使用VOSviewer 生成基于SEER 数据库的乳腺癌的相关研究的文本主题关键词的知识地图。
2 结果
2.1 文献发表年限分析 最终纳入664 篇文献,其年度发文量及变化趋势见图1。从各年度的文献量分布上可以看出,近10 年来基于SEER 数据库的乳腺癌研究总体趋势呈波动性增长。
图1 2010~2019 年PubMed 中基于SEER 数据库乳腺癌研究相关文献的发文量
2.2 发文作者国家分析 对明确注明作者国家的文献进行分析,结果显示664 篇文献主要分布于26 个国家和地区,其中美国的发文量最多,其次为中国和加拿大,见表1。
表1 2010~2019 年基于SEER 数据库乳腺癌研究相关文献发文量排名前10 的国家
2.3 文献期刊分析 664 篇文献来源于187 种期刊杂志,文献数排名前10 的期刊见表2。近一半的文献发表于排名前10 的期刊上(288 篇,占比43.39%)。除了英国的Breast 期刊,其余9 种期刊均为美国出版的;排名前3 的期刊分别是:Breast Cancer Research And Treatment(IF 2018=3.471),发表文献96篇,占总发文量的14.46%,Journal of Clinical Oncology(IF 2018=28.245),发表文献28 篇,占总发文量的4.22%以及Oncotarget(IF 2018=0),发表文献27篇,占总发文量的4.07%。
2.4 文献作者分析 664 篇文献的作者共有2842 位,以第一作者和并列一作发文量为研究对象,依据总被引频次进行数据整理统计分析,结果得出发文量3 篇以上的8 位作者共发表文献29 篇,占该领域所有已发表文献的9.42%,见表3。8 位作者中美国作者最多,共有6 位,中国和埃及各1 位。排名第1 的作者为美国的Jagsi R,共发表了6 篇文献,总被引次数为190 次;排名第2 和第3 的作者为分别为埃及的Abdel-Rahman(4 篇)和美国的Agarwal S(4 篇)。
2.5 高被引文献分析 近10 年被引量最高的10 篇文献见表4。在排序前10 的文献中,《US incidence of breast cancer subtypes defined by joint hormone receptor and HER2 status》以共计被引204 次和年均被引60.90 次位居第1 位,《Differences in breast cancer stage at diagnosis and cancer-specific survival by race and ethnicity in the United States》共计被引124 次居第3 位,《Disparities in breast cancer characteristics and outcomes by race/ethnicity》以共计被引113 次位居第3。
2.6 关键词研究热点分析 通过VOSviewer 1.6.14 软件对检索到的664 篇文献的文本主题中关键词的研究热点进行分析,在所有文章的标题和摘要中使用超过20 次的关键“危险因素”,见图2。在“生存分析”数据集中包含了49 个关键词,排序前3 的关键词分别为overall survival(153 次)、grade(110 次)和prognosis(104 次);在“临床研究”数据集中包含了41 个关键词,排序前3 的关键词分别为woman(350次)、use(145 次)和association(122 次);在“危险因素”数据集中包含了35 个关键词,排序前3 的关键词分别为incidence(106 次)、period(83 次)和invasive breast cancer(74 次)。另外,“overall survival”和“prognosis”作为关键词分别出现了153 次和104次,这两个词都属于数据集“生存分析”,表明近年来研究者们越来越关注乳腺癌患者的生存状况。同时,关键字“woman”位于图3 的中心,与其他词共出现2988 次。密度图显示了关键字的引文集中区见图4。
表2 发文量排名前10 的期刊
表3 2010~2019 年发文量3 篇以上8 位作者
表4 2010~2019 年被引次数排序前10 位文献
表4(续)
图2 基于SEER 数据库的乳腺癌研究领域论文中关键词的知识地图
图3 基于SEER 数据库的乳腺癌研究领域论文中关键字的年份地图
图4 基于SEER 数据库的乳腺癌研究领域论文中关键字的密度地图
3 讨论
文献计量学是一门运用数学和统计学方法对知识载体进行定量分析的交叉学科,利用文献计量学技术可以为医学研究人员提供一个快速、高效的获取医学文献信息的途径[8]。PubMed 数据库由美国国家图书馆开发,自1950 年以来已收集超过2200 万份文献记录,涉及40 多种语言,每年新增文献记录60 多万条,被公认为世界上最权威的免费大型医学文献数据库[9]。利用文献计量方法分析PubMed 数据库所收录的基于SEER 数据库的乳腺癌相关文献,可以较为全面准确的反映这一研究领域的现状和发展趋势。
从近10 年PubMed 数据库所收录的基于SEER数据库的乳腺癌相关文献的发文量看,总体呈波动性上升趋势,且近3 年增长速度加快。这表明近年来科研人员对该领域的关注和研究越来越多,目前研究正处于稳定发展的阶段。由此推测,今后该研究方向文献仍将会保持一定的增长速度,进一步达到研究的成熟阶段。
从各国相关文献的发文量看,美国以发文量444 篇,占比66.87%位居榜首,中国则以发文量150篇,占比22.59%位居第2,虽然我国发文量已位居第2,但与美国相比仍存在一定差距。分析其原因可能由于SEER 数据库仅部分数据免费对外开放,这在一定程度上限制了国人对SEER 数据库资源的使用;其次,PubMed 数据库仅收录我国乳腺癌研究领域影响力较高的期刊,其余发表在未被PubMed 数据库收录的中文杂志中的文献无法统计在内,这也是本研究中我国学者发表相关文献所占比例低于美国的一个重要原因。但由于我国人口基数大,人均发文量与美国相距甚远,因此我国的研究者应加大对该领域研究投入,吸取国外优秀科研经验,加强与国外权威科研机构合作,从而提高我国的学术生产力,增强我国的学术影响力。
该领域发文量排名前10 的期刊相关发文量为288 篇,占总发文量的43.39%,可见发文期刊呈中心性聚集分布。该领域发文量最多的期刊为Breast Cancer Research And Treatment,有96 篇,占总发文量的14.46%,除了英国的Breast 期刊,其余9 种期刊均为美国出版的,说明美国在该领域的研究具有相当的地位和影响力。发文量3 篇以上的8 位作者共发表文献29 篇,占该领域所有已发表文献的9.42%,发文量3 篇以上的8 位作者中美国作者最多,共有6 位,中国和埃及各1 位,说明中国学者在此领域仍需努力。
学术论文是学术成果的主要呈现方式,其被引用次数是衡量学术价值的一种尺度。通常情况下,一篇文章被引用次数越多,说明这篇文章的可参考度越高,其在领域内所具有的影响力往往也越大,受关注度越高[10]。在高被引排序前10 的文献中,我国未上榜,这再次表明,要提高我国研究的质量,需要给予更多的关注。
在科学评价计量研究方面,使用可视化知识图谱是众多学者的选择。Citespace 和VOSviewer 是当前两款热门的知识图谱软件,研究发现Citespace 软件在揭示学科的动态发展规律,发现学科的研究前沿上有一定的优势[11],而对学科主题之间的关系进行清晰的呈现、或者数据量非常大的时候,可以选取由荷兰莱顿大学Nees Jan van Eck 教授开发的VOSviewer 软件绘制知识图谱[12]。对文本主题中的主题词及副主题词进行可视化分析,从可视化图中可以看出2010~2019 年主要侧重于以下3 个研究方向,“生存分析”“临床研究”及“危险因素”,表明近年来乳腺癌领域的研究热点集中于此。生存分析:乳腺癌是女性常见恶性肿瘤之一,其发病率呈逐年上升趋势,但乳腺癌总体预后较好,尤其是早期病例[13]。本研究可以看出近年来越来越多的研究都在关注乳腺癌预后生存状况。临床研究:本研究显示,基于SEER 数据库的乳腺癌早期研究中主要热点为乳腺癌患者的临床研究,关键词包括“woman”“retrospective cohort study”和“seer medicare data”等,这表明SEER 数据库作为北美最大最具代表性的数据库之一,越来越多的受到医务工作者的重视,提示我们可以建立属于自己的数据库,为广大医务工作人员提供强有力的数据支持。危险因素:乳腺癌患者的危险因素关键词包括“incidence”“ethnicity”和“higher risk”等,以往的研究表明乳腺癌的危险因素与年龄[14]、种族[15]、婚姻[16]、饮食习惯、肥胖[17]、生育状况[18]、精神压力[19]等密切相关。
尽管SEER 数据库为我们提供了大量宝贵的临床资料,但不可否认的是,由于SEER 数据库及PubMed 数据库自身的局限性,目前的研究尚存在着一些不足之处。一方面SEER 数据库未能提供患者接受内分泌治疗以及详尽的化疗方案信息,有关HER-2 表达情况于2010 年开始加入,对于患者复发转移的情况没有公开等,这给研究者带来了一定的局限性,但也提示我们可以建立属于自己的数据库,为广大医务工作人员提供强有力的数据支持。另一方面PubMed 是使用最广泛的文献计量分析数据源,但它并不包含所有生物医学期刊,偏向于英文期刊;此外,通讯作者的地址不一定与进行研究的国家有关,如许多来自美国以外的学者在美国发表论文。
综上所述,本研究发现,美国是基于SEER 数据库的乳腺癌相关研究领域的主导力量,我国与美国相比还存在一定的差距,我国的研究者应充分利用资源,吸取国外优秀科研经验,提高学术生产力,增强我国的学术影响力。