精准医疗领域的研究现状及其可视化分析
2017-03-21,,,
,,,
1 引言
2007年,美国系统生物学研究所创始人Leroy Hood教授提出“P4医学模式”,后来增加第5个P,即精准[1]。精准医疗于2011年在美国国家研究委员会的《迈向精准医学:建立生物医学与疾病新分类学的知识网络》中正式提出[2],随后制定了“百万美国人基因组计划”与“电子病历与基因组网络”等一系列规划[3]。美国总统奥巴马于2015年1月20日宣布“精准医疗计划”,计划2016年投入2.15亿美元,开启“个性化医疗”的新时代[4]。2015年2月我国成立了由19名专家组成的中国精准医疗战略专家组,同年3月科技部组织召开了首次精准医学战略专家会议,会上提出要在2030年前投资600亿人民币用于精准医疗研究[5]。英国政府于2012年提出“10万人基因组计划”,该计划由英国基因组(Genomics England)的国有公司负责实施,旨在对英国国民医疗保健制度(NHS)记录中的10万名患者的完整基因组进行测序研究[6]。
精准医疗着眼于个体基因、生活方式和环境等区别,融合大数据驱动研究,个性化、精准地进行疾病预防与治疗,从而有效利用医疗资源,提高医疗水平。随着高通量生物技术、各类组学与生物信息学、系统学方法的快速发展,精准医疗正逐渐成为未来医疗发展的新范式[7]。
科学计量学[8-13]是以某学科领域为研究对象,以科技文献的各种外部特征(如发文趋势、合著、来源期刊、主题词等)为研究对象,采用数理统计方法,借助计量学指标进行定量分析,客观地描述学科领域的研究成果、揭示学科领域的发展现状、探讨学科发展的定量规律。目前,该定量研究方法已应用于多个领域,用于衡量学科领域的发展现状,同时为该领域的发展提供数据支持和定量依据。
伴随着医疗大数据发展,精准医疗在国内外迅速发展,各国相继提出精准医疗相关研究计划。为了解近年来精准医疗领域发展情况,本文对已发表的精准医疗相关论文,从文献产出的角度,分析该领域发展的演化趋势以及该领域的发展现状。
2 数据与方法
2.1 数据来源
采用的数据为MEDLINE数据库中有关精准医疗领域的文献集合。MEDLINE数据库是生物医学领域公认的权威数据库,其MeSH 词表也是医学领域最权威的主题词表,该数据库支持MeSH 词表和 CAS 注册号进行精确检索;论文可链接到 NCBI 数据库与 PubMed 相关论文,文献回溯至 1950 年。
检索方法为:选择MeSH主题词检索,在主题词表中选择Precision Medicine,出版时间选择2008-2016年,出版物类型限定为Article、Review,经去重整理共获取7263条记录,检索日期是2016年12月20日。
2.2 研究方法
本文采用Excel、Ucinet和SciMAT等数据分析及可视化软件,从发文量变化趋势、国家/地区分布、机构分析、来源期刊分布、作者合作、被引分析、关键词7个角度对精准医疗领域的文献集合进行计量分析,从而把握精准医疗领域的分布特征。其中,通过发文量的变化趋势可以了解该领域内论文数量变化情况及发展速度;国家/地区、机构分布指标可反映出在该领域处于领先地位的国家和机构;来源期刊分布可以了解该领域发表的核心期刊;被引分析则可以反映该领域内发表的论文的影响力;利用关键词统计及共现分析可以反映该领域的研究热点及其主题演化趋势。
3 结果分析
3.1 论文数量变化趋势
MEDLINE数据库中收录精准医疗相关领域的最早论文发表于2008年,2002-2010年是精准医疗发展的萌芽期,文献量较少。从2011年开始,精准医疗的论文量开始快速增长,2012-2015年是该领域迅速发展期;从2012年开始,关于精准医疗的研究论文稳定增长。
3.2 主要国家/地区分布情况
通过对第一作者通讯地址信息清洗,去除第一作者信息缺失,第一作者国别/机构完整的共有6 654条记录,这些记录是本研究的信息源。通过统计分析,精准医疗领域发表的论文主要来自全球57个国家或地区。排名前20的国家或地区发表的论文数据见表1。就发文量看,精准医疗领域中,美国处于领先地位,发文量远超其他国家,占总发文量的35.3%。英国、德国、意大利、中国、荷兰、法国、加拿大紧随其后,占总发文量的30.0%。西班牙、日本、澳大利亚等在精准医疗领域也有突出成绩,这20个国家共发论5 417篇,占全部论文的91.4%。在排名前20的国家中有中国、日本、韩国和印度4个亚洲国家,中国研究机构发表的论文总数最多仅指中国内地,未包括香港、澳门和台湾地区。
表1 排名前20的国家或地区发表论文数量
3.3 研究机构分布
通过对研究机构名称进一步规范,得到关于精准医疗领域依据发文量的研究机构排名情况,排名前20的机构及其发文量见表2。从表2中发现发文最多的机构是斯坦福大学、德克萨斯大学;紧随其后的是美国梅奥医学中心、加利福尼亚大学和哈佛大学。排名前20的机构共发文561篇,占总发文量的8.45%;在排名前20的机构中,从国家/地区分布来看,来自英国、加拿大、荷兰的研究机构分别有1、2、1个;其余均为美国的科研院校机构,这也与美国总发文量遥遥领先有一定的关系。
表2 排名前20的机构发文量
3.4 来源出版物分析
分析来源期刊有助于确定研究领域的核心期刊或重要情报源,为该领域信息采集提供依据,同时一定程度上也反映该领域的横向研究程度、相关主题的性质等。统计结果表明,刊载精准医疗相关领域论文超过14篇的期刊有92种期刊,其发文量之和约占总发文量的1/3,根据布拉德福定律,这92种期刊处于精准医疗研究论文的核心区,属于该领域的重要情报源。其中,排名前10的均为高影响力期刊(表3),如Nature为四大名刊之一,其刊载论文的学术质量较高、辐射影响较大,一定程度上对该领域的研究和发展有重要引领与推动作用。
表3 排名前10的来源出版物及其发文量
3.5 作者合著分析
1 460篇论文由一位作者独立完成,占全部论文的20.1%,剩余均由多位作者合作完成。其中,2 431篇论文由2~3人合作完成,占全部论文的33.5%;1 334篇论文由4~5人合作完成,占全部论文的18.4%;作者超过5人的论文量为2 031篇,占全部论文的28.0%,而作者合作数最多的达到180人。总而言之,精准医疗领域的作者合著现象较为普遍。本研究选取发文量超过5篇的作者,利用Bibexcel生成作者共现矩阵,然后将其导入Ucinet中,绘制作者合著网络图(图1)。
在社会网络分析中网络密度用于评价网络图中节点间的紧密程度。利用Ucinet,通过Network-Cohesion-Density-Old Density Procedure,计算出作者合著网络图的密度为0.0085,表明精准医疗领域作者合著的网络规模较大,但其网络密度稀疏,合著网络图中节点间未形成普遍、密切的交流关系。网络的平均距离指网络中所有节点间最短路径的平均长度[12]。合著网络的平均距离是衡量整个网络联系紧密程度和信息传播速度的重要指标,平均距离越短,网络联系越紧密,信息传播速度也越快。通过Network-Cohesion-Density-Geodesic Distances计算作者合著网络图的平均距离为3.7,即任意两个作者平均只需通过4人即可建立相互联系。一般合著网络平均距离不超过10,即可认为该网络有“小世界效应”,相对而言,3.7是一个较小的网络距离,表明精准医疗领域合著网络的小世界效应显著[13]。
图1 精准医疗领域作者合著网络
3.6 被引分析
论文的被引频次是评价论文影响力的重要指标之一。截止至本文检索日,被引频次最高的论文是“Erlotinib versus standard chemotherapy as first-line treatment for European patients with advanced EGFR mutation-positive non-small-cell lung cancer (EURTAC): a multicentre,open-label,randomised phase 3 trial”,总被引频次为1463。105篇论文的被引次数超过100次,占全部论文的1.5%;69篇为高被引论文(SCI认定的高被引论文),排名前10的文章信息见表4;3篇为热点论文(SCI认定的热点论文),文章信息见表5;被引频次为零的论文共计1 601篇,占全部论文的22.0%。截至检索日期,共10篇高被引文章、3篇热点文章,13篇文章的总被引频次为7 476,美国的总被引频次最高,为2 532(占比33.9%),其次西班牙和意大利的总被引频次分别1 463、793(占比19.6%、9.8%)。表明美国该领域的研究有很高的影响力。
表4 国际精准医疗领域高被引论文列表
表5 国际精准医疗领域热点论文列表
3.7 主题分析
关键词作为学术论文研究主题的精炼表达,是论文的高度浓缩,对某研究领域科技文献的分析中,出现频次高的关键词通常被认为是某领域的热点,其关联性一定程度上可以揭示学科领域中知识的内在联系[14]。
3.7.1 研究领域分析
Medline数据库依据文献重点将精准医疗学科划分为106个细分研究领域,分析细分研究领域的分布情况,了解该领域的重点研究方向。精准医疗领域研究主要集中在基因和遗传学、药理学与药剂学、肿瘤学三大细分领域。
统计主题词词频,依据主题词的相似度以及词频变化情况,将文献分为2008-2010年、2011-2013年、2014-2016年等3个时区,统计不同时间段内高频关键词,表6列出排名前10的主题词以及其词频。2008-2010年主题词词频明显过少是由于该时间段内精准医疗领域的发文量较少。
表6 三个时间段精准医疗领域高频关键词统计
3.7.2 研究主题分析
将精准医疗领域文献分为2008-2010年、2011-2013年、2014-2016年为3个时间段,通过关键词变化、主题类团演进以及研究主题成熟度分析了解精准医疗领域的主题研究现状。
3.7.2.1 关键词变化
主要关键词重叠图清晰地反映三个时间段内精准医疗领域关键词新生和消亡的变化情况,水平箭头上方数字代表两个阶段均存在的主要关键词数量和百分比,斜上箭头旁数字表示消失的关键词数量,斜下箭头旁数字的涵义是新生关键词数量[15]。图2是利用SciMAT 绘制的精准医疗领域3个阶段的主要关键词重叠图,从左至右分别为2008-2010年、2011-2013年、2014-2016年。图2显示,三阶段的新生关键词大于消亡关键词,主要关键词不断增长,表明精准医疗领域的研究内容在不断丰富。
图2 精准医疗领域3个阶段主要关键词重叠情况
3.7.2.2 主要关键词演化分析
类团进化图反映3个阶段内精准医疗领域关键词类团的分裂、合并的演化,实线代表两个类团有共同的主要关键词,虚线表示两个类团有共同的次要关键词,其次线的粗细与两个类团经过Inclusion Index标准化后值大小成正比,节点大小表明该类团包含的论文数量[15]。图3是利用SciMAT 绘制的精准医疗领域3个阶段的类团进化图,从左至右分别为2008-2010年、2011-2013年、2014-2016年。从图3可以看出,类团随时间推移增加,表明研究内容逐渐丰富。从这些类团可以看出精准医疗研究具有以下特征:以治疗为基础(如drug-effects、therapy等类团);个性化群体研究(如Middle aged、male、female);强调以人为中心(如humans等)。从进化来看,其中Precision medicine在3个阶段中均为较大类团,并且连接线逐渐变粗,表示研究内容随时间推移较为稳定。
Drug在2008-2010年和2011-2013年两阶段内连线最粗,然而2014-2016年该类团消亡,而drug effects类团出现,经查阅相关论文发现,在2008-2010年期间,drug虽然是高频关键词,独自成为一类团,但相关论文中是以某方面疾病的药物治疗研究为主要内容,如以白血病为研究对象,经过新旧不同药物治疗,证明针对异常表观遗传标记是一种可行的预防和治疗方法;随着研究深入,学者着眼于某疾病的具体方面,基于临床试验,研究更有利于疾病治疗的方法,如抗肿瘤T细胞研究,通过靶向治疗,成功地瞄准了免疫检查点,使癌症患者释放出抗肿瘤T细胞反应,使治疗取得显著成效;Lung neoplass(肺肿瘤)、dlabetes mellitus(糖尿病)具体疾病类团在第三阶段分化出现,成为独立类团,经查阅相关论文发现,在2008-2013年两个时间段内,类团中虽然并未出现具体疾病类团,但经过上述阐述可知,主要是以药物和药物治疗效果为关键词,但具体研究是以疾病为主要研究对象,论文关键词不能以过于宏观的词语表达,学者对于关键词的提取也更加具有针对性;这些研究都表明精准医疗研究是以具体疾病为导向,研究内容更加精细。DNA从2011-2013年出现,2011-2013年和2014-2016年两阶段内类团连线最粗,表明该部分研究稳定推进,经查阅相关论文发现,DNA在3个阶段内关键词频次逐渐升高,并且从2011-2013年到2014-2016年期间内增长率明显提升,通过阅读DNA研究相关论文发现,关于DNA的研究经过对基因组信息的测序,发展到相关疾病的基因组信息,到目前利用疾病基因信息,利用相关技术,研究发现相关疾病的发展,测试其筛查技术,将遗传基因与临床结合研究,基因测试技术和基因组学与临床的结合研究成为该领域新的研究方向。
Middle aged在2011-2013年,分裂为middle aged和female,然后在2014-2016年进化为middle aged、male、female,查阅相关论文发现,2008-2010年期间,精准医疗的个性化治疗研究主要内容是不同较少数人的个性化治疗,并发现不同性别之间存在差异,在2011-2016年内,基于基因信息的不断完善,学者开始以不同性别人群为研究对象设置对照实验组,发现其疾病病变的不同,更加有针对性的进行分析研究;这都表明精准医疗研究对象随着研究的深入更加细化,逐步针对不同疾病、细化研究对象而开展个性化预防治疗研究。
Humans类团在2008-2010 年最重要的关键词是“adverse effect”,在2011-2016 年最重要的关键词变为了“Humans”,经查阅相关论文发现,“adverse effect”在数据集中的主要意义为“对人体健康的不利作用”,属于“人类”主题的关键方向,精准医疗领域论文主要是利用现代医疗技术,以人类的相关疾病为主要研究对象,发现疾病的产生、病变,从而运用不同的治疗方式进行疾病的预防治疗,主要是为人类的健康服务,体现了精准医疗以人为中心的研究特征。
3.7.2.3 主题成熟度分析
战略坐标图主要用于描述某一研究领域内部联系情况及其细分领域间相互影响情况[16],可以反映精准医疗领域类团的成熟度、核心度的演化情况,战略坐标图中X轴的含义是向心度,衡量一个类团与其他类团的联系程度;Y轴的含义是密度,衡量该类团的成熟度;第一象限类团代表该时间段内该领域成熟度、核心度均高的研究主题。图4-图6是利用SciMAT 绘制的精准医疗领域的主题战略坐标图,a、b、c分别是2008-2010年、2011-2013年、2014-2016年精准医疗相关主题战略图。
图3 精准医疗领域3个阶段类团进化情况
从图4可以看出,2008-2010年精准医疗领域的核心类团有:genetics(遗传)、drug-therapy(药物疗法)、therapeutic use(应用治疗),这些类团是该领域的研究热点,可以带动其余相关主题的发展;Precision-medicine(精准医疗)、pathology(病理)是精准医疗领域潜力类团,是该领域的研究重点,其成熟度较低;Middle aged(中年)、biomarkers(生物指标)、methods(方法)、pharmacogenetics(遗传药理)是精准医疗领域的边缘类团,处于该研究领域的边缘地区。
从图5可以看出,2011-2013年精准医疗领域的核心类团有:Middle-aged 、pathology(病理)、tumor(肿瘤),其中therapeutic use继续保持其高成熟度和核心度,pathology是由前一阶段的潜力类团发展而来。humans(人类)、Precision-medicine(精准医疗)是精准医疗领域潜力类团,genetics由核心类团演化为潜力类团,表明其核心度有所下降。drug(药物)、DNA、polymorphism(多样性)、therapy(治疗)、methods(方法)是精准医疗领域的边缘类团。
从图6可以看出,2014-2016年精准医疗领域的核心类团有:Middle-aged、pathology,该阶段核心类团并未增加。adverse effect(不利作用)、antineoplastic agents(抗肿瘤药物)是新增潜力类团,Humans、genetics与之前所处位置相同,但其成熟度略有下降。精准医疗领域潜力类团,是该领域的研究重点,其成熟度还处于较低水平;antibodies(抗体)、abetes mellitus(糖尿病)是新增边缘类团。从3个阶段的研究热点变化来看precision-medicine、Middle-aged、humans是该领域的研究核心,此外研究内容呈现出越来越丰富的趋势。
图4 2008-2010年精准医疗相关主题战略
图5 2011-2013年精准医疗相关主题战略
图6 20141-2016年精准医疗相关主题战略
利用SciMAT绘制重叠图、类团进化图、战略图,可以了解学科领域发展过程中关键词的新生与消亡、类团的合并分叉及新生与消亡,以及发展阶段主题的成熟度和核心度[15]。本文通过SciMAT绘制本研究的重叠图、类团进化图和战略图,对精准医疗领域 2008-2016 年的主题结构和演化进行初步探讨分析。研究发现2008-2016年精准医疗主要关键词、研究类团都在不断增加,其研究内容也越来越丰富。2008-2010年研究内容为药物疗法、遗传病理、生物指标等方面,如经过临床研究和试验,发现新旧等不同药物对疾病预防和治疗有不同的效果;分析影响结果的机理因素,通过染色质免疫沉淀和基因表达分析相结合的测序技术,绘制表观遗传标记的精确图谱;运用蛋白质组学深入了解肿瘤细胞内信号的传导通路,从而改进了新药物靶点的发现和可能的预后指标和对治疗的疾病反应;该时间段内精准医疗较注重宏观研究。
2011-2013年研究内容向肿瘤、治疗方法、多样性等转移,如深入了解肿瘤对靶向抗肿瘤药物的耐药机制,通过改进临床治疗策略,提高临床疗效,表明新技术的使用可能加速个体化癌症医学的发展;虽然运用新技术,改进临床治疗策略,提高了判断疾病分期准确性、早期功能预后和生存率,但治疗方案的制定还需要以现有检测结果为依据,为各个阶段和个体临床情况提供明确的诊断和治疗措施建议;此外有学者研究人类遗传变异在个性化医疗中发挥作用,通过实验观察,发现小分子的变化可能引起人类疾病;相比前阶段研究内容更加细化,较注重微观研究。
2014-2016年研究内容更多是在基因相关技术、肿瘤治疗、个性化等多方面,如结合基因组和转录组测序的研究已经发现了大量的基因突变促使了肺癌的发展、分子谱研究确定了基因产物及其突变预测肿瘤反应的靶向治疗;研究某原癌基因的发现、基因型和表型之间的关联,发挥其在诊断和治疗中的作用;由于分子生物学技术的迅速发展和基因组学和蛋白质组学研究的进步,癌症治疗的个性化策略日益增多。通过基因组学、蛋白质组学提供个性化、较为准确的基因诊断信息,从而更有效地制定治疗方案;通过针对靶向治疗,分析药物治疗的个体化差异,有针对性地提出更有效的治疗方法;表明精准医疗领域的研究从药物、病理等转向药物影响、基因测试等微观研究,同时结合相关疾病开拓宏观微观相结合的学术研究。
中年(Middle-aged)、人类(humans)是该领域成熟度和核心度最高的两个类团,表明了该领域以人为中心的个性化研究。从3个阶段的主题演化发现,个性化疾病诊断治疗研究逐渐成为该领域的主要研究方向。
4 结论
本文以精准医疗领域2008-2016年MEDLINE文献数据为基础,通过多角度的计量分析,了解该领域的相关研究现状。通过研究分析发现,自2008-2016年间,精准医疗领域的文献数量呈现稳步上升趋势,表明该领域的研究逐渐受到关注和重视。
从地区及机构分布来看,精准医疗领域研究较为领先的国家主要有美国、德国、英国、德国、意大利、中国,其中美国的论文数量远多于其他国家的论文数量。美国研究机构的发文量也最多,如斯坦福大学、德克萨斯大学、美国梅奥医学中心的论文产出量居于国际前列;与此同时,高被引论文和热点论文中美国论文居多,其总被引频次最高,这都表明了美国该领域的论文影响力较高。
从发表期刊来看,Nature精准医疗领域的主要来源期刊之一,其余期刊也均为医学领域的知名期刊。知名期刊能提升论文影响力,促进该领域研究成果的传播,从而促进该领域的整体发展。
从作者合著情况来看,精准医疗领域研究多以团队合作形式出现,该领域合著现象较为普遍;分析作者合著网络图,发现该领域作者团体间虽具有明显小世界网络效应,但学者间学术沟通交流还有提升的空间。
从研究主题演化来看,探讨精准医疗领域研究主题的发展,以及3个时间段内的研究重点,研究发现精准医疗的研究内容更加具体,并且运用遗传学、分子生物学等学科的知识技术,结合医疗大数据,进行精准、个性化的医疗研究;该领域主题方向众多,关于其主题演化还有很多内容有待进一步探索。
综上,精准医疗还处于快速发展阶段,论文量快速增加、研究内容不断丰富、作者合著网络已初具规模,研究者之间学术沟通交流有待加强。MEDLINE数据库中该领域来自中国论文不多,本文并未进行国内外对比研究,但从发文量和被引分析可知,我国虽然论文数量处于中上水平,但其国际影响力还有提升空间,这种情况可能由于国内医疗数据还未完全开放共享。精准医疗应借助医疗大数据、信息挖掘分析等技术,增加学术交流活动,借助时代需求更好地开展学术研究。