APP下载

基于文献计量的农作物基因组研究领域发展态势分析

2019-12-04袁雪钱万强郭溪川卢垚颜蕴

生物技术通报 2019年12期
关键词:发文基因组农作物

袁雪 钱万强 郭溪川 卢垚 颜蕴

(1. 中国农业科学院农业信息研究所,北京 100083;2. 中国农业科学院农业基因组研究所,深圳 518120)

农作物基因组学研究的空前发展正推动着农业的第二次“绿色革命”。全基因组的剖析,可以提供每个农业生物物种或品种全基因组的遗传信息,尤其是对控制重要农艺性状的基因组成情况分析,以及对调控复杂性状的分子网络的解析,皆得益于高效与廉价测序技术的发展[1-4]。目前国内外科学家已经实现了对重要农作物,如水稻、小麦、玉米、大豆、油菜、棉花和蔬菜等基因组的测序或重测序,实现了对控制重要农艺性状基因的大规模克隆和鉴定。继2002 年水稻基因组测序完成后,世界各国已完成或接近完成64 种作物基因组测序,中国作为世界上较早启动农作物基因组研究的国家,主导或通过国际间合作完成了水稻、小麦、玉米、番茄、马铃薯和黄瓜等世界上70%-80%的重要农作物的基因组测序[5]。农作物基因组领域的研究和发展对中国乃至国际民生具有重要意义[6]。近年来,国内外农作物基因组学相关基础研究与关键技术不断深入,取得了较好的成绩,相应的以农作物基因组为研究主题获得的相关项目资助与SCI 收录文献也在逐年增加。因此,开展该研究主题的文献计量分析,可以从一个侧面深入了解农作物基因组学研究的发展状况。文献计量学是对文献进行计量分析研究的科学[7]。科研项目是开展高水平科学研究的重要依托,科技论文是基础成果的主要表现形式,其数量和质量是科研产出能力及科研活动活跃程度的重要标志之一[8]。利用文献计量学的方法对某一研究领域的科研项目和科技论文进行定量分析研究,是目前科研量化评价的重要方法之一,也越来越受到科学界的重视[8]。文献计量学在农业领域的应用越来越多,如邬亚文等[9]将文献计量学用于对国内外水稻发展态势的研究;Josef 等[10]对1950-2010 年德国以苹果、梨、樱桃、李子、杏和桃等水果为题目的相关文献进行了计量学分析;Tatry 等[11]对 2000-2009年欧盟 27 国和美国主导的关于水果和蔬菜的相关研究进行了文献计量研究;Leiser 等[12]对法国国家农业研究院研究人员 2000-2006 年发表的关于蔬菜和水果的文献进行了计量分析;赵春合等[13]基于 CiteSpace 文献计量法对基因组学研究文献进行可视化图谱分析。现今,农作物基因组研究已经开展了二十几年,国内外相关文献数量呈快速增长趋势。而目前相关学者的研究多集中于基因组学或基因组技术的研究,尚未见关于农作物基因组领域全面深度的计量分析。因此迫切需要从文献计量学的角度进行定量分析,全面系统地总结该领域的发展现状。本研究采用文献计量学的方法,通过对2008-2017 年农作物基因组领域科研基金项目获资助情况及SCI 论文收录情况进行定量与定性分析,探索农作物基因组基础研究概况及其发展趋势,为科技管理工作提供支撑,为科研工作者选题和研究方向的确定提供参考。

1 数据来源与研究方法

1.1 数据来源

研究所涉及的科研基金项目数据来源于美国国家科学基金会(National Science Foundation,NSF)和中国国家自然科学基金委员会(The National Natural Science Foundation of China,NSFC) 官 网。NSF 成立于1950 年,目标是通过对基础研究计划的资助,改进科学教育,发展科学信息和增进国际科学合作等办法促进美国科学的发展。NSFC 成立于20 世纪80 年代初,在推动我国自然科学基础研究的发展,促进基础学科建设,发现、培养优秀科技人才等方面取得了巨大成绩。研究所涉及的SCI 收录文献均来源于SCI-E 数据库中的检索结果,SCI-E是WOS 三大核心库之一,是美国Thomson Reuters公司基于web 开发的产品,是自然科学、社会科学、艺术和人文领域的权威学术文献数据库,该库为文献计量的研究提供了便捷。

基金项目数:检索到的某一特定范围内获资助的项目数量。

文献记录数:检索到的某一特定范围内的文献数量。

文献总被引频次:检索到的某一特定范围内的所有文献被引次数。

文献篇均被引频次:检索到的某一特定范围内的所有文献被引次数除以文献记录数。

1.2 研究方法

科研基金项目检索数据结合我国国家重点研发计划“七大农作物育种”重点专项中涉及的作物品种水稻、玉米、小麦、大豆、棉花、油菜和蔬菜,将检索对象设定为上述七大农作物,其中蔬菜包括已经完成基因组测序的白菜、甘蓝、萝卜、黄瓜、马铃薯、番茄、甜菜、辣椒和茄子。中美两国自然科学基金项目的检索数据依据表1 检索要素和农业叙词表分别对项目库中的数据进行筛选和人工干预,检索的时间跨度为2008-2017 年。SCI 论文通过WOS 平台采取主题检索方式进行检索,依据表1 检索要素对作物基因组进行限定并构建检索式,检索的时间跨度与基金项目的检索时间一致,检索日期为2018 年11 月8 日,文献类型为article and review,语种为All language,然后对文献数量与变化趋势、学术影响力、国际合作状况、研究前沿与热点等进行分析。

学术影响力分析:为了从论文数量和质量上综合分析国家或地区、研究机构的基础学术相对影响力,本研究构建了基于论文属性的相对影响力分析方法,具体是以发文量和篇均被引次数两个维度绘制二维平面图,并采用两个指标的平均值为原点,将平面图划分为4 个象限,以此反映出各技术的相对研究规模和影响力。其中,第1 象限论文质量高且研究活动频繁;第2 象限论文质量低,但研究活动较为活跃,可能在未来具有较大潜力;第3 象限相对而言,研究活动活跃程度和质量相对较低;第四象限研究活动尚未进入活跃期,但是论文质量高,值得关注。

表1 农作物基因组领域检索要素表

国际合作分析:通过德温特数据(Derwent data analyzer,DDA)分析软件对发文量排名前20 位的国家进行自相关图谱分析,绘制国家间科研合作情况的可视化分析图;对发文量排名前10 位的机构进行机构间科研合作可视化分析,其中图中圆点大小代表发文量多少,连线代表合作发文强度,连线粗细代表合作强度大小。

研究热点分析:通过CiteSpace 对论文的关键词进行分析、探索和揭示研究领域的热点主题及其发展趋势。其中节点大小表示关键词的频次,节点越大,被引频次越高。

2 结果

2.1 中美科研基金项目资助对比

2008-2017 年,农作物基因组研究领域以小麦、玉米、水稻、大豆、油菜、棉花、白菜、甘蓝、萝卜、黄瓜、马铃薯、番茄、辣椒、甜菜和茄子等关键词为题目的美国国家科学基金会资助项目数量261 项,中国自然科学基金资助项目数量251 项,具体如表2 所示。从近10 年获资助项目总量来看,中国和美国基本持平,年均获资助项目分别为25 项和26 项,资助总经费则分别达到21.49 亿元和27 亿美金,平均每项资助金额为85.61 万元和103.29 万美元。

表2 中美农作物基因组研究领域科研基金项目资助情况

从资助数量上来看,中国在农作物基因组领域支持的基金项目数量大致呈上升趋势,但波动较大,发展不稳定。在2011-2013 年项目数量最多且高于美国,平均达到36 项,发展较为迅速,而在2009年和2015 年数量上有所下降,近两年关注度有所回升。美国整体呈现上升趋势,2012-2015 年数量急剧增加,出现数量上的小高峰,在2014-2016 年赶超中国,说明该期间美国对农作物基因组领域关注度较高,但近两年有下降趋势(图1)。

图1 2008-2017 年中美两国农作物基因组领域基金项目数量

从总资助金额上来看,中国在2011 年获资助金额达到最大值3 804 万元,随后呈下降趋势,近两年的资助金额稳定在1 928 万元。美国则大致呈平稳上升趋势,在2013 年达到峰值4 998 万美元,在2017 年则有所下降。整体对比来看,美国在作物基因组领域基金项目资助金额远超中国,且整体呈现年度上升的趋势(图2)。

图2 2008-2017 年中美两国农作物基因组领域基金项目资助金额

2.2 文献规模与发展趋势

研究表明某领域文献数量及其年度趋势与该领域研究的活跃程度和受关注程度呈正相关,且在一定意义上反映该领域的发展速度和发展程度[14]。本文采用第1 节所述方法检索得到2008-2017 年农作物基因组研究领域初始数据集26 972 篇,经过人工与机器协同的方式批量去噪得到21 886 篇相关文献。本文基于此数据集进行计量分析,2008-2017 年全球农作物基因组研究领域的SCI 论文年度发文情况(图3)表明:在世界范围内该领域文献数量稳步增长,发文量年均增长率为8.1%,体现出全球研究人员对该领域的研究热度平稳增加。其中,2011 年SCI 论文年度增长率达到最大值14.3%,2011 年-2016 年间,年增长率均保持在6%以上,呈现平稳增长态势,标志着全球农作物基因组研究进入新阶段。

图3 2008-2017 年全球农作物基因组SCI 发文量年度分布

从文献的国家(地区)分布来看,被SCI 收录的文献涉及的国家(地区)共140 个,其中文献记录数最多的20 个国家(图4),基本分为两个阵营,发文量居于前两位的中国和美国属于第一阵营,其发文量分别为7 343 篇和5 920 篇,且数量遥遥领先于其他国家,分别是排名第三的日本发文量的4.43倍和3.57 倍,分别占总发文量的33.6%和27.0%;日本等其他国家发文量均在2 000 篇以下。可见,中国和美国在农作物基因组研究领域的基础研究占有主导地位。

图4 2008-2017 年全球农作物基因组发文排名TOP20 国

对该领域文献记录数排名前10 的国家进行年度发文量统计(图5)可知,从年度趋势来看,除中国之外其他国家的文献数量增长趋势相对平稳,而中国近10 年来的文献数量进入增长的快车道,特别是“十二五”期间,中国SCI 年度发文量在2011 年首次超过了美国,跃居世界第一位并在其后一直保持领先,且SCI 发文量年均增长率达10%,显示出我国在农作物基因组领域基础研究方面已经实现跨越式稳步发展。

图5 2008-2017 年全球农作物基因组主要发文国SCI 发文量年度分布

从文献的机构分布来看,通过采用DDA 软件对该领域SCI 论文的作者机构进行清洗规范(图6),10 年间农作物基因组研究领域SCI 发文量排名前3的研究机构分别为中国农业科学院(Chinese Acad Agr Sci)、美国农业部农业研究局(USDA ARS)和中国科学院(Chinese Acad Sci),发文量分别为1 265 篇、1 173 篇和1 003 篇,其余机构文献数量均在1 000 篇以下。可见,上述3 家研究机构在该领域的研发投入较多,研究热度较高。排在世界范围内前20 位的研究机构有7 家来自中国,包括中国农业科学院、中国科学院、华中农业大学(Huazhong Agr Univ)、南京农业大学(Nanjing Agr Univ)、中国农业大学(China Agr Univ)、四川农业大学(Sichuan Agr Univ)、浙江大学(Zhejiang Univ)7 家,占前20位机构的35%;9 家机构来自美国,包括美国农业部农业研究局(USDA ARS)、康奈尔大学(Cornell Univ)、加州大学戴维斯分校(Univ Calif Davis)、爱荷华州立大学(Iowa State Univ)、佐治亚大学(Univ Georgia)、 明 尼 苏 达 大 学(Univ Minnesota)、 密苏里大学(Univ Missouri)、威斯康星大学(Univ Wisconsin)和堪萨斯州立大学(Kansas State Univ),可以从侧面反映出中国和美国是该领域研究的优势机构。

2.3 学术影响力分析

通过分析该领域高影响力论文,可以调查与评估不同国家或机构的科研实力与水平,同时也可以探讨学科的研究热点与发展态势[15]。通过分析文献数量居前10 位国家的总被引频次和篇均被引频次(表3)可知,美国虽在文献数量上不敌中国,但总被引频次却处于领先地位,德国、英国和法国从文献数量上位于top5 之后,但总被引频次却位于top5之列。从篇均被引频次来看,英国、法国和德国分别以43.1、37.3 和35.5 位列前3 甲,反映出3 个国家在该领域具有较高影响力。而文献数量排名榜首的中国,却以篇均被引频次17.5 居于末位,同时也反映出中国在该领域存在数量优势明显,质量有待提升的现状。

图6 2008-2017 年全球农作物基因组SCI 发文排名前20 位的研究机构

表3 2008-2017 年全球作物基因组文献数量居前10 位国家被引情况分析

以篇均被引频次代表文献质量,从国家/地区相对影响力分析来看(图7),美国处于文献数量和质量均高于平均值的第一象限,处于该领域技术引领地位;中国位于文献数量高于平均值、质量低于平均值的第二象限,研究规模较大,但影响力相对较弱,处于技术研究活跃,具备发展潜力的阶段;韩国、印度、日本、加拿大集中在文献数量和质量均低于平均值的第三象限,研究规模和影响力相对较弱;英国、德国、法国和澳大利亚位于发文量低于平均值、质量高于平均值的第四象限,虽然文献数量有限,但其影响力较高,处于技术潜力远超规模的阶段。

图7 2008-2017 年全球作物基因组领域文献居前10 位国家文献数量与影响力情况

分析发文量排名前10 位研究机构的总被引频次和篇均被引频次(表4),可知来自美国的美国农业部农业研究局和康奈尔大学总被引频次超过文献数量机构排名第一的中国农业科学院,分别排在第1、2 位,中国科学院则紧随中国农业科学院,排在第4位。其它机构的总被引频次远低于这4 家机构。从篇均被引频次来看,康奈尔大学、爱荷华州立大学和加州大学戴维斯分校分别以71.1、52.8、47.7 位列前3 位,这一计量指标反映出这3 家研究机构在该领域具有较高的研究水平和较大的国际影响力。值得注意的是,文献数量和总被引频次表现一般的法国农业科学研究院以篇均被引频次37.4 位列第4,一定程度上也反映出其在该领域基础研究方面的实力和影响力。此外,文献数量排名靠前的中国农业科学院、中国科学院、华中农业大学、中国农业大学和南京农业大学篇均被引频次均在17.3-28.3 之间,排名整体靠后,反映出我国研究机构在该领域基础研究方面的研究水平和影响力有待提高。

以篇均被引频次代表论文质量,从机构相对影响力分析来看(图8),尚无研究机构分布于文献数量与质量双高的第一象限,美国农业部农业研究局、中国农业科学院、中国科学院和华中农业大学位于文献数量高于平均值、篇均被引次数低于平均值的第二象限,反映这4 家机构已具备研究规模,但在技术影响力方面仍存在不足;同时,发现美国农业部农业研究局基本接近于第1 象限,即反映出其在该领域中的领军地位;中国南京农业大学和中国农业大学位于文献数量低于平均值、篇均被引次数低于平均值的第3 象限,表明其研究规模和影响力相对较弱;法国农业科学研究院、加州大学戴维斯分校、爱荷华州立大学和康奈尔大学位于文献数量低于平均值、篇均被引次数高于平均值的第4 象限,反映这些机构虽文献数量优势不足,但影响力较为广泛。

表4 2008-2017 年全球作物基因组文献数据居前10 位机构影响力情况

2.4 国际合作状况分析

科技论文发文数量排名top20 国家的科研合作情况如(图9)所示,其中各国连线相似度均小于0.25,反映出该领域主要发文国之间的合作发文较少,科研合作紧密程度一般。值得关注的是,top20 国家合作发文情况大致出现了3 种情况,文献数量相对较少的德国、英国、法国、荷兰、西班牙、意大利和瑞士7 国形成了局部发文合作网,美国和墨西哥、菲律宾和日本形成两两合作,作为该领域发文量第一大国的中国与其他国家合作发文强度几乎可忽略不计。

图8 2008-2017 年全球作物基因组文献数据居前10 位文献数量与影响力情况

文献发文数量top10 机构独立发文所占比例超总发文量的50%以上(图10),其中,法国农业科学研究院、华中农业大学和南京农业大学独立发文量所占比例超80%,反映出这3 家机构在科研组织形式方面以自主研发为主,合作研发较少。中国农业科学院、中国科学院、美国农业部农业研究局、爱荷华州立大学和中国农业大学的独立发文所占比例在64%-74%之间;加州大学戴维斯分校的独立发文所占比例60%以下,康奈尔大学的合作发文所占比例不足50%。综上分析,可以发现,美国科研机构在该领域科研合作较为广泛,其中以康奈尔大学的科研合作交流最为紧密;相比而言,我国科研机构的科研合作交流略显不足。

图9 2008-2017 年全球农作物基因组主要SCI 发文国发文合作网络

图10 2008-2017 年全球农作物基因组主要SCI 发文机构合作发文情况

DDA 分析软件对文献发文量top10 机构进行自相关图谱分析,基于该图谱分析机构间的发文合作网络(图11)。整体来看,机构合作发文强度较弱(连线相似度均小于0.25),反映出该领域合作发文数量较少,科研合作紧密程度一般;同时可以发现,来自美国的美国农业部农业研究局、爱荷华州立大学、康奈尔大学和加州大学戴维斯分校以及来自中国的中国农业科学院、中国科学院和中国农业大学分别形成了局部合作网,华中农业大学、南京农业大学和法国农业科学研究院的合作强度基本可以忽略,反映出这3 所研究机构的科研合作交流略显不足。

图11 2008-2017 年全球农作物基因组主要SCI 发文机构发文合作网络

2.5 研究前沿与热点

针对上述SCI 论文样本数据进行预处理,以被引频次大于10 的关键词为阈值,计算并列举出农作物基因组领域的高频、高中心性关键词,按照中心性递减顺序排列,如表5 所示。利用CiteSpace 绘制关键词共现网络图谱,设置时间切片为2 年,对网络进行剪枝(Pathfinder)操作,图12 中关键词节点(十字节点)大小对应关键词出现的频次,节点年轮的颜色及厚度代表出现的时间,十字内色环越厚,表明词在该年份出现的频次越高。

结合表5 和图12 分析可知,该领域中重点关键词有“genome”、“arabidopsis thaliana”、“identification”、“linkage map”、“marker”、“rice”等,这反映出农作物基因组研究领域在近10 年(2008 年-2017 年)发展过程中,关注度较高的热词为“基因组”、“拟南芥”、“鉴定”、“连锁图谱”、“标记”、“水稻”等。其中“基因组”为研究核心对象,“连锁图谱”和“标记”是现代分子生物学的产物和有力工具,“拟南芥”是迄今为止基因组被研究的最好的模式植物,“水稻”则是在世界范围内最为重要的粮食作物。

表5 2008-2017 年农作物基因组领域高中心性、高频关键词TOP15

图12 2008-2017 年农作物基因组领域关键词共现网络图

3 结论与讨论

近10 年全球农作物基因组领域的研究热度平稳增加,年均增长率为8.1%,2011 年度增长率达到最大,之后保持平稳增长态势,表明该领域研究活动较为活跃,标志着全球农作物基因组研究进入新阶段。中国和美国在此基础研究领域占有主导地位,其发文量遥遥领先于其他国家,中国发文增势强劲,在2011 年首次超过美国,跃居世界第一位并在其后一直保持领先,表明中国在该领域基础研究方面实现跨越式稳步发展。该研究领域的重要机构主要来自美国和中国,中国在该领域的基础研究力量主要集中在以中国农业科学院为代表的农业类科研院所及高校,美国的研究力量分布在以美国农业部农业研究局和以康奈尔大学为代表的高校。中国农业类科研机构及高校在该基础研究领域的研究活跃程度较高,美国农业部农业研究局较高的研究热度体现出美国在政府、政策层面对农作物基因组研究的重视和部署。主要发文国或研究机构之间的科研合作紧密程度一般,仅形成较弱的局部合作网络,美国机构的科研合作相对广泛,以康奈尔大学的科研合作交流最为紧密,中国研究机构在该领域的科研合作则较少,科研合作交流略显不足。随着科学技术的发展和科学进程的推进,作物基因组学研究必将成为各国重点投入研究的科学。

猜你喜欢

发文基因组农作物
高温干旱持续 农作物亟须“防护伞”
俄发现保护农作物新方法
夏季农作物如何防热害
厉害了!农作物“喝”上环保酵素
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
紫花白及基因组DNA提取方法的比较