基于文献计量学的烟草代谢组知识图谱分析
2022-03-25田嘉树丁光荣王晓丽景艺卓许自成
田嘉树,丁光荣,王晓丽,景艺卓,韩 丹*,许自成
1. 河南农业大学烟草学院,郑州市金水区文化路95 号 450002
2. 湖北省烟草公司襄阳市公司,湖北省襄阳市前进路70 号 441003
代谢组(Metabolome)是指一个生物或细胞在某一特定状态下的所有小分子代谢产物的集合。烟草的代谢是按照遗传基因的潜势,在环境条件的制约下合成物质、形成器官,以达到生长发育的目的。烟草代谢产物是基因表达的最终产物,是生物学的终端信息,这些代谢产物在烟草生长发育、对环境胁迫的适应、烟草间的相互竞争进化以及烟草应对昆虫和病原微生物侵袭等方面起着重要的作用[1]。
代谢组学于20世纪90年代中期迅速发展,是继基因组学、蛋白质组学和转录组学后出现的以代谢组为研究对象的新兴学科,主要研究生物体系受基因或环境的影响后,其代谢产物的变化或其随时间的变化以及引发的相应代谢途径[2];通过对代谢物进行定量分析,以探求代谢物与生理病理变化的关系[3]。该组学主要以液相、气相色谱-质谱和核磁共振谱为研究手段获得数据,通过数据分析进而了解基因变异及环境变化对代谢过程和代谢水平的影响。
文献计量学,集数学、统计学和文献学于一体,通过定量分析来探讨学科的结构特征与热点趋势,进行成果评价与预测。其统计对象有出版物、科学术语、著者和文献引证等[4]。得益于计算机工具的使用,该学科在理论与应用方面获得了更高的关注。在此基础上,对文献进行梳理的科学知识图谱得到广泛应用。通过对某一领域进行检索分析,可了解该学科领域相关机构学者、发展历史和研究热点前沿等,并以可视化图谱形式展现出来[5]。CiteSpace便是一款重点应用于知识图谱的信息可视化分析软件。
与传统理论性综述的文字描述相比,使用CiteSpace 软件对相关文献进行可视化分析统计,可以将一门学科或一个研究领域的文献之间的相互关系以科学知识图谱的方式进行呈现,不仅可以梳理过去的研究轨迹,也可以更好地把握未来的研究趋势和方向[6]。到目前为止,利用知识图谱对烟草代谢组研究的整体情况进行分析还鲜见报道。基于此,通过使用CiteSpace 软件对相关研究的文献进行数据挖掘、整合与分析,旨在以科学知识图谱的形式对烟草代谢组研究领域的发展过程和研究热点进行更加直观、有效的呈现,为烟草研究者提供参考。
1 数据来源与方法
外文数据来源及方法:选择Web of Science核心合集数据库,以主题“tobacco metabolome”及“tobacco metabonomics”检索2005—2020 年间的相关文献,并人工精炼检索结果,最终得到105 个数据。将所得文献以“全记录与引用的参考文献”、“纯文本”的格式导出,以“download-105.txt”为文件名保存在“Data”文件夹中。运行CiteSpaceV 新建立项目,以1 年进行时间分割,对过滤后的101 篇文献进行不同节点类型的网络分析。
中文数据来源及方法:选择中国知网数据库进行高级检索。分别以“代谢组”“代谢组学”为主题,“篇关摘”设为“烟草”,文献发表时间段设为2005—2020 年。所得结果中再次进行人工精炼检索,得到2005—2020 年相关中文文献94 篇。将其以“Refworks”格式导出,以“download-94.txt”命名保存至新建的“input”文件夹中。借助CiteSpace 菜单栏中“Data”进行数据过滤与转换,使其成为可供CiteSpace 识别的数据形式,最终得到适合分析的中文文献92篇。
2 结果与分析
2.1 基于发文量的烟草代谢组学研究趋势分析
文献数量及其变化趋势可反映该领域的研究状况。在2005—2020年间烟草代谢组研究的中英文文献总计有199篇,每4年总的发文量呈指数型上升趋势(图1)。R2是趋势线拟合程度的指标,在0~1 之间,数值越接近1,拟合程度越高,趋势线越可靠。图中R2为0.851 8,表明曲线拟合程度良好。
图1 烟草代谢组领域每4年发文量比较Fig.1 Number of published papers on tobacco metabolome in every 4 years
2002年科研人员使用遗传编程对烟草代谢组数据进行了解释性分析[7],自此以后国际上关于烟草代谢组研究的文献陆续问世。2005年有研究者对脱氢酶转基因烟草的氨基酸组分和代谢产物进行检测,分析了脱氢酶表达、氨基酸代谢与烟草表型之间的关系[8];2007年Dauwe等[9]研究单酚类生物合成中的不同转录本和代谢物。截至本文中的数据采集时间,外文发文量达105 篇,中文文献有94 篇。其中,中文文献最早出现于2007 年,李忠等[10]综述了代谢组学方法在烟草化学上的应用,并提出利用代谢组学平台对烟草最终代谢产物——卷烟烟雾进行数据分析,将卷烟烟气组成与安全性和内在品质相对应,用数字烟气表征卷烟特性。
2.2 烟草代谢组研究国家与机构分析
从国家和机构层面来分析烟草代谢组,对于评价其学术影响力,找到重点关注的国家和机构具有重要意义。因各国有很多研究者将其研究成果以英文文献形式发表,可将CiteSpace中节点类型设为“国家”,得到发文国家共现网络知识图谱(图2)。发文量前5的国家依次为美国、中国、德国、日本和英国。由复杂交叉的连线可知,各个国家之间的合作关系较为密切,尤其是美国在国际交流中发挥着重要作用。由表1可知,美国和中国发文量较多,德国的发文质量较高。
图2 发文国家共现网络知识图谱Fig.2 Co-occurrence network knowledge map of countries where papers were published
表1 发文量前5位的国家Tab.1 Top 5 countries in number of published papers
由于并非所有中文文献都以英文的形式发表在Web of Science上,因此分别对中英文两个数据库所检索的文献,以“机构”为条件,进一步精炼检索,综合对比分析结果(表2),文献被引次数最多的机构是德国马克斯普朗克研究所,共被引用231次。除此之外,排名靠前的其他部分机构依次为莱登大学(170)、中国科学院(164)、日本理化学研究所(160)、中国科学院植物研究所(79)、约翰内斯堡大学(75)、日本东北大学(64)、南非科学工业研究委员会(60)、四川大学(23)和英美烟草公司(22)。
表2 发文量前10位的机构Tab.2 Top 10 affiliations in number of published papers
2.3 基于作者、文献共被引的研究基础分析
对作者与文献进行共被引分析,可发掘较高影响力的学者及文章,了解烟草代谢组研究基础。
2.3.1 发文作者共被引分析
节点类型设为“Cited Author”,得到节点461个、连线1 422 条。CiteSpace 依据网络结构和聚类的清晰度,提供了模块值(简称Q 值)和平均轮廓值(Silhouette,简称S 值)两个指标,可以作为评判图谱绘制效果的依据。一般而言,Q 值在区间[0,1)内,Q>0.3 意味着划分出来的社团结构显著;当S>0.7时,聚类是高效率令人信服的,若S>0.5,一般认为聚类是合理的[4]。利用CiteSpace的聚类功能对烟草代谢组研究学者进行聚类分析显示,该领域作者共被引聚类网络图谱的轮廓系数为S=0.544 5(S>0.5),信息模块性Q=0.911 1(Q>0.3),表明网络的聚类结果较好。在此基础上,通过被引频次和中心性两个指标共同观测出在烟草代谢组研究领域的高被引作者分布,从而确定该领域有影响力的作者。作者被引频次最高的是Fiehn,在该领域被引用了10次,其发表的文章“Metabolomics-the link between genotypes and phenotypes”详细阐述了代谢物靶标分析、代谢物谱分析和代谢物指纹分析的区别[11]。Fiehn 等[12]的另一 篇 文 章“Metabolite profiling for plant functional genomics”中提出代谢物谱的使用可以显著增强功能基因组学方法的能力。这两篇文章的引用者Tugizimana 等[13]研究发现,麦角甾醇能激活萜类代谢的通路,使烟草细胞的代谢组发生变化。
以中介中心性为要素对共被引作者绘制图谱(图3),节点代表作者,连线代表作者共被引关系;节点越大且位于中间位置,则发文作者中心性越高。由图3 可知,被引作者中心性排行前五位的分别为Krasensky、Aharoni、Ameziane、Abdulrazzak和Anders等,说明他们在不同主题研究中扮演着联络者的角色。Anders 中介中心性较高,其发表的“HTSeq——a Python framework to work with high-throughput sequencing data”介绍了一种 Phython 库 HTSeq 在高通量测序数据分析和处理方面的应用[14]。
图3 高中介中心性发文作者共现网络知识图谱Fig.3 Co-occurrence network knowledge map of authors with high betweeness centrality
2.3.2 文献共被引分析
选取排名前6 位与涉及烟草相关的高共被引文献,见表3。这些文献所涉及的核心内容:①Sanabria和Dubery[15]鉴定出了LPS(细菌脂多糖)诱导后的烟草差异表达基因,揭示了酶活、蛋白质监控机制在植物基础抗性中的重要作用。②Zhao 等[16]利用CE-TOF-MS 法对来自两个产地的30 多个烟叶样本进行代谢图谱分析,研究了两地烟叶的差异性以及极性代谢物与生长环境之间的关系。③Zhang 等[17]通过核磁共振波谱法和多元数据分析法研究了盐胁迫下烟草的代谢组数据,揭示了烟草响应不同程度盐胁迫的动态变化。④Madala 等[18]利用代谢组学研究了INAP(异亚硝基苯乙酮)处理条件下烟草细胞悬浮液的代谢物变化,发现INAP 是一种植物防御反应的化学诱导剂,能被参与植物次生代谢的酶识别,增强植物的自然防御能力,有助于保护植物免受病原体的攻击。⑤Kissoudis 等[19]通过比较盐胁迫和正常条件下GmGSTU4 过表达植株的表型和代谢组,证实了过表达GmGSTU4 能够提高烟草耐盐性。⑥Xia 等[20]开发了用于代谢组数据分析的综合服务器MetaboAnalyst 2.0,并对其升级的功能进行了描述说明,提高了代谢组数据的处理和统计分析能力。
表3 排名前6的与烟草相关高共被引文献分析Tab.3 Top 6 tobacco-related publications with high co-citation frequency
2.4 基于关键词的重点迁移分析
2.4.1 中英文重点关键词分析
由中英文共同关键词(表4)可知,研究人员重点借助代谢组学技术对烟草代谢组进行数据分析,中英文重点关键词存在一定的差异。由关键词共现图谱(图4 和图5)可知,英文关键词主要包括基因表达、生物合成等,且关键词间的联系十分紧密;中文关键词除代谢组外,还涉及基因组、转录组和蛋白质组学等相关知识。两者均有对烟草抗性的研究,Misra 等[21]发现拟南芥转录因子 AtMYB12 调节许多代谢途径,使转基因烟草芦丁积累增加,对斜纹夜蛾和棉铃虫产生了抗性。田培等[22]对南方根结线虫侵染烟草抗、感品种前后代谢途径以及代谢产物的差异进行分析,发现抗、感品种被南方根结线虫侵染后防御能力不相同,可能是由于其被激活的抗病相关代谢通路不同所致。
图4 英文关键词共现网络知识图谱Fig.4 Co-occurrence network knowledge map of English keywords
图5 中文关键词共现网络知识图谱Fig.5 Co-occurrence network knowledge map of Chinese keywords
表4 中英文重点关键词Tab.4 Major Chinese and English Keywords
2.4.2 中文关键词时区视图分析
时区视图(Timezone)侧重于从时间维度上表示知识演进,可清晰展示出热点的更新。据中文关键词时区视图(图6),可将知识进化分为3 个主要时期。
图6 中文关键词时区视图Fig.6 Timezone view of Chinese keywords
①2005—2012 年。对烟草代谢组学、基因组学和蛋白质组学有了基本了解,并掌握了运用色谱和质谱、核磁共振和生物标记技术等方法对烟草烟气成分进行分析。赵阁等[23]通过研究烟气生物标志物的含量与是否吸烟、吸烟者吸烟强度和非吸烟者有无烟气环境的关系,来反映烟气感受情况。这种方法极大地提高了烟气有害成分感受量评估的准确程度,对不同烟草制品进行全面评估有助于规范烟草产品,以期降低与烟草有关的健康风险。
②2013—2016年。对烟草代谢物及代谢途径分析,了解遗传因素及土壤、气候、光质等环境因素对烟草代谢的影响,对烟草抗性有了较为全面的了解。为提高烤烟品质和开发特色烟叶提供参考,不同研究者通过人工气候室模拟云南、贵州、河南三地的气候条件,分别研究了生长温度对不同生育期烟草中淀粉[24]、蔗糖[25]、多酚[26]和质体色素[27]代谢的影响。结果表明:不同温度和不同生长时期的烟草代谢物含量、关键酶活性以及相关基因的表达均有差异。杨利云等[28]综述了不同光强、光质及光周期对烟草发育生长和叶片结构的影响,探讨了光因素对烟草光合作用、酶活性和基因表达等生理代谢活动的影响,并进一步研究了光环境对烟草物质代谢及其品质的影响。
③2017年至今。研究人员结合基因组和转录组知识,对烟草抗性基因进行研究,并通过对尿液和血清等体液的检测,探究烟草制品与人体健康的关系。陈永富等[29]研究发现异源过表达Pe CPD 可以通过提高烟草内源油菜素内酯的合成来调控烟草应对盐、高氮和干旱等逆境胁迫。为探讨微小RNA(miR)-133b 对卷烟烟雾提取物(CSE)诱导的人小气道上皮细胞(HSAEpiC)间充质转化的影响及调控机制。连宁芳等[30]采用对照实验推测miR-133b可能通过 TGF-β/Smad 通路调控 CSE 诱导的 HSAEpiC 细胞上皮间充质转化。宁欣[31]也通过对照实验探讨了吸烟对大鼠免疫系统功能的影响,得出短期吸烟对体液免疫功能影响不大,但长期吸烟可致体液免疫功能逐渐受损的结论。
3 讨论
烟草代谢组研究是一个非常复杂的过程,通过从多个视角进行知识图谱的绘制分析,发现关于烟草代谢组研究的特征:
①该领域研究发文数量较少但总体呈上升趋势,且在2012 年后快速增长。美国和中国的发文量多,国家机构间的合作关系较为密切,尤其是美国在国际交流中发挥着重要作用。德国马克思普朗克研究所发表的文献不仅数量多,且被引次数也较高。②有关烟草代谢组研究建立在包括基因组、代谢组和转录组等多种组学基础之上,涉及基因测序、基因型与表型的联系、代谢组学与代谢分析的局限性、转录组表达与代谢改变等相关问题,并重点依赖于获取数据的仪器以及分析该数据的方法,如色谱、质谱、核磁共振、OPLS 模型和MetaboAnalyst 工具等。③烟草代谢组研究的热点呈现出“研究面广,研究分散”的特点,不同阶段研究的热点不同,主要包括烟气品质的影响因素、烟草次生物质代谢机理、烟草对环境与病虫害的抗性研究、烟草与人体健康关系等主题。
代谢组学作为一门涵盖了多个领域学科的新兴技术,可以对烟草的育种、栽培、烘烤与调制、卷烟加工制造等多个环节进行相对全面而准确的测定。在我国实施的烟草基因组学计划中曾提到烟碱、有害成分、主要抗性、香气物质等烟草相关重要性状[32],为深入探究这些性状的功能基因和蛋白质之间的代谢机理,需要进一步深入研究的方面:①继续探索代谢组学技术在烟草研究领域更多方面的运用。②建立高通量、无偏移且稳定可靠的先进分析手段和高效的数据挖掘与处理方法。③针对性地建立烟草次级代谢物库,进一步丰富代谢组学数据库,为烟草研究工作者提供参考。④加强与基因组学、转录组学和蛋白组学等其他组学技术的整合与协同运用。
4 结论
①烟草代谢组研究总发文量较少,但呈明显上升趋势。②国家和机构间合作交流密切,美国和中国发文较多,德国发表的文献质量较高。③Fiehn和Anders 等作者在该领域有着较高的学术影响力。④烟草代谢组研究主要包括基因表达、代谢通路、生物合成、烟草抗性和多组学结合等方向。