基于文献计量的生态系统观测研究网络长期观测数据应用研究
2019-08-27苏文
苏 文
中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室, 北京 100101
生态系统观测研究网络通过对不同类型生态系统开展联网观测, 研究各种生态因子的相互作用及生态过程, 可以揭示生态系统和环境的长期变化规律,为生态系统评价及管理提供科学依据。中国科学院中国生态系统研究网络(Chinese Ecosystem Research Network,CERN)成立于1988年,目前由44个生态站、5个学科分中心和1个综合研究中心组成[1- 2]。2005 年在科技部领导和组织下, 组建了国家生态系统观测研究网络(Chinese National Ecosystem Research Network,CNERN),由隶属于中国科学院、农业部、国家林业局和教育部等不同主管部门,包括CERN在内的51个国家生态站、1个国家土壤肥力站网、1个国家种质资源圃网和综合研究中心共同组成。生态系统观测研究网络(CERN/CNERN)覆盖了不同区域和不同类型的生态系统,是集动态观测、科学研究和试验示范于一体的生态系统观测与研究野外基地平台、数据资源共享平台、生态学研究的科学家合作与人才培养基地[3- 5]。
生态系统观测研究网络(简称生态网络[6])是数据密集型的野外观测研究科技平台,各生态站从1998年开始,按统一的监测指标和技术规范对我国农田、森林、草地、荒漠、湖泊、海湾、湿地、城市等典型生态系统开展长期定位观测,监测和分析水分、土壤、大气、生物等4个学科大类的近300个项目,获取了大量观测数据[7]。这些数据是生态学和相关学科研究重要的第一手资料,是国家的宝贵财富。为了促进联网长期观测数据的共享,生态网络开展了一系列卓有成效的工作,包括2006年构建由综合中心数据信息系统和生态站数据信息系统组成[8]的分布式数据资源共享信息系统,在不同层次上提供生态系统联网观测数据的共享服务;2012年完成出版《中国生态系统定位观测与研究数据集》丛书,共4卷51册,系统收集、整理、发布了50个生态站、1个子网2008年之前的长期联网观测数据与相关研究数据。
尽管生态网络长期观测数据的汇聚与开放共享基本进入规范化运行服务阶段,并已经取得一定的成效,但对于满足日益增多的我国生态系统研究、环境治理与生态保护、资源高效利用等方面对生态观测数据的需求仍然存在一定的差距。如何充分发挥生态网络长期观测数据的价值,服务国家生态文明建设是生态网络面临的一个重要问题。全面了解生态网络长期观测数据应用的整体发展状况,定量分析数据应用的特征,对完善生态网络长期观测数据的共享机制、提高数据的共享服务能力具有重要的参考意义,但目前鲜见此方面研究的相关文献。
现有科学数据应用的常用分析方法主要有文献调查与计量、Web使用挖掘等[9- 12]。Web使用挖掘能够通过数据服务系统的服务记录信息与日志统计数据的访问量、下载频率、下载量等[13],分析用户的分布、兴趣和需求,但难以进行数据应用的学科领域、研究主题等方面的深度挖掘。本文基于中国知网(CNKI),通过搜集有关应用生态系统长期观测数据开展研究的文献,采用文献计量和知识图谱的方法对文献进行分析,探讨生态网络长期观测数据的应用领域、具体用途、用户特点及不同生态站数据的应用状况与研究主题。
1 数据来源
本文所使用的数据全部来自我国收录中文研究文献最为全面的中国知网。由于目前生态网络尚无统一的数据引用和著录标准,给相关文献的检索带来一定难度。为了能够比较全面地获取原始数据,本文采取了以下检索方法:
(1)《中国生态系统定位观测与研究数据集》作为公开数据出版物,在利用其中数据开展研究所形成的论文和专著中,能够作为使用的相关文献信息资源[14],因此利用CNKI的高级检索功能(http://kns.cnki.net/kns/brief/result.aspx?dbprefix=SCDB),检索引用《中国生态系统定位观测与研究数据集》的文献。检索方式为:检索标签为“文献”,选择“参考文献”为检索项,在检索词中输入“中国生态系统定位观测与研究数据集”,匹配模式为精确。根据检索条件得到99篇文献。
图1 文献的年度分布Fig.1 Number of documents per year from 2001 to 2018
(2)应用专业检索功能,采用“(AB=监测数据+观测数据) AND (FT=生态站 OR FT=生态台站 OR FT=定位站 OR FT=研究站)”为检索式,进行跨库(期刊、博士、硕士)检索,再在检索结果中通过查阅摘要或全文,查找到涉及应用生态网络长期监测数据开展研究的文献61篇。
最终得到有效文献160篇(检索日期为2018年10月18日),其中期刊论文101篇,学位论文59篇。通过CNKI的导出功能,在自定义输出模式下选择所有输出字段,将全部文献导出为EXCEL文件保存,作为进行分析和研究的样本文献。
这些文献中最早的一篇发表于2001年,是《农业系统科学与综合研究》第4期上题为“COUPMODEL模拟土壤水热变化过程的研究”的论文;最新发表年份为2018 年。图1展示了文献的年度分布情况。可以看出,2001—2018年期间文献数量呈波动上升趋势,说明生态网络长期观测数据受到越来越多学者的关注。
2 数据应用现状分析
2.1 应用领域分析
通过分析160 篇文献的学科分布,可以直观地了解生态网络长期观测数据在各专业领域应用的总体状况。
CNKI根据《中国图书馆分类法》(简称《中图法》)为每一篇文献标注了所属的学科领域,通过查询所标注的分类码,得到每篇文献的学科分类名称,绘制出生态网络长期观测数据在各学科应用的具体分布状况图(图2)。图中显示,生态网络长期观测数据应用在21个不同学科,其中应用数据最多的为林业,67篇文献与之有关;农业基础科学紧随其后,文献数量为21篇;环境污染及其防治、大气科学(气象学)、农作物、植物学等学科的应用也相对较多。这说明生态网络长期观测数据应用的主要专业领域为林业、农业基础科学,同时不断拓展到其他学科中,数据应用呈多元化态势。
2.2 数据用途分析
关键词是一篇论文主题的高度概括及凝练,能够反映论文主题内容和研究重点,分析关键词之间的相互关系可以帮助人们发现研究热点或主题的结构关系[15- 17]。CiteSpace 是著名信息可视化专家陈超美博士在引文分析理论的基础上,基于Java语言开发的可视化共引网络分析软件[18]。利用样本文献题录中的关键词,借助CiteSpace软件生成关键词共现可视化图谱,可以通过识别文献的研究热点,来揭示生态网络长期观测数据的用途与价值。
关键词是一种未经规范的自然语言,不同作者对于著录关键词的把握会存在不一致,为了便于分析,需要对关键词进行相应的处理[19-20]。具体处理内容包括:(1)提取所有关键词;(2)对部分同义词或近义词进行归并,如将“碳储量”、“碳贮量”合并为“碳储量”;(3)对一些关联词汇的归属进行重新划分,例如:“人工林”、“南亚热带人工林”、“杉木人工林”归并为“人工林”;(4)将原始关键词替换为归并后的关键词。
图3 文献关键词共现可视化图谱Fig.3 Keyword co-occurrence network of documents
利用计算机程序将Excel数据转换成CiteSpace软件能够处理的格式,导入CiteSpace中,网络节点确定为关键词,选择适当的阈值,绘制样本文献的高频关键词共现网络图谱(图3),图中每个圆点代表关键词节点,圆点的越大表示该关键词出现的频次越多。
根据关键词共现可视化图谱,结合相关文献的题目与摘要,归纳出生态网络长期观测数据主要在以下几个方面的研究发挥作用。
生态系统服务研究。主要研究森林、农田、荒漠等不同生态系统服务功能与经济价值的评价方法、价值估算等。
模型模拟。涉及作物模型、生态水文模型、碳循环模型、森林生态系统管理模型、水热传输模型、遥感模型等多种模型的改进与验证。
人工林研究。研究人工林地力等级评价新方法,重点在机器学习算法的改进;同时涉及人工林的固碳能力、生态恢复、生态系统综合效益 、生产力、水循环与水量平衡等方面研究。
水污染研究。主要研究典型陆地生态系统地表水、地下水及水体生态系统湖泊、海湾的污染发生机理、污染物迁移转化过程与空间分布特征等。
生物多样性研究。集中在研究海南尖峰岭地区热带山地雨林的群落维持机制、生物多样性与生态系统功能关系、物种多样性空间分布格局及其形成机制等。
小麦、玉米研究。围绕小麦、玉米两类粮食作物的优质高产高效,主要研究长期施肥对农作物产品重金属累积的影响、水分高效利用及种植结构调整等。
土壤水分研究。重点研究森林、草地、农田、荒漠等生态系统土壤水分性质、土壤水分与植物关系、土壤水分异质性等。
2.3 数据用户分析
根据文献第一作者所属单位来对生态网络长期观测数据的用户构成与特点进行分析。由于作者署名单位的名称存在不一致的问题,因此需要先对单位名称进行标准化,具体处理方式为:科研院所名称保留至研究所级别,若未列出则通过查看文献查出并添加;高等院校保留至校级,二级单位如学院、系等不作保留。
图4 数据用户构成统计Fig.4 Percentage of users in different types
对标准化处理后的第一作者单位进行统计,结果显示,样本文献所涉及的生态网络长期观测数据用户共有62家,分为三大类:高等院校、科研院所和企业(图4),其中高等院校和科研院所为主要用户群体,分别占53%和45%。进一步对这两类用户进行分类统计(图4),可以总结出生态网络长期观测数据的主要用户机构有五类:(1)中国科学院下属研究机构,包括中国科学院地理科学与资源研究所、中国科学院华南植物园、中国科学院海洋研究所等15家;(2)林业、农业类大学,包括中南林业科技大学、西北农林科技大学、华南农业大学等12所;(3)综合性大学,包括兰州大学、长安大学、河海大学等11所;(4)师范类大学,包括华东师范大学、东北师范大学、北京师范大学等7所;(5)中国林业科学院下属研究机构,包括中国林业科学研究院森林生态环境与保护研究所、中国林业科学研究院林业研究所等4家。
根据文献数量统计结果,排名前十二位的机构如表1所列。其中,发文量最多的是中南林业科技大学,累计有18 篇文献;中国科学院地理科学与资源研究所与中国林业科学研究院热带林业研究所以12 篇并列第二。由表1可以发现,不同机构结合其所处地理位置、研究方向与优势学科,应用生态网络长期观测数据开展的研究各有侧重。
表1 文献数量排名前12个机构发文情况及文献关键词
2.4 生态站数据应用分析
生态站是获取第一手科学数据的基本平台,是开展科学试验和研究的重要基地[7],有必要了解生态站数据应用的状况与特征。
根据本文所讨论的160 篇文献的具体内容,查出文献应用的观测数据所属生态站。通过统计生态站出现的频次(图5)可以看出,158篇文献(其中有两篇未注明生态站名称)涉及了53个生态站和1个子网,并且不同生态站/子网的出现频次差异很大。其中,出现频次最多的为长白山站,其次是会同杉木林站,会同站位居第三位。附录1列出了出现频次大于14的15个生态站的位置与区域代表性。
图5 生态站出现频次统计图Fig.5 The frequency of field stations
图6 生态站与关键词关系网络图Fig.6 Network of field stations and keywords
按照生态系统类型进行统计,53个生态站包含了森林站20个、农田站16个、荒漠站7个、草地站3个、海湾站3个、湖泊站2个及湿地站、城市站各1个,基本涵盖了生态网络主要的生态系统类型。从生态站个数上看,森林站和农田站较多,这一方面与应用数据开展的研究相关,另一方面与生态网络的生态站布局有一定关联,农田站与森林站数量多、分布广。
同时对生态站、关键词进行分析,挖掘生态站与关键词间的隐含关系,识别不同生态站数据应用的研究主题。统计排名前15的生态站所关联的关键词,整理出每个生态站出现频次在2 次以上的关键词,与15个生态站构成生态站—关键词2—模数据矩阵,利用Pajek软件绘制2—模网络可视化图谱,直观展现生态站与关键词之间的内在联系。绘制的可视化图谱见图6,图中正方形节点代表生态站,圆形节点代表关键词,连线表示生态站与关键词的关系,连线的粗细表示频次的多少。
通过图6可以发现,各生态站数据应用的研究主题相对鲜明,各有特点。例如,长白山站的数据主要用于揭示森林生态系统结构与功能的关系及其动态变化规律、气候变化对环境的影响等;会同杉木林站与会同站的数据在研究湖南会同地区杉木人工林可持续经营的生态学机理、在区域碳平衡中的作用等方面应用较多;鼎湖山站的数据主要用于森林群落演替、生物多样性维持机制、生态系统对环境变化的响应与适应等研究;尖峰岭站的数据集中应用在海南热带森林生物多样性及其生态学过程的研究方面;栾城站的数据主要应用在农田生态系统能量、水分、养分传输过程及其内在调节机制方面的研究;太湖站的数据应用侧重在探索湖泊富营养化的特征、演化过程与发生机制等方面;长武站的数据在研究黄土高原南部高原沟壑区农田生态系统的结构、功能与生产力方面发挥了一定作用。结合图5、附录1,可以认为,生态站长期、连续的观测数据积累,为揭示其所代表的生态区和生态系统类型的生态系统结构与功能、能量流动和养分循环的变化规律[3],分析主要生态环境问题的现状、动态变化及驱动机制等方面提供了重要支撑。
3 结论与建议
通过上文对利用生态网络长期观测数据开展研究文献的统计分析,得出以下关于长期观测数据应用现状的结论:
(1)生态网络长期观测数据由于具有生态系统类型全、生态站数量多、指标比较全面与规范、时间序列较长等优势,受到越来越多学者的关注,其应用学科领域以林业、农业基础科学为主,同时不断渗透到其他学科中,呈多元化态势。
(2)生态网络长期观测数据主要在生态系统服务研究、模型模拟、人工林研究、水污染研究、生物多样性研究、小麦玉米研究、土壤水分研究等方面发挥作用,支撑生态系统过程的空间格局分析与环境驱动机制研究、不同生态系统的共性规律的发现和验证等。
(3)生态网络长期观测数据的主要用户群体为高等院校和科研院所,主要用户机构包括中国科学院下属研究机构、林业与农业类大学、综合性大学、师范类大学和中国林业科学院下属研究机构等五类;不同机构应用生态网络长期观测数据开展的研究各有侧重。
(4)生态站的长期观测数据能够支撑揭示其所代表的生态区和生态系统类型的生态系统结构与功能、能量流动与养分循环的变化规律,分析主要生态环境问题的现状、动态变化及驱动机制等。
根据分析结果,对生态网络长期观测数据应用的相关方面提出几点建议:
(1)健全数据引用机制,制定相应的科学数据引用和著录标准,在有利于数据的定位、发现与长期保存的同时,有效保护数据生产者的知识产权,也便于进一步开展数据集成、数据利用状况分析、数据共享成效评价[21]等方面的工作。
(2)发挥生态网络长期观测数据优势,对数据进行深度分析、挖掘,开展专题数据产品的生产,充分开发生态网络长期观测数据的潜在价值,服务于国家尺度的长期生态科学问题研究和生态评价,拓展生态网络长期观测数据开放共享的广度与深度。
(3)加大和稳定生态站的经费投入,更新完善、改造升级生态站主要观测、实验仪器设备,提高生态站的观测能力和水平,为获取准确度高、可比性好的长时间序列联网观测数据提供基础技术支撑保障;同时还要完善、优化生态站布局,使生态网络布局更为科学、完整。
本文尽管得出了一些结论,还是存在不足之处,主要是由于文献检索带有一定的主观性、局限性,可能会因为漏掉个别有价值的文献而使研究结论无法全面概括生态网络长期观测数据应用的现状,但是这并不影响本文的参考价值。
附录1 出现频次大于14的生态站基本信息