APP下载

生态学专业R语言实践课程教学探索

2024-10-23管平婷他富路唐占辉王平车志敏

中国教育技术装备 2024年19期

摘 要 生态学文明建设是我国重大战略之一,生态学是生态文明建设的科学支撑。实现学生理论素养和创新实践能力的综合提升是生态学专业的重要培养目标。R语言是涵盖大部分统计分析方法,同时兼备完备的制图功能的统计分析软件。R语言实践课程是生态学实现从数据到结果、从理论到实践过程的重要支撑课程。针对这门专业课程目前在生态学专业教育教学过程中存在的问题,同时结合R语言本身的特点,提出适合生态学专业的R语言实践课程的教学设计和课程应用方法,以期为生态学专业教学改革提供有价值的参考。

关键词 R语言实践;生态学;生态文明培养;方差分析

中图分类号:G642.0 文献标识码:B

文章编号:1671-489X(2024)19-0-05

0 引言

面向国家生态文明建设与发展需求,培养具有

生态学理论素养和创新实践能力的高水平人才是生态学专业的人才培养目标[1-2]。生态学专业是一个既强调理论教育过程,又注重实践应用的专业。而目前的生态学专业教育教学多偏重理论教学,学生很难将理论通过实践进行检验。或学生对实验课得到的实验结果不会分析,不能理解其中的生态意义。衔接理论与实验过程是生态学专业教学的重点和难

点。应用生物统计学可以分析生态学的实验结果、解释相关生态学现象,阐释生态学原理。因此,生物统计学的学习和应用在生态学专业教学中显得尤为重要。在传统的生物统计学教学中,

往往需要包括Excel、SPSS、SAS、MATLAB和Origin

等在内的多款软件相结合,才能实现完整的统计分析过程,导致学生需要花费大量时间去学习不同的软件,而往往又没有真正掌握某一种,也不能很好地完成整个统计和分析过程,严重影响了生态学专业的教学效果。因此,教授一款能够囊括大部分生物统计学内容的软件,让学生集中精力学习一款软件,能够节省学生学习精力,增强学习效果。R语言实践课程的出现可以实现这一目的。通过R语言的学习,学生能够完成实验设计、数据分析、结果处理等多方面生物统计学方法内容。因此,它正在被越来越多的生态学专业所重视。

R语言实践作为一门数据应用课程,已在开设生态学专业的部分高校开设,然而开设该课程的相关院校数量较少。大部分院校对该课程的教学内容和教学实践过程仍处在探索中[3]。虽然,R语言实践是一门强调实践应用的课程,但教师大多仍是注重讲授基本理论和函数,且相关参考资料多为非生态学专业案例,与生态学专业的关联性较小,学生缺少对R语言重要性及其在生态学领域应用的认识,不能将R语言与生态学实际应用结合起来,不能激发学习动力和热情,学习效果不理想。同时,由于缺乏足够的实践操作训练,学生在后期科研实验中难以利用R语言进行数据处理和分析,导致R语言这一强大的数据分析工具的应用持续性不足,未能充分发挥其在实际应用中的作用。因此,针对生态学专业特点,建设适合生态学专业的R语言实践课程显得尤为重要,不仅有助于更好地完成生态学专业培养目标,也有助于学生未来向更高层次发展,更是为国家的生态文明建设人才培养作出贡献。

1 R语言特点

R语言是由S语言发展而来的一种高级编程语言,由Ross Ihaka和Robert Gentleman两位统计学家在1995年开发完成。R语言在GNU协议下免费和开放源代码使用,并由R Development Core Team维护和更新[4]。R语言以其特有的开放、完整的统计分析以及顶尖的制图功能被包括医学、社会科学、生态学等在内的多学科所应用,成为当今世界最受欢迎的数据挖掘开发语言之一。随着大数据时代的到来,先进的数据分析技术和统计模型成为生态研究的必备条件,而R语言成为大数据整合、生态学规律发掘等生态学研究的重要工具。R语言有如下特点。

1)R语言集合了数据存储、统计分析、图形绘制等一整套数据分析所涵盖的内容,它不是简单的统计软件,而是一种统计分析与输出的环境,为生态学专业学生从数据整理、统计分析到最后结果输出提供了一整套完整方案。

2)R语言能够提供完整的源代码,且在CRAN上可以提供各种统计函数代码,在每个包(package)都有完整的帮助信息,包括函数的描述、每个函数代表的意义和使用、举例和参考文献等,即使不熟悉相关函数的人也可以快速入门和使用。

3)除了可以使用既有函数外,使用者还可以根据自己的需求编写代码。例如,数量生态学领域的赖江山教授[5]就基于生态学研究的特点发表了典范分析相关的rdacca.hp包,此包一经发表就受到生态学领域的广泛关注,相关文章也成为1%高被引论文和0.1%热点论文。

4)数据可视化是统计分析的重要内容,R语言的基础制图函数plot就可以制出包括散点图、箱图、柱形图等在内的多种图形。特别是专门的制图包ggplot2更是包含了生态统计分析所需的几乎所有图形,且可根据自己的数据特点和需求制定个性化图形[6]。

2 结合生态学专业培养目标的R语言实践

课程教学设计

从生态学专业培养的目标出发,分析R语言实践课程与生态学专业的关系,明确R语言实践课程的整体目标,结合R语言实践课程对生物统计知识和生态学理论背景的需求,引导学生自主设计和实践,通过课程的学习,提升学生从理论到实践的认识,培养学生的生态学实践和拓展能力,以期服务国家生态文明建设与发展。

2.1 构建课程框架

结合教学大纲的整体要求,以学生为核心,深入探索生态学与R语言之间的内在联系;围绕理论—科研—实践主题,结合生态文明建设热点问题,构建整个教学思路和体系。具体思路为:首先,学习R语言软件使用的基本方法,理解编程语言的编程思路;其次,基于生物统计学课程基础知识,实践练习生物统计学相关分析方法在R语言中的实现;最后,结合种群与群落生态学、基础生态学等生态学核心课程所学理论,列举生态学相关研究内容探讨分析方法,并实操如何在R语言中使用。

2.2 完善教学内容

有机融合生物统计与R语言实践,合理分配教学内容,紧跟理论和学科前沿,结合与生态学热点相关问题,设计典型案例;丰富课前—课中—课后整体教学过程,形成良好的教学运行机制,促进学生从理论到实践的探索过程。

2.3 改革教学方法

通过线上慕课等教学资源,引导学生自主学习;利用QQ和微信等即时通信软件对学生提出的问题进行实时答疑。同时,线下教学围绕提出问题、设计实验、完成分析等方面出发,通过问题导向—任务驱动—实践探索等教学手段,达到交互式教学和研究性教学的目的。

2.4 调查教学效果

通过课堂探讨效果反馈、课程考核结果分析、学生问卷调查、同行探讨等手段,厘清教学过程中存在的问题,不断优化教学方案,总结教学案例,形成研究成果。

3 生态学专业R语言实践课程教学探索

统计学中的方差分析是比较组间样本平均数是否有差异的分析,即分析实验处理的差异是否显著。方差分析需要满足独立性、正态性和方差齐性三个基本假设,如果不满足相关假设,需要对数据进行转换。方差统计结果如果表现为差异不显著,说明处理间是相同的,实验处理没有对相关研究产生明显的效果;如果表现为差异显著,可再进一步分析哪组数据与其他数据不同,即多重比较,从而最终确定实验处理组中起明显效果的处理。此外,方差分析后,结果可以用图或表的形式表现出来,特别是柱状图或箱线图,其中不仅囊括了方差分析的结果,还会展示平均值和实验处理的整体趋势。基于这些特点,它成为生态学研究中最常用的统计学方法之一。

然而,传统的统计学相关课程教学往往只关注其原理和复杂的算法,忽略了如何在实际的生态学研究中使用。即使有的课程涉及使用,却需要学生通过复杂的计算,耗费漫长时间甚至需要多种软件相结合实现。这些在实际生态学研究中其实是不需要的,实际的教学过程更关注是否使用了正确的统计分析过程,且简洁高效地完成统计分析。因此,统计学相关知识和理论应与相关统计软件有机结合,特别是对于初步接触统计学分析的学生来说,学会如何将所学的统计知识运用到实际的生态学研究中,显得尤为重要。

基于以上原因,R语言实践课程教学除了有关软件的使用外,更应强调与理论(统计学知识)和实践(生态学研究)的结合,同时利用R语言以方差分析为例演示可视化在实践教学中的重要性。下面介绍一个R语言实践课程的具体应用课例。

某学科团队研究生长年限变化对大豆生长的影响,连续三年测量了大豆单株的地上生物量,数据见表1。请根据该数据分析生长年限对大豆的地上生物量的影响,并绘制生物量随生长年限变化的箱线图。

1)导入数据。

代码:

setwd(“C:/Users/Desktop/R”)

R1<-read.csv(“R1.csv”)

View(R1)

输入R后的表格如图1所示。

2)方差分析前提检验。根据方差分析原理,数据需满足独立性、正态性和方差齐性三个假设前提,因此,在进行方差分析之前需先进行相关检验。

①方差独立性检验。采用卡方检验,其原理为参数P假设所有概率都相等,是独立的。因此,检验的假设是总体概率是否等于P中的概率。P值小于0.05,表明不是独立的;P值大于0.05,是独立不相关的。代码及输出结果如下。

代码:

chisq.test(R1)

输出结果:

Pearson’s Chi-squared test

data: R1

X-squared=1.1813, df=17, p-value=1

输出结果表明,P值大于0.05,说明数据满足独立性检验要求,可进行进一步统计分析。

②方差正态性检验。采用Shapiro-Wilk检验,其原理为原假设样本所来自的总体分布服从正态分布,备择假设为样本所来自的总体分布不服从正态分布。当P值大于0.05时,接受原假设,认为样本所来自的总体分布服从正态分布。当P值小于等于0.05时,拒绝原假设,认为样本所来自的总体分布不服从正态分布。代码及输出结果如下。

代码:

shapiro.test(R1$Biomass)

输出结果:

Shapiro-Wilk normality test

data: R1$Biomass

W=0.959 4, p-value=0.5901

输出结果表明,P值大于0.05,说明数据满足正态分布要求,可进行进一步统计分析。

③方差齐性检验。采用bartlett检验,是对样本方差是否相同进行的检验。当P值大于0.05时,接受原假设,认为样本方差相同。当P值小于等于0.05时,拒绝原假设,认为样本方差不相同。代码及输出结果如下。

代码:

bartlett.test(Biomass~Year,R1)

输出结果:

Bartlett test of homogeneity of variances

data: Biomass by Year

Bartlett’s K-squared=1.3179, df=2, p-value= 0.5174.

输出结果表明,P值大于0.05,说明数据满足方差齐性要求,可进行进一步统计分析。

综上所述,该数据满足方差分析的三大前提假设,后续可进行方差分析。

3)方差分析。方差分析是利用对因变量数值误差的分析来检验自变量对因变量的影响是否显著。原假设为处理组之间均值相等,备择假设为处理组间至少有一组均值与其他组不同。本实验为分析不同生长年限对生物量的影响,因此,只有一个实验指标,即生长年限,可进行单因素方差分析。代码及输出结果如下。

代码:

R1.aov<-aov(Biomass~factor(Year),data=R1)

R1.aov

输出结果:

Call:

aov(formula = Biomass ~ factor(Year), data = R1)

Terms:

factor(Year) Residuals

Sum of Squares 17.57671 5.88165

Deg. of Freedom 2 15

Residual standard error: 0.626 1869

Estimated effects may be unbalanced

代码:

summary(R1.aov)

输出结果:

Df Sum Sq Mean Sq F value Pr(>F)

factor(Year) 2 17.577 8.788 22.41 3.12e-05 ***

Residuals 15 5.882 0.392

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

输出结果表明,单因素方差分析的F值为22.41,P(R中展示为Pr)值为3.12e-5,小于0.05,拒绝原假设,接受备择假设,说明生长年限对大豆的生物量有显著性影响。

4)多重比较。经过方差分析,表明实验的变异主要是来自处理间的变异,即实验处理对观测变量有显著性影响,但仅说明了几个处理组间均值有显著差异,并不能说明哪些处理均值有显著性差异,因此需要比较两两之间的差异显著性,即多重

比较。

以Turkey检验为例,首先计算数据的终结计数,再与终结计数的临界值比较,若计算的终结计数值大于95%置信水平下的终结计数临界值,则认为在该置信水平下存在显著差异,否则不能确定在该置信水平下存在差异。代码及输出结果如下。

代码:

Tuk.R1.aov<-TukeyHSD(R1.aov)

Tuk.R1.aov

输出结果:

Tukey multiple comparisons of means 95% family-wise confidence level

Fit: aov(formula = Biomass ~ factor(Year), data = R1)

$`factor(Year)`

diff &nbsp; lwr upr p adj

2-1 1.253 333 0.314 272 1 2.192 395 0.009 098 5

3-1 2.420 000 1.480 938 8 3.359 061 0.000 020 3

3-2 1.166 667 0.227 605 4 2.105 728 0.014 678 4

结果表明第二年与第一年P值小于0.05,表明二者有显著性差异;第三年与第一年P值小于0.05,表明二者有显著性差异;第三年与第二年P值小于0.05,表明二者有显著性差异,即三个生长年限之间生物量均有显著性差异。

5)作图。使用R语言中的ggplot2包作图,代码及输出结果如下。

代码:

library(ggplot2)

R1.aov.plot<- ggplot(R1,aes(x =Year, y=Biomass, group=Year, fill=factor(Year))) +

geom_boxplot() +

theme_bw() +

labs(x=”时间”,y=”地上生物量”)+

theme(axis.text.x=element_text(size = 11))+

scale_fill_manual(values= c(“white”,”grey”,”black”))

R1.aov.plot

输出结果见图2。

4 结束语

随着山水林田湖草沙一体化保护和治理的提出,生态学日益成为推进美丽中国建设的重要专业。R语言以其开源,具有完整统计分析、强大运算和绘图能力等特点,受到越来越多的生态学者的青睐。

本文从R语言的优点出发,结合生态学科特点,阐述开展R语言实践课程的必要性,设计了适合生态学专业的教学方法和过程,列举教学案例,将R语言融入理论知识,重点培养学生运用软件解决实际问题的能力,以期更好地服务生态学科建设和

发展。

5 参考文献

[1] 王晓宇,徐泽,王喆,等.新时代高校《生态学基础》“课程思政”建设路径研究[J].高教学刊,2019(26):79-80,84.

[2] 刘鞠善,巴雷,李海燕,等.生态学课程思政教学改革探索[J].长春师范大学学报,2022,41(2):89-92.

[3] 李耀明,苏德荣,纪宝明.“R语言数理统计”课程开展思想政治教育教学的探索:以北京林业大学为例[J].中国林业教育,2022,40(2):20-23.

[4] 方匡南,朱建平,姜叶飞. R数据分析:方法与案例详解[M]. 北京:电子工业出版社,2015.

[5] LAI Jiangshan, ZOU Yi, ZHANG Jinlong, et al.Generalizing hierarchical and variation parti-tioning in multiple regression and canonical analyses using the rdacca.hp R package[J].Methodsin Ecology and Evolution, 2022,13(4):782-788.

[6] Wickham H. ggplot2: Elegant Graphics for Data Analysis[M].New York: Springer-Verlag,2016.

DOI:10.3969/j.issn.1671-489X.2024.19.

*项目来源:吉林省科学技术协会第六批吉林省青年科技人才托举工程(QT202230);吉林省教育厅吉林省产学合作

协同育人项目(2024O802SMR000G);东北师范大学环境学院教育教学改革研究课题(HJ-JYKT22A04)。

作者简介:管平婷,通信作者,副教授,博士。