APP下载

面向农业信息化“多元统计分析”教学内容改革与实践

2023-01-12湖南农业大学信息与智能科学技术学院许健何少芳

内江科技 2022年12期
关键词:编程分析方法

◇湖南农业大学信息与智能科学技术学院 许健 何少芳

当前,农业信息化智能化正在逐步推进,农业院校的才培养模式需紧跟产业需求的变化。本文首先分析了我校传统多元统计分析课程教学中存在的问题与不足,之后提出了要用好农业院校优势,引入农业相关学科领域真实案例数据和问题需求,以问题驱动,从解决问题的过程中学习相关概念和方法,建立问题驱动型教学模式。

“多元统计分析”是应用性较强的一门统计学基础课程,其中的很多经典方法比如主成分分析、因子分析、聚类分析、判别分析等,早已经应用到诸如物理、化学、生物、医学、经济学等领域,目前也是是机器学习方法库中的重要组成部分。本课程一般以“概率论与数理统计”和“线性代数”为先修课程,涉及的内容丰富,除了经典的多元分析方法,新出版的教材还会纳入一些机器学习方法,比如决策树、bagging 回归、随机森林等。这门课作为一门统计学应用课程,其目的是提高学生对真实数据的分析能力。只有准确理解方法背后的原理,才能在真实数据分析场景中嵌入合适的方法。为了在有限的学时中尽快引导学生入门,在方法与编程实现方面都有所提高,笔者从课程教学内容安排和教学模式方面进行了一些探索。

1 课程教学内容体系改革

该课程的理论部分对数学以及统计学理论有较高要求,编程实现方面需要学生学习R或者Python等编程语言。为了在授课中突出方法原理,强调编程实现,培养学生的“问题驱动”思维意识,同时结合农业院校特色,在课程教学内容上进行了适当调整。

1.1 面向农业信息化的案例数据与问题

当前,大数据、人工智能、5G通信等现代信息技术逐渐融入农业生产过程的各个环节,智慧农业已经成为现代农业发展的新业态和前进方向。2020年,中央和地方各级政府尤其提出要加快大数据、人工智能、第五代移动通信网络等现代信息技术在农业领域的应用[1-2]。智慧农业涵盖的内容丰富,所需技术门类多,存在明显的学科交叉融合。未来智慧农业领域的研发重点将聚焦在以下三个方面:①以农业遥感为代表的作物识别与生长监测技术;②以机器视觉为代表的影像分析与利用技术;③以农业物联网为代表的信息感知、分析与调控技术[3]。

农业遥感的有效应用,首先要能“读懂”高光谱等遥感数据,机器视觉中大量的影像数据需要做模式识别,物联网数据中蕴含着宝贵的商业信息等待挖掘。这些都是农业信息化中的真实问题,并且相关或类似的数据往往在本校也能够获取到。这些数据案例是天然的优秀教学题材。比如,不同品种油菜籽的近红外光谱之间的差异在主成分上的体现方式,可以用于理解主成分方法的原理;不同品种红薯质地口感专家打分情况与体现红薯风味的各项物化指标间的关系,用于解释因子模型如何探索变量之间的相关性结构;根据油菜籽的近红外光谱判断品种类型,体现判别分析方法的功能;油菜冠层光谱与油菜氮素营养的偏最小二乘回归模型,展示当变量个数大于样本个数情况下的多元回归建模。

1.2 理论课内容安排

经典的多元统计分析教材通常都着重于数学理论和推导,关于多元正态分布的性质占据很大的篇幅,过度强调在理想的假设下能推得的诸多性质,而对于真实数据的分析强调得则不够,同时,在统计软件的应用方面可能会慢于软件技术的进步速度。根据我的经验,由于多元分析的理论推导过程通常相对“规模庞大”,讲清楚一个理论细节要花费大量的课堂时间,学生很容易产生排斥心理,影响教学效果,同时也造成方法的应用部分匆匆带过,花了大量精力,学生留下的可能只是理论的碎片,而对于方法有什么用、怎么用则不甚清楚。鉴于以上问题,在我们的教学中,对于经典多元分析方法,如判别和分类分析、主成分分析、因子分析、聚类分析、典型相关分析,我们强调它们的原理的直观性解释和在数据分析场景中的应用,弱化理论的数学推导,但是注重方法的几何直观解释,比如二次型与置信椭圆[4],主成分与方差极大化方向,线性判别与最优投影方向等,几何直观对理解方法的原理十分有益。在讲解经典方法的同时,补充一些原理简单但有效果优良的机器学习方法,比如决策树、随机森林等。具体的内容安排见表1。多元正态分布有关的方法,比如针对均值和协方差矩阵的检验等,由于实际问题可能难以满足多元正态的分布假设,实际应用场景不多,所以在课堂教学中去掉这一部分内容,减轻学生负担。

表1 理论课教学内容

1.3 实验课内容安排

多元数据的分析处理几乎离不开计算机的辅助,因此学生必须掌握经典多元方法的编程实现。试验课的内容基本上与理论课相对应,R语言或者Python只在第一次实验课上做简要介绍,学生自学,不在课堂上学习。通常,如果使用R语言,那么语言自带了几乎所有经典多元分析方法的命令,了解命令的相关参数功能就能实现相关方法。但是这样对初学者掌握方法的原理没有帮助,因此在实验课中,对于合适的内容,要求学生自己编程实现,不直接套用现成命令。适合自己编程实现的方法有经典的回归方法、线性判别、Logistic判别、主成分的计算、因子模型的主成分方法、K均值聚类、系统聚类、对应分析的模型计算。对于这些方法,编程过程实际上只需要将对应的数学推导变为计算机代码即可,因此对学生来说门槛不会太高,而同时这对于理解方法的理论细节又大有裨益。

2 实践环节的教学改革

在对实际问题数据的建模分析过程中,多元方法的使用和效果评估存在一定的主观性,这种主观性也体现了统计学处理和分析问题所特有的思维方式,它是在处理没有“标准答案”的真实问题时所不可避免的,而这也是在初学阶段很难处理好的地方。真实问题可能有很多不同的答案,每种答案都具备某种合理性,寻求“标准答案”会限制想象力,造成对问题本身复杂性的回避。面对复杂的问题,对问题本身的意义以及对数据的理解是能力培养的关键,而这很难用套入一个固定的模式中[5]。因此,实践教学环节我们主张让学生开放性的选题,找一个自己感兴趣的问题,准确定位问题的背景及意义,获取数据,做必要的探索性分析和统计建模分析,得到自己的研究结论。采用任务分解的方式,在问题解决的各个环节对学生加以引导。图一列出的是从选题到撰写分析报告整个过程的典型步骤,问题是千变万化的,但基本上都可以遵循这样一个分析流程,将问题的解决分解为一个个具体的任务,各个击破。完成好每一个子任务,得到一份合格的分析报告就不会太难。

图1中所示的流程中,选题策略和问题背景及意义的重要性是学生最容易忽视的地方。如何从错综复杂的行业现象,从面到点的聚焦到一个具体明确的研究问题,是实践环节的教学重点。很多学生受到教材中的例题影响,视野局限在多元分析在国民经济统计数据上的应用。对于此,最好的办法是多让学生多看一些教材上没有的商业数据分析案例,现在的很多数据科学方面的公众号上面不乏有这方面的好素材。像“狗熊会”、“数据帮”等公众号给出了诸如从数据看足球运动员身价,房屋租金影响因素,旅游产品销售分析,电影票房,双十一销售分析等有趣而生动的案例。这些案例具有很好的启发性,能够帮助学生在选题以及问题聚焦上该如何思考。

图1 实践环节主线图

3 教学方式改革

多元统计分析方法众多,牵涉到大量的统计理论基础和优化计算方法,有效的课堂教学需要学生做好充足的准备。因此,调动学生的学习积极性,加强自主学习是关键。这需要在学习时间和学习内容两个维度上下功夫。

(1)采用线上线下混合式教学模式。多元方法主要分为两类,其中一类是基于分布假设的方法,比如多元正态分布的相关内容,这部分在整个课程中的比重不大,但是理论推导繁琐。另一类可以看成是基于优化的方法,比如主成分分析、聚类分析、判别分析等。这些方法到直观性较强,但是优化计算求解也是一个数学性较强的内容。零零后的大学生是互联网中的原住民,他们更习惯在网络上进行随时随地的学习,加之目前各大慕课学习平台的成熟,建设一门线上课程较容易实现。线上课程的好处是,学生理解速度的不同不大会影响学习的效果,有充足的时间查阅相关的资料和做演算。这样,线下课堂有更宽裕的时间来统筹讲解方法的原理、技术特点以及应用范围。

(2)强调问题驱动思维方式。农业生产领域的很多具体问题曾经推动了统计学的发展,比如费歇尔爵士1935年出版的《试验设计》一书就是对他以及合作者在洛桑农业实验站工作期间所运用的统计方法的总结。农业院校的一个优势正是有着大量这一类数据和对解决相关问题的需求。比如,利用土壤近红外光谱数据预报土壤有机物含量、利用油菜冠层光谱数据监控油菜氮肥营养素状况、食品发酵过程中多种微生物繁殖数量变化规律、利用照片数据估算水稻叶面积、作物产量试验数据等,这一类的数据首先维数都较高,并且伴随着一个个真实的问题,天然是多元统计分析教学的良好素材。在教学中采用这些数据,给学生的感觉会是问题和需求都很真实,就是身边的例子,让学生更有兴趣,从而更加主动的去摸索方法的原理和使用上的注意事项,这也为学生未来进入智慧农业相关产业做了有益的铺垫。

(3)强调编程计算能力。学生基本上都明白编程能力的重要性,他们甚至经常会问R和Python到底学哪一个更好。在教学中,我们不会限制学生使用软件的类型,也不以精通某样语言为编程练习的目的,而是以能够用工具完成手中的任务为第一要务。软件是工具,无论是R还是Python都在不停向上更新迭代,时刻都有新的功能特征添加进来,因此通过网络寻求帮助以及根据自己的需求学习新的技能才是真正重要的能力。当然,软件入门的常规训练是需要的,像头歌(EduCoder)这样的实训平台对软件基础知识的学习是很有帮助的。对软件的熟练使用,最终还是在实际问题的解决中逐渐得到的。

4 教学效果

4.1 课堂教学效果

线上课程的先导作用明显。学生可以一边查阅参考书,一边跟随线上课程的内容,通过有网课辅导的自学能够熟悉方法的原理、运用和理论细节,并及时使用计算机编程进行方法验证,遇到问题可以在讨论区展开讨论。线下课堂的教学内容能够更灵活的安排,利于学生从宏观上把握方法的应用范围与局限。通过线上和线下相结合的方式,学生对多元方法的理解与把握明显变好。

4.2 课程设计教学效果

为期两周的课程设计中,学生的选题视野明显拓宽。以前大多数学生都倾向于选择国民经济数据,做主成分分析或者因子分析,解释经济现象。通过平时的引导,现在学生在选题方向上更加大胆,敢于从自己感兴趣的问题入手,比如,一款综艺节目为什么火爆?喜欢篮球的同学会选择“NBA球员价值评估”这类课题,还有研究二手车保值率影响因素,二手房价格影响因素等与生活息息相关的经济现象。总的来说,因为选题本身符合学生的兴趣,在后续的数据获取,建模分析,撰写论文等环节,研究小组的热情高涨,在小组汇报中精彩的报告能强烈吸引观众的注意,获得成就感。

猜你喜欢

编程分析方法
编程,是一种态度
元征X-431实测:奔驰发动机编程
隐蔽失效适航要求符合性验证分析
编程小能手
纺织机上诞生的编程
电力系统不平衡分析
电力系统及其自动化发展趋势分析
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法