APP下载

应用统计专业在大数据背景下探究性教学实践
——以“时间序列分析”课程为例

2021-10-13

牡丹江教育学院学报 2021年9期
关键词:时间序列分析探究性预测

饶 凤 赵 剑

(南京工业大学数理科学学院,南京 211816)

一、引言

应用统计是统计学下设的二级科目,它是统计学与其他学科交叉融合,以研究与统计数据为主的应用性学科。它在当今社会各个领域中扮演着重要的角色,如在经济领域中预测金融风险、农业领域中统计天气及气候的规律以避免自然灾害、医学领域中预测流行病的传播周期等都少不了应用统计学活跃的身影。南京工业大学于2018年获批增设应用统计硕士专业学位,主要开设了如下主干课程:时间序列分析、应用多元统计分析、统计建模与统计软件、信息统计挖掘与分析、金融分析与风险管理、供应链管理等。我校本科生时间序列分析课程的开设有十几年的历史,也为本文提供了丰富的实践素材。

大数据时代的到来,为应用统计专业的发展注入了新的活力,同时也对统计人才提出了新的要求。除了要掌握基本的概率论、统计理论知识、掌握统计软件(如SAS、SPSS、R 等)的使用外,还要具备相关领域(如经济、工程技术等)的专业知识与实操能力。还要具有对复杂多变的实际情况足够敏感、懂得如何收集数据,分析处理数据,进而取得较好的预测结果[1]。关于大数据背景下应用统计专业教育教学改革的文献大量出现。例如尹勤和黄宝凤阐述了大数据的特征以及大数据带来的变革对统计人才的需求变化,并对在研究生中开展教学改革的实践经验进行了总结[1]。阮敬等人论述了将大数据分析与统计分析相结合的教学模式,并对应用统计专业的人才培养模式进行了探讨[2]。

为了适应迅速发展的大数据,应用统计专业研究生的教育教学方式也要随之变革,研究生除了学习基本理论知识,如何开展研究也是其面临的重要问题。教师授课时如何将专业的理论知识与研究生的科研相结合,已显得相当必要。

二、探究性教学理论基础

“创新是一个民族进步的灵魂,是一个国家兴旺的力量源泉”。研究生创新的培养是国家战略层面的迫切需求,也是提高国民素质的重要途径。要学生创新,就要给学生创新的土壤,我校每年举办“科技创新月”就给学生提供了创新机会,同学们将自己探究的问题参加科技活动,或根据大数据进行建模分析,或对计算算法进行优化,或对经典模型进行改进等。实践证明探究性学习是一种培养创新能力的有效方法,对于学生而言是学习,对于老师而言就是探究性教学,教与学相得益彰,相互促进。

探究性教学,顾名思义是探索研究性教学,始于探索、重在研究,它是在学生学习时,教师通过创设情境,启发思考等方法,让学生自行去发现问题、探索问题、解决问题、研究问题的内在联系,从而建立自己的认知模型和学习方法架构。它强调教学与科学研究的结合,一般教师不但承担教学任务还承担着科研任务,用自己的科研知识,渗透于教学活动中,用研究性的方法优化传统的教学方式,从而形成“探究性教学”。它有如下几个特点:

(一)兴趣激励

“学问必须合乎自己的兴趣,方才可以得益”(莎士比亚),自己不感兴趣的学问做下去是不会有所建树的。教学过程中使学生主动进行探究性学习的一个重要前提就是要善于运用各种方法激发学生的学习兴趣[3]。只要激发了学生的学习热情,使学习不再是一种负担,就会极大地调动学生的积极性,激发其学习的潜能,从而形成自主学习的习惯。也就是充分发挥学生的主观能动性,学生才是知识的认知者,实践者,是发现知识的主体,调动其主观能动性,才能更好地研究,更好地创新。

(二)启发引导

应用统计专业课程大部分是抽象的理论知识,更何况探究性学习是一种以探究为主分析问题、解决问题的富有挑战性的学习方式。学生在探究过程中难免会充满问题和疑惑,这时施教者就要加以引导,提供必要的帮助,发挥教师作为启发者、引导者的作用。但是也要把握好“度”,不能喧宾夺主,要给学生独立学习与探究的空间,启发学生积极思考和探索,鼓励学生主动地参与到知识的形成过程。

(三)交流互动

教学是教与学的统一,教学过程即是师生双向互动、共同发展的过程。互动交流是建立在自主探究的基础之上的,学生只有在经过认真的探究、积极思考后,才能与教师有高质量的互动。另一方面,教师一定是创设了合适的场景,给学生适时的引导,已经事先预测过可能发生的一些问题,才能与学生产生观点碰撞,无障碍的交流。

三、探究性教学实践方法

时间序列分析是应用统计的主干课程,不仅强调理论知识的讲授,而且注重真实案例的分析。

(一)翻转课堂

在授课中采用课堂翻转模式。将学生进行分组,两名同学为一组,笔者先利用慕课、微课、B 站等网络资源提供授课相关视频,并将课件事先发给学生,让学生熟悉课程内容,然后选择一组同学来担任授课的角色,两名同学分别负责一个小节。并要求其他组同学能提出有价值的问题,最后由教师进行点评。例如在学习时间序列模型平稳性的判定时,笔者给学生们推荐了中南财经政法大学汪家义等老师主讲的《时间序列分析》在线课程,A 同学与B同学分别讲述了时间序列的平稳性与平稳性的判断,其他同学提出了很好的问题,如我们为什么需要平稳的时间序列、弱平稳性与强平稳性怎么区分等,同学们对这些问题展开了广泛的讨论。这充分调动了学生的积极性,很好地发挥了学生的主体作用。最后笔者给出整个上课效果的评判,指出授课同学尚需改进之处。教与学的翻转,施教者与受教者角色互换,不但可以让学生更牢的掌握知识,也让学生体会到“教”的不易,从而更加珍惜课堂的劳动成果。

(二)数据驱动

数据驱动是通过编程工具等从互联网或社会组织采集海量的数据,将数据进行组织形成信息,再对信息进行整合,并对数据集进行训练、拟合等过程形成智能模型,进而对相关事物进行预测[4]。时间序列分析本质上就是对数据的分析。例如在讲述非平稳序列时,笔者收集了我国2010-2019年之间的艾滋病的发病人数与死亡人数,这些数据具有很大的随机性,笔者分别对这两种数据进行分析并建立ARIMA 模型,使用R 语言编程进行数据拟合,并对未来的发病与死亡人数给出预测。随后给学生布置了数据采集任务,分组采集2019年的股市上证、深证、中小板指数,并作给出合理的预测。通过这些实例数据的采集与分析,激发了学生对数据的好奇心以及对现实问题的敏感性[5][6],使其认识到时间序列分析这门课程是能实际运用到社会生活当中去的,这样才能让学生在数据美的驱动力下去学习、去研究。

(三)研学结合

对研一的研究生来讲,刚刚开始研究生生涯,大部分学生对“研究”还不知从何下手。这就需要教师结合相关知识点,融合科研元素,让学生潜移默化中了解科研,体会科研,从而激发他们的科研兴趣,热爱科研[5]。笔者在讲述平稳时间序列时,讲解了《运用ARMA 模型对股价预测的实证研究》(徐晨萌等,经济研究导刊.2019,(31):77-82),让学生们对于ARMA 模型的实用价值有较深的认识。在与学生讨论时间序列季节影响时,分析了《基于X-12-ARIMA 季节分解与年度电量校正的月度电量预测》(张强等,电力建设.2017,38(01):76-83),我们除了理解X-12-ARIMA 模型外,还讨论了作者为何没有使用X-11模型的可能原因。通过讲解相关的科研论文,培养学生对科研的感觉,激发学生从科研论文中汲取营养,学会解决实际问题的方法。笔者在期末考核时也是采用开放课题,让学生自由选题,结合教材知识点,完成一篇小论文。实践证明,通过教与研、学与研相结合的训练,提高了学生的科学素养,有不少同学将课程小论文加以完善,发表于学术期刊。

四、探究性教学应用案例

随着计算机与互联网的迅速发展,数据集越来越朝着多样性、复杂性、高纬度的方向发展。有些数据集存在着噪音、缺失值、量纲不一等问题,很难使用传统的理论模型来处理[5]。为了克服这些短板,近年深度学习算法如RNN(循环神经网络)、CNN(卷积神经网络)等被大量运用到时间序列预测上。

新冠肺炎从2019年底爆发以来,已造成全球1.5亿多人感染,320多万人死亡。设计一个用统计方法来预测新冠肺炎新增人数案例,具有很强的现实意义。结合笔者于2020 年8 月份用LSTM算法对美国新冠肺炎的感染者进行的建模与预测,将案例设计如下:

(一)数据集获取

给学生提出问题,从哪些网站上获取新冠肺炎病例数据(世界卫生组织、各国卫生机构等网站),用哪种编程语言来绘制曲线图(R、Python、SPSS等)。让学生先自己动手,可以选择单个国家的数据,也可以选择不同国家进行比较,自由选题。

笔者采集了感染人数最多的美国数据作为研究对象,数据采集于霍普金斯大学网站,截取2020年1月至8月中旬美国每日新增确诊人数数据,绘制出曲线图如图1所示,1月到3月,美国尚未投入大规模检测,出台隔离治疗措施,这部分数据未包含太多信息,选取4月初至8月中旬每日新增感染者时间序列数据作为建模对象。随机拆分90%的样本数据作为训练集拟合训练模型,剩余10%的样本数据作为测试集。

(二)模型建立

引导学生用何种算法来建模(ARIMA、NARNN、LSTM 等),每个学生说出选用某种算法的理由,并给学生推荐相关的文献资料进行阅读,让学生理解常见算法模型适用的数据类型。

笔者采用了LSTM(长短期记忆神经网络)算法,是RNN 的一种改进算法。为避免RNN 同一级神经元之间传递信息时由于相互间隔的传输距离过长而衰减的问题,Hochreiter和Schmidhuber提出了LSTM 神经网络结构[7]。研究中使用了双层LSTM 框架,使用步骤一中训练集进行训练模型,数据拟合如图2所示,其中蓝线为实际值,红线为预测值。

图2 数据拟合曲线图

(三)误差分析

让学生回忆课程中有哪些评估误差的方法,再给学生提示几种科研中经常用到的方法,让学生去了解各种方法分别从哪些纬度对误差数据进行了评估。

笔者使用了四个参数评估模型拟合效果:平均绝对误差(MAE),均方根误差(RMSE),均方误差(MSE),平均百分比误差(MAPE)。表达式如下,其中代表每日新增感染人数预测值,代表每日新增感染人数真实值,n是测试集样本数量。四个参数都能够测量模型拟合效果,MAPE 消除量纲影响,应用更普遍。

对测试集拟合结果的各参数值评估见表1,可以看出预测精度还是比较好的。

表1 LSTM 模型拟合参数

(四)模型预测

最后得出预测结果,让学生与真实数据进行对比,找出偏差,如果偏差太大,是否有隐含的因素没有考虑,有没有做合理的假设,预测区间是否合理等。经过一个完整的研究步骤下来,让学生们有了对科研基本的认识,从而达到较好的授课效果。

笔者假设病毒的传播能力和防控资源投入具有连续性,不会在短期内发生巨大变化,且未来每日新增感染人数与历史数据相关。使用拟合后的LSTM 模型用当前时间序列数据建立的特征集对未来15天(即8月中旬至8月底)的每日新增确诊人数做出预测,预测结果如图3所示。从图中可以看出,在未来15天内,每日新增确诊人数在42000到51000之间波动,并且数据波动呈现一定的周期性,约以一周为一个周期。与实际数据对比,基本符合预期。

图3 未来15天新增确诊人数预测走势

五、结语

研究生已经具备较高的自主学习能力,不像低年级本科生那样需要以教师引导为主,因此在研究生阶段开展探究性教学更具备可行性。大数据为应用统计专业提供了更加广泛的应用场景,相应地也对教师与学生提出了更高的要求,学生要扩展自己的视野,不局限于课本知识,阅读经典文献、复现文献结果等来训练自己的科研素养。教师积极探索课程的改革与实践,结合自己的研究领域引领学生运用所学的方法或工具来解决实际问题,更好地培养适用社会需要的人才。

猜你喜欢

时间序列分析探究性预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
浅析初中化学探究性实验教学
高中英语探究性学习的初步实践
如何在高中数学教学中开展探究性学习
不必预测未来,只需把握现在
基于R软件的金融时间序列的预测分析
微信公众号未来发展态势的实证预测
中国石化产业产能过剩测度及预警