基于Python的混合式英语教学数据融合实施方案
2022-07-17王劼华
摘要:“互联网+”时代,为提高高校英语教学效果,开拓大学英语课程线上线下混合式教学模式创新研究的思路,该文将着重关注如何有效地挖掘多个互联网教学平台的数据,与外语教学的特殊性结合,做针对性研究,从而制订有效的混合式精准教学实施方案,并通过数据融合方案全面地了解和指导学生的英语学习。该文介绍了方案实施工具Python与Anaconda,以及方案实施策略,其中包括数据的读取与保存、数据的筛选处理、分析结果的可视化展示和相关性分析4个部分,并通过示例呈现了如何利用Python来实施混合式英语教学数据融合。
关键词:数据融合 Python 英语教学 混合式 精准教学 实施方案
中图分类号:H319.3;G434文献标识码:A 文章编号:1672-3791(2022)06(b)-0000-00
Implementation of Data Fusion in Blended English Teaching Based on Python
WANG Jiehua
(Nanjing University Jinling College, Nanjing, Jiangsu Province, 210089 China)
Abstract: In the “Internet +” era, in order to enhance the teaching efficiency of college English courses, and explore a new innovative approach for the online-offline blended teaching mode, the paper emphasizes how to effectively utilize the data from multiple online teaching platforms, and carries out a corresponding study by combining data mining with the particularity of language teaching, and thereby formulates an implementation program for the effective blended precision teaching, through which teachers can comprehensively understand and instruct English learning of college students. This paper introduces Python and Anaconda as the development tools, and the implementation strategies including data reading and saving, data filter and processing, visualization display and relativity analysis, and demonstrates how to implement data fusion in blended English teaching based on Python by way of illustration.
Key Words:Data fusion;Python;English teaching;Blended;Precision teaching;Implementation
大數据与多元智能的融合可以更为准确地判断学生的个性、学习程度、学习特长等,从而为学生提供精准教学、个性化学习,提高教学质量和效率[1]。在《大学英语教学指南》(教育部 2017 年最新版)建议将信息技术有效地应用于教学当中,鼓励教师实施基于课堂和在线课程的翻转课堂等混合式教学模式的大背景下,许多高校英语课程展开了线上线下混合式教学的实践[2]。
在此,该文将着重研究如何挖掘多个互联网教学平台的数据,并通过数据融合方案全面地了解和指导学生的英语学习,从而实现更加精准的教学,开拓大学英语课程线上线下混合式教学模式创新研究的思路[3]。
由于该研究涉及各类数据来源的访问、大量的数据处理以及分析结果的可视化展示,综合考虑各个备选方案后,Python因其独特的优势被选为了方案实施的编程语言。在数据科学领域,一般问题的解决过程都包括4个主要的步骤:数据收集和清洗、数据探索、数据建模和数据可视化,而Python可以在整个流程中提供必要有效的处理工具。Python数据工具箱中既有Python内置函数和标准库,又有第三方库和工具。该课题主要用到了Pandas、NumPy和Matplotlib。Pandas是一个用于数据分析的开源Python库,它让Python能处理电子表格等数据,提供了数据快速加载、操作、对齐与合并等功能。NumPy也是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。Matplotlib 是 Python 的绘图库,它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案[4]。
该研究选择安装了Anaconda作为工具平台。因为Anaconda是专注于数据分析的Python发行版本,包含了大量科学包及其依赖项,是数据科学的利器。在Anaconda的包管理器conda中安装Jupyter作为Python程序开发环境,Jupyter最大的优势在于能够合理高效地展示数据,提高了项目研究的效率。
2 方案实施策略介绍
2.1 数据的读取与保存
该研究中将数据细分能力测试数据[5]和学习过程数据两大类。线上学习过程数可以从各个在线教学平台直接导出,在导出格式的选择上,考虑数据的兼容性,建议统一选择excel格式。能力测试数据(如英语四六级考试和期末考试的成绩)则可以从学校教务处等相关部门获得,这些信息一般也都以Excel格式保存。
该研究中需要对多个平台的数据进行融合处理,由于所有的数据来源均统一为了Excel格式,Python中的Pandas库是最适合对这些数据文件进行读取与保存的。
例如:当教师开学前拿到了所教班级的学生名册后,可以到全校历次英语四六级成绩表中,将所教学生按时间顺序由近及远依次做搜索查询,保留每名学生最近一次的有效英语四六级成绩作为初始能力数据。
Pandas读取Excel数据文件后,会将数据保存在表格型的数据结构Dataframe中。为了提高在Dataframe中搜索数据的效率,可以在Dataframe中增加索引项。在索引项的选择上,要考虑该项数据的唯一性和普适性。比如:在全校英语四六级考试的成绩文档中,学生的信息项有姓名、证件号、学号、笔试报名号和准考证号等信息;而在教师拿到的学生名册中,学生的信息有姓名、学号和所在班级等信息。通过比对可以发现学号信息是具有唯一性和普适性的,因此在该研究中均将学号信息作为Dataframe的索引项。需要提醒的是,学生学号在全校历次英语四六级考试的成绩表单搜索过程中,除了要检查学号是否存在,还要对成绩的有效性进行核查。有的学生虽然报名了某次四六级考试,但是可能出现缺考的情况,反映到成绩表单中该学生的成绩项可能为空,或者值为0。检测到这种情况时,本次成绩会被判为无效,要继续搜索该名学生在之前考试中的有效成绩。在当前班级所有学生的有效四六级成绩读取完成后,为了以后查阅方便,可以将Dataframe中的关键数据过滤保存为Excel文档。
2.2 数据的筛选处理
该研究中要对根据学生的初始能力数据来实施精准教学[6]。以英语听力为例,即使在分层教学的班级,学生的听力水平仍然会存在一定的差距,因此教师需将听力能力薄弱的学生筛选出来以制订更有针对性的教学计划。
该研究中参考最近一次的有效英语四级考试成绩进行筛选。英语四级考试成绩表是有分项数据的,读取到Dataframe后可以得到如听力得分、阅读得分、翻译得分、作文得分和笔试总得分等数据,通过索引项学号定位到每位学生的行数据后,便可综合判断该生听力单项得分率(听力实得分/听力总分)和听力得分占比(听力实得分/笔试总实得分)。目前英语四级听力总分248.5,卷面分值占比为35%,该研究中若某学生听力听力单项得分率低于50%,或者听力得分占比低于28%(35%*80%),则判定该生的听力为薄弱项。在实施过程中,对于上述评判阈值50%和80%,教师可根据班上学生的实际情况做相应的调整,在程序中设计接口到指定的配置文件中读取相关参数。
2.3 分析结果的可视化展示
制作提供信息的可视化是数据分析中最重要的任务之一,Python中的Matplotlib模块功能十分強大,可用于创建折线图、直方图、散点图、条形图、圆饼图等。在混合式英语精准教学中,教师也需要借助可视化的图像来分析教学效果。
该研究中将班上的学生按照学期前英语四级成绩划分为两个对照组,成绩490以上的为Group A,490以下的为Group B。该学期教师安排了线上线下混合式教学,通过绘制的散点图(图2)可以反映出两个对照组英语期末考试成绩随在线学习表现分变化的大致趋势。散点图中X轴为在线学习表现分,其综合了签到、课前练习、课堂练习等多种因素[5],总分为253分;y轴为英语期末考试成绩,满分为100分。通过图2可以看出,对于英语基础较弱的Group B的学生,总体而言呈现出在线学习表现分越高则英语期末考试成绩越好的趋势。
2.4 相关性分析
该研究中需要对学生在线学习的表现与英语期末考试中各个分项做量化的相关性分析。将英语期末考试的成绩表读入Pandas的Dataframe后,每个分项成绩为Series数据,转换为Numpy的ndarray数据后,即可调用Numpy中的相关性函数进行计算。
本研究中相关性系数选择皮尔森相关性系数,其计算公式为:
其中x数列为学生在线学习的表现分,y数列为期末考试各个分项的成绩,n为班级的学生人数。需要注意的是每个分项的相关系数都要進行独立计算。该研究中,2019级某法语班学生在线学习的表现与英语期末考试中各个分项的相关系数如表2所示。
从表2中可以看出,仔细阅读和词汇词组两个单项与在线学习表现的相关性较强。另外,该学期的教学方式采用的是混合式教学,在线教学的课时占比为1/4。如果在线教学的课时占比提高后,可以预期相关系数的值还会有一定的提升。
3 结语
Python包含了许多强大的统计学和数学工具,通过上述示例可以看出,Anaconda/Python平台对于本研究进行英语教学数据融合处理提供了很好的支撑。教师利用数据融合的结果,可以更有的放矢地对学生实施精准化教学,因此该文提到的基于Python的英语教学数据融合处理方案在高校英语教学中有较高的推广价值。
参考文献
[1] 许晓川,王爱芬.大数据与多元智能在教育教学中的深度融合[J].教育理论与实践,2017,37(25):32-35.
[2] 贾振霞. 大学英语混合式教学中的有效教学行为研究[D].上海:上海外国语大学,2019.
[3] 王劼华,刘光源.基于数据融合的英语混合式精准教学可行性研究[J].科教文汇,2020(12):167-168.
[4] Wes McKinney.利用Python进行数据分析[M].北京:机械工业出版署,2018:9-16.
[5] 黄涛,赵媛,耿晶,等.数据驱动的精准化学习评价机制与方法[J].现代远程教育研究,2021,33(1):3-12.
[6] 赵涛.智慧技术支持下混合式学习模式建构与实践研究[J].中国电化教育,2021(9):137-142.