基于聚类分析的高校英语课程需求分析研究
2019-08-23周霞张映雪李哲
周霞 张映雪 李哲
摘 要: 课程设置与学生实际需要之间的不适应是当前高校教学发展中的突出问题。由于影响课程设置和学生需求关系的因素众多,且缺少结构化数据集和量化性评价指标,所以已有研究多以定性分析为主,未能解释各影响因素之间相关性的强度及顺序,使得现有的课程设计仍以经验设计为主。该文以相关性模型为基础,提出基于聚类分析方法的课程需求分析与量化评价模型。将学生对课程的需求定义为“自主型”“友好型”“自驱型”“被动型”四种类型,并将自教务管理系统中收集的客观成绩和主观评教等数据进行人工标定以形成数据集。通过相关性对数据属性进行有效分析以获取相关性排序,并将相关性最高的属性作为特征数据使用聚类分析进行对比验证。在测试中,“交流?成绩”和“交流?评价”两项最强相关关系的准确率分别为91%和83%,从而证明了所提相关性分析方法的有效性,能够为高校大学英语课程改革提供量化分析指标。
关键词: 课程需求分析; 量化评价模型; 聚类分析; 数据标定; 相关性排序; 高校英语教学
中图分类号: TN923.34?34; TP391 文献标识码: A 文章编号: 1004?373X(2019)16?0154?05
0 引 言
大学英语课程是高校课程设置中的重要组成部分[1]。高校学生通过两年的课程学习需要达到教学大纲所要求的语言运用能力和跨文化交际能力[2]。而在实际学习中,大部分学生仍很难达到该要求,更难成为应用型国际化人才。这表明学生的实际需求、教学大纲和大学英语课程设置三者之间仍需进一步协调,进行有机组合[3]。大学英语课程的设置应着重考虑学生的实际需求和自身条件进行合理调整。
常规教学与效果分析主要以统计数据和定性分析为主,缺乏对非数值数据的支持[4]。从学生角度出发的课程需求数据的获取大多停留在主观评价部分。其中,学生评教是学生表达对课程需求的一项重要数据,属于个人主观评价,同时又受到同学间评价的影响,即易受情绪支配;其他需求数据可通过教师座谈等数据获得,但也存在主观评价问题[5]。将评教数据转化为可量化的有效数据就需要考虑数据转移效率的问题[4],而这种效率难以度量。大数据环境中有更多数据可用于教学效果的评价[6]以及课程建设,但已有研究中大多以大纲式框架建设方案为主,缺少可直接借鉴的模型和方法。而其他评价模型,如LDA可对评价类文本数据进行较好的处理[6],但缺少教学相关的多因素相关性分析研究。
由于教学和需求是多种因素相互作用的结果,教学研究中也存在不少使用相关性分析的研究[7?8],但该类研究仍以定性相关性分析为主,以简单统计为辅,缺乏数据和量化指标支持。
为揭示现有英语课程与学生实际需求之间的关联,为后续高校课程设置提供直观量化的依据,结合已有研究和数据分析,本文基于聚类分析方法提出了因素相关性课程需求量化分析模型,以此对影响课程效果的四类主要因素进行定量研究。首先,本文收集了湖北某高校大学生对英语相关课程的评价数据1 500条;然后,对数据集进行预处理,重点进行了评价数据属性的有效性分析与过滤;随后,将数据集按4∶1拆分为训练集和测试集。其中,将学生对课程的需求程度标定为“自主型”“友好型”“自驱型”“被动型”四种类型,以提高模型训练的准确性,并便于对测试结果进行评价。最后,通过K?means聚类分析算法进行了测试,从而验证了“成绩与听课率”关系在英语课程需求中具有最高的相关性,为高校大学英语课程改革提供量化分析数据和指标依据。
1 样本数据集
1.1 数据获取
本文以湖北某高校教务系统历史运行数据作为研究基础,包含英语各专业与课程成绩、评教成绩、到课/听课率、学生性别等。为便于后续测试,将调查的数据结果进行预处理,形成影响学生课程需求的5个因素属性,分别为“性别”“评教”“成績”“听课率”“考勤”,可得样本集为:
[Ui=ui1,ui2,…,uik] (1)
式中:[i∈1,M],[M]描述集合大小;[uik]描述集合中第[i]个样本[ui]的第[k]个属性值。
1.2 数据预处理
原始数据中,“性别”、“课程类型”与“分析类型”均属于文本类型,不能被多因子分析方法[9]直接使用。因此,本文选用One hot编码[10]将文本数据转换成数值型进行表示如表1所示。
本文采用人工标定方法对需求类型进行标定,形成标定的数据集,来更好地评价分析模型[5],然后再将其分为训练集和测试集。训练集数据属性与范例数据见表2。
为了解数据集中课程的分布情况,按“自主型”“友好型”“自驱型”“被动型”四种需求类型分别进行了统计。统计结果如图1所示。
由此可见,训练集中属性值“成绩”与“听课率”,“评教”与“成绩”对课程需求类型相关性最高。因此,在对测试集进行聚类分析时,主要根据该关系组开展测试与分析工作。
3 聚类分析与结果测试
在上述数据预处理的基础上,将原始数据集中的20%数据采用K?means算法进行聚类测试。
3.1 K?means算法测试
1) 将收集好的大学英语需求特征数据值转化为向量预先保存到文本中。
2) 构建随机质心[O](中心点),并设置[k=4],即将数据集分为“自主型”“自驱型”“友好型”“被动型”4个簇。随机质心[O]在整个数据集的边界之内,这可以通过找到数据集每一维的最小和最大值来完成,然后生成0~1.0之间的随机数并通过取值范围和最小值,以便确保随机点在数据的边界之内。
3) 基于上述初始化过程,构建K?means算法。创建[K]个质心,然后将每个点分配到最近的质心,再重新计算质心。这个过程重复数次,直到数据点的簇分配结果不再改变位置。返回类质心与点分配结果。停止条件为没有需要分配的任务到不同的簇,质心不再发生变化,或者均方误差[E]的值下降幅度最小。[E]的计算公式为:
4 结 论
针对当前课程设置与学生实际需要间的不匹配发展问题,探究如何将课程设置中的多种因素及其相互关系数值化,在此基础上展开多因素相关性量化分析,从多相关因素中找到影响最强烈,即与“学生学习需求”相关性最高的因素。以此优化并设计新的教学目标和教学方法。基于这一目标,本文从学生日常教学运行数据源着手,将学生对课程的需求进行分类,并将影响分类的数据属性进行有效性分析,最后利用聚类分析中常用的K?means算法加以验证。本文测试数据是教务管理系统中的历史数据,更多条件下的课程需求研究并未包含在本研究中,这也是未来具有潜在研究价值的内容。
参考文献
[1] 郝强,邵荣,闫旭.大学英语课程转型发展的思考[J].运城学院学报,2019(3):64?68.
HAO Qiang, SHAO Rong, YAN Xu. Thoughts on the transformation and development of college English courses [J]. Journal of Yuncheng University, 2019(3): 64?68.
[2] 董艳云.培养思辨能力构建英语素质教育模式[N].中国社会科学报,2017?01?12(8).
DONG Yanyun. Cultivate speculative ability and construct English q uality education model [N]. Chinese Social Sciences Today, 2017?01?12(8).
[3] 张琼.培养应用型人才背景下民办本科高校大学英语教学策略研究[N].科学导报,2017?03?24(C2).
ZHANG Qiong. Research on college English teaching strategies in private undergraduate colleges under the background of cultivating applied talents [N]. Scientific guide, 2017?03?24(C2).
[4] 张兰兰.大学生在慕课中学习态度与学习成绩的研究[D].哈尔滨:哈尔滨师范大学,2019.
ZHANG Lanlan. Study on the attitude and academic achievement of college students in the MOOC [D]. Harbin: Harbin Normal University, 2019.
[5] 王俭,修国义,过仕明.基于知识特征的在线评论知识转移效率测度研究[J].情报科学,2019,37(7):146?150.
WANG Jian, XIU Guoyi, GUO Shiming. The measurement of knowledge transfer efficiency of online reviews based on knowledge features [J]. Information science, 2019, 37(7): 146?150.
[6] 钟明玲,周晓玲.大数据环境下大学英语课程有效评估模式的构建[J].英语广场,2019(8):114?115.
ZHONG Mingling, ZHOU Xiaoling. The construction of effective evaluation mode of college English course in big data environment [J]. English square, 2019(8): 114?115.
[7] 徐朝军,房小敏.LDA模型在Web教育资源语义标注中的应用研究[J].高等理科教育,2019(3):61?67.
XU Chaojun,FANG Xiaomin. Application of LDA in semantic tagging of web educational resource [J]. Higher education of science, 2019(3): 61?67.
[8] 高素艳.大学英语及其与通识教育的相关性分析[J].科教导刊(上旬刊),2018(12):46?47.
GAO Suyan. College English and its relevance analysis with general education [J]. The guide of science & education(On the ten?day), 2018(12): 46?47.
[9] 余磊,梁永林,田永衍,等.中医基础理论课程过程性考核与成绩的相关性分析[J].中医教育,2018,37(4):47?49.
YU Lei, LIANG Yonglin, TIAN Yongyan, et al. Correlation between process assessment and achievement in course of basic theory of traditional Chinese medicine [J]. Education of chinese medicine, 2018, 37(4): 47?49.
[10] 芮立.基于多因子分析的无线传感器网络可靠性评估模型设计[J].现代电子技术,2019,42(12):156?160.
RUI Li. Design of reliability evaluation model based on multifactor analysis for wireless sensor network [J]. Modern electronics technique, 2019, 42(12): 156?160.
[11] RODRIGUEZ P, BAUTISTA M A, GONZALEZ J, et al. Beyond one?hot encoding: lower dimensional target embedding [J]. Image and vision computing, 2018, 75: 21?31.