基于数据挖掘的高职英语A级考试与就业力关系的分析
2019-10-17韩海云
韩海云 吴 晗 李 超
(三亚航空旅游职业学院,海南 三亚 572000)
高职院校在教育教学实践以及日常教学管理中,电脑系统累积了大量的各种数据,然而通常管理人员只是对这些数据作一些简单的查询、计算、追加及统计等,且各种数据储存于各个职能部门电脑系统中,各数据库之间没有交互联系,形成信息孤岛,因此很难发现隐藏于这些大量数据中的某种规律和知识。数据挖掘作为一门多学科相交叉的新学科,它的出现,解决了这一难题,实现了数据背后知识的呈现。本研究基于数据挖掘,分析大学英语应用能力A级考试成绩与学生就业率的关联,识别影响学生就业竞争力的关键因素,能够更有效的开展英语教学改革,提升学生英语水平和培养质量。
数据挖掘(Data Mining),一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
高职院校大学英语应用能力A级考试(PRETCO-A,以下简称A 级考试)是高职院校检测学生英语应用水平的大规模标准化的考试。A级考试成绩不仅能反映出学生英语应用的能力,也是衡量高职院校英语教学质量的重要指标。
就业力(Employability)是指个人在经过学习过程后,能够具备获得工作、保有工作、以及做好工作的能力。大学生的就业力主要是指学生在学校期间通过系统的学习和培训后,其初次就业的成功率。
一、数据采集与预处理
1.数据采集过程
本研究从三亚航空旅游职业学院就业系统中提取2018 届1713 名毕业生(男1042,女671)的相关信息,并从教务系统中提取其在读期间(2015.9-2018.6)3年六次A 级考试的成绩,将两个系统的数据按专业归类,进行关联分析。同时就业办委托第三方咨询公司向2018 届毕业生离校时登记的邮箱发放毕业回访的答题邀请函、调查问卷客户端链接,系统会对答题全过程监测,从而确保数据的真实性。另外,项目采取全数跟踪,并对答题和未答题的样本进行了自我选择性样本偏差检验(Self-selection Bias),排除了存在自我选择性样本偏差的情况,从而使数据具有较强的统计代表性。所有数据均来源于三亚航空旅游职业学院就业办公系统,经就业科领导授权后进行采集。
2.样本覆盖情况
三亚航空旅游职业学院2018 届毕业生总数1713 人,问卷发放的邮箱总数1713 个,回收问卷711份,问卷回收率为41.5%(问卷回收率=回收问卷数/毕业生总数),共覆盖了5个学院19个专业。
3.数据清洗及归类处理
2018届毕业生分布于19个专业,其中13个专业的人数少于45人,所占比例低于3%,不适用于于按专业归类分析,因此我们需要对此进行剔除(共计283 人及问卷126 份),其中的航空电子设备维修专业与航空机电设备维修专业,旅游管理专业与酒店管理专业的课程设置,就业方向等高度类似,因此将前者数据并入后者。得到本次研究实际样本,(毕业生1430 人,有效问卷585份),问卷回收率为40.9%,与数据清洗前的回收率41.5%基本持平,保证了数据的真实性。具体结果如表1 所示。各专业毕业生所占比例=(各专业毕业生人数÷毕业生总人数1430)×100%各专业问卷所占比例=(各专业回收问卷份数÷总回收分数585)×100%各专业问卷回收率=(各专业回收问卷份数÷各专业毕业生人数)×100%
表1 样本清洗及归类后的结果
从表1中可见,回收样本在学院、专业层面的分布与实际毕业生的学院、专业分布大体相近。根据统计学原理,当样本的分布特征大体接近于总体的分布特征时,样本则具有代表性。由此各可见,本次回收样本的代表性较强,能够较为客观地反映毕业生的实际情况。
按此六大专业,在教务系统中提取各专业学生在校期间的A 级成绩,并进行通过率的分析。2018 届毕业生于2015年9月入学,每年有两次机会(6月及12月)参加A级考试,截止2018年6月毕业时,共有6 次考试记录,分别算出每次考试的通过率及各专业学生最后的累积通过率。如表2所示。
表2 毕业生在校期间A级考试通过情况
毕业生就业力可从4 个维度来衡量:就业率,工作与专业相关度(即对口就业率),月平均收入和就业满意度。就业率:就业率反映了毕业生毕业的落实情况,按照教育部公布的高校毕业生就业率的计算公式为:
毕业生就业率=(已就业毕业生人数÷毕业生总人数)×100%
毕业生总人数=已就业毕业生人数+待就业毕业生人数+暂时不就业毕业生人数
受雇情况数据根据毕业生就业所签订的合同采集。
工作与专业相关度:毕业生是知识的使用者,他们能够判断自己的工作是否用到了所学的专业知识。因此问卷中是由毕业生回答自己的受雇全职工作是否与所学专业相关。就业系统中有学生签订的工作岗位描述,此项数据可直接从系统提取。
月收入:是指毕业生实际每月工作收入的平均值。月收入包括工资、奖金、业绩提成、现金福利补贴等所有的月度现金收入。
就业现状满意度:是由工作的毕业生对自己目前的就业现状进行评价,选项有“很满意”“满意”“不满意”“很不满意”“无法评估”,共五项。其中,选择“满意”或“很满意”的人属于对就业现状满意。如表3所示。
表3 学生就业力维度数据统计情况
二、数据整合与挖掘分析
对上述数据进行整合,分别分析各专业的A级通过率与就业率,工作与专业相关度(对口就业率),月平均收入和就业满意度的关系。如图1、2、3、4所示。
图1 各专业A级通过率与就业率的关系图
图2 各专业A级通过率与工作相关度(对口就业率)的关系图
图3 各专业A级通过率与月平均收入的关系图
图4 各专业A级通过率与就业满意度的关系图
从以上四个图标可以看到英语A级考试通过率与就业力的四个维度基本具有相关关系,现需确定他们之间的相关系数。相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量,又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个变量间的线性关系。
其中,Cov(X,Y)为X 与Y 的协方差,Var[X]为X的方差,Var[Y]为Y的方差
将上面四个图的数据代入公式,得到结果如表4所示。
表4 A级通过率与四个维度的相关性汇总
(取绝对值后,0-0.09 为没有相关性,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关)
从图1 和表4 中可以看出各专业学生A 级通过率与其就业率高度吻合,相关系数达0.83,说明高职毕业生英语水平是影响其求职就业的重要因素,是用人单位选择员工的重要雇佣标准,也是工作岗位的基本要求。
从图1、图2和表4可以看出学生的A级通过率和专业与工作的相关度基本呈正相关,相关系数约为0.72,说明A级通过率越高的专业(例如机电,空乘),其学生对口的就业率就越高。专业对口就业率是衡量此专业教育质量的重要指标。学生就业岗位与所学专业相关度越高,学生将学校所学专业知识直接应用于工作岗位的几率增加,那么学生的就业竞争力就会增强。同时机场专业出现了A级通过率与其工作相关度关联性不强的现象,即机场专业很多通过A级考试的同学选择了与所学专业相关度不高的工作。本文调查分析毕业生选择与专业相关度不高的工作的原因,如图5所示。
图5 学生选择与专业无关工作的原因分布图
本校2018 届毕业生选择专业无关工作的最主要原因是“专业工作不符合自己的职业期待”(28%),其后依次是“迫于现实先就业再择业”(25%)“专业工作岗位招聘少”(23%)等。选择专业无关工作的毕业生中,有43%属于主动选择(因个人期待、薪资、工作环境方面的考虑而选择),被迫选择(因迫于现实、岗位少、能力不足而选择)的比例为57%。
这可以解释有些专业A级通过率和专业与工作的相关度不强的原因。
从图3可以看出除机电专业外,其他专业的A级通过率都与毕业生月平均收入相吻合(吻合度0.55),即通常情况下,A 级通过率越高的专业,其毕业生的月收入就越高。机电专业之所以出现了相违背的情况是因为机电专业毕业生工作岗位的专业技能要求较高,就业初期需接受大量岗前培训,因此学生短期内薪资水平不高。
从图4可以看出学生A级通过率与其就业满意度高度吻合,相关系数为0.64,即学生英语A级通过率越高,越有可能找到如意的工作。
三、结论
在日常的教学管理和和学生管理中,其教务系统和就业系统就会自然生成很多数据,结合研究目的设计的问卷也可生成所需数据,利用数据挖掘找出这些数据背后的规律和关系,可为高职院校教师改善教学和改进管理提供科学依据。本文基于教务和就业系统中大量数据,从四个维度探索英语A级通过率对毕业生就业力的影响。结果表明英语A 级成绩是影响学生就业力的重要因素,A 级通过率与就业率、对口就业率、月平均收入、就业满意度高度吻合,相关系数分别为0.83,0.72,0.55,0.65。关于高职学生有没有必要学习英语的问题,数据给出了正面的答案,即高职院校的学生在掌握基本的职业技能时,还应具备一定的英语水平,即使是未来的就业岗位应用英语的几率很小——原因在于英语是影响其首次就业成功的重要因素。因此本研究可为各专业教师在人才培养方案制定、课程体系构建和教学改革提供参考。