APP下载

中学教师教学质量影响因素的谱聚类分析

2022-10-27谢娟英

关键词:子集准确率聚类

谢娟英, 李 颖

(1.陕西师范大学 计算机科学学院, 陕西 西安 710119;2.杭州市三墩中学, 浙江 杭州 310030)

教育数据挖掘已成为当前一个研究热点,吸引了诸多学者关注。刘淇等[1]通过分析在线智慧学习数据,向学生推荐合适的学习资源,并向老师提供教学指导,实现因材施教。Gilmartin等[2]使用带交互项的回归模型找出工程和商学学生的创业意愿影响因素。谢娟英等[3]采用密度全局K-means算法进行基于学生信息的教育数据挖掘,发现了影响学生成绩的相关因素,并对学生成绩进行了预测。教育数据挖掘[4]关注教学相关的方方面面,研究对象涉及到学生、教师、教育管理部门等。影响教学质量的潜在因素包含来自学生和教师两方面的因素,探究影响中学教师教学质量的来自教师的相关因素对提高中国基础教育质量至关重要。然而,教师数据相对于学生数据较难获取,导致从教师角度的教学质量影响因素挖掘困难。

教学质量是教学效果的度量,是各教学环节工作质量的反映,体现人才培养和社会需求的相关程度[5]。教学质量是我国基础教育的重要方面,甚至工作核心,然而教师个人因素的不同会带来不同的教学质量。一线教学中普遍存在教师之间教学质量参差不齐。找出来自教师的影响教学质量的相关因素,是提高教学质量的首要步骤。

教学质量评价方式具有多样性特点[6-7]。顾明远[8]在《教育大辞典》中指出教学质量评价可分为行为评定和效果评定。行为评定的评定对象是教师在教学中的行为,即教师教学方法、教学态度和教学能力等。效果评定的评定对象是学生的学习成绩,即以学生的行为变化,学术水平提高和能力增长等因素来评价教学质量。由于教师行为和学生行为等指标无统一的量化标准并且在评价过程中易受主观因素影响,本文选取教学质量最客观的效果评价指标,以学生的考试成绩为基准进行教学质量评价,以保障研究结果的科学性与可靠性。

影响学生成绩的因素具有多样性特点[8],包括教师个人因素、学生个人因素、家庭环境、学校环境等。笔者在文献[3]中从学生个人因素出发探究了影响学生成绩的因素,本文将探究影响学生成绩的教师因素。通过设计和发放问卷,采集教师个人因素,获取实验数据。提出谱聚类与顺序前向和顺序后向搜索策略结合的特征选择算法,挖掘教师个人因素中对教学质量有影响的相关因素,探究来自教师个人的教学质量影响因素,以期为提升中学教师教学质量、优化教师队伍、提升中国基础教育质量提供借鉴。

1 相关理论

1.1 谱聚类

聚类是将样本划分成不同类簇,同一类簇内的样本尽可能相似,不同类簇间的样本尽可能不同。谱聚类基于谱图理论,将聚类问题转化为图划分问题。本文使用的谱聚类算法包括经典谱聚类算法(NJW)[9]、NJW的改进算法(Self-Tuning)[10]、Self-Tuning的改进算法(SCSD)[11],这3种谱聚类算法依次改进前者构造相似性矩阵方法的不足。假设数据集为X={x1,x2,…,xm}∈Rm×n,xi={xi1,xi2,…,xin},i=1,2,…,m,相似度矩阵A=(aij)m×m,aij为样本i、j之间的相似度。NJW算法使用高斯函数计算样本相似度来构造相似度矩阵A,其中元素aij的计算公式为

(1)

式中高斯函数的尺度参数σ人为给定。对Self-Tuning算法[10]引入局部参数σi表达样本xi和其第p近邻之间的距离,即σi=d(xi,xp),使相似度矩阵A的元素aij的计算公式为

(2)

克服了NJW算法的尺度参数σ没有考虑数据分布特性的缺陷。

SCSD算法[11]针对Self-Tuning算法会受到离群点干扰的缺陷,以样本xi的p近邻局部标准差σstd_i替代对Self-Tuning算法的自适应局部尺度参数σi。样本相似度aij和σstd_i的计算公式分别为

(3)

(4)

1.2 相异性度量

相异性[12]又称邻近性,用来衡量两个对象之间的差异程度。相异性越大,说明两个对象越不相似,相异性越小,说明两个对象越相似。度量样本相异性的欧氏距离、夹角余弦、混合属性距离分别为

(5)

(6)

(7)

(8)

当属性f为序数类型时,采用式(9)转换为数值型:

(9)

式中Mf为属性f状态数,rxif为xi在属性f的原始取值。

1.3 关键因素影响量计算

为了探究关键因素对教学质量的具体影响,计算关键因素各取值状态下对应的教学质量平均值。假设数据集X∈Rm×n,即m个样本(教师),每个样本有n个特征,各样本对应的教学质量Q={q1,q2,…,qm},第i个样本xi={xi1,xi2,…,xin}对应教学质量qi。假设筛选出的关键因素f有k个不同取值f1、f2、…、fk,将特征f取值相同的样本归为同一样本子集,则得到k个样本子集X={X1,X2,…,Xj,…,Xk},Xj={xi|xif=fj,i=1,2,…,m},样本子集Xj对应的教学质量记为Qj,则教学质量集合Q={Q1,Q2,…,Qj,…,Qk},Qj={qi|xif=fj,i=1,2,…,m},则f=fj(j=1,2,…,k)的样本子集Xj的教学质量均值的计算公式为

(10)

式中c=‖Xj‖=‖Qj‖。

2 数据采集和预处理

2.1 数据采集

参考美国教育统计中心[13]相关教育数据和邓玲玲等[6]对教学质量影响因素分析中涉及的对教学质量有潜在影响的教师相关因素,设计教师问卷(见表1)。问卷发放对象为杭州市三墩中学考试学科的教师。数据采集方式为纸质问卷调查和电子问卷两种方式,共收回103份问卷构成实验数据。每个样本含有42个属性,其中属性1—41为特征属性,即潜在影响因素,属性42为类标属性,即学生成绩。由于教师数量相对于学生数量来说较少,因此,采集的教师样本数据相对于文献[13]基于学生数据的研究来说,数据量相对较小。尽管如此,本文期望以此为突破口,为更广泛的研究提供基础和依据,为中国基础教育质量提升提供借鉴。

2.2 数据预处理

教师数据采集过程中存在教师不愿透露相关信息或者遗忘答题等因素导致个别数据存在遗失情况。数据不完整需要采用缺失值填充等方式[14-17]进行处理,常用的方式有忽略元组、使用均值填充、使用众数填充、人工判断填充等。本文采取众数填充和人工判断方式对数据集中的缺失值进行填充。另外,在采集数据过程中,由于特征属性值的取值范围不同,会导致各属性对聚类结果的影响不同。为保证各属性权重在向异性度量时的平衡,对欧氏距离、夹角余弦距离度量样本相异性时,样本的属性采用最大-最小化[14]方法进行预处理。欧氏距离规范化到[0,1]区间,夹角余弦距离规范化到[1,2]区间。混合属性距离不需要最大-最小化预处理进行规范化,因为其本身自带有规范化,见式(8)所示。

数据集第42个属性为类标属性,该属性为杭州市三墩中学2018学年第二学期区级统一考试中全校各班各科的成绩。由于各年级各学科满分值不同,以及教师任教班级数量不一致,采集到的初始成绩数据无法直观地表达出教师的教学质量,采取以下方式对教学成绩进行规范化处理,使之能直观地表示教师教学质量。假设教师j任教的学科是S1,该学科满分值为T1,该学科在全校的平均分为AS1且该教师任教了n个班级,这些班级的成绩平均分分别是a1、a2、…、an,这些班级的学生实考人数分别是b1、b2、…、bn,则以标准满分成绩120为例,该教师的教学质量qj的计算公式为

(11)

表1 教师数据采集内容描述

3 教学质量影响因素挖掘算法

首先对采集到的数据进行预处理,在欧氏距离、夹角余弦和混合属性距离3种相异性度量下,采用NJW、Self-Tuning、SCSD三种谱聚类算法对预处理后数据进行聚类分析,计算聚类准确率。聚类准确率是聚类正确的样本数占总样本数的比例,是衡量聚类算法性能的常用指标之一。然后分别基于NJW、Self-Tuning、SCSD谱聚类,采用算法1和算法2,从采集的41个因素中筛选出对教师教学质量产生影响的因素,构成特征子集,对只含有特征子集特征的样本分别采用NJW、Self-Tuning、SCSD再进行谱聚类分析,计算聚类准确率,以最高聚类准确率对应的特征子集作为影响教师教学质量的因素。最后对各个影响因素和教学质量之间的关系进行详细分析。

算法1谱聚类结合顺序前向搜索策略的教学质量影响因素挖掘算法。

设定初始特征子集为空集,以各个特征对应的聚类准确率度量每个特征的贡献,在全部特征中选出贡献最大的特征移入特征子集。接着选取最佳特征加入特征子集。最佳特征的选取依据是新增该特征后的特征子集对应的聚类准确率最高。若新增最佳特征后特征子集对应的聚类准确率相比于未增该特征时的聚类准确率有所提升,则将该最佳特征移至特征子集,并且继续在剩余特征中选取最佳特征移至特征子集,直至加入最佳特征后样本聚类准确率不再提高,则停止特征选择过程。具体步骤描述如下。

假设数据集为X∈Rm×n,即xi={xi1,xi2,…,xin},i=1,2,…,m,特征集为F={f1,f2,…,fn}。

输入:F_sub=Φ,F_waiting={f1,f2,…,fn},Accuracy=Accuracy{f1, f2,…, fn}; ∥初始化Accuracy为原始数据谱聚类准确率

输出:F_sub.

Begin

whileF_waiting≠Φdo

z=‖F_waiting‖;

Accuracymax=Accuracy;

for (i=1;i<=z;i++)

sub_i=F_sub+{fi};

对包含sub_i特征的样本计算Accuracysub_i;

ifAccuracysub_iAccuracymaxthen

Accuracymax=Accuracysub_i;

fmax=fi

end ∥of if

end ∥of for

ifAccuracymaxAccuracythen

F_sub=F_sub+{fmax};

F_waiting=F_waiting-{fmax};

Accuracy=Accuracymax;

end ∥of if

else F_waiting=Φ;

end ∥of while

End

算法2谱聚类结合顺序后向搜索策略的教学质量影响因素挖掘算法。

设定初始特征子集包含全部41个特征。在特征子集中依次尝试移除单个特征,对含有当前特征子集特征的样本进行谱聚类,得到移除各特征后对应的聚类准确率。对特征子集所有41个特征遍历后,以聚类准确率最高时移除的特征作为最劣特征,剔除该最劣特征。若移除最劣特征后的特征子集对应的样本聚类准确率相比于未移除该最劣特征时的特征子集的聚类准确率有所提升,则将该最劣特征从特征子集中正式移除,并继续尝试在特征子集中移除下一个最劣特征,直至移除当前最劣特征后的样本聚类准确率不再提高,则停止特征选择过程。算法具体步骤描述如下。

假设数据集为X∈Rm×n,即xi={xi1,xi2,…,xin},i=1,2,…,m,特征集为F={f1,f2,…,fn}。

输入:F_sub={f1,f2,…,fn},Fwaiting_delete={f1,f2,…,fn},Accuracy=Accuracy{f1, f2,…, fn};

输出:F_sub.

Begin

whileFwaiting_delete≠Φdo

z=‖Fwaiting_delete‖;

Accuracymax=Accuracy;

for (i=1;i<=z;i++)

sub_i=Fwaiting_delete-{fi};

对包含sub_i特征的样本计算Accuracysub_i;

ifAccuracysub_iAccuracymaxthen

Accuracymax=Accuracysub_i;

fmax=fi

end ∥of if

end ∥of for

ifAccuracymaxAccuracythen

F_sub=F_sub-{fmax};

Fwaiting_delete=Fwaiting_delete-{fmax};

Accuracy=Accuracymax;

end ∥of if

else Fwaiting_delete=Φ;

end ∥of while

End

4 实验结果与分析

对采集的杭州市三墩中学教师的问卷数据进行预处理后,分别使用NJW、Self-Tuning、SCSD谱聚类算法进行聚类分析,每种聚类算法分别使用欧式距离、夹角余弦、混合属性距离,谱聚类结果见表2。采用算法1、算法2挖掘影响教学质量的来自教师的因素,并采用NJW、Self-Tuning、SCSD谱聚类算法,每种聚类算法分别使用欧式距离、夹角余弦、混合属性距离,从而得到18个不同特征子集。对包含特征子集的教师样本进行谱聚类,得到相应聚类准确率,不同距离度量的实验结果见表3—表5。加粗的数据表示最高聚类准确率。

表2结果显示,使用全部特征时的聚类准确率最高只有59.22%,说明使用全部特征进行教师教学质量的聚类分析欠准确,采集的因素中含有无关教学质量的因素。

表2 原始数据集的谱聚类准确率

表3—表5的实验结果显示,有3种状况筛选出的特征子集获得最高聚类准确率66.99%。第一种是使用欧式距离度量+Self-Tuning+算法1,其筛选的特征为5、16、24、33、36;第二种是使用欧式距离度量+SCSD+算法1,其筛选的特征为5、7、9、16、33、36;第三种是使用夹角余弦度量+SCSD+算法1,其筛选出的特征为15、16、33、36、41。其中有3个特征为3种状况筛选出的共同特征,特征序号为16、33、36,说明这3个特征对教学质量有较大影响,起决定性作用。这3个特征分别为:最高学历毕业学校和目前任教学校所处省份是否一致,籍贯和任教学校所处地区是否一致,以及父亲是否是教育工作者。3种最佳状况筛还挖掘出另外6个特征,序号分别为5、7、9、15、24、41,说明这6个特征对教学质量有影响,但是影响程度不如3个共有特征强。这6个特征分别为:是否有编制、职称、行政职位、学历、近3年指导学生参赛获奖次数、婚姻幸福指数。

表3 不同特征选择算法采用欧氏距离得到的特征子集及其对应聚类准确率

表4 不同特征选择算法采用夹角余弦距离得到的特征子集及其对应聚类准确率

表5 不同特征选择算法采用混合属性距离得到的特征子集及其对应聚类准确率

对筛选出的9个影响教学质量的教师因素,采用式(10)计算其对应的教学质量均值,挖掘各个相关因素对于教学质量的具体影响,分析各因素和教学质量之间的关系。除了“近3年指导学生参赛获奖次数”属性外,挖掘出来的其他8个影响教师教学质量的属性,其取值对应的教学质量均值如图1所示。属性“教师近3年指导学生参赛获奖次数”的散点图如图2所示。

图1 挖掘出来的8个属性的取值与教学质量平均值的关系图

图1结果显示,最高学历毕业学校和目前任教学校所处省份一致的教师,其教学质量不如最高学历毕业学校和目前任教学校所处省份不一致的教师。籍贯和任教学校所处地区一致的教师,其教学质量弱于籍贯和任教学校所处地区不一致的教师。分析该两项结果的原因,前者可能会因为有亲朋依赖而产生懈怠心理,而后者因为没有任何依靠会有更强的进取心。父亲是教育工作者的教师,其教学质量高于父亲不是教育工作者的教师,这说明家长的言传身教对子女的职业生涯是有很大影响的。无正式编制的教师,其教学质量远远高于有正式编制的教师,说明职业危机感会使教师专注于自身工作,并努力做好自身工作。教学质量与教师职称的关系是:高级教师教学质量最高,一级教师、二级教师教学质量依次递减,未定级教师教学质量高于二级教师,但低于一级教师,这一方面说明了教学经验积累的重要性,另一方面说明,新任教师的教学能力不可小觑。教学质量与行政职务的关系是:普通干事的教学质量最低,其次是中层干部,无行政工作的专职教师教学质量最高,说明我国中学教学和学校管理需要有专职人员承担,教师专注教学,管理人员专注于学校管理工作;教学质量教师学历之间有如下关系:本科学历教师的教学质量高于硕士学历教师的教学质量,分析原因可能是:研究生学历的教师的第一学历未必是正规的师范大学本科;教学质量与教师的婚姻幸福程度关系如下:婚姻幸福指数在60%以上的教师,其教学质量高于婚姻幸福指数低于60%的教师,且婚姻幸福指数在60%~80%的教师,其教学质量最高,分析原因可能是:教师的个人生活状态会影响其情绪和精神状态,从而影响其工作状态。

图1结果分析说明,跨地区的教师人才流动、教学经验交流、职业危机感、设立专职教师对提高教学质量大有裨益;本科学历的中学教师可以胜任中学教学的需求;教师个人的生活质量会影响教学质量。

图2 教学质量与近3年指导学生 参赛获奖次数关系散点图

图2结果显示:指导过1次竞赛的老师,其教学质量有高有低,教学质量最高的是指导并获得过1次奖的老师;指导过2次竞赛并获奖的老师,其教学质量普遍偏低;指导并获奖3次的教师,其教学质量也是参差不齐,最高的不如指导并获奖1次的老师的最高教学质量;指导并获奖4次的教师,其教学质量低于平均值;指导并获奖6次的教师,其教学质量高于平均值,但不如指导并获奖1次、3次,甚至8次的教师。图2指导并获奖2次以上教师的教学质量显示,教师随着指导学生参赛次数的增多,其教学质量呈现上升趋势,当教师指导竞赛次数为8次时,其教学质量达到一个小峰值,随后,当教师指导学生参加竞赛的次数超过8次时,其教学质量则会降低,甚至低于平均教学质量。因此,任课教师指导学生竞赛有助于提高教学质量,但指导次数不宜过多,否则教师的精力可能专注于竞赛,而无法完全专注于教学。另外,图2的结果显示,教学质量最好的是指导并获奖1次的教师,但是也存在指导并获奖1次的教师,其教学质量低于平均值的情况。由此可见,为了保障教学质量和学生在竞赛中获奖,可考虑设置专职的竞赛辅导教师来辅导竞赛。

综合以上实验结果分析可得出,提高我国基础教育质量,特别是教学质量,需要注意:(1)提高教师招聘要求,保证公平公开,不对任何应聘者存在偏见,避免对省外毕业生要求较高,而对省内毕业生要求较低现象,鼓励跨地区招聘优秀教师。(2)加强教师培训和校际交流,为教师提供学习交流平台,提升教师的新教学理论和教学方法,提升教学魅力,吸引并激发学生的学习兴趣。(3)加强新老教师经验交流,为新教师配备经验丰富的教师进行教学指导,鼓励新教师向教学经验丰富教师请教学习,提升教学能力。(4)加强教师的职业危机意识,学校可以根据教学质量进行绩效考评,教学质量过低的教师需要进行转岗培训,教学态度不端正教师取消编制或待聘[18]等,从而使教师端正教学态度,提升教学质量。(5)增强教师自我约束力,增强教师的专业发展意识,积极提升自身专业等级,增强师德培训,激励教师工作激情。(6)减少一线教师的行政工作量,给一线教师提供充足的时间用于课堂准备和课后学生答疑,提升教学质量。(7)增强教师教学能力,不一味追求教师提升学历,加强校本教研,增加校内课堂评比,以赛促教,解决实际教学中发现的问题。(8)培养对待学生竞赛的科学意识,学校合理配置教师考核中的辅导竞赛成果占比,或设置专职竞赛辅导教师。(9)加强对教师的人文关怀,充分尊重和听取教师意见,增强日常生活慰问,为教师排忧解压,给予教师家人般的关爱,提升教师工作幸福感和主观积极性,提升整体教学质量。

5 结语

通过来自教师问卷调查获取的原始数据并对数据进行预处理,采用谱聚类算法挖掘影响教学质量的来自教师的潜在因素。发现了3个影响教学质量的关键因素,以及6个对教学质量影响较大的相关因素。其中3个影响教学质量的关键因素为:教师最高学历毕业学校和目前任教学校所处省份是否一致、教师籍贯和任教学校所处地区是否一致,以及教师父亲是否是教育工作者。6个对教学质量影响较大的相关因素为:教师是否有编制、教师职称、教师是否有行政职位、教师学历、教师近3年指导学生参赛获奖次数,以及教师的婚姻幸福指数。

由于师生比带来的教师数据相对于学生数据难获得,本文研究采集的教师数据相对较少,后续研究可以进一步扩大数据收集范围,以获得更多教师数据,进行更进一步的研究。

猜你喜欢

子集准确率聚类
由一道有关集合的子集个数题引发的思考
拓扑空间中紧致子集的性质研究
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
关于奇数阶二元子集的分离序列
高速公路车牌识别标识站准确率验证法
基于DBSACN聚类算法的XML文档聚类
基于改进的遗传算法的模糊聚类算法
每一次爱情都只是爱情的子集