APP下载

基于情感分析和数据挖掘的研究生评教质量验证研究

2020-06-04严中平王晓卉顾丽娜

高教论坛 2020年5期
关键词:评教分词研究生

严中平,王晓卉,顾丽娜

(1.沈阳药科大学 研究生院,辽宁 沈阳 110016;2.辽宁教育学院,辽宁 沈阳 110032)

根据教育部2014年发布的《教育部关于改进和加强研究生课程建设的意见》文件“培养单位要加强研究生课程教学评价,制定科学的评价标准,定期实施课程评价”[1],研究生评教作为辅助手段,在研究生课程评价监管体系中发挥着重要的作用。研究生评教是研究生培养单位构建研究生质量的重要组成部分。研究生评教可以帮助研究生教师改进教学,提高质量,也可以为研究生教学管理部门提供课程建设和培养方案修订的决策参考[2]。研究生评教的质量,不仅影响教师的教学方式和教学态度,还影响到研究生的学习效果以及教学评价的参与积极性[3]。因此,通过对研究生评教质量分析,能够及时让教师和管理部门了解教学情况,促进教师不断改进教学方法和教学内容,促进管理部门进行课程体系建设,从而提高研究生教学质量和研究生培养质量[4]。

一、研究生评教质量

当前关于研究生评教质量的研究,主要集中在三个方面:一是基于研究生评教的制度研究,认为建立以学生为中心的教学评教制度是有效的,能够确实提高学生评教的科学性和有效性等,如李冲等通过大连理工大学5年的实践研究证明,建立以学生评教为主,辅以专家评价教学质量保障体系是有效的[5];吕鹏认为遵循学生主体地位,构建具有发展性、全面性和易评性原则的评教体系,将带来评教质量的飞跃[6];保骏等认为按照不同的课程类型适当调整评价指标,并根据评价主体特点来设置动态权重,改善数据分析方法,可以提高教学评教的质量[7]。二是研究生评教的有效性研究,探索研究生评教的影响因素、信度、效度分析等,例如李楠论证了高校学生评教结果虽然存在着干扰项,但整体是可靠的[8];王雪婷通过访谈和问卷调研,利用探索性因素分析的方式,构建了学生(教师)评教模型,并通过信度和效度检验验证[9];王力纲等基于区分度及可信度的学生评教模型,并利用新旧评教模型对同一被评教对象和参评对象评教后的不同评教结果进行了分析对比[10];王尧分析了辽宁省12所高校学生评教指标存在的问题以及改进的措施[11]。三是基于评教数据或者评教数据挖掘或者授课评价文本的情感挖掘研究,找出研究生评教数据或者文本中隐藏的影响因素。毛丰付对浙江评教数据进行分析后发现学生评教是有效的,同时也受很多因素的影响,存在着偏差[12];马秀麟通过对2所高校的评教数据进行对比分析,也论证了学生评教结果是有效的,能够较为真实地反映教师的教学状况[13];李正通过对学生评教的可信性和有效性进行深入的分析与探讨,并就改进我国高校的学生评教工作提出合理的建议[14];在基于文本的情感分析研究中,罗玉萍和严霞分别利用不同的软件,对学生评教的文本进行分词,两人均采用了知网的情感词典对语句进行情感打分,表明基于文本的情感分析的方法也是科学有效的[15-16]。

通过文献研究还发现,不管是基于量表问卷的研究,还是基于情感挖掘的研究,都会因为研究生的情绪、研究生评教习惯等多方面的原因,出现数据失真,为了有效解决数据失真的问题,笔者将利用S大学的研究生督导体系问卷,进行量表研究和文本情感的结合分析,探寻利用分层检测、数据和情感挖掘结合的方法,有效解决评教数据失真的问题,提升研究生评教问卷的有效性,激励研究生和导师共同提高教学质量[17]。

二、研究对象

S大学是一所历史悠久的专科型大学,在行业具有较高的影响力。该校于2015年建立了现存的研究生督导管理体系,成立了一支教师督导和研究生督导联络员结合的督导队伍。学校每年聘请20名督导联络员,对研究生课程进行专门反馈,在聘任督导联络员时,选择了一批思想觉悟高、诚实公正的研究生干部;要求他们学习态度端正,责任心强,观察事物细致,有较强的组织和协调能力,热心为同学和班级服务;同时也要求有一定的分析问题能力和文字表达能力。为了保障评价质量,学校对这些督导联络员进行专门的培训和考核,及时监控评教数据质量,对不太负责任的评教数据及时进行整改;同时在评价过程中,使用匿名评价的方式,并为督导联络员发放酬金,提升了督导联络员的积极性。

该校督导联络员所使用的量表是在参考美国俄亥俄州立大学的学生评教手册(Student Evaluation Of Instruction (SEI) Handbook)[18]基础上(9道问题),结合之前校内的评教表格,去掉重复的问题,然后按照教学态度、教学内容、教学方法和教学效果进行重新设计。在设计的过程中,基本保留了俄亥俄州立大学提问的风格,并将校内的问题也按照该风格进行重新优化,保留问卷的原汁原味(见表1)。在保留这些客观性量表的同时,还保留了四个主观性评价问题:这门课程的授课亮点与特色是什么?这门课程的授课问题与不足是什么?研究生学习效果与学习过程中的问题。对于这门课程的建议与意见。通过这样问卷的设计,尽量做到对教师的评教公平公正。

三、对研究生问卷量表的验证

在研究生量表设计完成之后,S大学对研究生问卷进行了试测,并将采集到的数据去掉重复值,得到有效数据453条,利用SPSS软件对结果进行信度分析,得出问卷克隆巴赫系数为0.973,表明问卷具有较好的信度。利用Amos22软件对结果进行斜交验正性因子分析[19]。得到的卡方值为249.235,卡方值/自由度为2.651,小于3,CFI(0.981)、NFI(0.969)、IFI(0.981)均大于0.9,RMSEA(0.060)小于0.08,潜在变量到测量变量的标准化回归系数均大于0.7,表明当前二级指标,对一级指标有较好的信度,当前结构可以使用。

表1 S大学的研究生评教问卷量表

四、基于研究生评教数据的分析

(一)数据样本的采集及处理

S大学从2017年1月起开始使用该问卷,截止到2019年1月,共收集到数据1234条,涉及2016、2017、2018三个年级共计60名研究生督导联络员所填写的数据。笔者对所有评教量表题按照各一级指标进行了加和,分别得到教学内容、教学态度、教学方法和教学效果分数,将4个一级指标的得分加和得到教学评价的总得分。为了配合将来对情感分析数据进行对比分析,笔者还对此五项数据利用以下公式进行了归一的标准化,得到标准化数据。后续分析均在归一化数据的基础上进行。

X = (X-Min)/(Max-Min)

(二)数据的信度检验及教学评价分布情况

笔者首先对得到的1234条数据进行内部一致性检验,发现其克隆巴赫系数为0.978,表明数据具有较好的可靠性,适合进行数据分析。对教学评价总分的最终统计数进行描述性统计发现,教学评价均值在0.8318,标准偏差在0.2266,偏度为-2.247,峰度为4.507,偏度<0,峰度>0,表示教学评价分布呈负偏态,且比较陡峭。

检查直方图(图1)可以发现,部分研究生的评分存在着偏低的情况,全是最低分或者全是最高分,特别是最高分的情况较多。但是在检验数据的过程中,发现数据中也存在着部分学生对所有问题评分全为5情况较多,看似好像没有认真地思考相关问题和教师的表现,但是笔者就此问题询问相关督导联络员,他们大部分认为全评为5分的教师,上课表现确实符合他的心理预期,只有极个别的同学,通过后期的评价看出,存在着不认真的情况。

图1 教学评价的直方图

(三)教学评价量表的相关性检验

对教学评价量表进行相关性检验,结果见表2,显示教学态度、教学效果、教学内容和教学方法之间显著性P值均小于0.01,相互之间均存在显著的相关性,这与之前进行的研究生评教量表的斜交验证性因子分析结果吻合。

表2 教学评价量表一级指标的相关性检验

**. 在 0.01 级别(双尾),相关性显著。

(四)教学评价与课程类型的方差分析

在S大学课程体系中,研究生课程类型分为公共基础课、学位选修课和非学位选修课。公共基础课是所有研究生必修的课程,学位选修课程对本专业更重要,但这门课程同时也可能是别的专业的非学位选修课。笔者利用不同的课程类型与课程评价结果进行方差分析(图2),得出显著性概率为0.008,小于0.05,表明课程类型与评价结果之间存在相关性。不同课程类型的教学评价分布图表明研究生督导联络员在评教的过程中,对于学位选修课的教师的教学内容、方法、态度和效果更加关注,也更为认可;对于非学位选修课的相关教学评价关注度较低,认可度也更低;对于公共基础课的关注度和认可度比学位选修课稍低,但是差别不大。

图2 不同课程类型的教学评价分布图

五、对研究生主观问题反馈的分析

(一)文本分词及统计

分词,是利用软件或者算法,将句子分割为词语的过程[20]。为了对研究生所反馈的主观性问题进行分析,首先就需要利用分词工具对反馈的问题进行分词。当前有很多流行的分词工具,例如罗玉萍采用的是3GSW分词工具[15],严霞采用的是哈尔滨工业大学的自然语言处理工具(language technology platform,LTP[16])等,笔者在编程过程中,尝试使用LTP、结巴、SnowNLP、HanLP等多种分词工具,利用Python语言进行编程比较,最终确定采用结巴分词工具。结巴分词工具是当前Python语言中最流行的分词工具,能够自定义词典,分词速度较快,精确度较高,在NLP领域具有较高的推荐度。

在分词之后,笔者对词频进行了统计分析,去掉了比如“讲解、上课时、这门、一门、X老师”等一些属于高频词但是对分析没有太大意思的状语词、量词等词汇。笔者对每个问题前10的高频词汇进行人工检索,生成了4个问题的关联词汇表(表3),从关联词汇表中,可以看到虽然每个问题的高频词汇相差不大,但是关联词汇还是有较大的差异,从关联词汇可以看出,每个研究生反馈的问题还是与所提问题回答较为吻合的,问题回答文本与问题有较高的关联度。

表3 高频词的关联词汇表

(二)情感分析语料库的选择

情感是人类智能的一种特征表现。情感主要是人类身体和生理状态在发生变化时的一种反映,也可以通过文本表达情感[21]。目前情感分析的方法主要有基于情感词典的情感分析和基于机器学习的情感分析两种,各有优缺点。限于笔者所掌握的Python编程能力,这里选择基于情感词典的情感分析。目前可供选择的情感词典很多,但大多基于新闻和基于评论的比较多,没有专门针对课程反馈的语料库,比如哈尔滨工业大学的自然语言处理工具LTP,SnowNLP,大连理工大学情感词汇本体等多种语料库。笔者通过编程的反复筛选,选择了大连理工大学中文情感词汇本体作为语料库。该语料库是大连理工大学林鸿飞教授领导的团队构建一个中文本体资源,情感分为7大类21小类,情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小,每个词在每一类情感下都对应了一个极性,其中0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。一共标注了24766个词语,在情感词典中属于比较大的语料库。

(三)情感分析算法

在情感得分计算过程中,笔者采用了图3所示的情感评分算法[22]。同时采用了去停词,标记连词、提取程度词、否定词等算法对情感得分进行修正,基本包含了基于词典情感分析的主流优化算法。在计算过程中,使用的编程语言为Python3.6。具体过程如下:

首先使用结巴分词工具,对所有问题反馈进行分词;第二步是去掉一些无意义的标点符号、数字、助词等;第三步是提取连词(文章中算法所采用的连词及其关联权重见表4),判断连词前句与后句位置,以第二个连词作为区分,前句和后句分别计算得分,再按照权重分别计算整体得分;若仅有一个连词,则以该唯一连词作为区分对象。如果不包括连词,直接进入计算得分步骤;第四步是访问情感词汇本体,确定词汇极性及其强度,判断该情感词之前是否含有否定词和程度词(文章中算法所采用程度词权重见表5),根据否定词位置判断是否含有否定或者双重否定来确定词汇极性是否反转;若不包含否定词、连词或程度词,均分别略过相关步骤。最后累加本句情感计算评分,若为正则为正面,若为负则为负面,否则为中性。需要说明的是,在情感词库本体中,词语极性标注为3的仅有78个,仅占3‰,为了方便操作,在这里的情感计算中,词的极性只考虑0、1、2三种类型。

图3 情感评分算法示意图

(四)基于情感词得分的统计分析

根据情感得分的正负值,得到表6的结果,显示对于特色与亮点的反馈,是以正向情绪为主的,达到82.1%,这表明在描述教授课程授课特点的时候,研究生偏向于为教师说好话,这也符合对于该题的预期;关于问题与不足的描述中,负面情绪是最高的,28.6%表明研究生在回答问题过程中,对于问题的反馈较为认真,觉得大多数同学本着认真负责的态度在回答问题,而不是不敢说话或者随意唱赞歌;在学习效果和课程建议的反馈中,约60%的研究生反馈为正向,中立情绪在30%左右,基本符合预期。在后续的研究生督导联络员培训过程中,笔者认为还应该继续加强主观问题反馈的培训,让情绪值分布与期望值更加接近,减少部分问题的正向情绪比重,更加客观中立地表达某些观点。

表4 连词及其关联权重

表5 程度词及其权重

表6 四个问题反馈的情感得分正负值统计

将四个问题的情感得分与课程类别进行对比分析(结果见图4),可以发现特色亮点的情感得分均值最高,问题不足最低,学习效果与课程建议均值差别不大。从课程所属类别情绪均值来看以及学习效果和问题不足情绪反馈来看,公共基础课的情感得分最低,学位选修课居中,非学位选修课最高;在特色与亮点的反馈中,公共基础课的情感得分最高,学位选修课最低,非学位选修课居中;而在课程建议的反馈中,学位选修课的情感得分最高,非学位选修课的情感得分均值最低。通过对相关学生的访谈,发现出现这几种变化主要是基于以下原因:

1.该校以前公共基础课授课人数较多,教师无法兼顾,影响授课效果,因此问题与不足和效果在类别中得分最低;但公共基础课教师均为该校经验最丰富的教师,授课方式也相对多元化,所以特色与亮点的得分偏高。

2.学位选修课是与研究生专业相关的课程,因此在反馈的过程中,最为认真,反馈的感觉是最真实的,不管课程有没有特色都会认真听课,所以问题不足相对非学位课多一些,对课程建议比较多,专业课教师的教学方式也相对单一,学习效果一般。

3.研究生在选择非学位选修课时一般会考虑将来得分较高或者学分较高的课程,所以在各个方面都评价相对较高,但是建议相对较少。

图4 四个问题反馈的情感得分均值与课程类别比较

将特色亮点、问题不足、学习效果、课程建议四个问题反馈的情感得分值和课程类别进行方差分析(结果见图5),发现问题与不足与课程类别的P值小于0.05,有显著性差异,表明研究生对于问题不足和课程类别的差异感受最明显,对于这个问题的回答,反映了最真实的情绪。同时,根据问卷中多项选择问题的统计(见表7),研究生授课课堂讲授为主的比例是最高的,达到了95.1%,占总比例也达到了35%,表明该校研究生教师需要进一步改进授课方式,提升授课效果,否则不太容易让研究生评教满意。

(五)情感得分和教学评价的相关性分析

最后,笔者对四个问题的反馈情感得分和教学评价总分,进行相关性分析,结果见表8,发现问题不足的情感得分和学习效果的情感得分与教学评价汇总得分的P值分别为0.002和0.000,小于0.01,表明二者和教学评价汇总之间有相关性,特色亮点和课程建议的P值大于0.05。通过访谈,了解到对于特色亮点和课程建议两个问题,有一定的宏观性,研究生对问题驾驭能力不足,导致相关性不足;而对于问题不足和学习效果,一般回答都是较为直接的感受,是切身体会,能够达到较好的效果,所以相关性比较好。

图5 课程类别与四个问题反馈的情感得分的方差分析

表7 研究生授课方式分布统计

a. 值为 1 时制表的二分组。

表8 教学评价汇总和情感得分的相关分析

**. 在 0.01 水平(双侧)上显著相关。

六、结果与展望

随着信息技术和研究生教育质量内部质量保障体系的建设要求,研究生评教作为研究生授课教师的辅助考评手段,已经受到了很多高校的重视,构建一套行之有效的问卷,并对问卷进行合理的结果分析和质量验证,对研究生课程质量建设和研究生培养质量保障来说,都是比较重要的,只有验证过的研究生评教结果才是可信的。文章通过情感分析和数据分析的结合验证,表明这种结合验证的方法能够更加有效验证研究生评教问卷的质量,基于情感挖掘和基于数据的挖掘,有相关性,也有差异性,基于S大学的问卷分析对该方法进行了有效的验证,能够有效避免单一使用量表对研究生授课质量进行评价的局面。

研究生评教问卷质量评价是一个复杂的系统,有很多因素的影响,比如研究生反馈问卷时的心情、课程性质、研究生本人对于反馈问题的驾驭能力等多方面的影响。对于不同的问题,从研究生角度,因为经验的原因,可能表达的情感不一定完全符合真实感受,有些同学在反馈过程中,也会存在敷衍的现象等。因此在今后的研究和实际工作中,要建立以研究生为中心的评价体系,以研究生诉求为基础,完善评价指标,改善研究生评教管理工作[23],对研究生教学督导员进行更多培训,提升问题的驾驭能力等,同时也可以考虑利用神经网络机器学习的方法,提升情感评价的准确性,提升研究生评教的整体质量,使得评价结果更加有效、客观。

猜你喜欢

评教分词研究生
地方高校教学评价指标制订与评教数据分析
分词在英语教学中的妙用
高校学生评教存在的问题及对策
——以川北医学院为例
结巴分词在词云中的应用
结巴分词在词云中的应用
高校学生网上评教的探索与实践
评教,别忘记站在教师的立场上
论研究生创新人才的培养
幸福院里出了个研究生
聚焦现在完成进行时