基于文本分析技术的教师画像研究
2020-02-26
(重庆第一中学 重庆 401329)
1 对某高校评教情况的调查
为了解学生和教师对评教的真实看法,我们对某高校48名教师以及50名学生开展了匿名问卷调查,针对教师和学生设置了两套不同的调查,每套问卷包含10道题。综合调查问卷反馈的结果,我们发现有65%的教师不清楚目前评分结果的计算方法,有71%的教师遇到过非常不合理的评分结果。但是大多数教师和学生认为,相比分数评价,文本评价是相对客观和更有价值的反馈。
通过对现有的学生评分数据进行分析,我们发现分数评价主要有三种不足。一是有的学生倾向于打高分,有的学生则要求严苛,偏向于给低分,这两类学生给的分数不存在可比性。二是大多数学生给所有的教师都打相同的分数,从而影响了教师评分的可区分度。三是部分学生对教师有严重的偏见。例如,他们可能给某个教师打非常低的分数,掩盖了大多数其他学生的评分。
由此可见,利用分数评价去评估教师的课程教学水平有失公允。相对来看,文字评价比分数评价更客观一些。因为学生愿意花时间撰写文字,说明这是他们确实希望反馈给教务处这些信息。但是直接利用文字评价也存在两个问题:
1.1 教师不能有效地吸收学生的文字反馈
如果教师仅仅阅读文字评价,他可能对学生评语中一些偏激的语句比较排斥,从而不能有效地接受学生的反馈。另外,教师只能看到学生对自己的评价,他可能不清楚自己在学校的相对情况。最后,也是最重要的,呈现给教师的只是一些零散的评语,这不利于教师有体系地、全面地了解自己的教学情况。
1.2 教务工作人员不能有效地利用文字评价
学校将教学考核评价结果作为教师职称(职务)评定、绩效分配、评优评先及继续培养的重要依据。教务处作为学校的审核部门,需要了解每一个教师的教学情况。然而,如果教务工作人员要逐一查看这些意见,则需要耗费大量的人力物力。因此,迫切需要采用自动化的文本分析技术帮助教务工作人员更好地评价教师。
为了解决以上两个问题,我们提出了一种基于文本分析技术的教师画像技术,可以根据学生撰写的教师评语自动生成多维度的教师画像。
2 研究数据集
本文使用的数据是某大学部分学院6个学期中学生对教师的评价文本。共获取评价文本9万余条记录,涉及教师近1000名。
数据集包括学期、课程号、教师号、班号、学号和评语,其含义如下:
学期:课程所在的学期名称,如2018-2019第一学期
课程号:课程编号,如080125
教师号:教师编号,如013485
班号:教学班编号,如001
学号:学生编号,如20160378
评语:学生对教师的评价文本,如“张老师备课认真,只是语速过快”。由于许多学生没有对教师进行评分,评语可能为空。
3 过程与方法
本文提出的教师多维度画像方法以原始的评价文本作为输入,以教师画像作为输出。该方法包括五步骤,即预处理、重点词提取、方面词分类、意见词量化和生成画像(参见图1)。下面对这些步骤进行详细说明。
图1:教师画像生成过程
(1)预处理:包括数据清洗、分词、词性标注、依存句法分析等过程。例如使用 Jieba文本处理库进行中文分词和词性标注;并利用Stanford Parser提供的处理包对文本进行依存句法分析。这些过程使用相应的工具即可完成,下面我们主要描述第一个过程,即数据清洗。
通过观察原始数据,发现文本数据存在很大的缺失。实际上,含有文本评论的记录约占全体记录的30%。此外还包括一些无效的评语,例如“无”,“没”等字样的评论。另一种情况是长难句。对于中文长难句,目前并没有一个准确的定义,但是可以基于英语长难句的定义:有过多、过长修饰成分或者含有从句则为长难句。对长难句的处理一直是中文文本处理中的难题,而本文的研究重点是从句子中准确的提取方面词语与方面情感词组合。长难句句子结构复杂,依存句法分析结果也存在一定的误差。在生成教师画像的过程中会有很多不利因素,所以没有对长难句进行操作。
基于以上原因,我们在数据清洗时删除了没有文本评价的记录、无效评语以及长难句。
(2)重点词提取。重点词包括方面词和意见词两类。方面词是代表教师某个方面的词,通常是名词;意见词是对某个方面进行评价的词,通常是形容词。方面词和意见词是成对出现的。例如,在“张老师备课认真,只是语速过快”中,“备课”“语速”是方面词,“认真”“过快”是意见词。并构成了(备课,认真)和(语速,过快)两个词对。
提取过程中,首先构建一个基本的方面词库和意见词库。根据词库提取出基本的方面词和意见词。然后通过语法分析将(方面词,意见词)补充完整,并将新的方面词和意见词添加到词库中。以上过程反复进行,直到不能发现新的方面词和意见词为止。
(3)方面词分类。使用手工方式将全部方面词划分到六大类,包括教学内容、教学方法、课程管理、课程考核、教学态度和学习收获。
(4)意见词量化。将意见词转换成一个得分。如果该意见词是正面的,转换成1,如果是负面的,转换成-1。例如“认真”转换成1,“过快”转换成-1。
(5)画像生成。将同一大类方面词对应的全体意见词得分进行求和。例如如果一个教师获得20个正面的意见词和5个负面的意见词,则求和的结果为15分。最后将求和结果映射为一个0到1之间的小数。由此得到该教师六个方面的评分,并转换成可视化的图形形态。
4 实验结果
通过以上方法,我们为近900名教师生成了六个方面的评分。为了显示实验结果,我们以选取的某个教师为例,显示其评分(参见表1)和画像(参见图2)。
表1:某教师六个方面的得分
图2:教师画像示例
5 总结
本文提出了一种基于文本分析技术的教师画像方法。通过预处理、重点词提取、方面词分类和意见词量化等过程,最终实现了对教师的多维度的画像。本文提出的方法可以帮助教务工作人员快速掌握教师的情况,帮助教师改进教学方法,提高教学质量。