基于文本挖掘的临床带教评价分析

2017-03-09庄俊玲

中国卫生统计 2017年1期

陈苗刘超庄俊玲潘慧叶葳李航△

基于文本挖掘的临床带教评价分析

陈苗1刘超2庄俊玲1潘慧1叶葳1李航1△

目的使用文本挖掘方法分析医学生对临床带教老师开放式文本评价数据，建立新的教学评价方案。方法对1084份实(见)习学生对临床带教老师主观描述性评价资料，根据统计软件R中Rwordseg包进行分词，把文字转化成可以量化的指标，设计算法和程序，建立教学评价指标，对临床带教工作进行评分。结果有效评价的字数呈现幂律分布特征，评价用词反映了学生对教学指导的倾向性。综合得分≥6.82，6.82>综合得分>6.13，及综合得分≤6.13分别表示高质量、中等质量和低质量的临床带教工作。结论采用文本挖掘方法可以科学、准确评价临床带教工作，为临床带教老师考核提出新的方法。

临床医学教育教学评价文本挖掘

临床实(见)习是医学生培养过程中将书本知识应用于实践，培养临床技能的重要阶段。科学有效地评估临床带教效果，不仅能够及时反馈和衡量老师的教学工作，也有助于老师获得有益信息进一步改进临床教学。目前常见的临床带教评教打分系统往往过于简单，不能适应病房实际场景的教学活动，也就不能真实、客观地反映临床带教质量[1]。老师也几乎得不到有价值的信息，而且学校对此难以采信作为教学监督和奖惩的依据。通过对带教老师进行开放性评价，可以使实(见)习学生相对客观、自由、充分地表达对每一位老师个性化的感受和认同。然而，文本语言不便于量化，限制了该评价方式的使用效果。因此，本文将根据千余份临床带教评价文档，采用文本挖掘方法对临床带教评价进行研究，不仅可以从主观性评价中挖掘出许多有价值的结论，及时得到评价结果指导临床带教活动，也为这类开放式教学评价提供了一类新的解决方案。

对象与方法

1.研究对象

2013年1月至2015年10月在北京协和医院内科9个专科轮转的394名实(见)习学生对临床带教老师的1084份开放式评价调查文档。带教老师分为查房教授、主治医生和住院医生。学生被要求“请写出对带教医生的评价和意见”。剔除空白回答，共得到394名学生的2910条有效评论。每个学生评论的老师数量在1～10名(平均6名)；每个老师得到的评论数在1～34条(平均4条)。

2.研究方法

使用文本挖掘方法和统计软件R对评论进行分词、情感分析和构建评价体系。具体来说：(1)分词。将每条评论按标点符号(，。；！)拆分为若干条短句，使用R中的中文分词工具Rwordseg包将一句完整的评论分割成若干个词条。对2910条评论分词得到47214个词条。(2)情感分析。借鉴目前成熟的词库对每个词条的词性、感情色彩、强烈程度、描述类型等进行标注，把文字转化成可以量化的指标。根据医学特点将某些词汇进行人为设定，更加客观地得到医学评价词汇的情感及程度描述。(3)评价体系词库的构建。对所有评论分词后，将其中的情感词进一步划分为教师风范、教学能力、教学效果等3个词库。(4)评价指标得分。将评论中的词条与教学评价各项指标匹配并对其赋予相应分数，得到每名老师的教学评价指标得分值。有1条以上评论的老师，将各条评论得分平均定义为相应评价指标的得分。评分步骤如下：①寻找每一个短句中的情感词，对每一个情感词i赋值sign_i(正面情感取1，负面情感取-1)；建立情感词与“教师风范、教学水平、教学效果”之间的匹配，给短句贴上对应情感体系词库的标签。②对短句中的每个情感词，遍历其前后最多5个词语，对所有程度修饰词j取程度平均分meanj(scorei,j)。③遍历每个情感词前后最多5个词语，对所有否定词k取signi,k取-1分，然后求积∏ksigni,k。④将以上②和③的得分乘积得到每一个情感词产生的情感得分(signi×meanj(scorei,j)×∏ksigni,k)，该得分在-5～5分。⑤对该句所有的情感得分求平均，即得到该短句的初始评分scoresentence=meani(signi×meanj(scorei,j)×∏ksigni,k)。若情感得分无法给出，默认情感得分为0。最终得到的评分范围在-5～5。⑥将评分标准化变换后得到短句的标准得分(取值在0～10)：

通过步骤①～⑥，计算得到了每一条短句的得分并给其贴上了情感体系标签。然后，将每条评论中有相同情感体系标签的短句得分求平均分，即得到该条评价在教师风范、教学能力、教学效果等方面的得分。由于本研究涉及3年多带教工作，有的医生在此期间执行不同带教工作，如先后作为住院医生和主治医生，这里视为不同的样本。

结果

1.开放性评论的基本特点

评论字数呈现典型幂律分布特征，74.1%的评论的字数在10个字以上。词条的频数分析显示，前80个词条主要为“认真、负责、清晰”等褒义词条，累计频数达到全部的82.83%。字数长度反映了学生对老师的认可，字数越多，评价越全面详尽。而学生选用正面肯定性评价词汇以及强调性修饰语，反映了学生对每个老师个体的感知和良好的教学体验。因此，临床带教的开放性评论不仅为分析提供了坚实的数据基础，而且反映了学生对临床带教工作给予了充分肯定。

2.临床带教的评价分析

(1)评价指标体系

根据词条的感情色彩和程度，将其与教学评价各项指标分别进行匹配，构建了涵盖“教师风范、教学能力、教学效果”的评价指标体系(表1)。在2910条评论中，60%的评论涉及教师风范，48%涉及教学能力，15%涉及教学效果。

表1 临床带教评价指标

由于教师风范、教学能力和教学效果之间的相关系数绝对值均不高于0.2，这意味着它们之间几乎没有信息重叠，均反映了临床带教工作中的一个方面，因此我们直接对这三个指标求算数平均得到临床带教综合评价得分F：

F=(x1+x2+x3)/3

Shapiro-Wilk正态性检验显示F服从正态分布(P>0.05)。总的来看，F的平均值是6.45，标准差是0.71，这意味着老师的临床带教工作得到了学生的认可，与前面的描述非常符合。这表明该综合得分可以合理反映老师的临床带教工作。根据正态分布的特点，我们把高于综合得分75%分位数(6.82)的综合得分定义为高质量的临床带教工作；把低于25%分位数(6.13)的定义为低质量的临床带教工作；而6.13～6.82表示中等程度的临床带教工作。基于该标准，老师据此可以判断自己的临床带教工作质量，从而有针对性地改进教学工作。

(2)不同类型老师的临床带教特点

词条频数分析显示学生对三类老师的共同评价是“认真、负责、丰富”。具体来说，住院医生的教学是“认真、负责、耐心”，主治医生是“认真、清晰、负责”，而查房教授是“清晰、认真、严格”。图1来看，住院医生和主治医生之间的教学评价指标差异没有统计学意义(P>0.05)，他们在“教师风范”上得到的评论占比明显高于查房教授(P<0.05)。表2也显示不同类型老师的综合得分存在差异。主治医生的综合得分最高，住院医生其次，查房教授相对最低。

以上差异与不同类型老师在教学中发挥的作用相关。主治医生是医疗决策者，在教学工作中也是核心，最容易得到学生的较高评价。查房教授学术水平很高，偏向于解决医疗疑难问题，教学时间和内容相对较少，得分相对低。住院医生与学生朝夕相处，手把手带教，但住院医生自身还在培训学习过程中，素质差别相对较大。

*：由于很多学生评价了老师两个或三个方面的教学特点，因此图中的比例之和超过100%。

图1 不同类型老师得到的教学评价比例

讨论

在教学医院中，教学的指向应该是培养一种“文化”、责任和荣耀，而不是临床工作以外的任务。这需要一定的评价指标来评估指导老师的教学，而不是全凭老师个人素质和自我要求[2]。学生评教是老师评价的一个方面，也是获得教学反馈的重要方式。目前通行的评分反馈过于简单、流于形式得不到有益信息[3]。而简单的看一个分数结果，评教也就失去了应有的意义[4]。相对而言，开放性回答的问卷更能体现学生对老师教学指导的认可态度，老师也可以从中获得许多有益的信息，提高后续的临床带教质量。但是评论性反馈信息量大，不利于汇总分析。为了克服这些困难，我们采用文本挖掘方法对主观描述性反馈评价科学分析，得出了一系列有意义的结论。首先，我们对开放性评论进行分词，建立了一个教学评价的词库；其次，构建教学评价指标体系，形成临床教学综合评价系统；第三，挖掘不同类型老师的教学指导风格与特点，不仅有助于老师教学特色的形成，也有助于学生更好地适应老师的教学特点。本研究通过统计软件R进行运算，速度快，可以处理几千至数十万份问卷。可以为老师水平评定、人员管理等方面提供数据支持。当然，本研究还需深入探讨建立适合临床带教工作的评价词条库，更加精确地分类评分；添加词语关联规则，扩大自动化评分的范围。总体而言，本研究基本实现了预期目标，可以逐步在实践中应用。

[1]王旭.医学类院校教学评价体系构建研究-以河南H学院为例.中国卫生标准管理,2014，(17):70-72.

[2]王伟,郭玉婷,张澜,等.高等医学院校教师教学效能结构维度的研究.中国卫生统计,2004,21(3):183-184.

[3]林萍,管远志.医学院校教师教学评价的现状与展望.首都医科大学学报:社科版,2008(00).

[4]殷小寒,罗志勇,尹竹萍,等.临床医学实践教学质量评价分析.昆明医科大学学报,2012,33(1):146-149.

(责任编辑：刘壮)

1.中国医学科学院北京协和医学院北京协和医院(100730)

2.北京航空航天大学数学与系统科学学院，“数学、信息与行为”教育部重点实验室

△通信作者:李航，E-mail:lihang9@hotmail.com