APP下载

运用机器学习法构建临床能力评价系统的研究

2013-05-26杨琳丽赵士斌

中国高等医学教育 2013年3期
关键词:机器专家指标

朴 杰,李 勇,杨琳丽,赵士斌

(哈尔滨医科大学,黑龙江 哈尔滨 150081)

关于医学生临床能力(clinical competency)评价,国际上一般认为应从三个方面评价:认知领域、精神运动领域、情感领域,并以此作为评价的理论依据[1]。因此,医学教育界一般从知识(Knowledge)、技能(Skills)和态度(Attitude)三个方面评价学生的临床能力[2]。由于评价因素复杂,所以没有任何一种评价方法能够同时评价一名医学生的临床能力[3],只有将应用不同方法获得的评价结果综合考虑,才能全面评价一名医学生的临床能力[4]。虽然多数医学院校在评价学生的各科目成绩时,基本涵盖了这三方面,但如何综合各科目的成绩全面评价医学生的临床能力,在研究方法上还没有突破性进展。本文试图从另外的角度探索临床能力评价的方法,以期对临床能力评价有所贡献。

一、研究对象与方法

(一)研究对象及数据来源。

研究资料来源于学校2007年346名临床五年制本科毕业生在校期间的考核成绩,共37项成绩,划分为理论知识、临床技能、职业态度三个一级指标,对应认知领域、精神运动领域、情感领域,每项成绩作为二级指标。其中理论知识包括组织胚胎学、分子生物学、病理生理学、局部解剖学、系统解剖学、医学微生物学、医学免疫学、药理学、病理学、生物化学、生理学、细胞生物学、临床流行病学、卫生统计学、卫生学、内科学、外科学、妇产科学、神经病学、儿科学、中医学、医学影像学、实验诊断学、诊断学、外科学总论等25项,数据来源于考试成绩;临床技能包括SP问诊内容、SP问诊技巧、SP查体内容、SP查体技巧、临床病例诊疗能力、临床资料分析、临床操作、沟通能力、病历书写、床边口试等10项,数据来源于OSCE考试和出科考试;职业态度包括实习表现、德育等级2项,数据分别来源于临床技能训练手册成绩、学生操行评定成绩。

(二)研究方法。

1.构建学生临床能力评价系统。将每名学生的各科目成绩数据转化成相应的柱形图在系统中体现。纵坐标是各科目名称,横坐标是标准化分数,单位是各科目成绩的标准差,用于反映单个学生该科目成绩在总体中的相对位置,其中的u值代表平均值,柱形长度小于u值代表该科目成绩低于整体平均值,反之则代表成绩高于平均值。如下图所示:

临床专家通过浏览图表可以直观地了解该学生的各科目成绩在整体中的相对位置,然后根据经验综合评价该学生的临床能力等级(优、良、中、可、差)。

2.专家遴选。学校从临床医学院遴选52位专家,通过上网访问“临床能力评价系统”,对346名学生的临床能力进行评价,这些专家均是在临床工作10年以上,有着较为丰富教学经验。

3.数据处理。将52名专家投票率最高的等级确定为每名学生的最终临床能力等级,做为机器学习的分类结果变量,每名学生各科目的成绩经标准化处理后做为特征变量(德育等级资料未做标准化处理),数据整理成CSV格式的文件提供给weka平台进行机器学习,构建分类器。为保证分类器的性能,采用10折交叉验证衡量分类器的性能,从而评估机器学习的结果。

4.研究工具。本研究采用weka平台运用机器学习法。Weka是一个功能全面的机器学习和数据挖掘应用程序平台。该平台提供了一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。它做为知识获取的完整系统,包括了数据输入、预处理、知识获取、模式评估等环节以及对数据及学习结果的可视化操作。

二、研究结果

通过对比几种不同的学习方法所得出的结果,得出支持向量机(SVM)算法的学习效果最好。

表1 支持向量机(SVM)算法的运算结果

经加权平均后,支持向量机(SVM)算法的学习效果的准确率为86.7%,误差率为6.3%,ROC曲线下面积达90%以上。

该分类器可计算每项二级指标的F值,用于指标的筛选,F值大小代表专家对该指标的关注程度高,相同类别的F值可以累加来比较不同类别指标的受关注程度,表2、表3、表4分别对不同类别指标的受关注程度进行了对比。

表2 临床专家对一级指标的关注度比较

表3 临床专家对不同类别理论知识的关注度比较

表4 临床专家对不同类型临床技能考核方式的关注程度

三、结果分析

(一)关于学习效果。

用weka平台中不同的机器学习方法进行计算,发现采用支持向量机(SVM)算法的准确率为86.7%,误差率为6.3%,R OC曲线下面积达90%以上,要高于其他分类算法的分类效果。目前该算法分类的准确率没有达到90%以上,分析原因,主要是由于评价指标较多,而训练样本相对较少的缘故。今后,我们可以通过增加训练样本数量(如以后几届毕业生的成绩信息)、增加评价专家数量、进一步调整分类器参数等方式来提高机器学习的效果等方式来提高机器分类的准确率。

(二)关于评价指标。

通过分析机器学习法的指标筛选情况,我们可以了解本校临床专家对学生临床能力的共性认识:

1.比较临床专家对三个一级指标的关注程度,理论知识各评价指标的累计F值为12.68,高于临床技能和职业态度各指标的累计F值,说明临床专家对学生理论知识掌握水平的关注度较高;虽然职业态度各指标的累计F值仅为0.35,但并不能说明临床专家对学生职业态度不够重视,相反,职业态度中的德育等级指标的F值为0.35,在37个二级指标中排列第19位,说明临床专家对医学生的思想道德素质的关注度还是较高的,只是由于目前还没有一个大家公认的、能够较为全面地评价职业态度的指标才导致该项指标的F值偏低。

2.在理论知识方面,专家对学生掌握基础理论知识和临床专业理论知识的情况关注程度均较高,F值分别为6.52和5.96,但是对学生公共卫生理论知识掌握情况的关注程度较低,F值仅为0.2,而公共卫生理论知识是执业医师考试的一部分,不应当忽视,所以应当采取措施来提高临床专家对公共卫生理论知识的重视程度,以免因此影响学生执业医师考试的通过率。

3.对不同类型的临床技能考核方式比较,临床专家对OSCE考试的关注程度很高,其F值为2.08,远高于传统的出科考试方式0.29,说明OSCE在临床能力评价中正在发挥十分重要的作用,今后应当加强OSCE考试的改革。

4.在职业态度评价指标中,尽管德育等级的数据来源于学生处对学生的综合测评成绩,但临床专家对德育等级也给予了相对较高的关注度,提示我们今后应当加强这方面考核方式的研究。

四、结 论

机器学习法做为一种新的研究方法,由于它是发现驱动的[5],具有不断学习、自我完善的特点,所以用它来评价学生的临床能力,评价效率较高,并且还可以通过不断学习得到提高,因此,用它来构建学生临床能力评价系统是可行的。此外,它还具有以下优点:

(一)构建的评价系统更具人性化。

“临床能力”的内涵比较宽泛,是一个抽象概念,所以临床能力的评价也是评价者对被评价者的一种笼统的、抽象的认识,并且带有一定的情感因素,因此,用传统的、固定的数学公式来计算一个学生的临床能力显得过于机械,缺少人性化思考。而机器学习法构建的临床能力评价系统由于能够很好地模拟专家的思维和观点,所以能够很好地克服这方面的不足,从而科学评价学生个体之间的能力水平差异,更好地体现医学教育评价的公平性。

(二)有利于教学改革。

我们可以通过对专家系统内的评价指标进行分析,客观了解临床专家们的共性认识,从而全面地了解学习的整体教学状况,其中可能会发现一些问题,如果及时总结和改进,将有助于学校教学工作的改进和提高。

本研究是将机器学习法应用于医学教育研究的初次尝试,相信机器学习法做为一种新的研究方法,在医学教育研究领域会有广阔的应用前景。

[1]于晓松,孙宝志,时 瑾,等.对医学生临床综合能力评价的初步研究[J].中国高等医学教育,2000(2):9-11.

[2]王 华,苏 博,刘建汶.军医大学住院医师培训第一阶段临床能力评估指标体系研究[J].中国高等医学教育,2002(4):59-61.

[3]GE.,M.The assessment of clinical skills/competence/performance[J].Acad Med,1990(9):s63-7.

[4]Eric S.Holmboe,M.a.R.E.H.MD Methods for Evaluating the Clinical Competence of Residents in Internal Medicine[J].Annals of internal medicine,1998.129(1):42-48.

[5]范 明,牛常勇译.数据挖掘基础教程[M].北京:机械工业出版社,2008.3.

猜你喜欢

机器专家指标
一类带临界指标的非自治Kirchhoff型方程非平凡解的存在性
机器狗
机器狗
致谢审稿专家
最新引用指标
莫让指标改变初衷
未来机器城
请叫我专家
专家面对面
制造强国的主要指标