基于证据的职业技能评价方法有效性框架构建
2022-06-05黄方慧赵志群
黄方慧?赵志群
摘 要 借鉴语言测试的AUA测试框架,以信度理论和整体效度观为理论基础,运用修正式德尔菲法构建了包括4项一级指标、11项二级指标和33项三级指标的职业技能评价方法有效性框架。研究发现:信度、效度是职业技能评价方法在评价技术上最重要的质量标准;职业技能评价方法的有效性评价不仅关注评价工具本身的有效性,还注重评价及其结果使用的有效性;对职业技能评价方法的有效性评价是基于证据的有效性论证;所构建的有效性框架具有良好的应用价值和可推广性。在设计职业技能评价方法时,建议将信度和效度理论作为理论基础,关注评价及其结果的使用对考生、院校和企业的影响,注重利益相关者的参与,关注评价的公平性。
关键词 职业技能评价;职业教育;有效性框架;证据;修正式德尔菲法
中图分类号 C975 文献标识码 A 文章编号 1008-3219(2022)13-0014-06
作者简介
黄方慧(1988- ),女,中国消防救援学院讲师,博士,研究方向:教育评价,技能评价(北京,102202);赵志群(1966- ),男,北京师范大学教授,博士,博士生导师,研究方向:职业教育课程与教学论
基金项目
北京市教育科学“十三五”规划2020年优先关注课题“‘1+X证书制度建设中技能评价方法研究”(BDEA2020009);教育部1+X证书制度2020年度专项课题“职业技能等级证书考核模型与评价技术研究”,主持人:赵志群
一、问题提出
2019年1月,国务院颁发《国家职业教育改革实施方案》(国发[2019]4号)(简称“职教20条”),提出在职业院校和应用型本科高校启动“学历证书+职业技能等级证书”(即“1+X”证书)试点工作,这项工作是否能够成功,在很大程度上取决于职业技能评价的质量,而评价方法对技能评价结果的真实性与可信度具有直接影响。目前,国内对技能评价的方法和工具研究较弱,现有评价方法普遍在技术上缺乏系统性考虑,如高职招生考试特别是专业考试,无法保证区分度、信度和效度[1];评价标准不清晰,评分随意,评价结果缺乏客观性和公平性等[2]。虽然部分技能评价方法已经开始从评价技术上探讨评价方法有效性问题,例如检验评价方法的信度、效度、区分度和难度等,但尚缺乏对技能评价方法的系统性元评价研究,也未形成技能评价方法的质量标准。
科学有效的技能评价方法是保证技能评价结果真实、可信的前提。只有符合教育测量相关质量标准的技能评价方法,在评价技术上才是科学的、可信的、高质量的,其评价结果才有意义。缺乏教育测量理论(例如效度、信度理论)指导的评价过程,将无法保证评价的可信度和科学性[3]。如何保证技能评价方法的质量,以及如何对技能评价方法的质量进行评价,是当前技能评价亟需解决的关键问题。
对评价方法质量或有效性评价的相关文献进行回顾发现,目前国际上已有的元评价指標更关注对项目或方案的评价,不适合从评价技术层面对评价方法的有效性进行评价。效度验证是教育与心理测量中用来验证测量方法或工具是否有效的方法,主要关注评价方法或技术层面的有效性。随着效度理论的发展,在整体效度观指导下的效度验证模式主要采用基于证据的有效性论证方式。基于证据的有效性论证方式是凯恩(T. M. Kane)于1992年在整体效度观理论基础上提出的,采用图尔敏(E. S. Toulmin)“事实—主张”论证模型[4]对有效性开展论证的方式,即首先建立与分数解释相关的推论和假设,再通过收集、评估和呈现相关证据来阐明评价工具或方法的有效性[5]。凯恩在2006年出版的《教育测量》中正式提出基于证据的有效性论证方式——“解释使用论证”[6]。目前在国际教育与心理测量、语言测试领域已有较多的理论和实践研究,形成多种基于证据的有效性论证模式,主要有凯恩的解释使用论证模式、巴赫曼(L. Bachman)和帕尔默(A. Palmer)的语言测试使用论证框架等。研究发现,美国语言学家巴赫曼和帕尔默提出的测试使用论证框架(Assessment Use Argument, 简称AUA)[7]以整体效度观作为理论依据,构建起一套系统的、可操作的程序,涵盖了从评价开发、评价结果使用到评价影响的整个过程,是目前发现的比较成熟和全面的有效性框架。本研究借鉴语言测试使用论证框架,对职业技能评价方法及其质量进行研究,力图采用基于证据的有效性论证方式构建科学的、符合职业技能评价的有效性框架。
二、研究方法
美国教育家克隆巴赫(L. J. Crobach)提出设计评价指标的流程包括发散和收敛两个阶段[8]。发散阶段是指在构建有效性框架中,广泛收集相关资料,尽可能将评价对象的各种表现进行分解,提出详细、全面的指标体系初稿。收敛阶段是依据一定原则、采用一定方法,对指标进行筛选与归并。根据克隆巴赫指标构建流程,本研究第一阶段主要通过文献研究法,基于已有成熟研究,初步构建技能评价方法有效性框架初稿;根据初稿设计专家咨询第一轮问卷,选取部分专家和职业院校教师进行访谈和试测,经讨论修改后,形成正式的专家咨询问卷。第二阶段采用修正式德尔菲法进行专家意见征询,确定有效性框架。
修正式德尔菲法(Modified Delphi Method)与传统德尔菲法不同,其是根据已有研究结果设计的结构性问卷作为第一轮问卷,而不是开放性问卷,提高了传统德尔菲法的效率[9]。专家咨询问卷采取线上发放方式,通过微信和邮件将初步构建的有效性框架及框架指标说明与解释、问卷链接等相关资料发送给专家,确保专家能够非常清晰框架构建的逻辑、思路及理论依据。专家数量和质量在一定程度上影响德尔菲法质量。在选择专家时主要考虑代表性和专业性。本研究是职业技能评价理论与实践的综合研究,既要考虑专家在职业技能评价领域的实践经验,也要考虑其对教育与心理测量相关理论的熟悉程度。研究采用经验选择方式,拟选取8位专家。经过第一轮德尔菲法,发现两位专家对技能评价的实践或教育测量理论不熟悉,权威度不符合要求,予以剔除。最后确定6位专家,专家们在技能评价领域均具有丰富的理论和实践研究经验。827AFB11-E725-4353-B6B1-98A9710221ED
三、研究过程与结果
本研究首先通过文献研究确定高质量的技能评价方法要满足哪些评价技术质量标准;其次明确已有可借鉴的有效性评价方式和框架;最后采用修正式德尔菲法进行有效性框架的构建和质量测算。
(一)专家咨询质量测算
为保证修正式德尔菲法专家咨询的质量,对专家积极系数、权威度、意见协调度进行测算。
1.专家积极系数
专家积极系数是指参与咨询专家数与全部专家总数之比:C=M/N。C为专家的积极系数,M为参与咨询专家数,N为全部专家总数。两轮专家咨询问卷回收率均为100%,专家积极系数为1,且专家都按照要求填写,填写问卷的时长符合问卷答题时长要求。在第一轮专家咨询中,部分专家还对指标表述提出了建设性意见,并針对某些问题,通过微信与研究者进行讨论与交流。
2.专家权威度
考虑到不同专家对不同指标权威度理解的差异,需要获取专家对指标的熟悉程度和判断依据。根据权威度要求,剔除部分不符合要求的专家。熟悉程度和判断依据的赋值均参照已有研究[10]。邀请专家根据实际情况对评判依据做出自评,按照等级分值及公式算出专家权威系数。一般认为专家权威系数Cr大于等于0.700即为可接受,研究剔除了权威系数低于0.700的两位专家,入选的6位专家的权威系数分布如表1所示,6位专家的权威系数都在0.800及以上,所选专家具有较高的可信度。
3.专家意见协调度
专家意见协调程度有两种测算方法,一种是通过变异系数计算,另一种是通过肯德尔系数计算,获得专家对某指标意见的分歧。变异系数越小表示意见协调程度越高,通常认为变异系数小于0.25可接受,变异系数大于0.25表示专家分歧较大。研究选取0.25作为变异系数的基准数进行指标筛选。肯德尔协调系数(W)是检验专家对指标评分结果一致性的指标,判断专家对指标的评价是否存在较大分歧。数据显示,第一轮和第二轮专家咨询的肯德尔系数分别为0.462和0.560,均在可接受范围内。
(二)第一轮专家咨询
将第一轮问卷数据录入数据处理软件SPSS26中,计算平均数、标准差和变异系数,对有效性框架进行量化和质性分析。根据数据分析结果,对指标体系进行修改和完善。研究以算术平均分大于3.50分、标准差小于1.00、变异系数小于0.25作为指标筛选标准。
1.量化分析
测算结果显示,第一轮专家咨询问卷中个别指标变异系数大于0.25,说明专家有不同意见。其中,一级和二级指标的算数平均值均大于3.50,标准差小于1.00,变异系数均小于0.25,说明专家认同一级和二级指标。三级指标中,III-1、III-13、III-27三个指标的标准差均大于1.00、变异系数也大于0.25,其他三级指标的算术平均分均大于3.50、标准差小于1.00、变异系数小于0.25,说明专家对III-1、III-13、III-27指标持有不同意见,见表2。针对有异议的指标,研究者与专家进行深入沟通与交流,最后达成共识。
2.质性分析
对专家反馈的意见进行质性分析发现,意见主要分为三类:修改表述、合并指标、拆分指标。对于“修改表述”的意见,研究者查阅相关文献,与专家进行充分交流与讨论,进一步完善表述,使指标表述更适切、更易理解和接受。此外,结合指标的实践依据、合理性、准确性等相关意见,对指标进行合并和拆分。具体修改如下:一是有专家提出“I-3测试决策”较难理解,建议改成更容易理解与接受的词语。研究者通过查阅相关文献,发现国内语言测试领域也都使用“测试决策”,但为了便于理解,研究用“测试结果使用”来代替“测试决策”,并在注释中说明,本研究中“测试结果使用”即指“测试决策”。二是有专家提出可以将“I-3测试决策”和“I-4测试影响”合并,但研究者认为测试结果的使用与带来的影响是两个维度,不应合并。三是关于二级指标中“推广性”“相关性”指标的理解,有专家提出与教育测量与评价中“相关性”和“推广性”的理解不同,为避免误解,建议寻找更适切的表述。为此,研究者查阅相关资料、结合专家建议,将“推广性”修改为“适用性”,将“相关性”修改为“关联性”。四是有专家提出,二级指标“一致性”可以分为“评分的一致性”和“测试工具的一致性”,研究者采纳专家的意见。
综合以上量化和质性分析结果,研究对指标体系进行优化与完善,形成第二轮专家咨询问卷。
(三)第二轮专家咨询
针对第一轮专家咨询修改后的指标体系,邀请专家再次对指标的合理性进行评分。将专家数据录入SPSS26中,计算标准差、平均数和变异系数。计算结果显示,指标体系的一级、二级和三级指标的算术平均数均大于3.50、变异系数均小于0.25、标准差小于1.00,说明专家对指标达成一致意见。在第二轮专家咨询问卷中,没有专家提出问题和建议。综上,可认为专家都认同第一轮问卷修改后的指标体系。
经过两轮专家咨询问卷,确定技能评价方法有效性框架,包括4项一级指标、11项二级指标和33项三级指标,如表3所示。
四、结论与建议
(一)结论
研究借鉴语言测试的论证框架,通过文献研究法、访谈法、修正式德尔菲法构建职业技能评价方法的有效性框架,得到以下结论:
1.信度、效度是职业技能评价方法在评价技术上最重要的质量标准
在教育与心理测量中,通常认为满足教育和心理测量标准的评价方法,在技术上才是科学、可信和高质量的。美国教育研究协会(AERA)、美国心理学协会(APA)、全美教育测量学会(NCME)共同制定的《教育和心理测试标准》,为教育和心理测量领域开展科学有效的测试提供“质量准则”,包括信度、效度、公平性等。其中,信度和效度被认为是衡量测试质量的最重要指标[11]。除了教育和心理测量,语言测试也非常关注评价方法质量,特别是评价技术质量,主要以教育和心理测量的相关理论(例如信度理论和效度理论)作为测试的技术理论基础,开展测试有效性研究。信度与效度被认为是衡量语言测试质量好坏的重要指标[12]。在教育与心理测量中,效度即有效性,是评价质量的核心[13]。通常把信度作为效度的必要不充分条件,即效度高的测试信度一定高,但信度高的测试效度不一定高[14]。高质量的职业技能评价不仅在评价内容和方法设计上紧随技术和工作组织的发展,而且在评价技术上要遵循教育与心理测量的信度和效度要求。只有满足信度和效度等测评技术标准,才能保证职业技能评价方法的科学性和有效性[15]。827AFB11-E725-4353-B6B1-98A9710221ED
2.职业技能评价方法的有效性评价不仅关注评价工具本身的有效性,还注重对评价及其结果使用的有效性评价
根据整体效度观,好的测试不仅要求工具本身科学有效,而且还要考虑测试结果及使用的影响。“好的测试”可能会带来糟糕的分数,“好的测试”得出的分数也有可能会被错误使用[16]。美国学者斯蒂金斯(R. Stiggins)研究发现,部分“好的测验”并没有提高学生成绩或激发学习动机,反而对学生造成巨大伤害[17]。职业技能评价结果是否能够获得较高的社会认可度,不仅受评价工具本身质量影响,而且在很大程度上是由评价结果及其使用的影响决定的。在设计和开发一项评价时,设计者应首先明确哪些影响是期望的,并且希望利益相关者能够从评价中获得哪些好处。美国学者坤南(J. A. Kunnan)提出“评价的有益性原则”[18],即评价应该给社会带来好处,不应该危害社会。要想保证评价对利益相关者的影响是有益的,应该从两个方面出发:评价本身和评价结果使用的影响。研究所构建的有效性框架突破以往只关注评价工具本身质量的做法,更加关注评价及其结果使用的质量及影响,是对职业技能评价方法全面而整体的评估。
3.对职业技能评价方法的有效性评价是基于证据的有效性论证
随着效度理论的发展,效度验证模式也在发生变化,更加注重基于证据或论证的效度验证模式。基于证据的有效性论证模式与传统的有效性或元评价指标构建和评价过程不同,其是基于整体效度观开展的有效性论证模式,包括有效性理论框架的构建和基于证据的论证两部分。有效性理论框架的构建是搭建评价方法有效性的相关推论和假设的推理框架,基于证据的论证是根据理论框架通过收集、评估和呈现相关证据来阐明一种评价方法或工具的有效性。基于证据的职业技能评价方法的有效性评价,在过程上包括有效性论证框架的构建和基于證据的论证两个过程。纵观国际上的相关研究,基于证据的有效性论证方式是目前国际教育与心理测量、语言测试领域普遍认同的有效性评价模式,但在职业教育领域还没有相关研究。将基于证据的有效性论证方式引入职业教育领域,可以为职业技能评价方法的有效性评价提供新的思路和方法。
4.所构建的有效性框架具有良好的应用价值和可推广性
研究所构建的职业技能评价方法有效性框架,通过两轮专家咨询达成了专家共识,即专家认同本研究所构建的有效性框架;专家积极系数、权威度和意见协调度也符合要求,咨询质量较高,具有较强的可信度。综上,所构建的有效性框架可应用于现有的职业技能评价领域。目前我国已有的职业技能考试,普遍存在缺乏从评价技术上考虑评价方法质量的问题。研究所构建的框架是一个通用的有效性框架,一方面可以为建立有效的“职教高考”制度、完善“文化素质+职业技能”的考试招生办法、改进技能大赛考核方法等提供理论基础和方法指导;另一方面可以规范职业技能评价方法的设计,改善我国职业技能评价方法的质量,提高职业技能评价结果的科学性和可信度。
(二)建议
1.职业技能评价方法的设计应将信度和效度理论作为理论基础
职业技能评价不应只是经验层面的具体操作,还应有科学层面的教育评价理论作为支撑[19]。信度和效度理论是科学的评价方法需要遵循的最基本的教育和心理测量理论。只有保证评价方法的信度和效度,评价结果才有价值。为此,设计者在设计评价方法时,应关注信度和效度等质量标准,将信度和效度理论作为理论基础。基于信度理论开发的评价方法首先要进行信度测算,包括评分信度和评价工具信度的测算,保证满足信度的相关要求。评分信度包括评分者信度和评分者间信度。评价工具信度包括内部一致性、复本信度、折半信度、重测信度的测算。不同的效度理论发展阶段,效度验证方式不同。目前国内普遍采用单一或分类效度验证方式,例如进行内容效度、结构效度或效标关联效度等的验证。分类效度中每个效度的验证都是一个巨大工程,在效度验证中没办法对所有类别的效度都进行测算。随着整体效度观理论的提出,目前已形成一种新的基于证据或论证的效度验证方式,其突破传统效度验证模式的局限性,不再对效度进行分类验证,而是对整体的效度进行验证,更关注评价及评价结果使用的有效性。目前,这种效度验证方式已有成熟理论和实践研究,可将其引入职业技能评价中。
2.职业技能评价方法的设计应关注评价及其结果的使用对考生、职业院校和企业的影响
职业技能评价能否获得社会认可,受到多方因素影响,最直接的影响来自于评价及其结果的使用对考生、职业院校和企业的影响是否有益。在评价实施后应及时追踪考生反馈,反馈内容不应只是对评价组织过程的满意度调查,应包括考核内容的实用性、考核形式等与真实工作任务和情境的契合度及对未来职业发展的影响等。对于职业院校而言,应重点追踪评价对课程和专业教学改革的影响。对于企业而言,应关注企业对人才的评价与职业技能评价结果的相符程度,以及企业根据评价结果招收的人才是否符合企业人才需求等方面。为此,在职业技能评价中,应加强对评价及其结果使用的论证和跟踪,进而增强职业技能评价及其结果的社会认可度。
3.职业技能评价方法的设计应注重利益相关者的参与
第四代评估理论强调评价是一个与所有利益相关者共同协商、共同建构的过程[20]。职业技能评价方法的设计不应仅关注工具本身,还应注重从各利益相关者的角度出发收集证据,鼓励所有利益相关者参与到评价过程中,充分表达其价值和主张。只有这样,才能保证利益相关者对评价结果的认同。考生作为评价中最重要、最直接的利益相关群体,经常是被动参与评价,这不利于学生能力的自我建构。根据建构主义理论,知识和技能是学习者在真实工作情境下学习和完成工作任务的过程中,通过自我建构获得的。职业技能评价过程应是评价主体和学生间建构与感悟的过程[21],不应该只是简单的成绩评定,最重要的是促进学习者学习,应将评价“所有权(ownership)归还给学生”[22]。建构主义学习理论强调学习的自我调控能力,认为该能力形成的关键在于自我评价能力的提供。考生主动参与评价过程是培养其自我评价能力的前提条件。设计者在设计职业技能评价时,不能为了评价而评价,应该关注利益相关者的发展需求,特别是考生的发展需要。在设计职业技能评价方法时,搭建与利益相关者沟通的平台,特别是加强对考生、职业院校、用人单位的调研与交流,为利益相关者主动参与评价创造空间,增强职业技能评价的适用性和针对性。827AFB11-E725-4353-B6B1-98A9710221ED
4.职业技能评价方法的设计要关注评价的公平性
评价的公平性是教育评价关注的重点,存在程序公平、条件公平和事实公平三种公平[23]。程序公平是指评价组织程序、试题、评分标准和过程对所有考生都一视同仁;条件公平是指教育条件方面的公平;事实公平是指平等分享优质教育资源的权利。职业技能评价一般都是全国性、大规模、高利害关系测试,在设计和开发时应关注以上三个方面的公平性。只有保证了评价的公平性,评价结果才具有等值性和可比性。程序公平是最基本的公平,通过精心设计、控制评价组织过程是比较容易做到的,例如保证考生具有平等的机会了解考试内容和实施程序、有同样的报名机会,考点的便利性、考试环境、设备的熟悉程度应对所有考生都是公平的,如提供尽可能相同的学习硬件和软件条件、明确参加考试的最低学习和实训时长要求等,保证最基本的学习条件和教育资源的相对公平。
参 考 文 献
[1]邵坚钢,张定华,许乐清.基于综合素质评价的高职提前招生研究[J].中国职业技术教育,2017(18):53-56.
[2]雷炜.深化高职院校招生模式改革的思考——以浙江省为例[J].中国高教研究,2016(10):98-102.
[3]张厚粲,刘红云.提高考试的科学性完善考试的功能[J].中国考试(研究版),2007(1):9-11.
[4]TOULMIN, S. E. The uses of argument[M]. Cambridge: Cambridge University Press, 1958:11-217.
[5]KANE, M. T. An Argument-based approach to validity[J]. Psychological Bulletin, 1992(3):527-535.
[6]BRENNAN, R. L. Educational Measurement (4th ed.) [M]. Westport, CT: Praeger, 2006:17-64.
[7]BACHMAN, L. F., PALMER, S. A. Language assessment in practice: Developing language assessments and justifying their use in the real world[M]. Oxford: Oxford University Press, 2010:93-107.
[8]CROBACH, L. J. Designing evaluation of educational and social programs[M]. San Francisco: Jossery-Bass, 1982:279-324.
[9]SHARKEY, B., SHARPLES, Y. An approach to consensus building using the Delphi technique: developing a learning resource in mental health[J]. Nurse Education Today, 2001,21(5):398-408.
[10]萬崇华,许传志.调查研究方法与分析[M].北京:中国统计出版社,2016:140.
[11]漆书青,戴海崎,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:261-264.
[12]BACHMAN, L. F. Fundamental considerations in language testing[M]. Oxford: Oxford UniversityPress, 1990:10-35.
[13]杨惠中.有效测试、有效教学、有效使用[J].外国语,2015(1):2-26.
[14]BACHMAN, L.F., PALMER, S.A. Language Testing in Practice [M]. Oxford: Oxford University Press, 1996:1-24.
[15]赵志群,孙钰林,罗喜娜.“1+X”证书制度建设对技术技能人才评价的挑战——世界技能大赛试题的启发[J].中国电化教育,2020(2):8-14.
[16]FRISBIE, D. A. Measurement: some fundamentals revisited[J]. Educational Measurement: Issues and Practice, 2005(3):21-28.
[17]STIGGINS, R. New assessment beliefs for new school mission[J]. Phi Dalta Kappan, 2004(9):22-27.
[18]KUNNAN, A. J. Test fairness[C]//MILANOVIC, M., WEIR, C. European language testing in a global context[C]. Cambridge: Cambridge University Press, 2004:27-48.
[19]姜大源.职业教育的考试方法论[J].中国职业技术教育,2007(34):1+8.
[20]埃贡G.古贝,伊冯娜S.林肯.第四代评估[M].北京:中国人民大学出版社,2008:2-23.
[21]闫宁.高等职业教育学生学业评价研究[D].西安:陕西师范大学,2012:19.827AFB11-E725-4353-B6B1-98A9710221ED
[22]田中耕治.學习评价的挑战:表现性评价在学校中的应用[M].上海:华东师范大学出版社,2015:26.
[23]谢小庆.考试公平的三种不同含义[C]//谢小庆.谢小庆教育测量学论文集.北京:北京语言大学出版社,2012:81-85.
Construction of Evidence-based Validity Framework for Vocational Competence Evaluation Method
Huang Fanghui, Zhao Zhiqun
Abstract The study draws on the Assessment Use Argument framework of language testing, takes reliability and unified validity as the theoretical basis, and uses the modified Delphi method to construct a validity framework for vocational competence evaluation methods, and the results found that: reliability and validity are the most important quality standards of vocational competence evaluation methods at the technical level; the validity evaluation of vocational competence evaluation method not only pays attention to the validity of the evaluation tool itself, but also pays attention to the evaluation of the validity of evaluation results and their use; the validity evaluation of vocational competence evaluation method is based on evidence-based validity argument; the constructed validity framework has good application value and generalizability. It is suggested that, the reliability and validity theory should be used as the theoretical basis when designing vocational competence evaluation methods, the impact of the use of evaluation and its results on candidates, colleges and enterprises should be paid attention to, the participation of stakeholders and the fairness of the evaluation should be focused on when designing the evaluation method.
Key words competence evaluation; vocational education; validity framework; evidence; modified delphi method
Author Huang Fanghui, lecturer of China Fire and Rescue Institute (Beijing 102202); Zhao Zhiqun, professor of Beijing Normal University827AFB11-E725-4353-B6B1-98A9710221ED