TIMSS研究方法的经验与启示——基于对梁贯成教授的深度访谈
2017-04-14康玥媛
张 胜,康玥媛
TIMSS研究方法的经验与启示——基于对梁贯成教授的深度访谈
张 胜1,康玥媛2
(天津师范大学教师教育学院,天津 300387)
通过对国际大型教育测评项目TIMSS数学测试香港地区执行官员、教育部长江学者、2013年“费莱登特尔奖”获得者、香港大学教育学院梁贯成教授进行访谈,深入探讨了TIMSS严谨的研究方法及其背后所蕴含的教育研究原则.梁教授认为:明确研究问题是整个研究的核心,是首先要做的、最为重要的环节,并需有理论框架支撑,研究问题直接决定实施研究过程中研究方法的选择、样本的选取和抽样方法的选择,以及获取研究结果时数据的分析方法及策略等问题;TIMSS作为大样本的量的研究,存在其局限性,可以考虑与质的研究相结合.
国际数学及科学趋势研究;研究问题;教育研究方法;经验与启示
1 引 言
2013年11月28日,香港大学教育学院梁贯成教授获国际数学教育委员会颁授堪称“数学教育诺贝尔奖”的费莱登特尔奖(Freudenthal Award),这是全球数学教育界的最高荣誉,梁先生是该国际奖项自2002年设立以来首位获此殊荣的亚洲学者.梁先生作为国际大型教育测评项目TIMSS(Trends in International Mathematics and Science Study,国际数学及科学趋势研究)香港地区执行官员,国际数学教育委员会认为其“学术成就杰出,在促进东亚地区数学教育的发展、增进东亚国家与西方国家数学教育群体之间的交流了解方面建树良多,获得2013年费莱登特尔奖,实至名归.”[1]
近十几年来,上海、中国香港、中国台湾、中国澳门地区的学生在国际大规模测评项目中表现优异,使得TIMSS、PISA等大型国际教育评价项目在国内受到越来越多教育研究者和一线教师的关注.在当今国际教育改革潮流的推动下,实证研究方法已成为国内教育研究变革的诉求.但目前国内的教育实证研究还存在着诸如“不重视因素关联”、“只有数字罗列”、“不遵循研究规范”、“研究过程不完整”等问题[2].因此TIMSS、PISA等大型国际权威性测评项目的研究方法成为国内教育工作者借鉴和学习的重要对象.梁贯成教授作为TIMSS数学测试在香港地区的负责人,对TIMSS研究方法有着非常丰富的经验和独到深入的见解.2016年11月14日,梁贯成教授应邀赴津为天津师范大学2016年“国培计划”学员讲学,期间研究者(下文简称“研”)有幸对梁先生进行了约150分钟的深度访谈.梁先生(下文简称“梁”)就TIMSS研究方法的相关问题,分享了许多宝贵的经验.梁先生主要以TIMSS测评为例,围绕研究问题为核心,探讨了建立理论框架的重要意义,如何搞清楚研究问题,以及在研究实施过程中如何选取样本、选择抽样方法、如何编制测量工具、如何获取研究结果等问题.
2 关于研究问题的明确
研:梁先生您好,非常荣幸您能够接受我们的访谈.我们对TIMSS研究方法非常感兴趣,希望能够借鉴其精髓运用于今后的科研.作为TIMSS数学测试在香港地区的执行官员,您的观点是非常具有权威性的,能否结合TIMSS测评,谈谈您认为教育研究中最重要的是什么?
梁:TIMSS研究方法确实是有其借鉴意义和价值的,无论做大型跨国研究抑或小型课堂研究,严谨的研究方法背后的原则都类同.做研究最重要的是首先要明确好研究问题,研究对象、研究内容、所有的关键词都要有明确的定义.给出定义时不能想当然,而要到文献里去看.
2.1 比较什么
要明确研究的问题是什么,首先要明确第一点:比较什么?以TIMSS测评为例,要“比较数学成绩”,那么“数学”是什么呢?在一个国家地区内进行研究时,“数学”的定义是已经由数学课程标准规定好了的,不会产生争论.但“数学”在中国的理解与在德国、美国是一样的吗?举个例子,在TIMSS的一次专家会议上,我们针对“比较什么”进行讨论时谈及“几何”.我发现我们国家所理解的“几何”与一些西欧人所理解的“几何”是不同的.国内所熟知的“全等三角形”的判定与性质,西欧的一些数学家表示从未见过,他们学习的是射影几何.TIMSS作为大型跨国研究,要注意“数学”在不同国家地区的不同理解,所以要对不同国家地区的数学课程标准进行比较,对“数学”的定义达成一个共同的看法.
2.2 理论框架包括什么
要“比较数学成绩”,“成绩”又是什么呢?“成绩”应该放在怎样的理论框架里进行研究呢?这就是除了“明确定义”之外,第二点很重要的:研究一定要在一个理论框架里进行.为了探索不同国家地区的教育系统中各相关因素对成绩的影响,TIMSS首先在宏观上构造了“课程框架”,将“课程”划分为Intended Curriculum(预期课程,对应社会文化背景)、Implemented Curriculum(实施课程,对应学校及社区背景)、Attained Curriculum(实现课程,对应个人背景)3个层面来把握.分析学生“成绩”,对应个人背景,因此在“实现课程”层面进行研究.为了深入了解学生在不同方面的表现,TIMSS进一步构造出了“测评框架”,将“实现课程”划分为“内容”、“表现”、“观感”3个维度,各维度下又细分为不同的内容.例如在TIMSS 2011数学测评框架中,小学四年级的“内容”维度下包括“数”、“几何图形与度量”、“数据表达”3方面内容.TIMSS比较成绩不单单是比较分数的高低,而是会在测评框架中去分析不同国家地区“实现课程”的差异,例如不同国家地区学生的“实现课程”如何受个人背景影响、如何受教学影响等.理论框架非常重要,所有的研究都要有理论支撑,既然是理论,那就要回到文献里去,不能想当然.有了理论框架以后要把理论框架具体化、行动化、操作化,这样就可以将研究问题明确化,给出关键概念的操作性定义,并利用工具去研究不同因素的影响.
2.3 比较对象是谁
TIMSS数学测试对象是“小学四年级”和“初中二年级”的学生,但是如何理解“小学四年级”呢?不同国家地区的学生入学年龄不同,中国香港学生是6岁入学,但英国是5岁、南美洲一些国家是8岁.这意味着小学四年级时,中国香港学生是9岁,英国学生还是8岁,但巴西学生却已经11岁了.这是比较研究中很重要的问题:何为“公平的比较”?现在TIMSS对“小四”的定义是“最多9岁学生所在的年级”,所以“小四”在一些国家地区可能并不是真的“小四”.PISA是完全依据年龄进行测试的,它测试全部15岁的学生,不论在何年级.但是它同样存在问题,那就是不同国家地区15岁的学生所受教育的年数是不同的.总之,一定要明确研究对象是谁,以及确定研究对象的标准是什么.
2.4 研究单位是什么
所有的研究还要考虑一个问题:“研究单位”是什么?“研究单位”有两方面,一方面是表述结果的单位,另一方面是搜集数据时最低层的单位.就TIMSS而言,表述结果的单位是“国家”或“地区”,因为TIMSS最终需要的是一个国家或“地区”层面的分数;搜集数据时最低层的单位是“学生”.举例说明,“在新加坡有80%的学生,他们的老师是本科毕业”与“在新加坡有80%的老师是本科毕业”,这是两个不同的概念.为什么呢?因为搜集数据时,前者最低层的单位是“学生”,该研究没有“具有代表性的老师的样本”,只有“具有代表性的学生的样本”.研究过程实施时,先是随机抽取学生,然后再对抽取到的学生的老师进行问卷调查,了解包括“是否本科毕业”在内的诸多情况.虽然这两个数字可能会很接近,但一定要分得很清楚.一个严谨的研究,一定要保证数据在最大程度上的精确性.
3 关于研究过程的实施
3.1 总体是什么
研:感谢您对明确研究问题重要性的深入解读.您刚才谈及对研究单位的确定以及抽样,那么在研究过程的具体实施中,TIMSS的抽样是如何实现的呢?
梁:所有的研究在抽样之前都要确定一个问题:总体是什么?在TIMSS中,所需要的总体是某一个国家地区的全部小学四年级学生,这叫做“所需总体”.考虑到测试实际操作的可行性,TIMSS允许对所需总体进行一定范围内的排除.比如有些特殊学生:生理障碍或认知障碍的学生、地理位置不通达的学生等.排除以后得到的,叫做“有效总体”或“定义总体”.对所需总体进行排除、获取有效总体的过程,一定要遵守两个原则:第一,不能随便排除,排除一定要有合理原因,假如把所有成绩差的学生排除出去,就会使样本不具代表性,而排除一些地理位置不通达的学生,是符合原则的;第二,排除的百分比不能超过5%,如果排除超过5%的话,同样会影响其代表性.国际上对PISA2009和PISA2012上海学生测试成绩的问题就有讨论:在2009年和2012年的两届测试中,上海学生都取得了阅读、数学、科学三大领域的第一,但抽样时排除了所有无上海户口的学生.这是个不小的数字,有很多学生的父母是从外地来到上海工作的,他们并没有上海户口.因为把相当多的学生排除出去,所以在国际上有学者认为PISA测试上海的成绩并不具有说服力.
3.2 如何选择抽样方法
TIMSS使用的抽样方法为“两阶段层化聚点抽样(two-stage cluster sampling)”,先随机抽取学校,再在学校中随机抽取一个班,然后测试所有这个班的学生.但是运用这个较为方便的抽样方法是有代价的,因为同一学校中学生间的差异是小于整个国家地区学生间的差异的,所以这样抽样的代表性,不如对整个国家地区全部小学四年级学生进行随机抽样那么好.TIMSS规定至少要抽取150个学校才可以代表整个国家地区,让样本大一些,借此来保证足够的代表性.但针对不同国家或地区仍有不同的情况,比如在北欧,各个学校间水平差异很小,抽取150个学校足以保证其代表性;但中国香港在1995年抽取了180个学校,因为香港地区的学校差异比较大.所以TIMSS规定的是,“至少要抽取150个学校”而不是“抽取150个学校”.利用统计学中的组内相关系数(intra-class correlation coefficient)可以测量学校间差异大小,差异大的国家地区可以通过“增加抽取学校数量”的方式来保证其代表性.
那么具体如何去抽取学校呢?假如在天津进行,抽取学校时在天津所有的学校中随机抽取150个,这样“公平”吗?答案是否定的.研究单位是“学生”而非“学校”,所以要保证每个学生被抽中的概率相同而非学校.一个国家地区,所有的学校都会有大小之分,直接随机抽取会使得每个学校被抽中的概率相同,而不同校学生被抽中的概率不同.所以TIMSS使用PPS(Probability Proportional to Size Sampling)抽样方法,从而保证每个学校被抽到的概率与其自身规模大小成正比,每个学生被抽到的概率相同.
3.3 测量工具的编制及引用
研:您刚刚谈了抽样过程,那么接下来就该施测了.TIMSS的测量工具,尤其是试卷,是如何编制的?例如TIMSS的认知维度包括3个方面:知识、应用和推理[3~4].那么这3个方面是如何确定的,这3个方面在试题测试中是否有一个大致的比例,这个比例又是如何确定的?
梁:TIMSS主要通过测试及问卷来收集学生的学业成绩和学习态度、课程设置、教材管理,以及教学资源等信息[5].在数学教育研究来讲,大致有问卷、试卷、大纲及教材分析这些测量工具,问卷包括学生问卷、教师问卷、学校问卷、国家问卷等.下面我就主要谈谈试卷.首先要思考:研究最终要获取怎样的结果?以中国香港举例,最终只需要获取香港学生数学的分数?还是除此之外还要获取香港学生代数的分数、几何的分数?如果只需获取总分的话,试卷题目可能无须太多;假若还要获取几何、代数、统计等具体各方面分数,一定要有足够的代数题目,这样才能够代表“代数”.认知要求维度:“推理”、“应用”、“知识”.如果划分更具体,要获取“几何推理”的分数,就会需要更多的题目,因为要有足够的“几何推理”的题目才能够说明一个国家地区的情况.TIMSS在命题时要求有测试蓝图,TIMSS1995数学测试蓝图的内容包括6个方面,分别是:①整数,②分数与比例,③测量、估算与数感,④数据描述、分析与概率,⑤几何,⑥规律、关系与函数[6].当时首先找专家商议6个分布应该各占多少百分比,以及选择题、短答题、长答题等每一种题型的比例,进而由该比例计算出每一道题目的分值.
研:在测量工具的编制过程中,除了可以自编题目之外,还可以引用或改编一些权威测试题,在此过程中,您认为有哪些要注意的问题?
梁:引用试题时,试题的翻译需要引起注意.TIMSS的所有题目最初都是用英文来命题的,而参与测试的国家和地区总共有三十多种语言.举个例子,有一个题目是这样描述的:英语原题表达为“How many sides are there in a hexagon”,是一个有价值的题目,但翻译成中文“一个六边形有多少条边呢?”,这个题目就没有意义了.当然还要注意文化的差异,会造成误会的题目也要删掉.比如在小数运用这一部分,中国会有类似这种题目:一瓶水1.2元,五瓶水多少钱?这种题目在TIMSS里面没有,为什么?一些国家比如日本货币日元的纸币最小面值就已经是1 000元了,所以学生没有这种运用小数购物的情境.对于引用试题后的分析,除了用数据指标评价之外,在TIMSS中都是靠不同国家地区专家的评估来实现.
3.4 测量工具的信度及效度
研:测试题的信度、效度分析又是如何实现的呢?
梁:测试题信度检验的实现要比效度检验容易得多.信度主要是测试的一致性,所以题目用词是否清楚、架构是否明确都会影响到信度.TIMSS预试时会有三倍于正式试题的题量来保证信度:首先通过预试分析信度,不够高就针对具体有问题的题目进行修改,并将无法改进的题目删除.效度是什么呢?效度主要是测试的有效性.比如在数学中,代数、几何、统计,它们具体的比例应该是多少呢?统计无法说明,回答这个问题需要各国相关专家进行评估.专家们经过讨论得到一个比较公认的结果,比如对于一个小学四年级的学生来说,代数是最重要的,所以它要占50%,然后几何占30%,统计占20%.用专家评估得到的结构去保证测试题目的分布,这本身就是一种效度的研究.TIMSS还会请不同国家的数学专家进行评定,比如某一道几何题是不是好的几何题等.请专家进行评价,这也是提高效度的一种方法.当然还有一些统计学的方法,但对于一般的教育研究来讲,专家评估是最容易实现的.
研:您刚才谈了信效度分析的问题.众所周知,信度和效度的种类有很多,那么选择什么样类型的信效度?有无一定的选择标准?
梁:研究问题决定了研究者需要做一个什么样的效度.就TIMSS的研究问题而言,是要了解不同国家地区学生的数学状况,属于国家地区层面上比较概括的层次,所以没有结构效度,专家评估足矣.假如有一个研究是要在深层次搞清楚“代数”,那代数就不只是一个“课程”而已了,背后还有一个“何为代数”的哲学问题,所以就会需要结构效度——这些题目能否测量“代数”的结构.
4 关于研究结果的获取
4.1 IRT的使用
研:您刚才已经分享了许多TIMSS测评实施过程中值得学习的方法.那么数据搜集整理完毕后如何进行分析呢?您认为有哪些是值得借鉴的?
梁:好,下面我问大家一个问题:取得七十分的学生是不是一定比取得六十五分的学生好呢?当然我这样问,你们知道答案一定是“不是”.为什么呢?因为这些题目难度不一,有些学生做比较容易的题,拿分就会更容易.有人说可以这样:如果第一题很简单答对就给1分,第二题很难答对就给3分,这样不就解决了.但是第二题3分,第一题1分,就意味着第二题的难度一定是第一题的3倍,不是2.9倍或3.2倍.所以这样评分太过随意.那怎么解决呢?利用IRT(Item Response Theory,项目反应理论),简单地说,就是建立一个函数,用来描述和刻画试题成功完成的概率与试题难度、测试者能力之间的关系.核心思想是将试题的难度与学生的能力建立在同一个测量量尺上.这样不论试题的难度还是学生的能力估计,在统计意义的范围内,误差是不变的.这是CTT(Classical Test Theory,经典测量理论)所欠缺的.理论上来讲,TIMSS的题目在每一个国家地区、每一个城市,IRT的标度都是不同的,所以不能用TIMSS的题目测试天津市的学生与美国等地区学生做比较,因为两地评分标准是不一样的.
4.2 数字编码策略
对于短答题和长答题的批改,TIMSS有两位数字编码,这是非常有价值的.两位数字编码代表什么含义呢?因为同一个题目可以不同方法来解答,所以第一位数字代表学生的得分,第二位数字代表学生运用的方法.比如某个学生的得分编码为13,编码第一个数字1,就说明这个题目拿了1分,第二个数字3,就是该生用第三种方法得到这1分.如果另一个学生的编码是21、22、23,那就是该生用3个不同的方法得到2分.这样分析可以把一个问题典型的解法列出来,所以两位数字编码非常有价值.当第一个数字为0的时候是最有价值的,因为0代表答错,但它背后却有很多信息:TIMSS会总结01、02、03等,分析某个题目有哪些典型的错误.09代表题目留空.这对某些国家地区非常有价值,比如中国香港在TIMSS测试中表现很好,却发现有一个学校的学生有很多02出现,这说明同一个老师教的很多学生都有第二种错误,所以教学一定出了问题.接下来可以探讨如何进行教学,可以避免这种错误,所以这对诊断教师的教学非常有帮助.
5 TIMSS研究方法的局限性
研:您主要谈及了TIMSS诸多方面的优势与借鉴价值,那么您认为TIMSS有没有局限性和不足呢?
梁:TIMSS作为量的研究,样本很大,能够处理很多的数据,但变量不是很多,涉及的较为概括、宽泛,难以深入,所以要考虑和质的研究相结合.质的研究样本量很小,研究的对象很少,但是可以研究深层次的问题.比如有一个学生很喜欢数学,有很多因素可能会是这种喜欢的成因,但通过质的研究发现,在多种因素中老师的教学才是最为关键的,而这个结论只是针对这一个学生而已,所以要在质的研究之后跟进一个较大样本的量的研究.此外在整个研究中还可以先用量的研究得到一个大致的印象,然后找案例深入了解情况,但是只研究几个案例又没有足够的说服力,所以再下一步可以做一个样本量大一些的量的研究.当然,最重要的还是要针对具体的问题,再考虑要用量的研究还是质的研究,要用录像、问卷还是测试.TIMSS作为大样本的量的研究,存在其局限性,可以考虑与质的研究相结合.
6 访谈小结
正如梁先生所说,无论做大型跨国研究抑或小型课堂研究,严谨的研究方法背后的原则都类同.梁先生从TIMSS谈起,特别强调了明确研究问题是整个研究的核心,是首先要做的、最为重要的环节,另外很重要的一点是整个研究要有理论框架的支撑.研究问题将直接决定实施研究过程中研究方法的选择、样本和抽样以及获取研究结果时数据的分析方法及策略等问题;研究问题的明确便于对关键概念给出操作性的定义,进而才能确定研究对象、锁定研究单位,提出恰当的理论框架;研究过程的实施要注意所需总体与有效总体(定义总体)的区别,在抽样时要结合具体的研究问题选择最为适宜的抽样方法,测试试题的信效度分析要结合具体的研究问题来进行操作实现,引用国外试题或量表要特别注意文化的差异以及翻译问题;研究结果的获取要对IRT以及数字编码的分析策略引起足够的重视;TIMSS作为大样本的量的研究,存在其局限性,可以考虑和质的研究相结合.
TIMSS研究方法不仅对教育科学研究有重要的借鉴意义,并且对中国中高考改革以及基础教育质量监测的改革和发展有着同样重要的借鉴价值:其一,确立教育系统观.TIMSS宏观上的三层“课程框架”,本质上是将教育看作一个包括“预期—实施—实现”过程的系统,在提取和分析各相关因素与成绩间关系的同时,更注重探索其背后的影响路径,进而在国家、地区、学校、个人层面实现“对症下药”,为教育决策的依据.其二,构建符合国情和学情的背景因素框架.不同文化背景下的教育特色不同,在“立德树人”的大背景下,建立起适合中国文化及教育实际的、符合中国学生自身学情的背景因素框架.其三,构建具有中国特色的基础教育可操作性测评指标.在构建完成理论框架和背景因素框架的基础之上,明确给出具有可操作性的具体测评指标,将顶层设计框架具体化.其四,改进测评技术及方法.测评技术及方法的运用与规范对统计测量分析的重要性不言而明,全国性的重大考试,如中高考可考虑IRT技术的运用等.
致谢:访谈得到了梁贯成教授的大力支持,整理成文后经梁贯成教授审核确认.
[1] 尹世昌.全球数学教育界最高荣誉首次花落亚洲香港教授梁贯成获费莱登特尔奖[N].人民日报,2013-11-29(12).
[2] 周明.教育实证研究的地位与价值——中国教育学会教育理论刊物分会2015年年会综述[J].数学教育学报,2016,25(2):98-100.
[3] 曾小平,刘长红,李雪梅,等.TIMSS2011数学评价:“框架”“结果”与“启示”[J].数学教育学报,2013,22(6):79-84.
[4] 张伟平.TIMSS测试的认知诊断评价标准下中美学生数学能力比较[J].数学教育学报,2010,19(4):66-69.
[5] 梁贯成.第三届国际数学及科学研究结果对华人地区数学课程改革的启示[J].数学教育学报,2005,14(1):7-11.
[6] Timss & Pirls International Study Center. TIMSS1999 International Achievement Reports [EB/OL]. http://timssandpirls. bc.edu/timss1999i/sampling.html
Experience and Enlightenment of TIMSS Research Methods——Based on an In-Depth Interview Study of Professor Frederick K. S. Leung
ZHANG Sheng, KANG Yue-yuan
(College of Teacher Education, Tianjin Normal University, Tianjin 300387, China)
The article was about the interview with Professor Frederick K. S. Leung, who was the Hong Kong Regional Executive Officer of TIMSS Mathematics Assessment, Chang Jiang Scholar of the Ministry of Education, winner of the 2013 Freudenthal Medal and professor of the University of Hong Kong. We got a precious opportunity to have an in-depth discussion on the rigorous research methods and the educational research principles behind TIMSS. Professor Leung put forward that understanding research questions clearly was the core of the whole research as well as the first and the most important part, also, it needed to be supported by the theoretical framework. The research question determines directly the choice of the research method, the selection of the sample, the option of the sampling method and the analysis method and the strategy when the results were obtained. As a large sample of the amount of research, TIMSS, which had limitations, could be considered combining with qualitative research.
TIMSS; research questions; educational research methods; experience and enlightenment
[责任编校:周学智]
G420
A
1004–9894(2017)04–0072–04
2017–03–01
天津市哲学社会科学规划重点项目——立德树人背景下中学生学科核心素养测评——以语数外为例(TJJX16-007)
张胜(1990—),男,回族,河北沧州人,硕士研究生,主要从事数学教育研究.康玥媛为本文通讯作者.