区域教育质量监测要做到四个“科学”
2018-03-08王旭东浙江省温州市教育评估院质量评价科科长
王旭东/浙江省温州市教育评估院质量评价科科长
开展教育质量监测为本地教育进行体检,已成为众多地方政府和教育行政部门的迫切要求和自觉行动。随着国测和省测的开展及其监测技术的推广,很多地级市、县教育局也开展了区域教育质量综合监测活动。鉴于市、县两级监测机构和人员的监测观念和专业技术水平,笔者提出区域质量监测要做到四个“科学性”。
监测的功能定位要科学
义务教育阶段教育质量监测是全面实施素质教育、落实立德树人根本任务的重要举措。监测目的是“客观反映义务教育阶段学生学业质量、身心健康及变化情况,深入分析影响义务教育质量的主要原因,为转变教育管理方式和改进学校教育教学提供参考,引导社会树立正确的教育质量观,纠正以升学率作为评价学校和学生唯一标准的做法,推动义务教育质量和学生健康水平不断提升。”
从监测内容来看,要引导教育行政干部、校长和教师树立科学的全面的教育质量观,不能局限于学科成绩质量,更要关注学生的品德发展、身心健康和兴趣特长等综合素养,要关注学生全面发展、个性化发展;让学生具备知识、生活技能、态度和价值观并可持续发展的能力。
从监测指标来看,要淡化学科指标,突出指标多元化。在学科指标方面,要突出达标指数、学业负担指数和教育均衡指数。通过达标指数要引导校长和教师树立全体的学生观,保证每一个学生都合格毕业,学校的优质资源不能都倾向文化学科优生群体。通过学业负担指数,引导教师优化课堂教学,提高课堂教学效益,严格控制学生的学业负担。通过教育质量均衡指数引导教育局行政领导关注薄弱学校的建设和发展。
从监测功能来说,不仅具有评估功能,更多的是诊断功能和调查研究功能。评估功能侧重学校的教学质量是否达到课程标准的最低要求,这是义务教育阶段的质量底线。借助学生问卷、教师问卷、校长问卷和家长问卷调查研究影响学生发展的因素,诊断发现区域和学校教育教学中存在的问题,为后续的政策、管理、教学、科研等方面的改进提供数据实证。
从监测后效来说,可以精准地发现问题及其背后原因,有利于教育行政部门、教科研师训部门和学校采取针对性、精准性改进措施,有利于学校降低学生负担。
国家教育咨询委员会委员、国家总督学顾问陶西平指出:“质量监测是一把双刃剑,科学的质量监测可以成为深化教育改革、全面推进素质教育的有力武器,而违背科学规律的质量监测也可以成为维护错误教育思想和陈旧教育体系的工具。当前,重视质量监测的正确导向已成为基础教育必须面对的重要课题。”我们最忌讳、最担心的是,有些市县把质量监测变相成区域统考、变相成学科考试、变相成分数排队、变相成绩效考核,与质量监测的初衷背道而驰。
量具研发要科学
(一)学科量具研制的科学性
教育质量监测的学科试卷的性质和功能都有异于期末考、升学考等终结性考试,既要依据课程标准,也要依据监测意图,功能上更侧重导向和诊断功能。要基于课程标准给学生做等第界定,判定学生学科学习水平达到的程度和等第,再基于学生个体等第数据统计分析学校和区域的学科水平。
命题者首先要研究学科能力不同水平等第的评价要求,要依据学科各种能力水平描述来研发试题,而不是像常规命题那样依据考点的重要性。要严格控制试卷的总体难度;如果总体难度较大,会误导学校教师的教学,会加大师生的负担,会对目前已经很严重的应试教育、精英教育推波助澜。相对常规命题,更要关注监测对象是否达到课程标准的最低要求,关注合格学生的区分,淡化优生的区分,引导学校和教师降低教学重心,关注后进生。
试题不标注满分值,避免学生的功利性和应试性行为。在考试时间上,让学生有富余,不会让学生有时间紧张感。不建议出现附加题,因为两把尺子测量会影响到质量监测的信度、效度以及后续数据的可比性。涉及艺术体育、科学等学科的试题尽量采取一些表现性评价。解答表现性试题,往往要求学生带上相关学具,需要提前告知。准备什么文具器材和不准备什么文具器材,都会对试题方向和内容具有暗示效应。例如,美术监测要求小学生带橡皮、黑色勾线笔、12色水彩笔等文具物品;初中生要求带橡皮、黑色勾线笔等文具物品,教师就可以预判小学生考查彩色图画,初中考查素描方向。把小学和初中美术监测的学具都统一成“黑色勾线笔、12色水彩笔”,就削弱了试题方向和内容的暗示性。
对命题专家要加强命题质量管理和流程规范。一要组织专家学习质量监测理论,理解质量监测的性质、功能和意义;二要确定学科学业水平等第评价标准、学科各种能力的水平等第评价标准;三要研究以往的监测试卷和相关数据,确定命题基本原则,研制命题框架和双向细目表;四要研制出三倍与正式测试需要的试题;五要进行30人以上的小规模试测,试测对象要相当本区域中等水平;六要严格审核,要审核每一道试题、答案、评分标准的科学性,要审核整卷结构的和谐性,要特别审核整卷的难度和导向性,审核答题卡和试卷的匹配性。
(二)问卷研制要科学
问卷主要有学生问卷、教师问卷、家长问卷和校长问卷等,涉及的内容非常多,浙江省2016年质量监测问卷指数监测内容涉及二十多个方面,体现了监测内容的综合性。
心理学测试一个指数往往有几十道试题,里面还有防伪题。例如,测定网络成瘾试题就有26道试题。质量监测要监测很多指数,整卷题量总数有限,各指数监测试题题量也受到严重的控制,这对问卷研制提出非常高的专业要求。一个指标有哪几个维度问题组成,各维度需要哪几道试题;每一个试题的设计都要很科学,保证精炼又有效;语言描述要符合监测对象的认读习惯,不能有暗示性、倾向性。一些全国性和省级监测问卷中,监测某一个指数试题只有6道左右,笔者认为数量偏少,建议一般10道左右。
问卷研制流程也要规范。一要研究问卷监测指数结构和调查项目,尤其是指数结构,既要长期保留学业负担指数、幸福感指数、师生关系指数、学校归属感、教师教学指数等,发挥指标持久的导向性和督促性,同时用于做增值评价;另外,依据当地区域实际需求,变换一些监测指数,如学生课外阅读指数、校园欺凌指数等。二要研究指标的含义和监测意图,利用文献法研究指标构成维度和相关试题。三要调整维度结构和试题数量,改编成适合小学生和初中生阅读理解的试题。四要请一线教师、校长和专家研讨。五要实施学生口语访谈和小规模试测,了解学生对题目的理解程度,研究监测的信效度。六要再次修正定稿。
监测对象选择要科学
(一)建议学校全测
基于市级监测数据可以诊断出县市区层面的问题,但是,这些问题未必是该市该县所有学校共性的问题;如果数据只分析到县区层面,县区的对策很容易出现“一刀切”现象,缺乏针对性和精准性。
我国义务教育阶段学校办学水平梯度很大,资源条件相差也很大,尤其在教育质量不均衡的地区。如果样本代表性引起怀疑,就会失去监测的价值,所以,样本学校的代表性和结构显得更为重要。抽测学校要尽量代表不同办学性质、不同办学水平、不同地理位置的学校。这样的学校样本非常难找,往往容易顾此失彼,因此,对所有学校采取监测,采集的数据科学性最强。
实施全测后,有利于监测数据全面挖掘和深度挖掘。数据不仅仅可以分析到市、县、校三个层面,而且可以在市、县级两个层面细化分析不同学校、不同类型学校、不同等级学校、不同地理位置学校、不同规模学校、不同办学性质的学校的表现。有利于县校两级从很多层面、很多维度、很多专题做个性化深度研究,有利于市、县、校三个层面各自做精细化诊断。
实施全测,让监测效益最大化。因为监测人员的专业化水平限制,县级质量监测的量具科学性较弱,数据的科学性和含金量比较低,数据分析和挖掘能力较弱。市级监测部门的专业技术较强,经费也充裕,监测能一竿子到底,可以建立起全市性教育质量监测大数据库,优化资源,市县校共享资源,使得监测效益最大化。从财力、物力和人力角度上看,市县教育局有能力承担全测的经费。如果经费紧张,宁可两年做一次全测。
(二)建议学生全测
国测、省测通常采取等距抽样,样本学校抽样小学生30人左右,抽样初中生60人左右。在小规模的学校,这样的样本数据可以代表该学校,但是对于大规模学校而言,其代表性较弱。
按照统计学,不同学生规模的学校抽样的学生数量不同,如此,对抽样的技术和数据处理技术要有很高的要求,计算非常复杂,很可能会导致很大的数据偏差,而且对学校的考场安排等考务组织带来很大的难度。再说,绝大部分市县评价工作者缺乏这方面的数据处理技术。所以,笔者建议对学生全测,避开数据统计分析技术的困难。
采取全测,不仅在数据可靠性上显著优于抽测,而且不需要数据层层转化,直接分类统计即可,保证各类群体统计结果的科学性和准确性。
不仅可以直接计算出学校、县级、市级数据,而且可以直接计算出市县层面不同办学性质、不同学制、不同地理位置、不同规模、不同办学水平等类型学校的数据。还可以直接计算市、县、校三级的不同性别、不同等第、不同家庭条件等学生群体的数据。更重要的是,还可以为学校提供可靠的、全面的、精细化的个性分析报告,以便学校做精细化诊断。另外,还可以将学生一分为二,各自作答不同问卷,不仅可以增加指数数量和调查内容,还可以增加每一个指数的测试题数量,提高问卷的信效度。
结果反馈要科学
(一)数据处理要科学
数据处理是区域教育质量监测工作中专业化技术最高的环节,是至关重要的核心环节,也是区域质量监测部门技术最薄弱的环节。
一是要进行数据清理,剔除缺考卷、无效作答卷等,保证录入的数据都是有效的。二是问卷试题赋分要科学,无论是采取0、1赋分,还是1至5级均匀赋分,都要科学论证。三是指数合成计算要科学,各指数各采取哪种模型合成,还要对指数结果进行信效度检验。四是等第划分标准要科学,小学学科成绩一般分为ABC三个等级,初中学科成绩一般分为ABCD四个等级,要采取修订Angoff法和书签法(Bookmark procedures)确定各等第划线分。问卷也一样,例如,师生关系“很好”“较好”“一般”三个层次要科学划定。五是依据样本个体数据科学计算出学校、县级、市级,不同类型学校、不同性别学生等群体数据。
(二)报告撰写流程要科学
监测报告是监测工作成果的最重要的表现,撰写工作要规范,才能保证监测报告的品质。一是要依据问卷内容、问卷指标数据体系和学科数据体系初拟报告撰写思想和框架,并拟定报告二级目录和要点。二是对数据进行再处理,进行统计分析、聚类分析、相关分析、回归分析等深度挖掘,寻找优势,发现问题。三是基于数据结果撰写初稿,期间还要根据新的发现,再次处理数据。四是邀请本单位内部人员审读,侧重数据分析和呈现方式,再作修改。五是外邀教育行政干部、教研室专家、校长、学校中层干部、名师等专家审读,侧重原因分析和对策建议。最后,文字润色、图表美化、数据校对、排版定稿。
(三)结果呈现要科学
有什么样的教育质量观,就会有什么样的教育质量评价指标;有什么样的评价指标,就会有什么样的教育教学行为。教育质量监测的指标和报告内容是一种新的“指挥棒”,要与质量监测的功能定位对应,要与质量监测工作的初心一致。监测报告是一份高科技的全方位的体检报告,让监测对象找到教育问题和优势,同时也找到解决问题的路径和办法。
质量监测数据和报告反馈要分层分类。行政报告反馈给教育局领导,字数控制在一万左右,内容要精要,侧重优势、问题和宏观建议。基础数据报告反馈给教研室领导和校长,侧重监测指标、统计数据,关联分析数据,主要用于分析研究。学科分析报告反馈给学科教研员和学科教师,主要呈现监测结果、原因分析、教育教学改进建议。专题分析报告,主要针对监测发现的大问题,独立撰写专题报告。决不允许反馈学生个体数据,决不允许反馈班级数据或教师个人的数据。一旦反馈这些数据,监测就会变相成区域统考,而且会严重影响后续质量监测的信效度。
虽然在监测报告中出现很多指标数据,但是,很多县市区教育局和教研室领导往往习惯性特别关注学业指标,特别关注优秀率,忽视达标率,习惯性关注优秀率和T标准分的排序。为了扭转这种习惯性,我们可以在报告中特别公布各县市区各学科达标率明显低于全市均值的学校名称,而且还可以与上次监测结果做比较。在学业指标上不排名,但是在学生负担、师生关系、校园归属感等非学业指标上可以排名排序。可以将所有指标合成综合指标,并对其进行排序,在综合指标上,学业指标的权重就显得微小了。这样做的目的是,引导区县教育局、研训部门、学校和教师高度重视非学业指数,扭转应试教育。
报告中的各种结论都要科学慎重,千万不要简单粗暴地解读数据。所有呈现的数据图表都不是简单的数字,而是撰写者的价值判断与推测。对每一个数据,都要思考:是量具问题,还是现实问题?是共性问题,还是个性问题?是相关关系,还是因果关系?数据差距大小是否显著?基于这些数据能否下定性结论?在图表呈现上,不能给阅读者视觉误导;在文字描述上,不能给阅读者带来错觉。
教育质量监测的各个环节的科学性,是质量监测工作的生命,不管哪一个环节出现不科学现象,都会导致整个监测工作的失败。