基于ePIRLS2016的9岁儿童在线阅读能力测评与分析<br/>——以河南省某小学为例

基于ePIRLS2016的9岁儿童在线阅读能力测评与分析
——以河南省某小学为例

2019-07-11姜洪伟上海理工大学出版印刷与艺术设计学院

图书馆理论与实践 2019年6期

姜洪伟，唐鑫（上海理工大学出版印刷与艺术设计学院）

在互联网技术迅速发展的大背景下，小学生开始频繁接触电脑、手机、平板电脑等数字阅读设备，一方面小学生急于体验数字阅读，渴求探索网络世界，另一方面家长和老师持审慎或者倾向于禁止的态度。目前，我们对该领域的研究严重匮乏，从家庭教育到国家教育政策均处于探索阶段。

1 在线阅读研究的背景与意义

1.1 在线阅读是一种独立的阅读能力

“数字阅读”包括“在线阅读”和“离线阅读”两种类型，在线阅读指“使用数字设备、必须接入互联网才能进行的数字内容阅读”，离线阅读指“使用数字设备、离线状态下能够进行的数字内容阅读。”［1]在线阅读具有动态的、交互的特征，其文本因为常常包含弹窗、下拉条、选项卡、导航条、信息图形、检索命令、超链接等形式，不能直接转化为版式相同的纸质文本，只能在互联网上进行阅读。而离线阅读的文本，则单纯地将纸质文本数字化，与纸质文本之间可以相互转化，二者除了载体形式的不同，其他基本无差异。

国外的研究已经发现，学生的在线阅读能力与纸质文本阅读能力存在差异。Donald J，Leu教授与他人合作开发了在线阅读理解的评估系统，要求康涅狄格州的部分七年级学生从博客下载一份文件，并按要求搜索网络，最终发布一条新的博客内容来传达他们在网页阅读中的发现。研究结果表明，学生在美国国家评估中取得的纸质文本读写能力和在线文本阅读能力并没有统计学上的相关性。［2]由此可见，在线阅读是一种独立的阅读能力。

1.2 ePIRLS 2016第一次对在线阅读能力进行独立测评

基于上述认知，针对小学四年级学生的PIRLS于2016年第一次将在线阅读引入测评体系，设计了一套独立的题目，称为ePIRLS。

“国际阅读素养进展研究”（ProgressinInternational Reading Literacy Study，简称PIRLS）是一项针对9-10岁四年级学生的全球性阅读素养研究项目，每隔五年举行一次，以此来了解各国（地区）学生阅读素养的进展情况，并为教育政策制定者和研究者提供依据。2016开展的第四次PIRLS测评，包括PIRLS、PIRLS读写、ePIRLS三个独立的部分。其中，ePIRLS是第一次正式推出的基于互联网环境的信息性文本在线阅读测评，它通过模拟的互联网环境呈现给学生类似真实的学习情境，旨在评价学生使用网络媒体进行数字阅读的能力。其所发布的测评报告全名为“ePIRLS2016 InternationalResultsinOnlineInfermationalReading”，突出了文本的“在线”和“信息”属性,［3]包括中国台北在内的14个国家和地区参与了本次测评。

ePIRLS评估任务包括两个部分。第一部分为在线阅读能力测试，它通过计算机提供网页、信息图形、动画、多个选项卡、弹窗等多种形式，以及指导学生完成研究任务的说明。第二部分为阅读习惯和影响因素的调研，包括对学校、家长、老师等的调查，了解数字阅读习惯的形成和指导。

1.3 本课题的目的和意义

目前，我国对离线数字阅读的关注较多，而对在线阅读研究较少。不少研究者认为，离线阅读与纸质阅读相比，二者并没有显著差异。王爱平等认为“阅读材料的不同呈现方式对儿童阅读理解无显著影响”；［4]姜洪伟等认为“介质不是影响阅读能力的根本原因，纸书与交互式电子书对儿童阅读能力的影响没有明显区别”。［5]那么在线阅读是否情况相同呢？

本研究目的：一是将ePIRLS在线阅读测评的理念、方法、样貌引入，以引起对“在线阅读能力”这一“新生事物”的重视；二是测评我国9岁儿童在线阅读的水平，了解当前的真实状态，以期为这一阅读模式提供实践经验。

笔者仿照ePIRLS2016的测评体系，将其公布的两个测试任务全部翻译，制作了中文版的测试系统，并选取河南地区某校小学四年级儿童为样本，评估其在线阅读能力。该类型的测试在我国大陆地区尚属首次。与ePIRLS测评的内容相同，本研究包括两个部分：在线阅读能力测评、数字阅读习惯和影响因素调查。本文为第一部分“能力测评”的研究成果。

2 ePIRLS2016测评内容与中文版制作

2.1 ePIRLS2016测评内容

ePIRLS2016创造出一个封闭的、富有吸引力的网络环境，让学生在线完成一系列与自然科学或社会科学有关的探究性学习任务。每个文本任务40分钟，学生需要浏览三个不同网址上的5-10个网页，文本大约1,000字，每个网页上都有不同的文本和图像呈现，包括网站导航、链接、弹窗等途径。

在测试界面中，虚拟教师引导学生完成整个测试任务，回答有关问题。尽管数字阅读需要导航技能和策略，但是ePIRLS测评的是学生的阅读理解能力，而非导航技能和策略。整个测试过程中，虚拟教师引导学生进入特定网站；如果学生在定位个别网页方面存在困难，虚拟教师也会给出指导。

ePIRLS 2016设计了五个测试任务，目前只公布了其中两个：（《第一位女医生》），分别涉及自然科学与社会科学。测评方式具有如下特点：整个测试必须置于在线状态下才能完成，离开网络无法进行。所有测试内容是动态进行的，无法将其放置于一个静态的网页，而是由各种链接、弹窗、下拉条、检索、选择等多个页面组合而成。每道题目相关的内容也只有一次阅读机会，答完即进入下一题，很符合互联网信息性阅读的特点。测试页面上，左侧为阅读内容，右侧为题目（见图 1）。

图1 《火星》测试网页（英文版）

2.2 中文版测试系统的制作与使用

根据英文网页，笔者全文翻译了ePIRLS 2016已经公布的两个任务，重新在网络平台上开发制作了中文版测试系统。［6]在个别表达上，结合我国语言文化进行了适当的本土化修改。如第二篇篇名直译为“伊丽莎白·布莱克威尔”，为了易于接受，我们修改为《第一位女医生》。《火星》为自然科学类文本，包含20道题目；《第一位女医生》为社会科学类文本，包含17道题目。

系统分为两个板块，左边为文本展示区，包括利用互联网浏览信息时需要出现的网页、文字、图片、动画、链接、选项卡、导航条、弹窗等元素；右边为题目展示区，学生根据答题导引语的提示进行操作，根据左边文本展示区的信息回答问题，每答完一题点击“保存”按钮，就会自动切换到下一题及其相对应的网页，已经答完的题目变为灰色。题目样貌如图2所示，当进入第6题的回答，第5题反灰。

图2 中文版测试题目样例

完成所有的题目以后，可以回看检查自己的答案并进行修改，修改过后再次点击保存即可；确定所有答案无误以后，点击“注销”按钮，网页跳转到参考答案，学生可以进行一个参考，最后点击“提交”按钮，该场测试就完成了。

3 ePIRLS 2016成绩评价与中文版的评价方法

虽然借用了ePIRLS的测评理念和题目，但对测评结果的计分与评价，则使用了笔者自己的方法。

3.1 ePIRLS 2016成绩评价方法与阅读能力等级划分

ePIRLS 2016所采用的成绩统计方法相当复杂。它没有对每一道题给定一个明确的分值并通过相加求总分，而是将所有学生的测试成绩放在一起统计，得到一个综合分数，再根据这个分数给出每道题的相对分值，据此衡量每一道题的题目难度和每个学生的水平。即题目难度和学生水平，都是在统计测试结果之后所给出的相对数值。最后，结合不同国家和地区各自的发展水平以及学生的认知能力，得出一个最终成绩。

ePIRLS将学生的在线阅读水平划分为四个基准，由低到高依次为“低级、中级、高级、先进”。当学生阅读和浏览相对复杂的在线文本时，应具备的阅读能力如表1所示。

表1 ePIRLS在线阅读水平的国际基准

其中，400分表示达到了“低级”基准，475分表示达到“中级”基准，依此类推。然后，将所有的测试题目都给定一个难度值，这个值也用上述“400、475、550、625”这4个基准来表示。这样，根据学生答题情况来判断其阅读水平属于哪一个等级。

3.2 中文版测评的评分方法

本研究作为独立的小范围测验，无法直接套用ePIRLS的测评标准，也无法直接与国际水平进行对比。笔者经过反复思考，采用如下两种方法进行测评。① 按照ePIRLS公布的题目难度，将《火星》和《第一位女医生》这两篇的所有题目按照其难度赋予一个分值，再根据分值计算学生得分。《火星》共20道题目，每题5分，满分100分；《第一位女医生》共17道题目，满分也为100分，其中13、15、16、17题的答案要点较多，其分值分别定为7分、8分、10分和10分，其余题目均为5分。② 根据题目难度和答题情况与国际基准进行对比。《火星》和《第一位女医生》这两场测试的所有题目，其难度值如表2。

本研究分别统计受试学生在每一个等级内的答题情况，以此推断学生的在线阅读能力是否能够达到该等级水平。如学生A能够完全答对《火星》中的第2题、第5题和第9题，就以此推断学生A能够达到信息性文本阅读的“低级国际标准”。如果能答对6题、7题、13题、18题、20题中的全部题目，则认为其达到了“先进国际基准”。

表2 两篇测试的题目难度划分

4 测评方案与过程

（1）样本选取。本研究选取河南省信阳市一所公立小学四年级儿童为研究对象，选取四个班级共239名学生为样本。

（2）使用设备。该小学拥有两个计算机教室，共130台计算机，每个学生独立使用一台计算机。研究者提前在所有计算机里统一输入系统网址，然后利用电子白板向学生演示做题方法，讲解注意事项。

（3）测验过程。受试学生准备好以后，点击测试系统首页的“开始”按钮即可进入答题模式，每个学生每次测试为40分钟只要学生开始做题，测试系统会自动计算时间，学生必须在40分钟内完成题目；如果完不成，系统也会提示时间到，学生无法继续答题。，两场测试之间休息10分钟。测试完成后需要填写一个调查问卷，大约需3-5分钟，提交以后即可完成所有测试。每位参与测试的学生都会得到一份奖品，以奖励他们配合测试和调查。

5 在线阅读能力测评结果与对比分析

测试完成以后，将学生的测试成绩和问卷调查数据录入Excel表格和SPSS系统进行对比分析，得出相关结论。为了更好地理解本次测评成绩，在尽可能使用国际指标的基础上，也选取了学生平时语文成绩、以及国内其他比较可靠的在线阅读成绩进行对比。

5.1 测评分数统计

两场参评学生均为239人，有效试卷239份，无效0份。两篇满分均为100分。第一场测评为《火星》，属于自然科学类的文本，主要考察学生利用互联网获取科学知识、检索和理解信息的能力。平均得分为42.87分，最高得分为83分，最低为0分。第二场测评为《第一位女医生》，属于社会科学类文本，主要考察学生利用互联网获取社科类信息及整合阐释、反思评价的能力。本场测评满分100，最高分91分，最低分0分，平均分32.8分（见表3）。

表3 《火星》和《第一位女医生》测试成绩

通过分析学生在两个不同类型测试文本上取得成绩的相关性，发现二者为正相关分布（P=0.041），即自然科学类文本成绩越高的同学，其社会科学类文本测试的成绩也会更佳（见表4）。

表4 两种测试文本相关性分析

5.2 与国际等级指标的对比分析

采用前述与国际基准的对比评价方法，将学生成绩划入4个等级之中。

《火星》这篇有28.03%学生能够达到低级国际基准，11.72%的学生能够达到中级，1.67%的学生能够达到高级，0.84%的学生能够达到先进。《第一位女医生》这篇有43.09%的学生能够达到低级，9.62%的学生能够达到中级，2.93%的学生能够达到先进。总起来看，未达到“低级”的人数均在50%左右。

再来对比ePIRLS测评结果：6个国家得分在550-625之间，达到高级，包括新加坡、挪威、荷兰、瑞典、丹麦和美国。7个国家或地区在475-550之间，达到中级。另外有迪拜和阿布扎比作为城市参与测评，阿布扎比得分431分，处于低级。［3]

由于笔者所使用的评价标准与国际测评不完全相同，与其结果的对比数据也只能作为参考。然而无论如何，可以看到受试学生未能达到基本要求的比例非常高，这是一个严峻的事实。

5.3 四种阅读技能的测评分数

根据ePIRLS的理论框架，将数字阅读的总体理解流程具体分为提取信息、直接推论、综合与阐释、反思与评价等四种阅读理解技能。其中前两项属于“低层次阅读”，后两项能力为“高层次阅读”。研究者将本次测评按照分值和题目性质分为以上四个板块，每个板块的分值均为25分，以测试学生在不同理解技能上的表现。详情见图3，纵轴表示满分为25分。

图3 两篇文章四种阅读技能的平均得分

可以看出，“提取信息、直接推论”这两项低层次阅读技能得分略高，最高的一项为13.77分，最低为8.77分，其均分得分率大约在40%左右；高层次阅读技能表现较差，最高为9.53分，最低的一项，平均分只有2.9分，得分率仅为11%。然而从相关性分析来看，二者依然呈正相关分布，即低层次阅读能力高的学生，高层次阅读能力也会高一些。

与ePIRLS2016的测试结果对比来看，新加坡、中国台北、葡萄牙、格鲁吉亚、阿联酋等在“提取信息、直接推论”两方面相对更加擅长；美国和加拿大在“综合与阐释、反思与评价”方面表现相对更佳。其他国家或地区在几个维度上没有太明显的差异。［3]

5.4 与语文成绩对比分析

孤立的测评无法说明成绩如何，需要在对比中观察才有意义，纸质阅读成绩是一个比较好的参照物。可惜的是，本次研究中因各种条件限制，没有对受试学生的纸质阅读能力同时进行测试。因此，笔者向语文老师了解了受试学生上学期期末考试的语文成绩。

参与测试的四个班级的学生，在2017年末的语文期末考试中的平均成绩为85.82分（百分制）。其中，阅读类题目的分数占40%左右，且阅读成绩与总分成正相关，即总分高的学生，阅读分数也高。因此，可以视为阅读均分得分率在85%左右，远远高出他们在本次在线阅读测试中的平均得分率。

5.5 与PISA项目中我国学生在线阅读能力的对比分析

笔者能找到的有关在线阅读的数据非常有限，针对初三学生的PISA项目的在线测试成绩也是一个有意义的参照。

国际学生评估项目PISA（Program for International Student Assessment）是一项由经济合作与发展组织统筹的学生能力国际评估计划，主要对接近完成基础教育的15岁学生进行评估，测试学生们能否掌握参与社会所需要的知识与技能。PISA评估于2000年首次举办，此后每3年举行一次。评估主要分为3个领域：阅读素养、数学素养及科学素养，2012年首次尝试引入了基于计算机的问题解决测试，即在线阅读能力测试。

我国上海地区初三学生自2009年起参加PISA测试，2009年和2012年的阅读素养测试都取得了世界第一名的好成绩，但在2012年的在线阅读测试中排名第六，位于新加坡、韩国、日本、中国澳门、中国香港之后。对比纸质阅读，上海79%的学生的在线阅读能力低于根据其纸笔测试预测的分值。［7]

本研究的测试结果表明，河南地区四年级儿童与PISA测试的初三学生存在共同点，可谓遥相呼应，即其在线阅读能力都低于纸质阅读能力，存在较大差距。不同之处在于：河南地区儿童在线阅读能力与语文成绩的差距更大，其数字阅读水平可以用极其薄弱来形容；上海地区的差距相对要小一些。究其原因，一是年龄差异，四年级儿童数字接触相对较少，远不如初三学生接触时间多；二是区域经济发展和教育水平差距所造成的差异。

6 结论与建议

6.1 研究结论

（1）被试儿童在线阅读能力与国际水平相比，还存在相当大的差距。

（2）与其语文考试成绩相比，被试儿童的在线阅读能力与纸质阅读能力之间同样存在很大的差距。参照中国学生PISA测试的在线阅读成绩来看，“低于纸质阅读能力”具有普遍性。

（3）从四种阅读技能来看，学生在低层次的“提取信息、直接推论”两方面得分略高，在高层次阅读技能“综合与阐释、反思与评价”方面表现很差。但二者呈正相关分布，即前者成绩好的学生，后者的表现也会稍好一些。

6.2 思考与建议

（1）应当正视学生需要在线阅读这一事实，并注意培养学生的在线阅读能力。无论河南的小学生，还是上海的初中生，其在线成绩都低于纸质阅读，这充分说明教育环境的作用，即国内还没有认识到这是一种独立的能力，也不清楚该能力需要专门培养。仅凭计算机素养课或者学生自己探索来学习，存在差距是必然的。虽然该地区学生平时使用数字设备的频率不低，学生也比较喜欢数字阅读这种方式，但因在家庭和学校中没有得到相应的指导和训练，其数字阅读能力发展缓慢。会上网不等于能够“迅速、准确地”获取信息，并给予正确的理解。因此，应正视学生需要在线阅读这一事实，制订合理的教育计划，培养学生的在线阅读能力。

（2）应当寻找在线阅读与纸质阅读成绩差异显著的原因。不少研究者认为，离线阅读能力与纸质阅读并没有显著差异。那么同为数字阅读，究竟是哪些因素造成了学生在线阅读能力的低下？与纸质阅读、离线阅读相比，它在形式和内容上有什么特殊性？

（3）应当扩大在线阅读测评的范围。通过对不同地区、不同层次的抽样测评，逐步将数字阅读测评方式合理化、本土化，探索适合中文阅读测试的发展道路。限于团队能力，本次研究只在一个小学进行，以后将会陆续在不同城市的小学展开。同时，也希望有更多学界和教育界同仁对此多加关注。

（4）应当自主开发中文版的在线阅读测评系统。翻译的内容，在专有名词和一些句法上对我国学生估计会构成理解障碍。如外国人名的表达，《第一位女医生》中主人公名字为“伊丽莎白·布莱克威尔”，对于我国小学生来说，平时学习和课外阅读中接触外国文学较少，对音译的外国人名会感到难以记忆。在题目中，研究者尽可能多地使用“伊丽莎白”指代主人公，尽力避免音译姓名给学生阅读造成的负面影响。再如外国地名。《第一位女医生》中出现了纽约、法国、日内瓦等国家和城市的名字，如果受试学生不熟悉这些地名，在阅读过程中就需要更多的时间来思考和反应。从实践中反思，我国教育界应该尽快自主开发小学四年级学生的数字阅读测试系统，结合本土化的社会习俗和中文表达习惯设计测试题目，以便更加客观地测评我国小学生的数字阅读素养水平。

（5）应当学习PIRLS阅读测评体系的科学性。该项目的整个理论架构、测试流程、评价方法，都体现出科学、严谨、细致的特点。其理论基础建立在对9岁儿童心智发育与阅读能力发展的分级评价，测试材料的认知水平与语言难度均符合该年龄段的水平。在“评价标准”的制定上，根据所有学生的数据来划定4个基准，以此衡量每个学生的相对位置。再如一份对“方法与流程”的说明长达508页，注重细节的准确与完善。通过这次研究，笔者阅读了大量资料，也有个别细节还没完全弄明白。

总的来说，本次测评既是对我国小学生在线阅读水平的一次观察，就测评过程来说也是一次学习，从对ePIRLS命题思想和评价方法的理解，到学生成绩和教育环境，都有着深刻的启发与思索。