系统功能语言学视角的TEM—8写作评分量表构念效度验证

2016-05-30刘睿

现代职业教育·高职高专 2016年11期

刘睿

[摘要] 为促进学生读写能力的发展，基于系统功能語言学元语言功能和语言三个层面的特点，设计了TEM-8写作评分量表，对某地方院校大四英语专业学生的写作样本进行了实评，采用因子分析方法对评分结果进行了分析。结果表明，本研究设计的写作评分量表是有效的。

[关键词] 元语言功能；写作评分量表；效度验证

[中图分类号] G642 [文献标志码] A [文章编号] 2096-0603（2016）31-0063-03

一、引言

系統功能语言学是一种“适用语言学”，提出20多年来，解决了教育中很多实际问题，为语言（母语、二语、外语）学习，提供了理论与实践指导，促进了学生读写能力发展。在高等教育领域，语言学家、教育学家利用系统功能语言学理论在实践中帮助学生发展阅读能力（Rose，2005），帮助教师解决教学中遇到的问题和困难（Halliday &Hasan， 2006）。

我国英语专业八级测试的目的是检查学生是否能达到大纲规定的八级水平应具有的综合语言技能及交际能力，提高教学质量。试题中TEM-8写作的总分为20分，要求考生根据所给题目及要求撰写各类体裁约400个单词的文章。近10年来，TEM-8写作题都是议论文体裁，注重考查考生议论文的写作能力。

系统功能语言学把语言看成生成意义的资源，注重从语义的视角考查语法，认为语言的形式和意义是不可分的。在大学英语写作教学中，语类理论主要用于描述语篇和语境的关系，可用来帮助学生使用语类和语域构建意义。以往的研究对象多侧重描述已发表论文和教材语篇（Hewings，2002），对学生TEM-8的写作语篇的认知评价方面仍有待研究。

二、研究设计

（一）研究问题

本研究拟从系统功能语言学角度设计写作评分量表并验证其信度与效度，需研究三个问题：评分量表设计构念与写作能力评价的维度是否一致？评分量表是否能有效区分学生的能力？评分员使用评分量表评分时是否一致？

（二）研究步骤

研究分两个阶段。一是从理论上设计评分量表。包括：（1）研读文献，厘清评分量表的维度。（2）邀请写作测试的专家指导、分析量表各个维度所对应的项目。（3）访谈写作教学的教师，收集、整理教师对量表各维度的意见与建议，初步形成写作评分量表。（4）进一步讨论、修订描述语，完善评分量表。二是从实践上检验评分量表。通过比较评分员应用量表评价考生写作样本的情况，检验评分量表的有效性。

（三）研究对象

本研究的写作样本来自某地方院校英语专业的84名大四学生。他们都要参加2016年英语TEM-8考试，熟悉TEM-8考试写作题的要求。

（四）实验材料

试验材料采用2005年英语TEM-8写作考试题目：

Interview is frequently used by employers as a means to recruit prospective employees. As a result， there have been many arguments for or against the interview as a selection procedure. What is your opinion？ Write an essay of about 400 words to state your view.

该题属于议论文体裁。每个学生在毕业找工作的过程中都有这方面的经历，在规定时间内完成考试。收集学生作文并编号保存，为下一步实验做好准备。

（五）评分量表设计

研究者在阅读相关文献的基础上，参考、借鉴已有的写作的评分量表，初步设定一份评分量表。访谈46名熟悉英语专业八级写作教学的英语教师，让每位教师写出他们能想到的写作评价的所有项目维度。在不改变原意的情况下，逐条修改教师写出的评价项目，从中提炼出33条描述语，初步设计出一份评分量表。然后，归纳整理为调查问卷（问卷采用5点Likert量表，5表示完全有必要，1表示完全没必要），向外语学院的其他英语教师发放，调查、统计问卷结果。

根据问卷调查结果，从33条描述语中选出平均分最高（完全有必要）的15条描述语。研究者和经验丰富的六位英语教师一起讨论，从理论上确定写作的构念，一起设定写作测量学生的什么能力，一起划分评分等级，把问卷调查的15条描述语分别归入理论构念的各个维度。

Dillman等（2009）发现，使用4-5个等级评分信度是最有效的。因此，研究者邀请学院有多年写作教学经验的同事在认真阅读、讨论写作评分量表的基础上，把评分等级分为优、良、中、及格、差五个等级，分别赋予4、3、2、1、0五种分值。“优”表示学生作文较好地完成任务要求，各分项几乎没有缺陷，且在某分项有创意、有创造性；“良”表示学生作文有效地完成任务要求，但在某分项有微小的或可以忽视的缺点；“中”表示学生作文基本完成任务要求，在某分项有明显的错误，但不影响意义表达；“及格”表示学生作文勉强完成任务的要求，某分项有明显的影响意义表达的错误；“差”表示学生作文不符合任务要求，各分项大多有明显的失误或错误。

最后，研究者根据评价内容把15条描述语归纳为整体语篇层面的语类和语域（1～5条描述语），段落层面的语篇语义（6～9条描述语），词汇、句子层面的语法与表达（10～14条描述语），其他（15条描述语）四个相对独立构念的写作评分量表。

（六）用设计的评分量表评分

1.锚定写作样本，培训评分员

人工评分中最大的问题是评分员评分的不一致性（Coffman，1971）。本研究通过4位评分员一起锚定写作样本的方式来培训他们，提高评分一致性。根据设计的评分量表，4位评分员从84名学生的写作样本中锚定有代表性的、等级区分明显的10个样本，在锚定写作样本的过程中，评分员需对照描述语，给出写作样本的每个分项对应等级的分值，利用加权平均、四舍五入的方法确定最终等级。重复进行这个过程，可以帮助评分员厘清构念并体会不同等级的写作样本间的差别，最大限度地保证所有评分员的评分标准都一致。锚定出的等级样本作为正式评分时的参照范本。

2.试评及评分

试评时从没有参加锚定的样本中随机选2个样本，4位评分员同时在设计好的评分单上逐项评分。之后统计结果，计算评分员间评分信度。

正式评分时，评分员要对剩余的72个写作样本分别评分，为防止疲劳影响评分信度，特意要求评分员在两天内完成72个样本的评分。之后汇总评分单，统计、处理数据。

三、结果与讨论

（一）评分信度

四位评分员在15个分项上的评分信度Cronbach α=0.936，利用Friedman檢验和Kendalls W检验了每位评分员在各分项上的评分。结果表明，渐进显著性取值都大于0.05，即4位评分员之间不存在显著性差异。评分员在各分项上的评分是一致的。

（二）探索性因子分析

1.KMO检验和Bartlett球形检验结果（如表1所示）

Kaiser（1974）认为，KMO值大于0.6表示变量间存在共同因子，就可以做因子分析。本研究中KMO统计量为0.898，适合进行因子分析。此外，Bartlett的球形检验的χ2值为1125.539（自由度为105），p=0.000<0.05，即各变量间存在显著的相关性，适合进行因子分析。

2.主成分分析法抽取主成分的结果（如表2所示）

左边15个成分的特征值大于1的，共有3个，这也是因子分析时所抽出的共同因子个数，3个共同因素共可解释的总变异量为79.797%，转轴后三个共同因素可以解释的总变异量也为79.797%。

3.转轴后的成分矩阵

转轴的目的是为了更清楚地看出一组变量数所确定的那个共同因素，判断每一个分项变量应归属于哪一个明确的主因素。关于能否将分项变量归入共同主因素，还有一个选取因素负荷量标准的问题。Hair等人（1998）认为，要同时考虑到因素分析时样本的大小，若样本较小，则因素负荷量的选取标准就要高些。陈宇顺（2004）认为，当样本大小介于70～85之间时，因素负荷量选取的标准应介于0.650～0.600。

本实验包含72个学生写作样本，所以因素负荷量的标准定为0.650。从转轴后的成分矩阵中可以发现：共同因素一包含Item 1～8共8条描述语，共同因素二包含Item 9～12共4条描述语，共同因素三包含Item 14、Item 15两条描述语（如表3所示）。

对比之前理论上的评分量表，可以看出大多数描述语在实际评分时表现出和原来构念一致的属性。最初设计的评分量表第一和第二构念的一部分（整体语篇和段落）试评时构念属性一致，应归属共同因素一，共同因素包含二最初设计的评分量表中第二和第三与的第三构念各一部分描述语，共同因素三与最初设计的评分量表的第四构念和一条第三构念，Item 13这条描述语的构念特征不明显，应删除。根据以上探索性因子分析结果，评分量表应保留14条描述语。

四、结论

评分量表是评价过程的一个重要组成部分。本研究采用理论和实证研究相结合，定量和定性研究相结合的方法描述、总结了写作评价的不同维度，运用探索性因子分析方法厘清了写作的构念。统计分析表明，本研究设计的评分量表能保证评价学生写作表现的信度和效度，让教师在评价的维度、分项、等级标准方面最大限度地达成一致，提高评分员自身和评分员之间评分的一致性，为教师在评价学生写作能力时提供了一种方便、实用的工具。

本研究的局限性在于学生和教师都来自于地方院校，样本容量较小，且数据只来自对一种体裁（议论文）写作的评价。此外，限于篇幅，本研究也没有涉及各评分维度应赋予的合理权重。研究者的目的旨在抛砖引玉，希望能给英语教师提供一些思路与启示，在实践中共同改进和完善评分量表。

参考文献：

[1]Coffman， W. E. Essay examinations. In R. L. Thorndike （Ed.）， Educational measurement （2nd ed. pp.271-302）[M]. Washington， DC： American Council on Education，1971.

[2]Dillman， D. A.， Smyth， J. D.， & Christian， L. M. Internet， mail， and mixed-mode surveys： The tailored design method （3rd ed.）[M]. Hoboken， NJ： John Wiley & Sons， Inc，2009.

[3]Hair， J. F. Anderson， R. E.， Tatham， R. L. & Black， W. C.. Multivariate data analysis（5th ed.）[M]. Englewood Cliffs， NJ： Prentice-Hall，1998.

[4]Halliday， M. A. K. and Hasan， R.. ‘Retrospective on SFL and literacy， inR. Whittiker， M. ODonnell， and A. McCabe （eds）， Language and Literacy： FunctionalApproaches[D]. London： Continuum， 2006：15-44.

[5]Hewings， A.‘Shifting rhetorical focus in student and professional geography writing， in C. N. Candlin（ed.）， Research and Practice in Professional Discourse[D]. HongKong： City University of Hong Kong Press， 2002： 441-462.

[6]Humphrey， S. Martin， J.， Dreyfus， S.， and Mahboob， A.（2010）. A 3x3 toolkit for academic writing[A]. In A.Mahboob & N. Knight（eds.） Directions in Appliable Linguistics[C]. London： Continuum.

[7]Kaiser， H. F. Little Jiffy， Mark IV. Educational and Psychological Measurement[J]，1974（34）： 111-117.

[8]陳宇顺. 多变量分析[M]. 台北：华泰书局， 2004.