新闻编译测试评分量表的研制与验证研究<br/>——基于多面RASCH模型的分析*

新闻编译测试评分量表的研制与验证研究
——基于多面RASCH模型的分析*

2022-11-01北京信息科技大学

外语教学理论与实践 2022年3期

北京信息科技大学

郑美玲

提要：为了科学地量化考生在新闻编译测试中的作答表现，本研究基于新闻编译能力模型构建三分项五等级编译评分量表，包括内容转换的准确和客观、信息编辑的适度和合理、语言运用的准确与得体三大评分维度，另在文献分析的基础上编制新闻编译九级整体量表，并利用facet软件对3名评分员使用两份评分量表对同样60份编译文的评分结果进行对比分析，以验证量表的质量。数据显示，两份量表具有较好的信度和效度。相比之下，分项量表能更准确地区分考生的新闻编译能力，量表各分数段之间的区别更明显，评分员使用该量表时评分员效应更小，评分信度更高。

一、引言

编译是媒体机构从业人员所从事的典型笔译活动，新闻编译助推中外信息交流离不开一支高水平的编译队伍。《中国英语能力等级量表》的翻译书面论述能力分量表中也明确指出，译者要能够根据需要适当“编译”新闻，这一标准的提出对编译的教、学与测产生了深远影响。其中，编译测试是编译人才培养中必不可少的一部分，而考核学生的编译能力则需要一套可靠有效的测量工具。近年来，行为测试因其任务的真实性而深受青睐(Messick， 1995； McNamara， 1996； Bachman， 2002； Brown， 2004)，对于采用直接测试题型的翻译行为测试而言，其效度“良好”，但也容易出现评分信度不易把握等问题，“翻译测试评分信度问题成为一个亟待解决的难题”(王金铨、文秋芳，2009)。建立能够反映被测群体翻译能力构念的评分量表是关键环节(陈怡，2010)，其科学性与测试的效度直接相关。然而，国内外大学使用的某些翻译评分标准存在主观性较强或理论论证不充分等问题(穆雷，2006)，大多数行为测试的评分量表仅在已有量表的基础上进行措辞上的微调，量表实证研究也有待加强(McNamara， 1996， 1997转引自孔文等，2007)，开发严格细致的评分量表等翻译测试评分研究亟待展开(张新玲，2011；江进林等，2012)。因此，本文拟围绕新闻编译测试评分量表的研发进行探究，推动编译人才培养及相关研究。

交际语言行为测试主要采用综合型和分析型两种评分方法(王振亚，2012b： 332)。整体法耗时少，评分员可以在较短的时间内对译文质量做出评价，经济实用。但是，评分员往往只关注部分译文特征，容易“只见森林不见树木”，影响信效度；相比之下，评分员使用分项法从不同维度分别评价译者能力，观察更细致，可以为考生和测试使用者提供更多的诊断或反馈信息，考生分数的解释力更强，缺点是成本较高。两种评分方法在信度、效度、实用性等方面各有优缺点(Weigle， 2002)，不同量表的使用对主观测试的评分结果产生重要影响，在条件允许的情况下，二者结合是最理想的做法，可以取长补短，发挥各自的优势(乔洁，2016)。

有鉴于此，本文将采用综合型和分析型相结合的方法，重点探讨如下两个问题：

(1) 如何设计新闻编译分项评分量表的评分分项、分项量表和整体量表的等级和描述词？

(2) 两份量表的效度怎样？

对于问题一，将基于新闻编译能力模型这一测试构念分别研制编译分项评分量表和整体评分量表；对于问题二，拟通过一项模拟真实语境下的新闻编译行为测试任务获得受试作答表现，然后使用多面Rasch模型对三位评分员使用两量表所取得的评分结果进行对比分析，利用实证数据检验量表的质量。

二、新闻编译评分量表的研制

测试构念是评分量表的理论基础，量表的操作定义要基于所测构念这一理论定义，例如语言能力评分量表的各个评分维度应该与语言能力模型的各个子能力相对应，这是开发量表需要遵循的一条重要原则(Bachman & Palmer， 1996)。摘译测试分项评分量表的研发(郑美玲，2019)就是以摘译能力的构成要素为基础，探究如何有效地测量学生的摘译能力。本文借鉴该思路，在厘清新闻编译能力构成成分的基础上，探讨如何科学地设计评分量表，用以评价译者运用编译这另一重要的变译方法处理新闻素材的表现。

1. 新闻编译能力

翻译能力的定义和分解一直是翻译研究者关注的焦点之一(吕晓轩，2016： 138)。学者们普遍认为，翻译能力由诸多子能力构成(Cao， 1996： 328-336； Colina， 2009： 132-133；王振亚，2012a： 45-47；马会娟，2013： 56；白玲、冯莉、严明，2018： 101-110)。《英汉新闻编译能力探究》(郑美玲，2018)一文以交际语言能力和多元素翻译能力模型为理论基础构建新闻编译能力模型，并通过对新闻编译从业者的访谈与问卷调查对该模型进行了验证与修正，既有理论推导又有实证数据检验，因此本研究将以该模型为理论基础设计评分量表。新闻编译能力可以包含双语能力、知识结构、使用能力、选择能力、转换能力和心理-生理机制。语言能力和知识结构是说明性知识，使用、选择和转换能力是程序性知识。选择能力和转换能力共同构成编译者的核心能力，其中选择能力是编译者所特有的能力，指译者通过多种渠道从英文新闻“现场”中选择有价值的稿件作为原稿件，或依据给定主题选择有价值的稿件作为补充素材的选题能力，以及选择向特定读者群体呈现所选新闻“场面”里的哪些信息、如何呈现这些信息的编辑能力，如译者根据意识形态、媒体立场、读者需求和版面情况，调动分析、归纳、综合、概述等认知机制完成对文本信息的增、减、调、并等处理的能力，本质上考察译者区分主次的能力。

2. 分项评分量表

翻译分项评分量表一般由评分维度、等级水平和对考生表现的详细说明三要素构成(Goodrich， 1997)。评分员根据考生在各个维度上的表现，依据等级描述，分别打分，最后简单相加或加权，形成总分。评分量表可以采用简化参数、能力描述和语义微分三种模式，其中简化参数式的操作性更强，评估参数和权重可以根据翻译任务的情境适当调整(郑美玲，2019)，故采用该模式。笔者基于新闻编译能力模型，制定初步的评价表单，然后参考业内标准修正该表单，最终生成评价因素清单，包括信息准确、编辑适度、语法准确、语言得体、语篇流畅、立场坚定、体例准确等。评分维度数量过多会给评分员造成认知负荷，分项设置为2—5个比较合理，可以提高量表的可操作性。有鉴于此，笔者对这些评估因素进行归类整合，得到内容转换、信息编辑、语言表述作为新闻编译测试分项评分量表的三个维度，每个维度下包含五个评价级别，5代表最高级，1代表最低级(见表1)。内容转换和信息编辑分项分别主要对应转换能力和编辑能力，但二者与语言能力、使用能力、知识结构和心理-生理素养都有一定的关系；语言表述分项主要对应语言能力中的词汇、语法和语篇知识，但是与知识结构、使用能力、编辑能力和转换能力也有互动关系。使用能力和知识结构在三维度上均有体现，因此不再另设维度，也没有单独测量选题能力，因为这里考察的是编译成品，即考生的编译文本作答表现，而非过程，而且选题并非必需能力。对各分项的具体解读如下：

表1. 新闻编译行为测试分项评分量表

(1) 内容转换分项指编译的准确性和客观性。译者须准确理解源稿信息，还要慎用形容词和具有感情色彩的词语，符合国家和媒体立场。内容分量表重点考察主要新闻事实、数字、人名、地名、机构名、时间等编辑后的信息转换是否准确，有无主观翻译和立场问题。

(2) 信息编辑分项指语篇层面信息处理的适度性和逻辑性，译者需要使用多种编辑方法对原稿进行加工，具体指在词、句、段层面进行删、调、并、增等信息的取舍和编排，“删”指取舍信息，保证篇幅符合要求；“调”指按照倒金字塔结构调整段落的安排，使语篇衔接连贯；“并”指合并删减后的信息；“增”指增加背景信息或过渡性的语句使译文衔接通顺。编辑分量表重点考察删和调的合理性，即是否围绕稿件主旨恰当地取舍信息，标题简明扼要，导语和正文部分无冗余信息且逻辑性强。

(3) 语言表述分项指语言的准确性和得体性，译稿要符合新闻文体特征，保证成文后为新闻稿件，而非散文或者记叙文。词汇、语法、句式的处理要准确。语言分量表重点考察译稿有无语法、错别字、标点、搭配等错误，遣词造句是否符合新闻文体。

3. 整体评分量表

我们在Carroll(1980)交际语言测试评分量表的基础上设计编译九级综合性评分量表(见表2)。该量表重点关注译者对“原文的理解能力”、“编辑能力”和“译文的表达能力”，包含九个级别，9代表编译质量最高，1代表质量最差。

表2. 新闻编译行为测试九级整体评分量表

三、新闻编译评分量表的效验

1. 研究方法

1) 编译任务

笔者调查编译在媒体机构中的使用情况，结合工作实际，尽可能设计真实的编译任务：要求考生把两篇国际时政新闻(1000字左右/英)整理成一篇有重点，有逻辑，可读性强的新闻(700—950/中)供国内读者阅读，译稿篇幅约占全译文的一半。译者需要自行编写标题和导语，标题要具体、生动，导语能准确概括主旨，正文部分要重点突出、逻辑清晰，必要时删减信息并调整段落。

2) 数据收集

受试为外语类重点院校、985高校的MTI专业和英语专业本科(翻译方向)高年级学生，来自MTI新闻编译班、MTI翻译班和本科高年级翻译班，我们征求任课教师意见，在新闻编译课或翻译课上实施测试，共100分钟，并事先告知考生测试成绩将计入平时成绩。在两个班级进行试测后，为了保证评分质量，我们在评分前对评分员(教龄均在8年以上)进行培训，通过研读分项量表，熟悉各等级描述，就评分标准达成一致；组织评分员对照简明评分量表进行试评并统计评分结果，根据量表的效度指标修正量表的描述词，依据评分员一致性信度指标指导评分员调整严厉度。随后，在另外三个班级进行正式测试，对60份具有代表性的编译稿逐一编号并复印，每份答卷均由3名评分员独立评分。在正式评分阶段，我们请3位评分员先采用整体评分量表评分。三个月后，请这3位评分员按照修改后的分项评分量表再次给编译文打分。

3) 数据分析

多面Rasch模型能够提供评分员、考生、评分量表以及其它层面丰富的诊断信息，具有无可比拟的优势。在过去40年间，语言测试界大力提倡该方法的使用(McNamara & Knoch， 2012： 555-576)。本研究采用多面Rasch模型考察两量表在各层面的表现以及评分员与考生、评分员与评分分项的交互情况。对整体量表的考察采用评等量尺模型(Rating Scale Model)，数学公式为： log(Pnjk/Pnj(k-1))=Bn-Cj-Fk，主要考察2个测量层面，分别为被试的编译能力(Bn)和评分员的严厉度(Cj)，公式中的Pnjk表示被试的编译文n由评分员j评为k等级的概率，Pnj(k-1)指被试的编译文n由评分员j评为k-1等级的概率；分项量表采用部分得分模型(partial credit model)，公式为： log(Pnjik/Pnji(k-1))=Bn-Cj-Di-Fk，这里的考察涉及3个测量层面，分别为被试的编译能力(Bn)、评分员(Cj)和量表各评分分项的难度(Di)，其中Pnjik表示被试的编译文n由评分员j在评分维度i上评为k等级的概率，Pnji(k-1)指被试的编译文n由评分员j在评分维度i上评为k-1等级的概率。以上两个多层面Rasch模型分析均在FACETS 3.58.0软件中进行。

2. 结果与讨论

1) 考生层面

篇幅有限，考生层面输出结果不做列表展示。第一，McNamara(1996： 173)认为，平均值正负两个标准差之间的Infit取值范围都可接受。据此，考生层面的整体量表Infit值应该在-0.92— 2.76之间，而分项量表在0.08—1.88之间。标准拟合统计量(Z值)是评价拟合度的另一个指标，表示对过度拟合和不拟合进行t检验的结果(Linacre， 2002b： 878)，取值范围在-2—2 之间。按照这些标准，整体量表下有4位不拟合考生，其中一位呈显著不拟合(Z值大于2)，无过度拟合和显著过度拟合考生；分项量表下不拟合的考生有五位，无过度拟合考生，|Z| 值在合理范围内。绝大多数考生得分与模型预期良好。第二，整体量表下分隔比率(2.48)、分隔信度(0.86)和卡方检验结果(卡方值411.9，p=0.00)表明考生之间在能力上存在显著差异且具有统计意义；分项量表的分隔比率(3.12)，分隔信度(0.91)和卡方值(583.1)更大，且具显著性(p=0.00)，说明分项量表对考生的区分能力更强且考生间能力存在差异的把握更大。分项量表下的SPSS输出结果进一步证实了这一结论。受试中有一部分MTI学生参加了环球网的新闻编译实习(约半年)，若引入实习这一变量，这些考生可进一步划分为五个群体，其编译测试成绩按照由大到小的顺序排列依次为：既上编译课又参加实习的MTI学生、参加实习但未上编译课的MTI学生、上编译课但未参加实习的MTI学生、既未上课也未参加实习的MTI学生、本科高年级学生。方差分析(F值=8.469，显著性=0.000)显示，五个群体的编译成绩有显著差异，方差齐性条件下的事后多重比较进一步显示，本科高年级班与无课无实习的MTI学生成绩无显著差异，与其他所有群体的成绩均呈显著性差异，该班仅在考试前接受新闻编译指导，这样的结果与预期是相符的。无课无实习的MTI学生与有课有实习的MTI学生虽属同一年级，成绩却存在呈显著差异，这在一定程度上说明，为期半年的新闻编译课和环球网编译实习的联合培养模式有助于编译能力的提高。

2) 评分员层面

首先，根据表3，若将评分员按照严厉度由高到低的顺序进行排列，整体量表下依次为评分员C、评分员B、评分员A，而分项量表下则为评分员C、评分员A、评分员B。从严厉度的跨度来看，整体量表下最严厉与最仁慈的评分员之间相差近2.5个洛基值，而分项量表下仅0.35个洛基值。另外，分隔比率、分隔信度和卡方检验值也是表示评分员严厉度的重要统计量。分隔信度越大，说明评分员之间的差异越大，一致性越低，若同时分隔比率也大，说明该差异与误差无关。表3整体量表下的分隔比率为6.31，分隔信度0.98，卡方值81，且呈显著性(p=0.00)，这说明三位评分员的严厉度有显著差异。而分项量表下的分隔比率(0.66)小于2，分隔信度(0.30)小于0.9，卡方值仅2.9，不具显著性(p=0.24>0.05)，这说明可以接受评分员评分无差异的零假设，分项量表下三位评分员的严厉度没有显著差异，这是理想的结果。

表3. 两量表下评分员的严厉度与一致性

其次，拟合统计量(Infit)则反映了评分员评分的自身一致性，相当于经典测试理论中的“评分员内部信度”(intra-rater reliability)(Myford & Wolf， 2000： 6)。在评分过程中，由于受到各种主观因素的影响，评分员不可能总按照一定的严厉度进行评分，适当的变化是允许的。按照Infit取值范围在正负两个标准差之间的标准，两量表下三位评分员的加权均方拟合值均在合理范围(整体量表0.53—1.29，分项量表0.92-1.04)，且|Z|<2，这表明三位评分员在使用两个量表时内部一致性较好。若超出允许的范围，需要对非拟合或者过度拟合的评分员继续进行重新培训或者予以更换(刘建达，2005： 162)。非拟合说明评分员对评分标准把握不准，评分时而宽松时而严格，要结合考生-评分员的交互来分析具体原因。过度拟合说明评分员在评分时可能存在一定的趋中性或光环效应，可使用SPSS分析相关评分员使用的评分量表等级情况，如果非拟合或者过度拟合个数不多，也可视为内部一致性可接受。

3) 评分分项层面

第一，评分分项的拟合统计量是验证评分量表效度的重要指标。不拟合(misfit)表示维度欠合理或区分度不高，如果不拟合情况较少，则有证据说明该评分分项的效度较高(Wright & Master， 1982)。表4显示分项量表各个维度的加权均方拟合值均在合理范围(0.94— 1.02)，且|Z|<2，这表明量表没有冗余的分项，所设置的三个分项代表了新闻编译能力的不同维度，共同测量了新闻编译能力这一构念。将考生在不同维度上的分数相加作为对考生新闻编译能力的考察是合理的。第二，分项的度量值越高，其难度越高，评分员对该项的评分越严厉，考生在该项上越难得到分数，这里编辑分项的难度最高，语言分项难度最低，这与编译子能力的特点和编译方向有关：编辑能力是编译者特有的核心子能力，因此评分员可能会更重视该能力，在评价时更严厉；而且，编辑能力是考生在具备一定的理解能力之后才发展起来的能力。此外，英汉方向的编译对于母语为汉语的考生而言，语言表达的难度一般低于内容理解的难度。第三，该表底部的分隔比率(2.48)、分隔信度(0.86) 和卡方检验结果(卡方值21.2，p=0.00)表明三个分项之间的难度具有统计意义上的显著差异。

表4. 评分分项的合理性

表5. 整体量表评分员与考生的偏差分析表

4) 评分量表层面

本层面重点考察整体量表和分项量表各分项下所有分数段的使用情况(见表5)。第一，从各分数段的使用频次来看，各表第一列显示，三位评分员在使用所有量表时都未使用最低分，这可能与考生层次有关：所有测试对象均接受过系统的翻译训练，具备一定的翻译能力，有一半的考生上过新闻编译课或者进行过编译实习，其他考生在考前都接受了编译培训，因此考生能力均在1级以上。但是，达到专家级水平对考生提出了极高的要求，因此整体量表下没有评分员给出9分最高分。各表第三列显示，整体量表下的中间分数段4、5、6级使用次数最多。分项量表下也是3、4中间分数段使用较多。

第二，分数段与考生能力的对应情况还要参考未加权均方拟合度(Outfit MnSq)这一重要指标。实际观测到的考生平均度量值和模型预测度量值越接近，Outfit值越接近理想值1。若该值大于2，表明给评分过程带来噪音，可能无法正确反映考生能力(Linacre， 1999： 103-122)。数据显示，整体量表下绝大多数分数段的Outfit值接近1，所有分数段的Outfit均值为0.96；内容分量表的Outfit均值为0.90，编辑和语言量表均值为1，情况较理想。另外，考生能力越高，得分也应越高，所有量表的各分数段上实测考生能力平均度量值和模型预测度量值呈单调递增趋势，这说明每个分数段均体现了考生相应的能力。

第三，表格最右列为阶标定值(step calibration)，即各分数段的起始值，该值也应呈单调递增趋势，而且各分数的起始值应该具备足够的间隔来区分考生能力。间隔应该在1—5个洛基值之间(Linacre， 2002a： 85-106)或1.4—5个洛基值之间(Bond & Fox， 2007： 224)。如果间隔过小，就要合并分数段或者修改评分量表。这里各量表各分数段的阶梯标定值呈单调递增趋势，且各分数段之间的间隔均在合理范围之内，具备足够的区分考生能力的分隔间距，这说明评分员能较一致的正确利用各个等级分数段来区分考生能力。

第四，概率曲线图能直观的观察各等级的使用情况。每个波形代表一个分值(等级)，应该有一个相对独立且有一定间隔的峰尖，像一座分布均匀的小山峰，每个分值对应一个明显的能力区域，两个波形的交点是相邻两个分值的临界点，该区域内的考生更容易获得该分值(Park， 2004： 15)。整体量表和三个分项的分数段概率曲线图显示，两量表的各个分数段都有独立的峰尖及明显的考核区域，能区分不同水平考生的能力。

5) 偏差分析

偏差分析能为我们提供更多的诊断信息，通过观察t值的大小，可以判断评分员是否对某些考生或者在使用某些分项时过于宽松或严厉，与模型预期不符。偏差分析一般处理显著偏差(|t|大于2)，显著偏差占所有项目的比例在5%左右是可接受的范围(McNamara， 1996)。笔者分别检验了两个量表下评分员与考生之间的交互以及分项量表下评分员与评分分项之间的交互。首先来看评分员与考生之间的交互作用。由于篇幅有限，仅列出存在显著偏差的数据。表6为整体量表下评分员与考生的偏差分析，三位评分员与60名考生共产生180对交互组合，其中显著交互组合(|t|>2)共5对(3%)，其中有3对所涉及到的考生为考生层面非拟合的考生(8号、16号、2号)，这说明评分员在评判这些考生的译稿时产生了偏见，另外两位考生不拟合可能与考生自身的作答情况不一致有关。分项量表下的180对交互组合中无显著交互组合。因此，从评分员与考生交互结果来看，分项量表的质量更高。分项量表增加了考察的维度，从而减少了影响评分员评分的干扰因素，可能出现的偏差更少。其次来看评分员与评分分项之间的交互。三位评分员与三个评分分项共产生9对交互组合，t值均在合理范围内，未出现显著交互组合，这说明分项量表中各个分项的描述清晰合理，评分员能正确使用各个分项。

表5. 两量表各分数段使用情况

四、结语

本文依据新闻编译能力模型，尝试研发新闻编译整体评分量表和分项评分量表，并运用多面Rasch模型对两个量表的质量进行效度验证，研究结果如下： (1) 考生成绩与模型预期较好，除有个别不拟合考生外，其他所有层面上各个体的拟合统计量均在合理范围之内；两量表下的考生能力之间存在显著差异，评分员均能较好地使用量表将不同能力的考生区分开来，但分项量表下考生之间的差异更大。(2) 整体量表下的评分员之间的严厉度有显著差异，而分项量表下则无显著差异，评分员在使用分项量表评分时能保持较好的一致性。(3) 三个评分分项之间难度值存在差异，但跨度值仅有1个洛基值。分数段统计各指标数据均显示两个量表的等级设置较合理。三位评分员在使用量表对考生译稿打分时，基本能够准确使用各分数段，但分项量表下最低分数段使用较少，有待增加考生样本量进一步考察。(4) 偏差分析结果显示，整体量表下评分员与考生之间有显著交互；分项量表下评分员与考生、评分员与评分分项之间均无显著交互。

整体而言，两个评分量表具备较高的效度，质量较好。相比而言，分项量表的质量要优于整体量表。研究结果对评价或诊断学生的编译能力，行业准入以及资格评定，媒体单位选拔编译人才等具有一定的启示意义。未来研究可从以下方面着手：增加评分员和考生样本量以收集更多数据，继续研发汉英方向编译分项评分表量表，并综合利用经典测试理论、概化理论和项目反应理论从不同视角验证量表的效度，对比其有效性。