关于高考议论文评分标准的新构想

2016-06-05纪荣海

中国考试 2016年10期

纪荣海李军

关于高考议论文评分标准的新构想

纪荣海李军

本文从理论分析和评分经验两方面探讨高考议论文评分标准，提出不分“基础等级”“发展等级”，采用小评分量表分项评分，分项采用4等级评分的框架建议；提出高考议论文评分量表新的构想，评分指标包括“观点符合题意、明确”“论据有效、充分”“论证有效，具体深入”“结构合理完整，层次分明”“语言准确通顺，严密得体”“符合逻辑，有说服力”；分项评分采用0～3等级评分，体现评分的层次性，0代表无或不对，关乎对不对的问题，1、2、3分别代表一般、中、好，关乎好不好的问题；评分操作借鉴全国中学教师资格考试面试的评分办法，只要在“评分”栏输入0～3分，系统便会自动生成总分，可操作性强。

高考；高考作文；评分标准

1 问题的提出

早在1998年，刘远我和张厚粲教授就得出作文评分的实验比较研究结果：“在作文评分中，评分员效应最大，题目效应不明显。同时还发现，不同文体对评分误差有重要影响，议论文的评分误差最大。在作文能力的三要素中，以内容的评分误差最大，结构的评分误差最小。”[1]从该研究结果来看，作文评分存在评分员效应大、议论文评分误差大、内容评分误差大三个比较突出的问题。

经过近20年的努力，这三个问题仍未得到很好的解决，评分的有效性、可靠性仍有待提高。“现有的作文考查对写作能力进行了分项化的设计。即在对作文的评分参考中设计了‘基础等级’和‘发展等级’，对‘内容’‘表达’包含写作特点在内的‘发展等级’进行了分项设计。分项的内容既是考查的目标，又是评判的依据。但这种分级分等的评分方式并没有对记叙、议论、抒情等文体进行具体区分，也难以清晰指出考生在‘内容’‘表达’和‘发展等级’中的具体表现，考查目标设计略显模糊，在一定程度上影响考查的效度。”[2]

从目前评分的现状来看，效果确实不尽如人意，严重点甚至可以说有些混乱。要解决作文评分存在的问题，有必要重新审视高考作文评分标准，特别是评分标准项目内容的设计及其比例，改进目前的评分标准，特别是议论文的评分标准。

2 问题的分析

评分员效应包括评分员之间效应和评分员自身效应。评分员之间效应指评分员之间评分存在差异，在相同时段对同一作文或同一水平作文的评分不一致，从而导致评分误差；评分员自身效应指评分员自身评分不稳定，在不同时段对同一作文或同一水平作文的评分出现前后不一致，从而导致评分误差。评分员效应产生的原因，主要来自两个方面，一是评分员的学养、业务水平、兴趣爱好、工作态度等，二是考生答卷的书写情况、出现位置等。评分员效应比题目效应大，主要原因在于评分员评卷是相对独立自由的，其主观倾向较难控制，而试题特别是规范合格的试题是集体智慧的结晶，是命题人达成一定共识后的产物，会尽量抹去命题人的个人主观色彩，是相对客观公平的。

议论文评分误差比记叙文、说明文大，除了评分员效应外，其主要原因可能在于评分标准项目内容的设计不合理。因为从文章的呈现结果来看，说明文最客观，评分误差应该最小；记叙文比议论文含蓄、丰富多样，评分的主观性和误差本来应该更大。但是，因为目前高考作文评分标准项目内容的设计总体倾向于记叙文，对议论文的标准不清晰，从而导致议论文的评分误差比记叙文要大。

此外，从评分的维度来说，内容维度比语言、结构维度的评分误差大。原因在于结构和语言相对而言比较稳定，也比较容易辨析，而对内容的辨析往往会受到评分员个人理解、思维定势、个人喜好等的影响，出现差异的可能性大大增加。

从上面的分析可以看出，产生评分误差三大问题的核心主要来自评分员和评分标准，试题的影响较小。因而，要减少议论文的评分误差，需要控制评分员效应，改进评分标准，同时也不能忽视试题的质量。

2.1 关于试题

试题效应虽然不明显，但它是系统误差的主要来源之一，会影响测试的内容效度和评分员效应的产生。试题命制是测试的起点和评分的基础，因此试题的命制理应科学合理。理想状态的试题首先要指向明确、要求具体。这样，考生写作才有一个相对明确的方向，才能尽量减少非写作因素带来的干扰，考生表现出来的才可能是最接近真实的写作能力，才能减少系统误差。其次，试题要求应侧重于怎么写，重点考查考生的思维与表达能力，这样才能突出写作测试的特点，同时尽量减少内容方面评分不一致所带来的测量误差。再次，可以考虑采用分解与综合相结合，甚至多题短文的考查方式，可以尝试议论文局部写作的考查，比如论题阐述、论点证明、论点反驳、论据选用、论证展开、段落修改等的考查。分解、局部考查篇幅小、赋分少，比较容易达到评分的一致性，降低评分员效应，减少评分误差。

2.2 关于评分标准

要减少议论文的评分误差，控制评分员效应，评分标准制订是至关重要的中间环节，评分标准连接试题与评分员、考生与评分员，使试题的测试评价功能得以实现，考生的写作能力得以甄别与衡量。目前高考存在既要考查写作能力，但又存在评分误差较大的问题；既要侧重考查议论文的写作能力，但议论文相比其他文体又存在评分误差较大的问题。有学者因此建议高考作文评分应减少内容方面的权重，高考作文不要考查议论文写作，等等。从高校对学生的要求来看，高校希望选拔出的应该是有独立思考能力、具有理性思维能力的人，不考议论文不符合人才选拔要求。

我国高考现行的作文评分标准由分级分项分等评分构成，从构架来看，称得上是相当复杂的，既有基础等级和发展等级的划分，又有内容、表达和特征（针对发展等级而言）从一等到四等的划分；内容方面的指标又包括题意、中心、内容、思想和感情。但该分级分项分等评分标准，是一个通用的评分标准，没有针对不同文体的评价指标，内容方面的指标客观性、针对性、可靠性不强，操作性和区分能力也不尽如人意。

针对目前高考作文评分标准存在的不足，制订针对议论文的评分标准，需要重新审视和思考分析以下几个问题。

2.2.1 基础等级和发展等级

自2000年起，我国高考作文开始采用分级分项分等评分，即在原有分项分等评分的基础上，增加“基础等级”“发展等级”的分级评分。设立“发展等级”，对鼓励学生创新和有个性地表达确实具有推动意义，但也给中学作文教学带来一定的负面影响，重“发展”轻“基础”，重“个性”轻“共性”，重“创新”轻“规范”，分级有人为割裂和依据不足之嫌，笔者坚持不宜分级的看法。

从作文评分的现状来看，不少评分员对“发展等级”的给分，要么因为认为“发展等级”高不可攀而不轻易给分，要么心怀仁慈普遍给分，导致评分员效应大；此外，大多数评分员往往对相对显性的“有文采”“有创新”情有独钟，而对相对隐性的“深刻”“丰富”关注不足，更为严重的是对议论文的逻辑性与严密性缺乏关注，给议论文的写作教学带来负面影响。

2.2.2 整体评分和分项评分

1991年之前，我国高考作文采用整体评分法。1991年之后，开始尝试分项评分法并沿用至今。这一变化是基于20世纪80年代末90年代初的实证研究，当时的实验研究结果表明：在跨时间稳定性方面，分项评分法有一定优势；经过培训后，分项评分法在控制系统误差方面略有优势；区分能力方面，分项评分法对于质量差的作文较难打低分[3]。

从理论上来看，分项评分法分项维度单一、易于掌握，相对客观、稳定，一定程度上控制了评分员评分的主观随意性，评分误差也会相对缩小，而且可以为考生提供具体的诊断结果，可以甄别出考生不同方面的长处或短处，综合而言比整体评分法更合理、可靠、有效。因此分项评分法被广泛采用。

2.2.3 大评分量表和小评分量表

国外写作测试，通常采用小评分量表。有学者研究结果显示：“写作分值设置的越大，每一分数等级对应的分值越多，评分工作的难度就越大，评分的准确性也会相应地受到影响。”[4]此外，采用大评分量表（比如目前我国高考的60分制），评分往往集中在30～50分，该给高分的不舍得给，该给低分甚至零分的不敢给，出现真空分数段，导致趋中现象加剧，误差加大，评分的有效性和公平性受到较大伤害。

采用小评分量表，1个等级就是1分，不管是6级还是9级评分量表，评分都比较容易操作，出现真空分数段的可能性比较小，对考生写作能力能进行比较有效的区分。有人可能会说，大评分量表提供的分数区间更大，区分能力应该更大；而小评分量表评的是等级分，获同一等级分的水平不一定相同，小评分量表的评分误差比大评分量表大。大评分量表虽然提供了较大的评分区间，但是很难确定54分的写作能力就一定比53分的高，很难解释52分的写作能力与53分的区别在哪里。小评分量表虽然模糊了同一等级内分与分之间的区别，但级与级之间的区别是相对可靠、有效的。小评分量表抓大放小，是符合写作实际的，我们对写作能力与水平的评价确实是很难以1分或几分之差来甄别的，或者说以1分或几分之差来甄别写作能力与水平是不科学、不合理的。

2.2.4 偶数等级评分和奇数等级评分

采用奇数等级（如7等级或5等级）评分，可能加大评分趋中的倾向，因为评分员不管是有意还是无意，都很有可能将居中等级（如4等级或3等级）作为评分的基准等级，由此上下浮动进行评分，评分结果可能集中在居中等级附近。而采用偶数等级（如6等级或4等级）评分，居中的等级不可能是某一个等级，而是相邻的两个等级，正常情况下的评分可以减少趋中的倾向。目前我国高考作文采用4等级评分，应该是比较合理、可靠的。

2.3 关于评分员

产生评分员效应的主要原因在于：不同评分员的业务水平、兴趣爱好、思维习惯、性别性格、学历职称、责任态度等不同；评分员自身不同时段的生理状况、精神状况、评分对象、评分环境等不同。要控制评分员效应，从评分员的角度来看，一要加强评分员的学习培训，强化评分员的责任意识，开阔评分员的业务视野，提高其业务水平，努力达成对评分标准的最大共识，以尽量提高评分的一致性；二要大幅度提高评分员的待遇，遴选好评分员队伍并保持相对稳定，以减少随机误差；三要大幅度延长评分员的评卷时间，努力解决评卷因赶进度而人为趋中的问题，以提高评卷的信度。

3 建议与构想

综上所述，现行的高考作文评分标准难以很好地测量出考生真实的写作能力，主要原因在于评价指标不能很好地体现针对不同文体的要求和特点，因此建议制订可能考核的各种文体的评分标准，以提高评分的针对性和有效性。

高考议论文评分标准的制订，建议采用如下框架：不分“基础等级”“发展等级”，采用小评分量表（4分）分项评分，分项从“观点符合题意、明确”“论据有效、充分”“论证有效，具体深入”“结构合理完整，层次分明”“语言准确通顺、严密得体”“符合逻辑，有说服力”6方面要求。这些指标都是议论文必须达到的共同要求，既关注局部又重视整体，而且都包含“对不对”“好不好”两个层次。第一，观点必须“符合题意”，否则再明确也不一定有用，“符合题意”关乎对不对的问题，“明确”关乎好不好的问题；第二，论据要能为论点服务，要先确保“有效”，然后再追求“充分”；第三，论证要先确保能“有效”阐述和证明论点，然后再追求“具体深入”；第四，结构要先“合理完整”，然后再追求“层次分明”；第五，语言要先“准确通顺”，再求“严密得体”；第六，全文内容和形式都要“符合逻辑”，再求“有说服力”。分项的具体指标赋予权重，根据议论文的特点和要求，以及SOLO分类理论的研究结果，评分突出思维与表达能力的考查，关注思维的深度和复杂度、表达的严密和逻辑性，因此在“论证有效，具体深入”“语言准确通顺、严密得体”“符合逻辑，有说服力”等方面赋予较大的权重。具体评分量表设计见表1。

表1 高考议论文评分量表

该评分量表，满分60分。分项评分采用0～3等级评分，而不采用1～4等级评分，目的在于体现评分的层次性，0代表无或不对，关乎对不对的问题，1、2、3分别代表一般、中、好，关乎好不好的问题。具体评分操作与目前高考评卷有所不同，借鉴全国中学教师资格考试面试评分方法，只要在“评分”栏中输入0～3分，系统便会自动生成总分，可操作性强。

以上建议与构想主要依据理论分析和评分经验，无论是框架的设想，还是评分要素的选择及其权重的确定，其科学性、合理性、可行性都还有待进一步研究，特别是需要实验研究的验证。

[1]刘远我，张厚粲.概化理论在作文评分中的应用研究[J].心理学报，1998（2）:211.

[2]张开.守正出新稳步进取——2014年全国高考作文命题情况分析[J].语文学习，2014（7-8）:12.

[3]章熊.中国当代写作与阅读测试[M].成都:四川教育出版社，2000:249-253.

[4]陈睿.国内外写作评分量表的对比研究[J].考试研究，2011（6）: 61-62.

（责任编辑：陈宁）

恢复高考40周年专栏征稿

2017年是恢复高考制度40周年。回顾高考40年来走过的历程，思考和展望高考发展和改革的未来，不仅具有历史意义，而且具有很重要的现实意义，对推动考试招生制度改革具有借鉴和参考意义。

本刊拟从2017年第1期开始，在全年12期设置“恢复高考40周年”专栏。内容围绕高考科目改革、考试内容和命题思路改革、招生体制和招生方式改革、考试技术及手段改革等展开讨论。现诚征专栏文章，稿件要求如下：

1.稿件应有一定的学术水平和实践价值，且未在其他刊物发表过。字数以5 000～10 000字为宜。

2.稿件请附中英文对照的标题和摘要。摘要提供的信息应能客观反映论文主要内容，中文摘要字数以300字以内为宜。

3.稿件请附3～6个能反映论文主题和中心内容的中英文对照的关键词。

4.稿件的参考文献一律置于文末，并按照GB/T 7714—2015《信息与文献参考文献著录规则》著录。正文中引用的文献的标注方法采用顺序编码制。

5.稿件请附作者简介，主要内容有：姓名、性别、工作单位与部门、职称/职务、研究方向、所在地邮政区及邮政编码、联系方式（电话及邮箱）。

6.稿件研究内容如获得课题或基金资助，请注明其名称及项目号。

7.请将稿件电子版发至征稿专用邮箱cexam@mail. neea.edu.cn，邮件主题为“恢复高考40周年专栏—第一作者姓名”。

8.投稿截止时间为2016年11月30日。

New Ideas for Scoring Argumentative Writing for the College Entrance Examination

JI Ronghai&LI Jun

From both the theoretical and practical perspective,this study explores issues on the scoring criteria of argumentative writing for the College Entrance Examination and suggests the use of a simple analytic scoring scale involving four levels rather than a complicated scale involving not only“basic levels”but also“developmental levels”.The scoring descriptors include“relevant and clear claims”,“valid and adequate evidence”,“effective, detailed and in-depth reasoning”,“sound,complete and hierarchical structure”,“accurate,smooth,rigorous and decent language”and“logic and persuasive argument”.The scale ranks performance at levels 0-3.While 0 represents no writing or a wrong response,concerning right or wrong,1,2 and 3 represent average,fair and good respectively,concerning good or poor.As soon as the analytical scores are inputted into the computer,a total score is automatically generated,and this has proved to be very practical and reliable in the oral interview for the National Teacher Certification Examination.

College Entrance Examination;Writing for the College Entrance Examination;Scoring Rubrics

G405

1005-8427（2016）10-0020-5

本文系福建省中小学教师发展基金立项课题“SOLO分类理论在高考作文不同文体评分标准中的应用”（课题编号：FZJJ20130500413）的研究成果之一。

纪荣海，男，福建省泉州市教科所，中学高级教师（福建泉州 362000）

李军，女，福建省泉州市培元中学，中学高级教师（福建泉州 362000）