商务英语阅读能力等级量表构建方法与原则

2023-09-21祝爱华

天津中德应用技术大学学报 2023年3期

摘要：新经济的蓬勃发展催生了跨境电商，为满足国际化的商务环境，众多院校开设了商务英语专业，旨在培养复合型国际化外语人才。然而现有的教学存在目标模糊，课堂随意，评价缺失的情况。尽管中国英语能力等级量表已经颁布，但却是通用英语能力研发的，并不适合商务英语能力评价。构建指导性的商务英语量表迫在眉睫。商务英语阅读能力量表作为一个子表在内容上要以语言知识与能力为核心，同时涵盖专业商务知识与能力与通用知识与运用；要从就业市场、教学、考试大纲以及其他量表综合渠道收集阅读能力描述语；从教师学生专家三个方面调查数据进行等级分类，并验证确定等级；初步完成量表后试点使用收集即时效度证据，以此为基础对量表进行修订。

关键词：商务英语阅读能力等级量表；测试内容；描述语；等级锚定；即时效度

中图分类号：H319.3 文献标识码：A 文章编号：2096-3769（2023）03-048-05

收稿日期：2022-12-13

作者简介：祝爱华（1982），女，博士研究生在读，副教授，研究方向为语言测试学。

本文为广州工商学院2021年度质量工程项目“商务英语阅读能力等级量表开发与验证”（项目编号：ZL20211145）和广州工商学院2022年度质量工程建设项目“综合英语课程教研室”（项目编号：ZL20221009）项目的研究成果。

一、前言

自我国加入WTO 以来，一直是机遇与挑战并存，改革开放使中国走向了世界，“一带一路”倡议使我国又迈上了新的台阶。蓬勃发展的新经济对人才提出了更高的要求。2018年教育部吴岩司长提出全面推进“新工科、新医科、新农科、新文科”等建设，形成覆盖全部学科门类的中国特色、世界水平的一流本科专业集群。为了推动新文科建设，教育部颁发了《商务英语指南》，该指南由教育部高等学校外国语言文学类专业教学指导委员会英语专业教学指导分委员会制定。该指南为推动我国商务英语专业发展，人才与市场对接起了重要作用。然而，指南作为纲领性文件对英语能力做了宏观上的规定，但并未细化。商务英语在财经类、外语类、师范类等多种院校均有开设。但教学状态却目标模糊，课堂随意，评价体系缺失，严重桎梏了该专业的进一步发展。

二、研究背景

在互联网+商务环境中，不同语言技能的使用频率并非相同。商品手册、合同、函电、网站商品信息、电子化邮件等成为了互联网时代主要的商务沟通方式和内容，以阅读和写作为主的书面交际能力则成为了所需主要技能。根据最新的大数据调查显示：商务英语专业人才英语技能要求依次为阅读、口语、听力、外贸函电、写作与翻译，其中阅读技能是所有岗位类别都做了要求[1]。因此，阅读技能是最基础的技能，提高阅读能力就是提升信息获取的效率和准确性。在数字时代，如何评价学生的商务阅读能力，目前我国并没有相关的量表可以采用。尽管2018年颁布的中国英语能力等级量表具有一定的参考作用，但是其主要面对的是英语作为通用目（EGP）的而开发的。商务英语是专门用途英语（ESP）的一个分支，是职场英语的一种，在语义、语法语用等方面有其专属特征，是商务学科知识、英语语言知识、商务实践知识以及跨文化交际知识等的有机融合[2]。以现有的中国英语能力等级量表（CSE）来测量商务英语会有所偏颇，关键能力和核心知识将无法测试。因此，专家呼吁构建新的专门用途能力量表[3]。目前我国并没有颁布商务英语能力等级量表，但是有学者从理论方法上进行了尝试，如孔文提出了基于培生集团的全球英语能力等级量表（Global English Scales）构建商务英语能力等级量表的思路，尤其是描述语的来源上，借鉴其从O*NET职场数据库和GSE工作档案库的GSEPE描述语的研制方法[4]。此外，孔文还以商务英语口语能力等级量表开发为例，阐述了商务英语能力理论模型如何从横向参数框架与纵向典型特征系统两个维度进行构建[5]。然而鲜有学者关注商务英语阅读能力量表的开发与验证。本研究基于量表开发的一般过程对商务英语阅读能力量表开发方法和原则进行说明。

三、商务英语量表開发的原则与方法

North论述了CEFR 的开发过程：第一步，构建描述语库，初步确定范围与等级，通过教师工作坊对此进行验证。第二步，数据收集与纠正，以RASCH模型锚定等级[6]。商务英语量表的开发与验证方法可以借鉴通用英语量表的方法。周艳琼、刘建达给专门用途语言能力等级量表提出了以下建议，第一，要明确量表开发目的，其适应对象是谁；第二，确定量表的能力框架，除了核心的语言知识之外还有哪些能力和知识；第三，确定量表的描述体系，专门用途语言能力等级量表的描述体系根据所属领域或开发的不同存在差异，开发者根据开发目的，适应领域、潜在用户等因素来确定；第四，描述语库的建立，采用“能做”表述语，用文献法、采样法、实证法以及撰写法收集描述语，保证描述语的可读性、可理解性、清晰性和规范性；第五，描述语的分类与分级，主要通过专家定性分析和问卷调查定量验证。量表的开发过程是模型构建与验证的过程。验证其开发的目的性和使用效果。量表验证不是一个单独的阶段，而是一个贯穿始终的行为。朱正才认为量表开发根据时间进程可以分为能力构念阶段、量表编制阶段、量表应用阶段和社会反响调查阶段，并列出来每个阶段的效度类型、效度证据及效度研究方法和范式[8]。基于以上理论，本研究认为商务英语阅读能力等级量表的开发包含五个步骤：内容选定（能力构念）、量表描述语库的建立、等级划分与效度验证、量表使用效度初步验证、量表的修订。

1.量表的内容选择

商务英语阅读能力等级量表内容的选定需要明确测试对象。根据对象量体裁衣。不同于中国英语能力等级量表及CEFR，我国商务英语主要开设院校为高等学校，学生通过高考，语言能力起点较高，因此阅读能力内容的选择应该适合高校学生，而非零起点。其次，商务英语阅读知识体系的构建。《普通高等学校本科商务英语专业教学指南》（以下简称《指南》）将复合型商务英语人才定义为具有扎实的英语基本功，且同时具备相关的商务专业知识、较强的跨文化能力商务沟通能力和创新创业能力的人才，因此其核心能力语言、文学、文化知识，外围能力是专业知识如商务知识，国别与区域知识，汉语知识，最外围则是通用知识如国际政治、外交、传播、数理统计、信息技术知识等[9]。《指南》明确了商务英语专业的5个主要方向：国际商务、国际贸易、国际会计、国际金融和跨境电子商务。此外，《指南》提出了七种专业核心能力，商务英语运用能力、跨文化交际能力、思辨能力、量化思维能力、数字化信息素养、终生学习和实践能力。其中与阅读相关的能力包括英语运用能力，能准确理解书面语中的信息、观点；思辨能力，能尊重事实、理性批判，公正评价，追求真理，反思个人思维过程；量化思维能力，能准确判断和科学评价国际商务环境中的各种影响因素，能理解图形、表格和数据以及一切视觉化呈现的资料，并对其进行分析归纳、整合评价，具备大数据分析能力。阅读从传统的读文字延伸到读图，读数据。

因此，开发量表第一步是对主要使用对象的能力及水平有明确的认知。在构建商务英语阅读描述体系的时候，应考虑到商务英语不同方向能力需求，不同知识与能力维度比例及权重，不同的理解水平层次三方面因素。量表在设计内容上除了要考虑书面文字的理解还应将图表的阅读和理解纳入考察内容。

2.描述语库的建立

在构建描述语库和等级之前，开发者需理解量表或测试开发的目的和使用语境，基于此，再决定如何选择量表的来源使其更具概括性，准确定和测试后预测的精确性。描述语不是凭空而来，描述语库建立主要方法有文献法、采样法、实证法和撰写法[10]。文献法指的是对现有课程纲要，教学指南，考试等级，社会人才招聘要求等不断思考总结收集而来，如CEFR，其来源主要是考试大纲，教学大学[11]，中国英语能力等级框架则借鉴了CEFR。实地采样法则是转述教师对学生的评价语言和社会人士对人才英语能力的描述。独立撰写则是请专家和有经验并经过培训的教师根据他们对阅读能力的理解和对学生能力的评价独立撰写描述语；实证法指的是已有社会需求调查数据和相关媒体报道：对英语人才的需求、标准、评价等[12]。

商务英语阅读能力量表的开发离不开对其他量表、大纲、指南等文献的借鉴，也离不开教师的观察理解。但是商务英语阅读能力等级量表仅以教学资源为来源库有失偏颇，原因为商务英语专业的设置是服务于中国社会经济发展需求的，具有特定的社会语境。因此，商务英语阅读能力等级量表的描述语还应以中国市场商务英语核心能力调研为基础，通过国内外相关行业广告收集描述语，借鉴培生集团的全球英语能力等级框架（Global English Scale）的做法，从行业需求描述入手。此外，人才白皮书、《指南》等指导性文件都是重要的描述语来源。

在描述语的收集过程中，哪些描述语可以入库哪些应摒弃，需要通过专家、教师进行判断。因此，在描述语收集与改写过程中主要采用专家定性分析方法对描述语的有效性和规范性进行验证。此外，描述语还应考虑可读性和理解性，这个验证过程则需要通过调查问卷进行，调查学生对描述语的感受和认知。除此之外，描述语的偏差研究也是其验证的重要方式。朱正才等分析了中国英语能力等级量表的描述语偏差，认为描述语偏差变量包含性别、地域和民族，并对存在偏差的描述语进行了语义分析，对偏差成因进行了初步归纳[13]，为描述语的验证和修改提供了参考范式。

3.等级的划分与验证

等级的锚定要考虑到量表的颗粒度。CEFR分为七级，中国英语能力等级量表分为九级，二者的起点均为零。所以量表的等级取决于被测者能力范围。量表的等级越多说明颗粒度越细小，但不是颗粒度越细小就说明量表越精细越好。因为要达到对每个等级语言能力的精确描述，每个等级的描述语都要一定量且具有区分度。精度越高则需要的区分性描述语数量越大，等级越多。各等级的描述语需描述该等级典型的语言行为，并能做到有效区分评价对象，等级过多会增加区分难度，如未能有效区分，等级则失去意义。

如何锚定量表等级，Fulcher提出了类似扎根理论式的方法构建量表等级。该方法观察学生口语表现以此为基础构建口语量表，并对此进行了信度检验，其指数达0.9；用ANOVA对组别差异进行了检验，证明该量表能有效区分不同组别[14]。Fulcher认为这种基于数据驱动的方法不同于主要依靠专家判断的传统定级方法，该方法避免了锚定级别的任意性。在确定级别前进行定性定量分析比确定级别后进行验证信度更高。但该方法在样本抽取时受到一定限制。首先，样本大小方面，如果样本太大抽取相关区分特征具有一定的难度。Fulcher使用了21个样本，代表了5种不同口语层次水平。但在制定大型量表时这种方法不可取，原因为抽样选择的样本数大且层次不一，无法按照此方法一一区分。其次，语言能力量表，仅从学生角度区分并不全面，量表测试的是学生应达到的水平，而不是对学生已有水平进行等级分类，所以量表等级的确定应考虑权威专家及一线教师的意见。因此，不少学者采用传统方法先定级后验证。中国英语能力等级量表的编制方法与步骤采用的便是这种方法，不同的是，在量表等级确定前，综合调查的数据不仅仅是专家还有教师和学生的意见。因此商务英语阅读能力等级量表也可以参照此方法。首先，从专家、教师、学生三个方面进行调查问卷获取相关数据，问卷之间实施横向和纵向等值处理，对调查问卷的结果进行各种统计分析，然后借助RASCH模型等统计手段确定临界值，锚定各个等级，对分级结果进行验证并最终等级确定。由于商务英语学生非英语零起点，对于大部分的量表五级是一个比较合理的尺度。因此，商务英语阅读能力等级可以此为参考进行初步构建。

4.量表即时效度的验证

在量表初步完成等级锚定之后，需要对其使用效度进行检验，该等级是否能够有效测试设计者想要测试的构念。量表设计的预期是能够最大限度融入外语教学体系，与教学、测试形成一个完整的体系，以此推动外语教学、测试与学习的协同发展。已发布的量表发挥顶层设计的纲领性作用，为教学和测试提供标准，而教学与测亦可可推动量表的改进与完善[16]。对于小规模量表或外语学习某个方向的量表其验证方式与官方发布的量表同中存异。量表开发完成后的研究重点是量表的即时效度。商务英语能力量表完成后需要对其应用进行调查。可以通过试点使用进行验证，一方面，研究该量表在教学计划、教学过程、测试设计中的指导作用，以教师为调查对象收集量表的效度证据；另一方面，以学生为对象，以量表作为自我评价的参考以及学习中的目标标尺，调查量表在学生自我诊断评价中的作用以及量表对学习的支架作用和反拨效用。从时间维度上来看，虽然这个阶段的效度证据属于“延时效度证据”，但是能够为量表是否进一步实施或颁布提供决策依据。

5.量表的修订

一个好的量表应该是经得起理论和实验验证的，具有灵活性和开放性[21]。语言能力量表的修订是一个必经过程。首先，在量表颁布后较短时间内，在各利益相关者的使用过程中，会呈现出量表使用效度方面存在的问题。从使用者收集的反馈能作为使用效度证据，以此促使语言能力量表的修正。其次，在量表颁布较长时间后，随着时间的推移和社会文化的发展，其使用效度也會产生效度磨损，也需要适时进行修订。总之，量表的修订是一个不断发现问题与修正的过程。如CEFR在2018年根据十几年的验证发现存在的问题进行了增补与部分修正。因此，商务英语阅读能力量表的修正也需要基于效度验证反馈产生的证据，修改不足之处完成最后的拟定。

四、總结

中国英语能力等级量表是针对英语作为通用语言能力水平而开发设计的，在商务英语能力测试方面有所欠缺。学者呼吁开发专门用途英语（ESP）能力等级量表以补充中国英语能力等级量表的不足。商务英语本科教学在我国的发展已有十余年历史，目前全国众多院校开设了该专业，是英语教育的重要分支，是培养复合型外语人才的新思路。开发商务英语能力等级量表是ESP量表的重要部分。在互联网时代，商务环境数字化，虚拟化，贸易与商务沟通以电子文本沟通为主，因此阅读能力被凸显。构建商务英语阅读能力量表要考虑到五个方面的内容，核心的语言知识，专业知识和通用知识；描述语库的建立应考虑到学生的就业需求，因此可以从招聘广告、人才白皮书，课程教学大纲，考试大纲，其他量表等方面选取相关能力描述；等级划分和验证在对学生、教师、专家调研的基础上确立等级然后进行验证，形成初步量表；在完成量表的初步开发与验证后进行试验点应用，测试其延后效度为量表的进一步完善提供效度证据，在此基础上对量表进行修改，完成第一轮闭合。量表开发的最终目的是实现在教育领域内的增值：提升教学效力和学习效果，提升考试规范性和公平性。然而科学公平的量表并一定能实现公平的测试，因此在量表的使用后效中，研究者应考虑使用规范的研究，教学管理者应加强规范性培训，使量表价值充分发挥。

参考文献：

[1]钟富强.商务英语专业人才社会需求大数据分析研究[J].职业技术，2021，20（11）： 96-102.

[2]王丽，范劲松.国外商务英语能力等级量表研究述评[J].解放军外国语学院学报，2017， 40（05）： 102-109.

[3]刘建达.教育评价改革背景下完善《中国英语能力等级量表》的思考[J]中国考试， 2021（09）： 8-12.

[4]孔文，李迪.《全球职场英语能力量表》的研制及其启示[J].北京第二外国语学院学报，2020，42（05）：57-70.

[5]孔文，李清华.商务英语口语能力等级量表的理论模型构建[J].外语界，2020（03）： 61-69.

[6]North B. The development of a common framework scale of language proficiency：卷8[M]. Peter Lang Pub Incorporated，2000.

[7]周艳琼，刘建达.专门用途语言能力等级量表的研制[J].外国语（上海外国语大学学报），2021，44（04）：33-41.

[8]朱正才.中国英语能力等级量表效度研究框架[J].中国考试，2016（8）：3.

[9]王立非，宋海玲.新文科指引下的复合型商务英语人才培养理念与路径[J].外语界，2021（05）： 33-40.

[10]刘建达，吴莎.中国英语能力等级量表研究[Z].北京：高等教育出版社，2019.

[11]Multilingualism and assessment： achieving transparency， assuring quality， sustaining diversity： proceedings of the ALTE Berlin Conference， May 2005[M]. Cambridge;NewYork：Cambridge University Press，2008.

[12]张文星，邓华.中国英语能力等级量表的研制——以写作能力量表描述语库为例[J].外语测试与教学，2019（04）：1-10+39.

[13]朱正才，李俊敏.《中国英语能力等级量表》描述语偏差研究[J].现代外语，2021，44（01）：113-122.

[14]Fulcher G. Does thick description lead to smart tests？ A data-based approach to rating scale construction[J]. Language Testing，1996，13（2）：208-238.

[15]金艳，揭薇.语言能力量表的应用与后效研究——以CSE口语量表为例[J].外语界， 2020（03）：52-60.

Methods and Principles of Constructing Business

English Reading Proficiency Scales

ZHU Ai-hua

（Guangzhou College of Technologyand Business， Guangzhou 510800， China）

Abstract： The new booming economy brings about prosperous cross-border E-Commerce. To meet the demand of international business environment， many universities and colleges in China have set up business English majors. However， the teaching and assessment of business English are in a chaotic situation without guidance. The newly published China's Standard of English Language Ability is inappropriate for business English for it was designed for English for general purposes. This article points out the methods and principles of designing business English proficiency scales. The content should cover linguistic， professional， and general knowledge and competency. Descriptors are more reliable， which have been collected from the job advertising， curriculum， and test framework， as well as adopted from other scales. Statistics from teachers， experts， and students are the basis for anchoring the scales. The immediate validity is to be tested for the improvement of the scales.

Key words： Reading Proficiency Scales for Business English； Testing Content； Descriptors； Scale Anchoring； Immediate Validity