汉语国际教育汉语文本分级及难度测查对比研究*

2020-11-25王鸿滨

云南师范大学学报（对外汉语教学与研究版） 2020年6期

王鸿滨

(北京语言大学汉语国际教育研究院/汉语国际教育学部，北京 100083)

一、引言

阅读和分级阅读(Leveled Reading)(1)“分级阅读”还有其他的翻译方法，例如Graded Reading、Classification of Reading、Level Reading等。是二语习得中阅读能力培养的重要部分，目前已在国内外英语阅读教学中得到了广泛应用，从阅读推广实践的最终成效来看，国外阅读推广早已蔚然成风，欧美等发达国家已在不同层面、通过不同方式，培育社会阅读习惯、推动国民阅读并形成了诸如“阅读优先”“阅读起跑线计划”“公共图书计划”“分级阅读”等影响广泛的阅读品牌。此外，技术积累和开发功不可没。例如被广泛使用的蓝思分级标准已经有30年积累，随着信息网络以及各类智慧平台的出现，目前出现了一批运用蓝思分级标准致力于用数据驱动教育发展，开拓阅读领域的公司。例如Meta Metrics公司成立了互动式的“蓝思专业发展工作坊”(Lexile Professional development workshops) ,根据美国全国教学大纲 Common Core State标准和蓝思分级之间的关系，计算了课内教材的文本难度(在阅读教学上将文本难度和学生能力进行75%理解程度上的匹配)，学生在获取自己的阅读能力分值后,在网络系统内输入分值,使用“觅书” (Find a Book) 搜索引擎,会产生难度呈降序排列的书单以供他们选择。Meta Metrics公司还与教育部门及考试中心合作创建了评价体系，与PISA、PIRLS和NAEP等阅读测试建立了合作关系,试题发布和施测之前,阅读文章和阅读理解题目都要经过蓝思分值测算,学生的阅读理解得分也可转换为蓝思分值和其他的阅读分级的分值。(2)罗德红，余婧.美国蓝思分级阅读框架：差异化阅读教学和测评工具[J].现代中小学教育,2013,(10).Renaissance公司，目前有用于测评的Star Assessment，通过测试可以将孩子的阅读能力进行量化；还有承接测评产品的Accelerated Reader，通过他们自己的一套分级体系测出文本阅读难度，与之前测评的学生阅读能力匹配，保证学生读到最适合自己的文字。Newsela主要研发新闻分级阅读，其底层标准仍然是蓝思分级，核心技术点是有一部分机器辅助新闻改写，例如同样的主题以不同的阅读难度提供给相应理解能力的孩子；Lightsail则是致力于iPad 端的个性化图书馆，(3)Lightsail目前在中国的业务通常是跟相对高端的辅导班以及国际学校合作。基于蓝思分级，可以在线看书。

国外有众多的分级阅读学习资源网站，其推荐的分级书目多为开放式，各分级体系本身不对其所评估定级的图书数量做出限制，推荐书目不断更新，截至2017年3月，Lexile网站已经为267520部图书进行了难度测量，且仍在每月更新；GRL已对超过5万种图书进行了分级；再如美国1万多所学校采用的分级阅读学习网站：Raz-Kids和Reading A-Z(Raz-Kids plus)，(4)www.raz-kids.com是美国著名的付费网站www.learninga-z.com旗下产品之一，作为辅助教师指导学生的课外阅读工具。Raz内容涉及科学、生物、历史等知识，题材包含经典童话、寓言传说、数学启蒙、英文美文、日常生活故事、还有识物认知、自然地理、世界人文等学科知识。其阅读内容的难易程度是根据全文词汇数、高频词词汇数与比例、低频词词汇数与比例、句子长度、句子复杂度、句式、插图信息量、思想深度、主题等多个角度，将整个阅读体系从零基础 aa(看图认单词)至z(小学5年级)分为27个级别，对应美国3～12岁的孩子。(5)据统计，美国有80%的公立学校将它作为首选教材;在北美(美国/加拿大)，有超过50%的小学都在使用它作为英语阅读课教材。这种高效的分级方法是基于成熟的分级标准体系及读物难易度测查的计算机技术。相比英语国家成熟的阅读体系、“海量”的分级读物，目前我国汉语分级读物的建设主要为各大出版社基于分级阅读理念编写的分级读物，利用这种方式开展分级阅读，由于读物编写、出版周期较长，也就造成了分级读物数量上的不足。由于缺乏可行的读物难易度评价体系，我国分级阅读推荐的书目则较少，且多为封闭性的书单。例如，2011年，“新阅读研究所”组织专家研制的面向我国中小学生的推荐阅读书目表——《中国小学生基础阅读书目》共推荐100种，2015年“亲近母语研究院”(Hug Chinese)发布了小学阶段分级阅读书目《中学生阅读行动指南》共推荐153种，2017年，北京语言大学出版社推出的汉语国际教育领域首部《留学生汉语分级阅读指南》共推荐基本书目172种，扩展书目91种，我国现有的汉语读物根本不能满足学习者的需求，为学习者推荐的书目不足，将直接导致可供学习者选择的分级读物数量不足。

随着科技的发展，汉语国际教育优质学习资源和专利产品层出不穷，特别是“互联网+”的国际汉语教学资源与智慧教育平台因其卓越的功能，其成果受到国际汉语教育者的欢迎。在汉语国际教育的阅读和阅读教学领域，针对通用型汉语国际教育用学习字源和语料，已有的且开发较为完善的智能分析工具(分级及难度评价系统)有3个——“中文助教TM”“国际汉语教材编写指南”和“汉语文本指难针”，而在商务汉语阅读教学中，分级阅读应用还相对较少，建立一套基于文本难易度，适用于汉语国际教育用商务汉语分级体系，能够为不同水平的学习者推荐符合其水平的读物，帮助学习者高效提高阅读能力。本文将以经贸类材料为例，从特点、指标及依据、使用及实测等方面对“国际汉语教材编写指南”和“汉语文本指难针”这两套汉语文本难度测查系统进行对比分析，为商务汉语分级体系的建立提供一定参考。

二、汉语国际教育学习资源概述

(一)汉语国际教育学习资源软件和平台

“中文助教”(Chinese TATM)，是由美国斯坦福大学资助、储诚志博士为编写《汉语风》教材而开发设计的工具软件，主要用于帮助中文教师编写、修改、评估教材和教学辅助材料。(6)王葆华.“中文助教”软件在美国问世[J].世界汉语教学,2005,(3).编写成套教材或准备临时性的教学辅助材料都会涉及很多费时费力且易出错的工作，“中文助教”都能迅速方便地完成，主要功能包括：字词注音、自动分词、生词(字)标注和字词分析等。

“汉语文本指难针”是由中山大学开发的一款在线工具，它基于大规模“国际汉语教材语料库”建立，用于汉语作为第二语言教学的文本难度在线评估。作为“语言数据网(LanguageData.net)”的一个功能分支，其主要功能包括：文本定级、词汇反馈和例句查询。(7)金檀，李百川，林星彤，郭凯.“汉语文本指难针”产品介绍与使用说明[EB/OL].http://languagedata.net/ce/,2017-03-15.“汉语文本指难针”从汉字、词汇、语法方面对文本难度进行分析，并提供文本难度LD值、文本等级划分及大纲等级3种参考信息。文本定级指依照《国际汉语教学通用课程大纲》的定级标准，对所测文本进行分级；词汇反馈是指根据《汉语国际教育用音节汉字词汇等级划分》的词汇等级信息，对所测文本的词汇等级进行标注，了解词汇难度分布情况；例句反馈依据“全球汉语教材库”的大规模教材信息数据，精选全球汉语教材库中最具代表性的教材数据，能够实现通过词汇查询例句的功能。

《国际汉语教材编写指南》(www.cltguides.com)是孔子学院总部/国家汉办“孔子学院发展规划(2012～2020)”重大课题。该课题对全球5000余册国际汉语教材、3000余万字语料库进行了定量分析，在此基础上，依据《国际汉语教学通用课程大纲》《汉语水平考试大纲》(新HSK考试大纲)、《汉语国际教育用音节汉字词汇等级划分》等标准，获取了汉字、词汇、语法、场景、话题、交际任务、文化知识、典型例句、练习等之间的内在联系，使之构成了国际汉语教学的实用资源。它以实用资源、热点新闻作为基础，借助讲义、教辅教材编写工具，支持教师编写符合学习者认知水平和学习等级的个性化教学资料，并可进行实时分析、评价。

国际汉语教学文本材料的编写是教学资源建设的重要内容，《国际汉语教材编写指南》创新性地采用人工智能、大数据、多媒体网络以及知识库技术，将资源、工具有机地集成为智能性平台，从而动态地、有针对性地解决国际汉语教材本土化的难题，为国际汉语教学一线的广大教师提供科学、有效的服务。截至到目前，全球186个国家和地区的汉语教师利用该平台的资源和工具自行编写的讲义、教辅和教材等成果已达6万6千余份，不仅可为老师提供便利、节省时间，也能从多方面帮助教师提高其质量。目前，“国际汉语教材编写指南”评价工具是孔子学院总部研发的这一大型实用网络应用平台的一部分，为教师编写教案提供了丰富的实用教学资源。它既支持在线操作，又有单机版软件。

(二)自动分词系统软件和平台

因为汉语与英语不同，在英语书面语中，词与词之间有空格作为自然分界符，而汉语词汇之间则没有一个形式上的分界符，这也就意味着我们必须要利用一定的方法对汉语文本进行有效的分词处理。传统人工分词的方式耗时巨大，且主观性强，较为低效。随着计算机技术的发展，许多科研院校、技术人员都对汉语自动分词技术进行了研究，并将该技术应用于搜索引擎、机器翻译等领域。自动分词系统运算速度快、精确度高，能够大大提高工作质量和效率。目前使用较为广泛、认可度较高的汉语分词系统有THULAC、LTP、NLPIR汉语分词系统、Jieba等。

THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室研制推出的汉语词法分析工具，它基于人民日报语料库等原始语料，由大规模人工分词和词性标注中文语料库(约含5800万字)训练而成，主要功能为汉语分词和词性标注。

LTP(语言技术平台，Language Technology Platform)是哈工大社会计算与信息检索研究中心开发的汉语语言处理系统，语料来源于哈工大信息检索研究中心汉语依存树库(HIT-CIR Chinese Dependency Treebank)和哈工大信息检索研究中心同义词词林扩展版(HIT-CIR Tongyici Cilin Extended)。(8)哈工大-讯飞语言云.哈工大-讯飞语言云分词服务[EB/OL].http://www.ltp-cloud.com/intro/#cws_how.2017-03-15.LTP的分词模块基于机器学习框架，能够有效解决歧义问题。

NLPIR汉语分词系统又名ICTCLAS，其全称是“大数据搜索与挖掘共享平台”(http://ictclas.nlpir.org/downloads)，其主要功能包括汉语分词、词性标注、用户词典等，除此之外，NLPIR还具有新词发现与自适应分词功能和关键词识别功能。该平台集分词标注、实体抽取、词频统计、文本分类、情感分析、关键词提取、文本聚类、语义信息抽取等为一体，能够全方位多角度满足应用者对大数据文本的处理需求。NLPIR是严格按照内置程序严格切分而未考虑词义范围，因此经由计算机分词后仍有大量超纲词需要人工校对。由于NLPIR演示平台根据新浪RSS feed摘要，(9)RSS是一个全文化浏览器，只需把博客的地址或者 RSS feed 输入到页面唯一的输入框里，点击后，全文化的 Feed 就生成了，同时，页面还会生成了相应的订阅按钮。利用NLPIR的精准网络采集系统实时抓取新浪最新的新闻(每次刷新均会重新抓取)的运作特质，在前期调研中，我们曾利用这一软件与各类《大纲》进行比对时发现，真超纲词反而可以准确切分，但伪超纲词(即大纲中无，但其构词语素可独立成词，且词义相当于语素义叠加的词)则需要做二次切分，人工划入相对应的大纲等级中。虽然NLRIP功能非常强大，可以正确切分大部分词语，但仍有一些错误，其中，超纲词和同形词部分就需要进行人工干预。

Jieba(结巴)分词的主要功能包括汉语分词和自定义词典，它支持3种分词模式：精确模式、全模式和搜索引擎模式。精确模式，适合文本分析；全模式，速度快，但不能解决歧义；搜索引擎模式在精确模式的基础上，对长词进行二次切分，适用于搜索引擎分词。

虽然上述4种工具的自动分词准确率均能达到98%以上，但在实际操作中，仍然需要结合人工校对进一步提高准确率，最大程度地保证分词效果以及后续词汇数量及其等级信息统计的准确性。

上述各类国际汉语教育资源平台的辅助定量分析功能，均通过量化的教育资源评估体系，为汉语国际教师提供教学和教材编写与评价方面的技术指导和服务，并为该领域研究者提供研究成果转换和评价依据，不但为汉语教师编写教学材料服务，也提高了教师编写教学材料的效率和质量。

三、两种评价体系的测查指标分析

(一)“汉语文本指难针”的评价体系

评价功能主要基于对字词的分析，其依据为所测文本用词的SVL常用度和HSK等级信息。其中，SVL常用度是通过对一个大型语料库的计算分析得出的，该语料库由中国大陆、台湾、香港等地的各种当代(1980～2002)汉语语料抽样构成。

“汉语文本指难针”从汉字、词汇、语法方面对文本难度进行分析，并提供难度LD值、文本等级划分及大纲等级等参考信息。在评价汉字、词汇难度时，“汉语文本指难针”依照《汉语国际教育用音节汉字词汇等级划分》，对文本汉字、词汇等级进行标注；在语法方面，则采用“平均句长”作为衡量语法难度的标准。

“汉语文本指难针” 在文本定级功能中，依照《国际汉语教学通用课程大纲》的定级标准，将所有课文分为了三等六级。其中，“等级划分”中包含“初级”“中级”“高级”；“大纲等级”这一指标中则按照一至六级进行划分。通过测查，“汉语文本指难针”还会向用户提供一个数值在1.0～4.0之间的数值作为文本难度值，即难度LD值。LD值与文本难度成正比，LD值越高，则说明所测文本难度越大，反之说明文本难度越小。除此之外，该平台还支持LD值与文本定级的对应，其对应关系表1所示。

表1 难度LD值与文本定级对应表

此外，“汉语文本指难针”还有一项“汉语字词档案”功能，能够对文本汉字、词汇、句子进行分析，并在线提供分析结果。这一功能同样依据《汉语国际教育用音节汉字词汇等级划分》，在汉字方面，能够分析得出文本汉字等级，并计算出文本的字数、字种数、各等级汉字分布、累计分布率、每句分布率和每句累计分布率；在词汇方面，也提供上述数据，如词数、词种数、各等级词汇分布、累计分布率、每句分布率和每句累计分布率；在句子方面，该平台则采用句子总数、句子所含汉字数、句子所含词语数，以及所含汉字数、词语数的最小值、最大值、平均值、标准差等指标进行分析。分析操作流程如下所示(以下均选取北京语言大学汉语学院经贸系本科三年级(上)留学生所使用的经贸综合课教材《第一课老外在中国》进行演示)：

首先，在“汉语字词档案”初始界面(http://www.languagedata.net/clpat/)将所要分析的文本输入至“文章”文本框中，输入验证码。分词是测查汉语预料词汇难度中至关重要的一步，在输出分析结果之前，“汉语字词档案”会对用户所输入的文本进行分词处理，由于分词的准确率直接影响着词汇难度测查结果的准确性，为了保证分词结果的精确性，该平台基于哈工大讯飞语言云分词系统(即语言技术平台，LTP)，首先进行一轮自动分词，并将分词结果进行反馈(机器自动以“/”对词语切分结果进行标示)。我们以北京语言大学汉语学院经贸系本科三年级留学生所使用的《商务汉语综合》(上)第一课《老外在中国》第一部分“企业高管康立晨”为例：

图1 《商务汉语综合》(三上)自动切词结果显示(页面局部)

虽然LTP分词系统准确率已经很高，但仍达不到100%，因此，为了保证数据处理的准确性，“汉语字词档案”还提供了分词校对页面，用户可在“自动切词结果”页面对分词结果进行人工校对和修正。

最后，提交文本及经校对的分词结果后，系统会对文本汉字、词语、句子进行分析，提供相关分析数据，并支持txt格式汉字、词语列表下载。(10)语言数据网.国际汉语字词档案在线分析[EB/OL].http://www.languagedata.net/clpat/2016-10-28.见表2、表3、表4。

表2 汉字档案分析

表3 词语档案分析

表4 句子档案分析

(二)“国际汉语教材编写指南”的评价体系

“国际汉语教材编写指南” 评价工具从汉字、词汇、课文、语法4个角度对文本难度进行测查，并依据《国际汉语教学通用课程大纲》和《汉语水平考试大纲》，列出了16项教材评价参数和指标，用于对已出版教材及用户自编教材、讲义等材料的分析和评价，以检验教材实际难度，以及是否符合《国际汉语教学通用课程大纲》，能否对接新汉语水平考试等问题。

在汉字难度评价中，“国际汉语教材编写指南” 评价工具统计及计算的指标包括字次、字种、各等级累计分布和编入比例；在词汇难度评价中，涉及的指标有词次、词种、各等级词等级累计分布和编入比例；评价课文时，该系统会根据用户设定计算平均每课生词数、平均每课生词密度和平均句长；而语法方面，则按照用户标注的语法点计算平均每课语法点数。另外，“国际汉语教材编写指南”评价工具还通过统计大规模教材得出了不同等级的教材各项统计指标的难度参考区间，用户可以将所测各指标数据与参考区间数值进行对比，以帮助掌握文本难度情况。

另外，“国际汉语教材编写指南”评价工具还依据《国际汉语教学通用课程大纲》的定级标准，通过统计大规模教材得出了不同等级的教材各项统计指标的难度参考区间(见表5)，用户可以将所测得的各指标数据与参考区间数值进行对比，以帮助掌握文本难度情况。在使用“国际汉语教材编写指南”评价工具对文本进行难度评价时，考虑到了文本适用对象和适用水平的问题，将文本划分为成人和少儿两类，两类之下又各自分为初级、中级、高级三等。由于不同适用对象、不同适用水平的文本，各个指标的难度参考区间不同，测查前，用户需自行勾选所测文本的适用对象和适用水平。

表5 适用对象、适用水平、参考指标、参考区间对照表(11)孔子学院总部/国家汉办(2017)国际汉语教材编写指南[EB/OL].http://www.cltguides.com/user/analysis!input.action/2017-03-15.

“汉语文本指难针”从汉字、词汇、语法方面对文本难度进行分析，并提供文本难度LD值、文本等级划分及大纲等级等参考信息。在评价汉字、词汇难度时，“汉语文本指难针”以《汉语国际教育用音节汉字词汇等级划分》为依据；而在文本定级功能中，则依照《国际汉语教学通用课程大纲》的定级标准，将所有课文分为了三等六级。其中，“等级划分”中包含“初级”“中级”“高级”；“大纲等级”这一指标中则按照一至六级进行划分。通过测查，“汉语文本指难针”还会向用户提供一个数值在1.0～4.0之间的数值作为文本难度值，即难度LD值。LD值与文本难度成正比，LD值越高，则说明所测文本难度越大，反之说明文本难度越小。除此之外，该平台还支持LD值与文本定级的对应，其对应关系如下表6所示。

表6 难度LD值与文本定级对应表

四、两种评价体系的对比

(一)操作方法对比

“汉语文本指难针”在进入系统页面(http://languagedata.net/editor/)后，无需登录可直接进行测查，只需将所需测查的文本输入或复制粘贴至“文章”文本框中，系统自动得出分析结果，向用户提供难度LD值、等级划分、大纲等级、汉字难度、词汇难度和平均句长6项数据，并通过难度LD值使用指引图直观地出标示所测文本的难度水平。见表7和图2。

表7 原文难度分析结果

图2 难度LD值使用指引图

如文本难度测查结果与预期相符，或与文本编写要求相符，不需修改，则可以点击“生成词表”查看分词结果及词汇等级统计结果(如图3)。用户如需查看各等级词汇情况，可勾选上方“超纲词”“高级词”“中级词”等选项，系统便会将不同等级的词汇用不同的颜色标注出来，如在上一步文本难度测查结果与预期或与文本编写要求不相符，需要对原文进行修改，修改完成后，点击“文本定级”按钮，便能得到修改后文本的难度测查结果。

图3 汉语文本指南针 “生成词表”界面(局部)

“国际汉语教材编写指南”评价工具在使用前需要进行注册，注册并登录成功后，进入评价工具页面(http://www.cltguides.com/user/analysis!input.action)。

要注意的是，“国际汉语教材编写指南”评价工具要求在上传的文本中对文本标题、课文、生词、语法点进行标注，例如：标题需要在标题文字前增加“[title]”，则识别为标题，读取本行；课文要在内容文字前增加“[content] ”，则识别为内容，读取本行或本段；生词要在生词文字前增加“[word]”，则识别为生词；语法点需在语法点文字前增加“[grammar]”，则识别为语法点。上述标注需在上传教材文本前完成。

系统根据其测查标准及用户自定测查项目得出测查结果，并依照该系统的难度参考区间对所测文本各项指标难度进行评价，如表8、表9所示(本演示仅标注文章标题及内容，未标注生词及语法点)。同时，“国际汉语教材编写指南”评价工具还支持将测查数据在线生成图表，如图4所示(以汉字等级分布、汉字等级累计分布两项指标为例),参考区间为95.73%～99.5%，1～6级字等级累计分布98.56%。

表8 《商务汉语综合》(三上)评价结果

表9 评价结果显示

图4 汉字等级分布

(二)评价方法的对比

在用户体验方面，通过上文所述操作方法可以看出，“汉语文本指难针”和“国际汉语教材编写指南”这两套评价工具系统的操作难度都不高，操作步骤清晰，便于上手。作为在线工具，这两套系统的运算速度也较快，在使用中没有出现网页卡顿、等候时间过长等现象。

首先，在对文本的词汇等级进行测查时，分词是不可回避的问题，就目前的技术水平而言，许多汉语分词工具的技术、算法等已经相当成熟，大部分常用的汉语分词工具分词准确率都能够达到98%以上，如清华大学的THULAC、哈工大的LTP、NLPIR汉语分词系统、Jieba等，但这些分词工具都不能够保证100%的准确率，为了确保测查结果的准确性，用户有必要对分词结果进行人工校对。在这一方面，“汉语文本指难针”在得出测查结果之前，必经步骤便是系统自动分词结果进行人工校对，而“国际汉语教材编写指南”评价工具则不提供人工校对功能。

其次，“国际汉语教材编写指南”评价工具在测查过程中采用的是上传文本文档的形式，并要求用户按照系统格式要求对文本的标题、内容、生词、语法点等进行标注，“汉语文本指难针”则直接在页面文本框输入文本即可。相比较而言，针对小批量测查，“国际汉语教材编写指南”评价工具操作比较繁琐，国际汉语教材编写指南”则相对简便，但如进行大批量测查，由于前者无需重复操作，测查过程和结果相对后者而言，会更加简单清晰。但“国际汉语教材编写指南”评价工具上传文本的大小有限制，文件需控制在1M以内，如需要测查的文本篇幅特别长，仍然需要重复操作。

再者，“国际汉语教材编写指南”评价工具在上传文本时，仅支持Microsoft Office Word 97～2003文档(即.doc格式文本文档)，不支持.txt、.docx、.pdf格式文档，而由于软件升级，Microsoft Office Word 97～2003文档已不是当前最常用、最主流的文档格式，Microsoft Office Word 2003版本以上用户、PDF用户需先将文本转换为Microsoft Office Word 97～2003文档才能进行测查，增加不必要的工作量，建议升级或增加所支持的文本格式，方便用户使用。

另外，“国际汉语教材编写指南”评价工具因在进行测查之前需要先登录，系统可以识别用户，也能够保存用户上传的教材，同时也提供单机版，方便在脱网环境下使用；“汉语文本指难针”则不支持保存教材，更偏向在线的即时测查。

五、关于测查效果和准确度的对比

(一)测查效果与准确度

我们在前文提到，“中文助教TM”的语料难度测查主要依靠对文本词汇等级的标注。仇鑫奕对“中文助教TM”的语料难度测查效果进行了考察，发现该工具在标注文本词汇等级时，由于其本身的分词系统分词精确度不够高，常常因分词失误导致词汇等级标注错误，这也影响了该工具文本难度测查结果。例如：“……你的耳朵长到哪里去了？”中，该软件将“耳朵长”划分为一个词，而实际上，这里应该为名词“耳朵”+动词“长”；又如“第二天下午放学……”中，该软件将“二天”划分为一个词，但应当为数词“二”+名词“天”。(12)仇鑫奕.“中文助教TM”的语料难度测量问题和改进建议[J].中国教育信息化,2010,(23).

“国际汉语教材编写指南”评价工具在测查中会分别计算出汉字、词汇、句子等各项指标的数值，并依据表2的难度参考区间对各项指标做出“偏低”“合理”或“偏高”的评价。例如，根据该工具的标准，高级成人教材1～6级词累计分布的参考区间为64.92%～79.19%，假如测得一篇课文该项高于79.19%，系统会标注“偏高”，在64.92%～79.19%之间标注“合理”，低于64.92%标注“偏低”，其他指标的难度评价均为如此。可以看出，“国际汉语教材编写指南”评价工具对文本难度的评价虽然较“中文助教TM”更加全面，但仍不够系统，我们可以用它测得汉字、词汇、句子等的难度，但无法将这些难度值进行整合，也不能得知整个文本综合的难度值或等级信息。

“汉语文本指难针”是几款工具中唯一能够将汉字、词汇、句子等各项测查指标进行整合和计算，进而得到一个明确的难度值和参考等级的。因此，我们利用该工具对我们调研中所测得语言难度控制最好的《卓越商务汉语教程高级阅读》进行了试测，以检验该工具是否适用于商务类语料，试测结果如下表10：

表10 “汉语文本指难针”对《卓越商务汉语教程高级阅读》课文试测结果

由上表可知，“汉语文本指难针”根据《国际汉语教学通用课程大纲》的定级标准，将《卓越商务汉语教程高级阅读》的15篇课文均归为中高级，其中中等四级仅2篇，高等的13篇中，五级8篇，六级3篇，整体难度均较高。这与教材课文的实际难度相符，但是该工具给出的难度值和等级划分是相对于通用型语料而言的，也就是说，我们无法通过“汉语文本指难针”准确测得一篇商务汉语文本在商务汉语语料中的等级，这也是本文提出希望建立商务类汉语读物分级标准的原因之一。

为了检验“汉语文本指难针”和“国际汉语教材编写指南”评价工具文本难度测查的准确度，并进一步观察这两套系统是否适合应用于汉语国际教育用商务汉语语料难度的测查，本文选取北京语言大学汉语学院经贸系本科三年级留学生所使用的《商务汉语综合》(上、下)两册课本中的课文进行试测，结果如下表11、表12、表13、表14：

表11 “汉语文本指难针”三年级上册课文试测结果

表12 “汉语文本指难针”三年级下册课文试测结果

表13 “国际汉语教材编写指南”评价工具三年级上册课文试测结果

表14 “国际汉语教材编写指南”评价工具三年级下册课文试测结果

由上文试测结果可以看出，用“汉语文本指难针”进行测试，两册教材课文难度LD值界于2.50～3.88之间，等级划分均为中等、高等难度，等级划分均为四级至六级，其中，测定为四级的有6篇，五级6篇，六级7篇。根据“国际汉语教材编写指南”评价工具的评价结果，三年级上册课文汉字指标一项难度合理，一项偏低；词汇指标一项偏高，一项合理；课文平均句长合理。三年级下册汉字指标一项难度合理，一项偏低；词汇指标一项偏高，一项合理；课文平均句长偏高。

由于“汉语文本指难针”没有为所测得数值提供一个可参考的难度区间，我们不能够从汉字难度、词汇难度和平均句长的数据中判断出教材难度是否合理，但从难度LD值、等级划分、大纲等级三项指标的测查结果来看，三年级上、下两册教材的课文实际难度与测查所得难度基本相符。“国际汉语教材编写指南”评价工具与前者不同，它为用户提供了数值参考区间，但不提供等级信息，从上下两册教材汉字、词汇、课文平均句长的各项数据来看，两册教材根据该系统的评价结果，汉字难度都偏低、词汇难度都偏高，下册课文难度偏高。

通过观察两套系统词汇测查结果，我们发现，被系统标注为超纲词的词汇中，有很多为商务词汇，如：“合资、择业、产业革命、经销、供应、开销”等。由于“汉语文本指难针”和“国际汉语教材编写指南”评价工具在词汇测查中依据的大纲均为通用型大纲，大纲本身词汇商务特点不明显，因此，部分对于商务汉语学习者而言未必是超纲词的词汇在测查中被划入超纲词范围，这使得测查结果对于商务汉语学习者而言精确度有所降低。

(二)结论与问题

综上所述，“国际汉语教材编写指南”评价工具和“汉语文本指难针”根据其适用范围的不同，功能各有侧重，其中最适合用于分级读物建设的是“汉语文本指难针”。

一般而言，商务汉语学习者以大学生、商务人士、相关领域研究人员居多，其母语阅读水平应当已处于较高的水平，因此，在探讨商务类汉语分级读物语料难易度测查标准的过程中，我们可以将影响儿童阅读难易度的因素排除在外，如插图、字体、间距等，主要关注词汇、语法等客观因素。“汉语文本指难针”和美国蓝思框架阅读的分级都采取了类似的做法，二者都是利用计算机技术对读物词汇、语法难度等客观因素进行测试，并在整合各项难度的基础上得到一个读物整体的难度值，以此作为分级依据。这种分级方式分级效率高且结果科学，值得我们借鉴。

在功能侧重方面，“汉语文本指难针”主要功能为文本定级、词汇反馈和例句查询，而“国际汉语教材编写指南”评价工具的定位则更偏向于辅助教材的编写。换言之，“汉语文本指难针”更适用于用户对文本难度没有把握，对文本进行测查的情况，“国际汉语教材编写指南”评价工具则更适用于用户已大致了解文本等级水平，对文本难度进行复核和检验的情况。

但是，作为以通用型汉语国际教育大纲为依据的难度测查工具，由于通用型大纲本身的局限性，两套系统在测查商务汉语语料时，虽然测查结果仍保持了一定的准确度，但其用于词汇分级的商务词汇远不能实现对商务汉语语料进行精确分级的需求，这就会造成两个结果：

一是，用户通过这两套系统对商务汉语语料进行测查时，会出现超纲词偏多的情况，使系统误认为该文本词汇难度偏大，也就造成了对于商务汉语学习者而言，文本的实际难度与系统测查所得难度不符的问题；

二是，大量商务词汇被归为超纲词，而现有系统又缺乏这些超纲的商务词汇的等级信息，会出现商务汉语语料分级精确度与通用型汉语语料相比较低的问题。

六、设想与建议

基于核心知识库，从互联网、教材数据库中获取特定领域相关数据，开发面向汉语学习者的初级、中级、高级不同层次的学习文本素材库及相关文化产品势在必行。我们认为，应当借鉴现有资源编写平台文本分级定量评价方法的基础上，重点研究动态、开放的备选素材获取、分析及加工方法，并且探索以“学”为导向的学习资源生成方法，建立一个基于文本难易度，适用于汉语国际教育的商务汉语学习资源文本库，能够借助移动互联技术、学习分析技术，捕获、汇聚、分析各类信息，构建学习者信息模型，为学习者提供突破时空限制的智慧教育服务。例如用户上传文本后，学习资源平台会给出待分析文本在后台资源(语料)库中的难度位置，并向用户推荐资源库中与待分析文本中汉字、词汇、语法距离最近的文章，得到一个用于阅读训练的排序文本集。该学习资源文本库(集)一方面可以辅助学生进行原文阅读，另一方面还可以最大限度地拓展与之交互的有效阅读空间。具体设想是由专业的团队制定一套文本分级测定程序，包含阅读能力中所有可以量化的客观要素(汉字、词汇、语法等)，并以分值的方式(通过汉语可读性公式)体现图书的等级和阅读者的阅读水平，并将之进行技术关联。见图5。

图5 基于智慧教育平台的汉语分级阅读标准研制路径

这方面还有以下基础研究有待开展：

首先，参考学界对商务词汇的界定及商务汉语大纲词汇，从测查得到的超纲词中抽出属于商务词汇的部分。再基于已有的商务汉语大纲和商务汉语教材为商务词汇标注等级，并通过测查语料范围的扩大逐步扩大词库容量，以使商务汉语阅读词汇部分的分级结果更加精确，满足教师及学习者的阅读、研究需求。

其次，任何一个文本分级系统如要实现高效、精确的分级，都离不开计算机技术的辅助和支持，商务汉语语料的难度测查和分级亦是如此。因此，在建立商务汉语分级阅读体系的过程中，要重视利用计算机技术开发有关功能模块。例如，与清华大学THULAC、哈工大LTP、NLPIR汉语分词系统、Jieba等已较为成熟的汉语分词工具团队展开合作，完成分级体系的词汇模块等。

最后，一个成熟的系统必然要有良好的用户体验，以网络智慧教育平台形式的分级系统为例，网站设计要简明清晰，注意在细节处提升用户使用的舒适度，同时，网站信息和技术要及时更新优化。建议设立专门的用户反馈渠道，以及时发现并解决系统出现的问题，使系统运行流畅。