APP下载

面向国际汉语教学的语法资源库建设*

2014-05-24彭炜明宋继华

中国远程教育 2014年8期
关键词:大纲资源库语法

□ 彭炜明 宋继华 赵 敏

面向国际汉语教学的语法资源库建设*

□ 彭炜明 宋继华 赵 敏

随着信息技术和互联网技术的发展,远程教学引发了教育的深刻变革,作为一种重要的教育手段,它已经渗透到国民教育的各个领域。而在面向世界各地不同国家和地区、具有不同文化背景和需求的学习者的国际汉语教育领域,远程教学的开展却明显滞后。原因之一就是各类教学资源的混乱无序、简单重复和缺乏共享,其中语法教学资源问题尤为显著。近年来,我们从梳理语法《大纲》入手,进行了教学语法资源库构建的探索实践。本文总结了国际汉语教学领域语法资源建设的现状,提出基于语法《大纲》构建国际汉语教学语法资源库的任务。在工程实践中首先重构了《大纲》语法点,并通过丰富语法点的描述语和正则表达式属性,构建了一个规模化、知识库化的语法资源库,并利用该资源库实现了基于正则模式匹配的语法点动态获取应用。

国际汉语教学;语法点;资源库;正则表达式

一、引言

大规模开放在线课程(MOOC)作为一种新的开放教育资源模式受到全世界的瞩目[1],再一次让人们感受到远程教育在信息时代教育领域的巨大优势和潜力。当前,国际汉语教育蓬勃发展,而面向世界各地不同国家和地区、具有不同文化背景和需求的学习者开展远程教学显然是一个不容忽视的广阔领域。但是相比其他教育领域,国际汉语领域的远程教学却相对滞后。究其原因,教育信息化在特定领域的深入开展均依赖于教学资源的有力支持,而目前国际汉语教学资源建设在规范化、规模化和共享机制等方面还存在诸多问题,其中语法教学资源的问题尤为严重。借鉴MOOC的实践经验,反思国际汉语语法教学资源建设的现状,我们不难发现存在如下问题:

(1)知识点的组织框架不明确

MOOC以知识点为单元开展教学资源研发和建设,知识点的组织框架依赖于特定的学科和课程体系。语法教学中的知识点一般称为“语法点”,而语法点的项目设置和等级划分一直以来就是国际汉语教学中的难点问题,对具体课程教学乃至教材编写而言并没有形成一套成熟、公认的标准规范。由于汉语语法理论研究中本就有各家体系之争,因而国际汉语教学领域的所谓“语法大纲”[2][3][4]也是多家并存的局面,且它们在语法点的立项、分级以及语法术语的使用上均存在一定的差异。

(2)语法资源的信息化程度不高

MOOC教学资源建设中,知识点作为资源创新的基本单位[5],在碎片化分解的基础上又可进行资源共享和重组,从而有效地避免了资源的重复建设。反观国际汉语教学领域,各类语法大纲大多停留在纸质的指导性文件层面,很少有人系统地将其中语法点转化为可供信息检索和定量统计分析的资源库或知识库。国际汉语教学中的语法点总量有多少,实际教材中课后讲解的语法点该如何分布等,许多类似的问题都只能“参照”大纲做定性的回答。

(3)信息技术在资源利用过程中的学习支持不够

MOOC中对教学资源的有效利用很大程度上决定于信息技术所能提供的学习支持。只有在学习者之间开展充分的分享、交流和协作,实现学习的自组织和他组织的动态平衡[6],才能使大规模教学资源真正发挥积极作用。在国际汉语教学领域,一方面由于语法资源本身的信息化程度不高,另一方面也受制于当前中文信息处理技术水平,语法点与动态语言文本之间未能建立起有效的互动关系,这使得为语法资源配备的例词、例句只能是一种静态罗列,语法点讲解就显得枯燥乏味,近乎语言规则的说教。

语法教学之所以成为汉语国际推广中的困难之一,与传统的教学模式和固化的教学内容有很大的关系,而这种不利于远程教学的局面亟待改变。在当前这个互联网高度发达的大数据时代,利用信息技术逐步解决语法资源建设中的问题不仅是必要的,也应该是可行的。近年来,我们从梳理语法大纲入手,提出构建国际汉语语法资源库的解决方案,并结合国际汉语教材语料库和中文信息处理基础数据资源,进行了具体的工程实践探索。

二、国际汉语语法资源库构建

1.构建方案和依据

针对上一节提出的问题,构建国际汉语语法资源库的目标是:框架体系稳定,具体语法点开放,并能够实现资源库语法点与教学语言材料之间的动态关联。根据文献调研,我们尚未发现符合以上目标的教学语法资源库,也就是说,没有现成案例可供参考。因此,我们确立的语法资源库构建方案是:首先,参照某一语法大纲,建立反映教学语法系统性的稳定结构框架;其次,利用已有国际汉语教材库或其他类型的语法知识库充实语法框架下的具体语法点,即最大限度地收罗语法教学中可能会出现的语法点,并通过属性建立语法点的难度等级、知识关联和描述语等信息;最后,完善各类语法点对应语言文本的特征属性,为从语言文本中动态获取语法点奠定基础。

由国家汉办颁布并推广的《汉语水平等级标准与语法等级大纲》(以下简称《大纲》)在语法资源库的建设中显然占据着无可质疑的基础框架地位。

首先,《大纲》中语法点的体系性基本上是周全的,从语素、词类、词组、句子成分、句子分类、特殊句型,一直到复句和句群,都有所覆盖。在目前所见的各类语法大纲中,它是最全面的。

其次,《大纲》本身又是一部分“等级标准和水平大纲”,其中的语法点按照甲、乙、丙、丁四个等级排布,并且分级标准是在“多学科定量统计与群体性定性、定位分析相结合”的综合集成方法下制定的。也就是说,《大纲》中的语法点带有相对合理的等级划分信息。

最后,《大纲》颁布后,由于其指导和示范作用,后来绝大多数对外汉语教材的编写都以其作为标准,有的教材甚至直接从中选取具体语法点内容。由于教材语法点通常都与课文文本有一定的相关性,因而《大纲》语法点具有最广泛的教材语料基础,也就最适合作为语法资源库的基础框架。

2.实施步骤和成果说明

(1)《大纲》语法点重构

虽然《大纲》可以用来作为建立语法资源库的基础框架,但它与实用的语法资源库之间还存在着较大的差距,具体表现在:《大纲》按甲乙丙丁四级编排语法点,各级语法点的分类标准不统一,甲、乙级称为“语法项”,丙、丁级称为“语法点”。也就是说,共计1168个“语法项点”不是匀质的,有的是“尽举性的”,有的是“举例性的”,还有的是“介乎二者之间”[7]。图1表示了分散在各级中“词类·名词”相关的语法项点,显然,对于资源库的结构化要求来说,这种语法点编排是不合适的。

图1 《大纲》“名词”相关的语法项点

因此,我们首先将《大纲》中1168个项点按“大类→小类→语法项→语法点”的层级重新组织,如图2所示,“语法项”以上不分等级,它代表了稳态的语法知识体系,原《大纲》中的项、点统一作为“语法点”分级依附在“语法项”之下。从“语法项”到“语法点”的细分,有的是依据语法讲解本身的深入程度,有的是依据用词、用语的难易等级,属于一种动态知识。重构后的语法库共计8个大类、39个小类和183个语法项。

(2)语法点的扩充

对于《大纲》中“举例性的”语法点,只要是有教学价值的,从资源库构建的角度出发都应该进行类推收罗。最典型的例子就是“固定短语”和“成语、四字格”。《大纲》中收录的具体固定短语和成语、四字格非常有限,而汉语中这两类实际存在的总量远远不止这些。我们采用的措施是借助《现代汉语语法信息词典》[8]等中文信息处理领域的成熟语言知识库,将其中成语子库和习用语子库中的词语作为扩充语法点加入到资源库中。扩充语法点的等级则参考它们在大规模国际汉语教材语料库中出现的频次来决定。

图2 《大纲》语法点重构

更多类别的语法点扩充却没有直接的语言知识库可资利用,比如“固定搭配”、“口语句式”和“复句格式”等,必需从大规模国际汉语教材的课后讲解中获得。对此,我们采用“机器识别+人工校对”的方式对752册国际汉语教材的课后语法讲解进行了切分标注。如图3所示,机器识别主要根据语法讲解标题文本中出现的语法术语与资源库中语法点描述语的匹配情况,通过少量人工校对,既补足了《大纲》未列的语法点,同时也在不断丰富各个语法项的描述语集合,使机器识别的召回率逐步提高。

图3 教材课后语法点标注

语法描述语的丰富和完善是资源库信息化的一个重要内容。比如,许多教材不使用《大纲》的“词组”术语而称“短语”,将其补充至语法项描述语集合中,有利于提高各种不同教材或教学过程中语法点的信息检索率。此外,许多特定语法点在实际教材中的不同表述也需要进行适当的归并,比如,在“固定搭配”中常见的“从……来看”、“从……来说/来讲”、“从……来说/来看”等即可被归并为一个语法点——“从……来说/来讲/来看”。

(3)建立语法点的文本特征属性

不同类别的语法点对应着不同的文本特征,在当前中文信息处理自动句法分析还未达到实用水平的情况下,可以采用正则表达式先行解决一部分语法点的特征属性问题。所谓正则表达式是用某种模式去匹配一类字符串的一种公式,它广泛运用于计算机程序设计中。利用正则表达式对文本字符串进行相应的模式匹配,可以找出其中蕴含的特定语法点。

例如图4表示了部分语法点对应的正则表达式,其中“p{han}”为Perl正则表达式中“任一汉字”的简写形式,加号“+”表示前面符号出现1次或1次以上,故“因为p{han}+,所以p{han}+”可以匹配带关联词“因为……所以……”的因果复句。“(?<!)”和“(?!)”分别表示“向左看”和“向右看”情况下逻辑“非”的条件。比如“把”字句,首先可确定的文本模式只有一个“把”字,为了保证匹配的准确率,需排除像“把手”、“把握机会”、“一把椅子”等“把”字构词或作量词的情况,限制“把”字前后数字及可构词汉字的出现,如图4所示(当然,这也许会造成漏匹配,具体分析详后)。

图4 部分语法点对应的正则表达式范例

(4)成果说明

采用前述步骤,目前构建的国际汉语语法资源库规模大致如表1所示。其中“构词”、“词类用法”和“词组类型”和“句子成分”四类因涉及深层的词法、句法结构信息,无法从字符表层进行正则匹配。“词类”中有教学价值的语法点主要集中在几个封闭的虚词词类(如副词、介词、助词),而名词、动词、形容词等实词词类作为语法点进行匹配的意义不大,因此,资源库中“词类”相关的正则属性也较少。

表1 国际汉语语法资源库统计表

通过与大规模国际汉语教材库的互动,语法资源库基本上实现了一个稳定的体系框架。有了基本的体系框架,新编教材或教学过程中新产生的语法点便可通过描述语信息找到其所属语法项位置,从而纳入到语法资源库的体系结构之中,这样便形成了语法资源的一个开放系统。

由于结构框架建立在《大纲》语法体系基础之上,并且语法点和描述语信息的扩展丰富又是通过与大规模国际汉语教材语料库互动实施的,并且经过严格的人工校对,因此,不管是从语法点的等级划分,还是从组织体系的合理性和合法性角度,语法资源库都有了可靠的保障。而其创新性则体现在:在国际汉语教学领域首次建立了一个具有相当规模的信息化语法资源库,其中语法点不仅停留在本身的信息化,而且初步具备了与真实语言文本建立联系的正则特征属性,有助于在语法点动态获取的基础上开展以学习者为中心的远程语法教学。

三、语法资源库的创新应用——语法点的动态获取

1.语法点动态获取的意义

利用信息技术从语言文本中动态获取语法点也许是一个具有争议性的命题。争议可能来自两个方面:其一,若不结合实际教学环境(包括学习者水平、教学目标等因素),笼统地考察句子中存在的语法现象,则每个句子都蕴含着多个语法点。因为从构词讲到词类、词组、成分、句型句式,乃至复句、篇章关系,不同的视角便会产生不同的语法点;其二,在中文信息处理现有自动析句水平下,单纯依靠技术很难保证语法点识别的准确率和召回率,那么动态获取语法点的合理性和有效性如何保证呢?

根据我们的实践经验,这两方面问题在工程中确实客观存在着,但是开展语法点的动态获取仍然有其现实意义。对于第一个问题,其实不管是否采用动态获取的技术手段,都是无法回避的,而若能借助信息技术手段动态发掘出文本中的各类语法点,那么不管对施教者还是对学习者而言,都已经在很大程度上减轻了逐句分析的任务量。传统的语法教学之所以难以开展教学互动和自主学习,很大程度上也是受制于人工析句任务的烦琐。语法点动态获取并非技术对人力的完全替代,而是通过技术手段尽量节省人力,从而达到优化教学质量的目的。

对于第二个问题,在计算机自然语言理解问题获得彻底解决之前(应当承认离实现这一目标还相当遥远),高准确率和高召回率不可能兼得,应根据教学实际灵活取舍。比如上节所举“把”字句的正则模式中,我们对“把”字前后做了较强的排除限制,在获取该语法点时就可能会将“我把门打开了”、“我把手伸过去”这样的句子漏掉。但是,汉语文本中“把”字句并不稀缺,从学习者角度看,更需要的是信息系统能在遇到“把”字句时将其他相关例句准确地类聚出来,而不是为了求全而给出像“我来把门”、“车把手坏了”这样的误匹配例句。

总之,尽管目前基于正则的语法点动态获取方法仍存在技术上的漏洞,但仍不失为一种可以改进的有效方法,在大规模真实文本的语法点获取中其效果还是可以接受的。

2.语法点动态获取的实现和应用

动态获取真实文本中的语法点是以句子为单位进行的,先将待分析文本按照“。|?|!”的断句标点切句,再利用正则表达式循环匹配切分好的句子。由于“固定短语”类和“成语、四字格”类的语法点数量较多(在目前资源库中分别有2627条和6902条),考虑到计算机处理的效率问题,对这两类进行了特殊处理,即将这两类语法点对应的正则表达式采用逻辑“或”运算,各自合并为一条规则后再去匹配。比如“成语、四字格”的语法点正则表达式为:“(一丝不苟|一举一动|一举两得|一举成名|……)”。

为了检验语法点动态获取的效果,我们选择新闻类文本作为系统应用的测试语料,因为新闻语料是国际汉语教学素材的重要来源之一,它代表了最真实、最鲜活的现代汉语。其中一篇关于“中国科考船雪龙号遭遇奇异自然现象”的新闻报道,其动态获取语法点的部分结果如图5所示。

图5 语法点自动获取效果示例

从中可以看到,系统自动获取语法点的准确率还是很高的(根据大规模测试结果,准确率可达95%以上),基本可以满足实用需求,并且通过不断完善正则表达式可使错误率降至一个可接受的最低限度。

四、结语与展望

在开放教育思想的影响下,“共享优质资源,开展规模教学”的理念已经逐渐成为教育界的共识[9],以互联网为核心的信息技术的高速发展让这种理念更加接近现实。国际汉语教学也不例外。当各类教学资源不断丰富至一定规模时,如何实现资源的共享共建和教学应用就成为本领域迫切需要解决的问题。而这两方面又是相辅相成、相互促进的。

在以往国际汉语教学资源建设中,受信息化程度的制约,能够开展共享共建的资源类别多为字、词或语料库层面,语法资源的建设和共享都处在一个比较初级的阶段,也未成规模地应用于动态语料的教学。我们基于《大纲》构建的语法资源库在这方面有了较大的进步,不论从资源的体系性还是从语法点的规模来看,都已开始走向实用层面。将语法资源库应用于网络教学平台,我们初步实现了资源的共享共建和教学互动。具体体现在:

(1)以目前语法资源库的语法点作为标注体系,对752册国际汉语教材的课后语法讲解及部分课文语料进行了信息标注。这样便建立了语法资源与教材资源、语料资源乃至字、词资源的关联,有利于今后各类教学资源的深度整合和系统集成。

(2)因为实现了动态语法点获取的机制,语法教学的素材突破了传统备课内容的限制,极大地拓宽了教师和学生的互动空间,为国际汉语语法远程教学的开展奠定了基础。

(3)资源建设和教学过程也形成了良性的互动关系。如前所述,语法点动态获取所依赖的正则表达式有一定的局限性,但是,通过网络教学平台可以收集到来自教师或学生的反馈信息,促使语法点正则模式的不断优化。比如,前举“‘把’字句”正则表达式,就是在教学中匹配到“一卷史册,皇皇二十四朝,本纪、列传之类,大多是帝王将相,弄个把江湖人物进去,统算是很另类、很体贴了。”这样的句子后,才优化到目前状态的。

当前国际汉语教学领域的许多问题都折射出基础资源建设方面的相对薄弱,而后者很大程度上又源于资源信息化和共享共建意识的缺失。不管是词汇教学还是语法教学,国际汉语教学中许多标准和大纲都还停留在“文件”层面(不管是纸质的还是电子的),尚未实现资源的结构化和知识库化。其中有相当一部分标准规范是必需进行规则类推才能真正用于信息处理的,如新HSK的六级词汇大纲等。国际汉语教学界对标准和大纲的信息化工作或者热情不高,或者因技术门槛而力所不及,而在具有信息技术背景的研究者看来,这些工作只不过是最基本的数据库技术,不值得过多关注,因此造成了这种特定学科领域亟需进行深层次的信息化、规范化、基础资源建设等重要问题,这不仅需要信息技术自身的领域化,也需要特定领域学科规律的深度挖掘和整理,而这也是开放教育时代发展的必然。只有跨越边界,深入实际问题,才能促使信息技术切实为推动汉语国际教育这一特定领域的健康发展贡献力量。

[1]王海荣,王美静.国外MOOC评估报告对我国高校教学改革的启示[J].中国远程教育,2014,(03).

[2]王还.对外汉语语法大纲[M].北京:北京语言学院出版社,1994.

[3][7]刘英林.汉语水平等级标准与语法等级大纲[M].北京:高等教育出版社,1996.

[4]杨寄洲.对外汉语教学初级阶段语法大纲[M].北京:北京语言文化大学出版社,1999.

[5][6][9]王鹏,边琦,肖凤艳等.MOOC背景下教学资源建设的发展方向——基于对国家精品开放课程工作的回顾[J].现代教育技术,2014,(04).

[8]俞士汶.《现代汉语语法信息词典》详解[M].北京:清华大学出版社,2003.

G434

A

1009—458x(2014)08—0090—05

2014-02-25

彭炜明,博士后,北京大学计算语言学教育部重点实验室(100871)。

责任编辑 日 新

中国博士后科学基金面上资助项目(2013M530455);国家社科重大项目“面向网络文本的多视角语义分析方法、语言知识库及平台建设研究”(12&ZD227)

宋继华,教授,博士生导师;赵敏,硕士研究生,北京师范大学信息科学与技术学院(100875)。

猜你喜欢

大纲资源库语法
50个重要的知识点 一份“学习大纲”帮您梳理党的二十大报告
健身气功开放课程资源库建设研究
贵州●石斛种质资源库
跟踪导练(二)4
Book 5 Unit 1~Unit 3语法巩固练习
高中历史信息化教育资源库应用探索
福建基础教育教学资源库建设研究——以福建基础教育网资源库为例
紧贴实战落实《大纲》要求推进航空体育训练创新发展
人民军队第一部政治工作大纲
我军最早的政治工作大纲——党代表工作大纲