汉语中介语语料库研究热点分析
——兼谈对国际中文专业的影响
2021-11-23谭正娇王文文余晓铃
谭正娇 王文文 余晓铃
(云南大学 云南 昆明 650000)
国内汉语中介语语料库建立于1995年,建立之初的特点是尽量搜集语料,但对语料的深度分析和挖掘做得不够。随着计算机技术的发展和成熟,汉语中介语语料库呈现出新的特点:语料挖掘更加细致,注重用户体验,从不同角度建库,口语语料库建设得到重视……这些变化都促进汉语中介语语料库朝着更好的方向发展。
一、语料库研究历史及语料库在国际中文专业的应用
语料库是以计算机为载体承载语言知识的基础资源,其中存放的是在语言的实际使用中真实出现过的语言材料,这些语言材料经过人工处理,最终变成可供使用分析的基础资源。世界上第一个语料库是1963年在美国建成的布郎家族语料库(Brown Corpus),布朗家族语料库选取了1961年美国出版的各类刊物(小说、期刊等)共500个样本,每个样本选取约2000个词,共计100万个词,并按照布朗大学的图书分类进行目录分类,层级清晰、系统完善——先把整个语料库分为两个大类,再对这两个大类进行更加精细化的分类,类似于一个蛛网,从中间点不断向外延伸扩展。[1]我国的汉语中介语语料库建设灵感就来源于布朗家族语料库,其建库方法、选材等都成为国内中介语语料库的灵感来源。
汉语中介语语料库以母语为非汉语者的书面学习材料为研究对象,通过全面地记录学习者的书面语言,经过计算机分析,得出学习者学习汉语过程中出现的单项和综合信息,最终丰富国际中文的教学理论基础。通过语料库客观分析得出的结论信度较高,更有说服力,区别于以往语言研究仅凭“语感”得出的结论。
国内于1993年正式提出构建汉语中介语语料库的设想,在此之前,对语料的搜集整理存在着以下局限:(1)收录的语料仅是留学生的病句、错句,语料收集不完整。(2)由于语料收集不成系统和规模,可能导致得出的理论存在一定偏颇。[2]第一个汉语中介语语料库于1995年在北京语言学院正式建成,填补了汉语中介语语料库研究方面的空白,在汉语作为第二语言教学领域里取得了开创性成果。[3]
语料库作为一种新的研究手段,有着很广阔的应用前景。首先,它可以尽量详尽地收集学习者的口语、书面语作为研究材料,为国际中文的理论研究提供语料支持;其次,语料库详尽地占有语料后,可以为老师的教、学生的学提供教学资源;再次,由语料库衍生的语料库语言学,不仅可以为语料库研究提供支持,还能为社会学、历史学等学科研究提供帮助;最后,数据分析统计软件和语音转写软件的开发,丰富了语料库建设、研究的手段,降低了语料库建设过程中需要消耗的人力物力。
二、中介语语料库国内热点及特点
(一)中介语语料库国内研究热点
目前,国内国际中文中介语研究热点大致分为语料库建设、基于语料库的研究和语料库检索分析软件的开发三大模块。
1.语料库建设
自1995年第一个汉语中介语语料库建成以来,“语料库建设”这一课题逐渐成为热点,国内知名的汉语中介语语料库(已建成且对外开放)包括:
(1)“HSK动态作文语料库”——北京语言大学。该库的特点是:收集了1992—2005年间HSK考试中部分考生的作文语料,共计11569篇语料424万字,是目前国内最大的中介语语料库;最早公开偏误标注规范,其后新建语料库的偏误标注均以HSK动态作文语料库为范本,再根据实际需要加以改进。
(2)“留学生汉语中介语语料库”——暨南大学。该语料库的特点是:可以根据两个词之间的间距进行检索,如“不但”“而且”间隔距离为5个词;根据句子中的包含关系进行检索,如含有“我们”且“他们”的句子。
(3)“中山大学中介语语料库”——中山大学。该语料库把偏误标注分类为“汉字偏误标注版”和“字、词、句偏误标注版”,“错字语料库”是该语料库的一大特点,用户可以在其中搜索到“中山大学中介语语料库”里所有错字的使用情况。
(4)“台湾师大汉字偏误库”——台湾师范大学。该语料库是专门针对汉字繁体字偏误创建的语料库。
2.基于语料库的研究
蔡武2017年通过CiteSpaces5.0对国内汉语中介语语料库进行可视化分析,从发文时间、期刊分布、发文机构等方面考量,认为自“2013年开始,关于汉语中介语语料库的论文数量急剧增长,发文机构、作者相对集中”“形成了偏误分析与习得研究、语料库建设研究和基于国别化的学习者研究是该领域发展的三大热点”等结论。[4]偏误分析与习得研究偏向于二语学习者在学习目的语的过程中产生的偏误研究,语料库建设研究着重点在如何合理建设中介语口语语料库和书面语语料库,国别化的学习者研究则是通过划分学习者的国籍,区分不同国家的学习者在学习汉语时产生的不同偏误。2015年,汉语“中介语语料库”建设渐成高潮。[5]在中国知网(CNKI)以关键词“对外汉语”“中介语语料库”进行搜索,共找出相关期刊、硕博论文559篇,从2015年1月1日至2020年11月20日,共有论文成果250篇,年平均增长量远超过去23年(1993年1月1日至2014年12月31日)。
3.语料库检索、分析软件的开发
语料库建成之后,如何最大限度地利用变成了首要问题。对语料库不熟悉的人都认为从事语料库相关工作需要强大的计算机技术,其实不然。我们大部分时间做的工作是如何把语料库当作一个工具,利用它来研究其他东西,因此大部分语料库使用者需要的是简单、强大、易上手的检索分析软件。目前在国内,AntConc、PowerConc等是比较热门的软件,以AntConc为例,该软件有以下优点:一是不需要强大的计算机专业背景知识,大部分人很快就能学会如何使用;二是文本导入后可以生成关键词表,统计词汇出现的频率并自动保存;三是检索项分为初级检索和高级检索,用户能根据自己的实际需求设置检索级别。
(二)中介语语料库国内研究特点
张宝林认为,以2018年用计算机语言形成新的语料库软件系统开发为界,我国的汉语中介语语料库可以分为1.0时代和2.0时代。[6]1.0时代是汉语中介语语料库的奠基期,这一时期的语料库拥有大量的语言材料,但由于计算机技术等条件限制,拥有的语言材料没能被很好地加工转化成规范的语料以供进一步研究,是“粗放型”的语料库,此外,还有系统漏洞多、查询条件设置不合理等缺憾。自2018年1月开始,用计算机语言处理大量繁杂的初始文字资料,大大提高了工作效率,中介语语料库正式进入2.0时代。2.0时代在继承了1.0版优势的基础上,还着重于优化用户体验,增强系统稳定性。
目前国内的中介语语料库建设还有以下几个特点:
1.语料来源方面
一是来源于教师在教外国留学生的过程中,留学生提交的书面作业;二是来源于学生在实习过程中收集到的语料。
在这一过程中,语料库呈现出以下特点:(1)语料大部分是学习者以书面语呈现出来的材料,如遣词造句、小作文等。(2)语料库来源大部分是初、中级学习者,原因是目前在学习汉语的外国人当中,初、中级学习者占大部分比例,零基础和高级学习者占比较少。(3)语言原材料大多数是对同一阶段的学生进行集体性材料收集,少有针对某一个学习者的追踪调查。
2.建库方面
(1)国内大部分中介语语料库还是书面语语料库,少有对学习者口语语料进行收集整理和研究的语料库,国内最先开展口语语料库建设的是暨南大学,但尚未对外开放。(2)大部分国际中文教师没有意识到语料库建设的重要性,一线教师没有收集语料的习惯,导致语料流失。
3.其他方面
(1)基于语料库的研究仅限于少数方面,如偏误分析、中介语研究等,其他方面少有涉及。(2)目前国内针对汉语中介语检索的软件过少,导致千辛万苦建起来的语料库最终因为“不好用”而被遗弃,没有达到最初建库的目的。
三、语料库建设对国际中文的影响
虽然国内中介语语料库建设和使用还存在较大空白,但中介语语料库的建设无疑会给国际中文专业带来正面影响:
(一)对国际中文专业学术研究的影响
建设中介语语料库,可以为国际中文的学科发展提供理论知识和数据支持。语料收集、语料库建设、语言教学是一个良性循环的过程——在教学中收集到的语料可以用于语料库建设,语料库建设过程中产生的问题和成果可以用作后续实际教学的理论支撑。另外,语料库中的语料全部来源于真实的书面语或者口语材料,这为有关学者编写国际中文教材提供了贴近真实生活的材料,因此,国内在汉语中介语语料库建设方面还大有可为。
(二)对教学者的影响
教师在教学中可以把语料库当作一本“在线词典”,遇到不好向学生解释的语法点,就能利用语料库中的语料加以辨析。如教授“拉”和“牵”,运用图片加语料库语料的教学办法,能让学生更好地理解知识点。另外,教师在教的时候可以有意识地向学生展示如何使用语料库进行学习,当学生的知识储备达到一定层次,就可以探索式地自我学习,以获得更好的学习效果。
(三)对学习者的影响
学生学会使用语料库之后,可以自己尝试对一些知识点进行总结归纳,再由教师纠偏,这样不仅能激发学生的学习兴趣,还能提高学习效率。
学习者通过访问中介语语料库,可以为自己的学术研究找到对应的理论支撑(如韩国留学生可以找到韩国相关的语料),还可以通过对前人学习过程的总结归纳,总结出一套适合自己甚至适用于本国留学生的学习方法,为本国学生学习汉语扫平一些障碍。
(四)对与国际中文专业相关的软件开发影响
评价一个专业是否有研究前景和应用价值,要看它是否具有相关理论支撑和技术支持。国内汉语中介语语料库迄今已走过25年时光,每一次进步都离不开计算机技术的发展,各类统计、分析、转写软件技术的日趋完善,使软件技术在语料库建设中起到了不可替代的作用。从建设语料库需要用到的HunAlign、WinAlign等工具,到检索语料库用到的Antconc、Powerconc等软件,语料库建设依托于计算机软件的开发,正发生着日新月异的变化。但语料库建设始于国外,很多理论和软件都是由国外研发并先行使用,这些软件更适用于外语语料库建设。国内针对中介语语料库的写入、输出、检索等软件都还留有大片空白等待被填补。只有不断优化升级相关软件,让语料库建设和使用过程变得更加经济方便,才能最终造福于我们的语料研究工作和国际中文教学事业。
四、结语
目前,国内缺少对于口语语料的收集和分析整理。究其原因,是因为口语具有瞬时性的特点,难以收集,口语语料在收集完之后还要花费大量时间转写成书面材料,虽然现在有语言转写软件,但还需人工校对,费时费力;此外,受紧张、压力、提前准备考试等因素影响,从HSK考试中收集的口语语料,很难准确体现出学习者真实的学习情况变化。从学习者日常交谈会话中选择语料,虽然能反映出学习者的真实水平,但很可能涉及个人隐私,即使学习者同意将语音材料用于研究,也不能大范围对外开放。
国际中文的教学目标是让学习者先运用汉语进行日常交际,其次才是书面写作,加强汉语口语语料库的建设,对本学科发展大有裨益。张宝林在2012年提出建设“全球汉语中介语语料库”的计划,得到了大力支持,“全球”即“语料来自全球、全球共建、全球共享”[7],可以预见全球汉语中介语语料库建成之后,我国的国际中文教学事业将会前进一大步。
另外,国内论文数据分析还是比较依赖外国的数据分析软件,我国自主研发的软件占比较少,针对性地进行软件研发,对国内的论文数据分析将会起到锦上添花的效果。