语料库自动提取词汇信息技术研究
2023-01-11吕剑涛姚银燕
吕剑涛,姚银燕
(广东外语外贸大学英语教育学院,广州 510006)
0 引言
语料库包含大量词汇在自然语境中的真实使用记录,其应用价值从上世纪初就受到了学界的关注[2]。就词汇教学而论,语料库蕴含两方面的重要信息:需要学习的词汇和词汇在各种语境下的使用方法。语料库中的文本不是人为创造,乃是日常生活的各种真实交际需求产出的自然话语,与传统词典刻板的注释相比,更容易启发学习者掌握词义和配搭[3],使学习者从被动记忆词汇信息转化为主动揣摩词汇的含义,以及在真实语境下的各种使用方式[4-5]。
现有文献大多通过语料库软件搜索和词频统计功能得到服务于英语词汇教学的信息。依靠这种人工搜索统计的方式耗时耗力,且人工方式往往未能穷尽语料库中的所有学习者信息,一定程度局限了语料库在英语词汇教学中的效力。使用自然语言处理技术中的文本对比技术可以解决以上两点不足。由计算机自动找出学习者语料库和本族语者语料库中类似的文本,就可以直接当作词汇教学学习资料,让学习者不但可以结合自然话语的上下文学习生词,且可以比较二语学习者文本和本族语者文本间的语篇、句法、词汇差异,教师也可以帮助学习者分析两种文本间的语言差异,并鼓励学习者按照本族语者文本的语言使用策略习惯对二语学习者文本进行改编改写,以此引导学习者尝试就所学词汇作即时产出。
此外,现有文献大多通过词频和共现规律抽取出需掌握的词汇[6-7],或直接从语料库中搜索出已有词汇出现过的文本[8-9],甚少研究能够以各种不同英语交际能力为出发点抽取出相关的词汇。中国英语能力等级量表(China’s Stan⁃dards of English language ability,CSE)全面地描述了各种语言交际能力。以CSE为出发点搜索语料库中每种能力对应的词汇,能避免以统计为导向学习词汇带来的盲目性,使所学词汇与某一交际能力对应,加强学习词汇的动力,使词汇学习真正满足各种日常生活工作的交际需求。
本文提出使用文本对比技术和中国英语能力等级量表发掘语料库中的词汇信息,减少教师使用语料库时人工搜索、文本分析的工作量,同时使基于语料库的词汇教学更系统化,实现词汇学习以提升语言交际能力为导向。
1 语料库对英语词汇教学的潜在价值
语料库(corpus)是将一定量的真实话语(书面或口语)收集起来的语言文本数据集[10]。语料库的应用价值在于其可借鉴性,为各种学习自然语言为目的的活动提供客观真实的语言使用情况统计数据。
在英语词汇的教学中,教师一般靠经验教授词汇的相关知识,教师对词汇的掌握熟练运用程度往往不如母语说话者。同时,无论是中国教师或学生,都或多或少受到母语负迁移的影响,将母语(中文)的词汇使用习惯带到英语词汇教学中,很难将注意力放到学习非母语习惯的词汇和用法上。这造成了中国英语学习者经常需要问母语说话者:“这个意思你们一般会怎么表达?”或者母语对话人有时听懂了英语学习者想表达的内容后,会用更地道的语言说出同一内容,并会解释到,他们一般不会用某个词汇,或该词汇一般不会在这种情况使用等。
可见,进行词汇学习一个较理想的条件是,英语学习者即使在没有母语说话人询问的情况下仍能了解到词汇两方面的重要信息:第一,在某一交际需求下应该使用哪些特定词汇?第二,这些词汇具体是怎么使用的,如何与其它词汇配搭使用?在何种语法结构中使用?虽然现有英语教材一般已给出以上两方面词汇信息,但大多不够系统,且一般依靠教材编写人的经验给出,非语料库驱动。语料库中包含丰富的以上两种词汇信息,对词汇教学有绝对的参考指导作用。
2 使用文本对比技术让学习者向目标词汇迁移
虽然语料库包含丰富的、有教学价值的词汇信息,但语料库本身只是大量真实语料的聚积,一般并未预先加工处理提取出任何词汇信息,需要借助语料库分析软件进行人工分析和归纳,某种程度上制约了语料库大范围应用到英语词汇教学中。如语料库的词汇信息挖掘能实现智能化、自动化,就可以极大降低提取词汇信息所需的时间和劳动力成本。
文本对比就是比较两个文本的相似度,广泛应用于文本信息检索领域[11]。文本对比技术就“查重”这一目的大致可分为语句重复和内容重复两类。语句重复就是比较两个文本间的句子中重复使用的单词和按同一顺序重复出现的单词的数量,数量越高表示文本相似度越高。然而,语句重复对比技术太过注重语言的形式,忽略了语言中装载的内容:两个文本可以在用词完全不相同的情况下表达类似的内容,文本间从内容上看相似度依然极高。
内容重复检索更适用于语料库词汇信息筛选。如上所说,中国英语学习者受母语负迁移的影响,英语词汇的使用习惯与英语作为母语的说话人有较大区别。尤其是已习得一定词汇量的学习者,困难之处并不是表达出某一内容,而是用较地道的词汇表达出同一内容。因此,如果对比英语学习者语料库和母语说话人语料库间同一话题的语料,就可发现两者想表达的内容是类似的,只是用词有所区别。使用内容重复检索技术即可自动检测出分别来自两个语料库的相似度较高的文本,并将其作为教学资料。两个文本间相似的词汇也可以自动标注出来,帮助教师和学习者将注意力放到中英词汇使用习惯差异上。
较接近内容重复检索性质的文本对比技术是语义相似度计算。其主要思想是通过语义建立起词汇间的远近亲疏关系,作为计算文本相似度的依据。常用语义词典有WordNet、FrameNet和MindNet。WordNet的语义关系比较适合用来辨认学习者和母语说话人表达同一语义时词汇使用习惯差异,而FrameNet和MindNet的优势在于能通过词语使用搭配识别出内容相似的文本,从而为学习者提供表达类似语义更为地道的词语组合。下面简单介绍一下这三个语义词典的语义关系建构方式。
2.1 WordNet的语义关系建构
WordNet主要将同一词类(parts of speech)的词汇建立语义链接[12]。如名词标注频率最高的是层级关系(super-subordinate relation)。层级自上而下为比上一层级更进一步细化的名词,如bed为furniture的下一层级,bunkbed为bed的下一层级。反过来,bunkbed和bed是furniture这一名词大类的组成部分。同一层级内的词汇(syn⁃sets)之间是同义词关系(synonymy),如car和au⁃tomobile。对动词也同样建立层级结构的语义关系,这些层级由动作不同的方面或组成部分决定,如talk的一个特点是声量,所以其下一层级的单词为whisper,同时talk作为communicate语义的一部分,上一层级的单词为communicate。
WordNet建立词汇语义关系的方法对搜索比对语料库相似内容文本,以及标注出相似内容文本间语义关系接近词汇,作为英语词汇教学资料都有极高的实用价值,因为英语学习者往往不会交替使用同一层级的词汇,或者不会使用下一层级的词汇。
2.2 FrameNet的语义关系建构
FrameNet通过框架语义学理论进行语义关系建构[13]。一个语义框架描述的是某种事件、关系、实体和参与者。比如,烹饪这一概念常包含某人、食物、餐具和厨具等要素。在FrameNet中,烹饪这个概念就作为一个框架,其要素就是该框架的元素(frame elements)。能激活框架的单词称作词汇单元(lexical units)。框架与框架之间再通过继承、使用、部分、视觉等层级关系连接。借助建立框架,词汇被框架以及框架间的关系连接。
英语学习者和母语说话人使用词汇的差异也体现在框架的差异上,有些是同一框架内要素使用的差异,有些则是框架间层级关系的差异,如英语学习者表达类似内容可能使用了母框架要素中的单词,而母语说话人则使用了子框架要素中的单词,或者相反。这些信息对词汇学习十分有意义,是通过简单的单词共现统计而得到的词汇搭配信息所不能比拟的。
2.3 MindNet的语义关系建构
MindNet是通过逻辑结构(logical form)分析得到两个单词间的语义关系[14]。逻辑结构分析由语法分析器(parser)执行,执行对象是词典、百科全书和自由文本中用来注释词汇的句子。MindNet的逻辑结构分析是自动进行的,得到这些逻辑结构后,将其汇聚成一个更大的逻辑结构,并根据各个逻辑结构在语料库中出现的频率给其赋予概率化的权重。
由于MindNet是基于词典中的语句建构语义关系,其应用到自然话语内容对比判别的适用性受到了一定的局限。
3 使用中国英语能力等级量表系统挖掘学习者词汇信息
中国英语学习者往往喜欢脱离语境,单纯透过记忆中文解释去学习词汇。语料库为学习者提供了丰富的词汇固定搭配、常用语法方面的信息。与普通词典相比,这些信息不是直接用文字呈现给读者,而是隐含在大量的真实话语中,从而为学习者自主总结词汇使用规律提供条件,使学习者从过去将词汇当作知识去记忆变成透过观察掌握词汇的使用方法,这种以使用为目的的词汇学习行为更符合语言学习的规律。许多研究已表明,使用语料库进行词汇教学的效果比传统词汇知识灌输更理想,且提高了学习者的自主学习能力[5,15]。
然而,要进一步提高学习词汇的动力,必须将词汇学习和语言交际能力提高联系起来。也就是说,词汇学习应该是以提高交际能力为目的。实施某种交际能力到底有可能要使用哪些词汇?在开展词汇教学前必须向学习者交待清楚,才能明确目标,有的放矢。这里涉及两个问题:第一,中国英语学习者需掌握的语言交际能力有哪些?第二,如何就某一语言交际能力在语料库中搜索出与该能力对应的词汇信息?第一个问题可以参照中国英语能力等级量表[1]解决。第二个问题的解决可以通过自然语言处理技术中的文本关键词提取技术。先提取出语料库中文本的关键词,然后与能力量表的描述语进行匹配[16],就可找到与某一能力描述语对应的文本,作为提高该交际能力的词汇学习资料。
4 融入能力量表和文本对比技术的英语词汇教学资料生成框架
融入两个部件后的英语词汇教学资料生成步骤如图1所示。首先,先分别提取出学习者语料库和母语说话者语料库中文本的关键词,作为选取文本的依据;然后,将两个语料库中文本关键词与英语量表描述语进行匹配,选中匹配成功的文本组成与特定描述语对应的对比语料库;接着,使用文本对比技术将对比语料库中类似的文本抽出,作为词汇教学资料,将两个类似文本中语义相近的词汇自动标注,母语说话人产出的文本中被标注出来的单词就是学习者改变原来词汇使用习惯需要学习使用的词汇。
图1 英语词汇教学资料生成步骤
5 结语
本文在探讨语料库在英语词汇教学中优势的基础上,进一步提出了拓宽语料库应用前景要融入的两个语言学和人工智能部件,即中国英语能力等级量表和文本对比技术。这两个部件可以免去许多手动分析语料库工作量的同时,进一步使词汇教学向交际能力为导向的方向发展。