APP下载

基于语料库的科技汉语语块研究

2021-06-04

关键词:语块语料库语篇

代 睿

(东北大学 国际教育学院,辽宁 沈阳 110819)

0 引言

随着中国综合国力的显著增强及科技水平的不断进步,与国外的交流越来越密切,来华留学的理工类留学生日益增多。2014年,世界首所科技型孔子学院在白俄罗斯成立,科技汉语的地位及作用也在不断提升。对科技汉语自身特点及科技汉语习得及教学的研究有助于推动科技汉语教育事业以及科技翻译的发展。

“语块”是语言中的那些固定、半固定的、模式化了的板块结构。语块理论认为语言是由语法化的词汇组成,而不是由词汇化的语法构成,语块是兼具词汇和语法特征的语言结构,是形式、意义、功能的结合体[1]。从心理语言学角度来看,语块具有预制性及整体性,心理词库中存储的语块越多,组块能力越强,大脑编码和解码的速度就越快。因此,以语块为语言学习的基本单位,能够减轻语言学习者理解记忆的负担,提高语言记忆及产出的速度、准确性、流畅性。语言习得相关实验研究证明了语块的心理现实性,认为语块具有认知加工的优势[2]。

对语块的识别,王立非等[3]提出3种方法:语法学方法、语料库语言学方法、心理语言学方法,本文采取的是语料库语言学方法。语料库数据能为心理词汇是如何组织的提供证据。随着计算机技术及语料库语言学的发展,基于“频率”标准的语块识别被认为更具可操作性,研究人员将高频复现看作是语块的一个最基本特征,当一个词语序列被频繁使用的时候,其凝固性也会随使用频率而相应地增加。WRAY[4]曾表示一个词串的使用频率越多,它就越能以预制件的形式存储在人们的心理词库中。通过计算机手段提取多词单位,比仅凭借经验判断更客观、全面、准确。

在国外语言学界,基于语料库的语块研究相继出现,其研究对象为英语中3个或3个以上的词组成的词串,称之为词束,并对词束进行结构及功能上的分类、分析[5-6]。国内也有学者基于国外研究者的理论框架,利用语料库研究方法,对英语和汉语中语块的特点、分类等进行研究[7-8]。但尚未有利用语料库方法对科技汉语语块的专门研究。科技汉语作为在科技领域中使用的一种书面语体,有其自身的特点和规律,有必要对科技汉语语块的特征进行深入研究。因此,本文试图从语言教学视角,运用语料库研究方法,揭示科技汉语语体中语块的类型及特点。研究结果对科技汉语教学效率的提升有一定的积极作用。

1 语料库的构建及语块的提取、识别、筛选

1.1 汉语科技论文语料库的构建

选取数学、物理、化学、计算机、软件、电气、电子、材料、机械、航空、农业、环境、新能源等领域的国内权威期刊共15本,均为研究时最新一期,以保证语料的权威性及时效性。每本期刊选取12篇论文,共计180篇论文,只取其正文部分,剔除论文题目、摘要、参考文献、附录,此外,考虑到图表中的文字与格式的特殊性,去掉正文中的图、表、公式。经过文本处理、格式转换、分词处理等工作,构建了一个中文科技论文小型语料库,总字数为1 122 807字,词语类符数为11 865,形符数为656 115。

1.2 语块提取方法

利用AntConc3.5.7软件对自建语料库进行分析。利用提取N元组功能,提取出连续的词语序列。参照英语学界语块研究的做法,把提取范围设定为2-6词。从理论上说,2词或2词以上的多词单位都可以成为语块,不多于6词,是考虑记忆长度的有限性。提取的频率标准设定为至少出现在5篇不同的文章中,2词语块的最低频率为20,3词语块的最低频率为10,4词、5词、6词语块的最低频率为5。还需对得到的词语序列进行人工识别和筛选,才能确定目标语块。

1.3 语块的识别及筛选

根据设定的频率标准,得到2词序列2 927个,3词序列1 014个,4词序列361个,5词序列114个,6词序列29个。但这些多词序列并不都是语块,还要依据一定的标准进一步地识别、筛选。本文对语块的识别是基于以下操作定义:由两个或两个以上的词或语素预制,连续或不连续,作为整体存储和提取,不超出句子层面的语言单位。频率标准不应作为辨识语块的决定性条件或唯一条件,只能作为一个典型条件。出现频率高的词语序列并非都能看作语块,而某些确实是语块的,却可能因为出现频率低而被排除在外。WRAY[4]、王文龙[9]都认为语块的识别应基于语感、频率、内部结构、外在形式等复合标准,而非单一标准。徐泉[10]认为对语块的界定需综合考虑其形式、结构、语义、语用及使用等因素。因此,要从词语序列的形式结构特征、意义特征、功能特征、使用时的心理特征等方面,结合母语语感,从汉语教学的角度出发,对提取出的词语序列进行人工筛选识别,确定语块。具体来说,考虑其是否具有以下某一或某些特征:作为整体体现词语组合的心理表征;作为整体高频共现;表达一个相对完整的意义;体现特定的语篇功能。

在实际操作中,我们排除了以下一些非语块形式:(1)误切词。误切词即本应看作一个词的术语被分词软件误切为多个词,呈现为多词组合,如“纳米”“引理”“鲁棒”等。(2)语言碎片。语言碎片,包括某些不完整的短语部件的组合或一些毫无意义的组合,如“图所”“中为”“当且仅”“结果如图所”等。(3)跨标点符号的词语序列。由于AntConc在提取N元组时是不考虑标点、阿拉伯数字、符号等信息的,所以分属于两个分句的词语会显示为连续的词语序列,如“公司型”,其在文本中出现的形式却是“天津永利公司,2010型透射电子显微镜”。(4)不具有预制性的词语序列。有的词语组合是利用语法手段实时生成的,而不是事先预制好的。这一类型中,常见的形式如“动词+了”(如“提出了”“进行了”)、“形容词/动词+的”(如“不同的”“对应的”)、“形容词+地”(如“很好地”“极大地”)、“所+V+的”(如“所采用的”“所示的”)、“数词+量词”(如“两种”“一组”)等等。但是如果这些形式与其它词语组合,则具有成为语块的可能,如“进行了研究”“重要的意义”“极大地提高”“一组数据”等等。还有一些词语序列,如“具有很高的”“存在一定的”“能有效地”“为了进一步”,在形式结构上高频通用,但缺乏中心词,意义相对不完整,无法整体作为心理表征,因此,不认定为是语块。

但是,一些表面上无意义或意义不完整的潜在语块应避免被错误地排除掉:(1)含有未显示的非文字信息。如前所述,AntConc在提取N元组时是不考虑非文字信息的,如标点、阿拉伯数字、符号等,所以会出现如“在中”“当时”“分别为和”这样的词语序列,其实,它们中间都是包含一些数字或公式信息的,如“当a=b时”“分别为a和b”等。所以,在分析时,可以将它们看成框架型语块“在……中”“当……时”“分别为……和……”等。(2)可以引申出框架型语块的。有些词语序列,在考察“索引”后,可以发现存在一些高频固定的搭配词,可以连同搭配词构成一个框架型语块。如“为研究对象”填补出“以……为研究对象”“增加而增加”填补出“随……增加而增加”“基础上提出”填补出“在……基础上提出”。经过识别筛选,最终提取出语块935个。

2 科技汉语语块的特征分析

根据科技汉语的特点,我们首先做了“术语语块”“非术语语块”的区分。含有大量的科技术语是科技汉语区别于通用汉语的一大特点。由两个或两个以上的词(或语素)组合而成的科技术语,作为一种多词单位,在此被认定为语块,称为术语语块,而其它语块称为“非术语语块”。在本文的语料库中,术语语块有291个,非术语语块有644个。

术语语块中,词和词之间结合得很紧密,表示一个特定的概念,它们在使用的过程中逐渐词汇化,具有词的属性,专业人员在读取、使用时会把它们作为一个整体概念来看待。术语语块是科技汉语语块中特殊的一类,其认定无须受频率标准的制约,所以,291个术语语块并非所调查语料中全部的术语语块,一些专业性强、出现篇数少于5篇或出现频率低的术语语块,实际上在提取时被排除掉了。本文将语块的提取标准定位为至少出现在5篇文章中,是将考察重点放在了高频通用的非术语语块上。

2.1 语块的结构特征

BIBER等[5]对英语词束进行了结构分类,分为基于动词、基于名词、从句类三类。彭咏梅[8]也采用词性描述的方式对汉语语块进行了分类,分为基于动词、基于名词/介词、基于形容词、从句类四类。本文借鉴这种分类方式,将科技汉语中的语块分为7类:动词结构语块、名词结构语块、介词结构语块、主谓结构语块、形容词结构语块、连词框架语块、副词结构语块。各类型根据结构再进行细分,如表1。各类别语块数量及频率分布见图1、图2。需要说明的是,此处数量及频率统计不包含术语语块,因为术语语块结构形式相对单一、固定,所以本节的统计分析只针对非术语语块。

表1 语块的结构类别及举例Tab.1 structural categories and examples of chunks

图1 语块各结构类型的数量Fig.1 the number of each structural categorys

图2 语块各结构类型的频率Fig.2 the frequency of each structural categorys

从图1、图2可以看出,名词结构语块和动词结构语块数量最多,其次是主谓结构语块、介词结构语块,形容词结构语块、连词框架语块、副词结构语块数量很少。动词结构语块比名词结构语块的数量少,但出现频率却更高,这说明动词结构语块在使用上更具反复性,而名词结构语块更具多样性。

动词结构语块包含动宾、状中(动词中心语)、动补、带助动词、带连词、并列、兼语等结构类型,其中状中结构的最多,其次为动宾和动补结构。有些为一种结构又内嵌其它结构的多重结构语块,带助动词语块中的助动词主要是“可”“可以”,带连词语块中的连词多为“并”“若”“则”等,兼语结构语块一般为一个框架结构。动词结构语块一般在句中作谓语或作句干。各类动词结构语块数量分布,见图3。

图3 各类动词结构语块的数量Fig.3 the number of each verb-structure categorys

图4 各类名词结构语块的数量Fig.4 the number of each noun-structure categorys

名词结构语块包括含有名词中心语的语块及不含有名词中心语的语块。不含名词中心语的语块主要是包含“的”字结构、“所”字结构、量词结构的语块。这类语块虽然没有中心名词的出现,但整体上看作一个名词性结构,占名词结构语块的10.6%。含有名词中心语的语块有定中结构、名词+方位词结构、并列结构三种,在定中结构中,有一些动词性中心语的语块如“时间的延长”“厚度的增加”“温度的升高”等,这种动词名词化的用法在书面语体中很常见。各类名词结构语块数量分布,见图4。

主谓结构语块包含动词谓语式、形容词谓语式两种。动词谓语式,主语主要是“本文”“文献”“我们”“这”“研究”“结果”“图”“表”等,谓语动词主要是“是”“为”“提出”“表明”“介绍”“采用”“显示”等。这类语块多作为句子框架,具有一定的语篇功能。形容词谓语式中的形容词主要有“大”“小”“高”“低”“多”“少”等,多带有副词“较”修饰。介词结构语块一般作状语,主要有介宾型和介词框架型两种。也有个别介词与副词搭配的语块。形容词结构语块较少,一般作谓语,主要为状中式,也有“是……的”结构的语块。连词框架语块只有3个,这主要是受分析技术的局限,软件无法直接提取跨距过大的框架语块。“因为……,所以……”“虽然……,但是……”这种无法被软件识别的关联词结构都属于连词框架语块。副词结构语块数量极少,但也是一个独立的类别,一般作状语,如果不借助语料库技术,很难发现其存在。

对语块的结构分类,有助于发现语块体现的语言特点及语体特征,也有利于探讨结构与功能之间的关系。

2.2 语块的功能特征

从语块的外部功能看,语块作为一个整体承担语法功能,一部分语块同时具有一定的语篇功能。语块的功能特征分类,见表2。

表2 语块的功能类别及举例Tab.2 functional categories and examples of chunks

(1)语法功能

在语法功能上,有词性语块、短语性语块、句性语块之分。词性语块相当于一个词的功能,如动词结构语块中的状中结构、动补结构、带助动词结构、并列结构以及部分多重结构,功能与动词相当,可在句中作谓语。名词结构语块中的定中结构、并列结构,功能与名词相当,一般在句中作主语或宾语。名词性语块中不含名词中心语的三类:“的”字结构、量词结构、“所”字结构,虽然中心语未出现,但从整体功能上看与名词相当,形容词结构语块的功能与形容词相当,副词结构语块的功能与副词相当,部分介词结构语块的功能与介词相当,以上各类都可归为词性语块。短语性语块如动宾结构语块、名词+方位词结构语块、主谓结构语块和大部分介词结构语块。句性语块主要是动词结构语块中的带连词结构、兼语结构以及连词框架语块。各结构类型语块所对应的语法功能,见表3。

在词性语块中,有一些语块在语义上不具有自足性,需要进一步填充来使其意义完整,如“这一”“对其进行”“相对比”“随之”“本文所提”“领域的研究”等。这类语块在语料库技术的辅助下才得以凸显出来,因为其形式及意义不具有完整性,如果单凭语言直觉,它们很难被认定为语块,包括王凤兰等[11]所认定的在线性排列中位置相邻但不属于同一语法结构层次的“跨层结构语块”,也包括属于同一语法结构层次但意义相对不完整的具有组构短语功能的语块。图5所示为词性语块、短语性语块、句性语块的数量分布,其中,短语性语块数量最多,其次是词性语块,句性语块相对较少。

表3 语块的语法功能分类Fig.3 grammatical function of each structural categorys

图5 语块各语法功能类型的数量Fig.5 the number of each grammatical functional categorys of chunks

(2)语篇功能

一部分语块作为一个整体实现一定的语篇功能。李晶洁等[12]将学术文本中用于提出新命题、宣布作者态度、连接文本信息的句干称为功能句干,认为这些句干具有强烈的语境因循性,是学术文本的建构骨架。我们所提取的语块中包含很多具有语篇功能的句干语块。有的成为独立的小句,有的作为组构句子的单位,可以是连续的也可以是非连续的框架,可以在句头、句中或句尾。以短语性语块和句性语块为主,主要有动词谓语式主谓结构语块、连词框架语块、兼语结构的动词结构语块,也有部分动词结构的词性语块。例如,独立小句:“实验结果如图所示”“需要说明的是”“由图可知”“从表可以看出”。句头式:“这说明……”“本文提出……”“这主要是由于……”“实验验证了……”“我们可以得到……”。句中式:“……可表示为……”“……被定义为……”“……主要分为……”“……被广泛应用于……”。句尾式:“……见表”“……见图”“……如图所示”。框架式:“设……是……”“则称……为……”“分别为……和……”。

这些句干语块所体现的语篇功能有:提出研究问题、说明研究背景、说明研究方法、体现研究过程、说明研究结果、解释原因、提出定义、进行分类、指示文本信息等,具体示例见表4。

具有语篇功能的语块共有171个,有的具有两个或者两个以上的功能,所以存在重复统计的情况。语篇功能句干语块的数量及频率分布见图6、图7。我们通过观察各类别语块频率及数量比值发现,一些类别语块的频率及数量的比值明显较高,进一步观察发现,数值较大的类别中都含有个别使用次数极多的语块,如指示文本信息的“如图所示”(683次)、说明研究结果的“可以看出”(365次)、说明研究背景的“参见文献”(217次)、提出研究问题的“本文提出”(212次)、结果表明(175次)、提出定义的“定义为”(163次)等。

表4 语块的语篇功能分类及举例Tab.4 the classification and examples of textual function of chunks

图6 语篇功能句干语块的数量Fig.6 the number of textual functional sentence stem

图7 语篇功能句干语块的频率Fig.7 the frequency of textual functional sentence stem

3 结论

与通用汉语相比,科技汉语语块含有大的量术语语块及专业性语块,也有很多具有语篇功能的套语及句干。此外,科技汉语语块都有很高的语义透明度,科技语篇中一般没有具有引申义、比喻义的语块或成语俗语等。本文对科技汉语语块的研究结果对汉语语块的研究,特别是书面语语块的研究,具有一定的借鉴意义,对于科技汉语中语块的统计分析,可应用于科技汉语教学中。重视语块的教学将有助于科技汉语教学效率的提升。在科技汉语教学及教材编写中,要注意具有相同结构或功能的语块之间的联系,以讲授高频通用的语块为主。

利用语料库的研究方法能快速提取大量的词语序列作为潜在语块,可以发现一些利用人工方法无法识别出的语块。但语料库研究方法也有其劣势:一些跨距较远的非连续型框架型语块以及关联词语块难以被识别。可见,机器可以全面地识别各种语块类别,而人工方法可以识别各语块类别下的具体语块形式。

猜你喜欢

语块语料库语篇
新闻语篇中被动化的认知话语分析
《语料库翻译文体学》评介
基于JAVAEE的维吾尔中介语语料库开发与实现
英语语块在汉英翻译中的积极作用
从语篇构建与回指解决看语篇话题
语篇特征探析
从语块类型看英语专业大学生语块获取能力与听力理解能力的相关性研究
语块的性质及汉语语块系统的层级关系
诠释学视域中的语块研究
语料库语言学未来发展趋势