APP下载

语料库驱动下的词语搭配研究

2016-07-06岳士君

艺术科技 2016年3期
关键词:语料库

岳士君

摘 要:文章通过语料库驱动的方法,研究“保持”和“维持”与前后搭配词的关系,使用相关对“保持”和“维持”的词语搭配作了定量与定性分析。得出结论:“保持”前只能加“还、仍然、一直”等副词,而“维持”还可以加“只、才、只能”等副词;“保持”后还常常跟与人心理有关的形容词搭配,且常常是积极的,维持后接的名词常常是个人的最低需求,如生活、生计、生命,维持后最常接名词“秩序”。

关键词:语料库;词语搭配;保持;维持

0 引言

自20世纪60年代人类历史上第一个计算机语料库——Brown语料库问世以来,语言学界越来越认识到用计算机采集的大规模语料库对于语言学实证研究的重要作用。运用语料库,我们可以进行词语、句子甚至是语篇的研究。而词语搭配是当今语料库语言学最为活跃的领域。在我国,特别是2000年以来,它越来越受到人们的重视。相关的研究包括词语搭配的概念界定如林杏光(1994)、[1]卫乃兴(2002))、[2]词语搭配研究的理论框架(李文中(2004)、[3]缪海燕、孙蓝(2005)[4])、基于语料库和语料库驱动的研究方法(如卫乃兴(2002a)[5])等,其研究成果主要运用于外语教学、词典编纂等领域。

1 研究缘由及方法

1.1 研究缘由

查北语HSK动态作文语料库,维持用错共9例,应该为保持的有3例,占33.33%,比如我希望爸爸在光州经常你一个人生活{CJZR},还是能保持{CC维持}健康,过得开心。

保持用错共36例,应该为维持的有8例,占22.22%。比如:人类为了维持{CC保持}自己的生活才种粮食{CC食[C]物}。

《现代汉语词典》(第6版)对保持的解释为:动:维持(原状),使不消失或不减弱。对维持的解释:动①使继续存在下去;保持②保护;维护支持。我们可以看到,词典释词始终不能避免循环释义的弊端。

本文将采用语料库的数据对保持和维持的前后搭配词作定量分析,分析它们的共性和差异,并通过个例研究对语料库语言学的词语搭配研究起到一定的启示作用。

1.2 研究方法

卫乃兴(2002a)指出,词语搭配研究有两种基本方法:基于数据(data-based approach)的方法和数据驱动(data-driven approach)的方法。本文即采用第二种方法:数据驱动的方法,最大限度地减少人为因素的干扰。

本文使用Laurence Anthony编写的软件AntConc3.4.3w(Windows)2014对语料进行处理。首先,将语料文本和AntConc都设置成相应的UTF-8编码格;其次,使用中科院的ICTCLAS软件对语料进行分词处理;最后,将分词语料导入AntConc软件,进行检索分析。

2 “保持”和“维持”的搭配研究

2.1 语料整理与分析

2.1.1 语料整理

本文选用中国传媒大学媒体语言语料库,在语料库中输入“保持”一词28155条索引,使用Excel的Index函数嵌套row函数每隔14行提取一条索引,共取2000条。在语料库中输入“维持”一词,获得8526条索引,每隔4行提取一条索引,共取2000条。

2.1.2 语料分析

跨距的选择:孙宏林(1998)[6]在大规模汉语语料中统计了名词、动词、形容词的搭配词的分布情况,得出动词的最佳观察窗口是(-3,4),本文即采取孙的结论,把跨距界定在(-3,4)之间。

T值和MI值:在“Tool preference”下选择“Collocates preference”,然后在“show statistics measure”中选择MI值或T值。根据汪腊萍(2006)[7]的研究成果,如果某词项的MI值和T值都比较大(MI3且T2.33),则该词项组合可被认为是典型且常用的词项搭配。本文将沿用已有研究成果,即结合MI值和T值进行测量。

其他:“concordance”选项卡中将“Search Window Size”设置为25,以便于显示节点词两侧(-4,4)距离的语境。Collocates选项卡中的最小频数设为3。结果以T值或MI值排序,故需要选择“Sort by stat”。

所有参数设置完成,在搜索框中输入索引词,点击“Start”。

2.2 “保持”和“维持”的右侧搭配词研究

2.2.1 “保持”右侧搭配词考察

AntConc3.4.3w(Windows)2014对“保持”搭配词进行检索,按照T值和MI值分别进行排序,再按照MI3且T2.33取值(使用excel的if函数嵌套countif函数、vlookup函数求得交集,再用if函數区分左侧搭配词和右侧搭配词)最后得出134条高频右侧搭配词,总计频数3340次。现按搭配词的共现频率排列如下(限于篇幅,取前20个,括号内为搭配词频数,下同):

稳定(196)、沟通(60)、克制(36)、左右(25)、经济(194)、一个(57)、以上(35)、一定(25)、平稳(187)、势头(57)、状态(34)、冷静(25)、较(165)、交往(56)、政策(34)、领先(24)、快(139)、党(49)、协调(34)、持续(24)。

这些词可以归纳为名词、动词、形容词、助词、数词、代词、连词等,我们去掉数词、代词、连词等非搭配关系词,得到“保持”右搭配词词性归类:

名词:左右、经济、以上、势头、状态、政策、态势、高层、社会、水平、高度、一致、距离。

动词:沟通、克制、交往、领先、持续、增长、联系。

形容词:稳定、一定、平稳、协调、良好、密切、基本、健康、清醒、安全、冷静、长期。

2.2.2 “维持”右侧搭配词考察

AntConc3.4.3w(Windows)2014對“保持”搭配词进行检索,按照T值和MI值分别进行排序,再按照MI3且T2.33取值,最后得出118条高频右侧搭配词,总计频数2684次。现按搭配词的共现频率排列如下:

在(331)、低(46)、时间(29)、这种(23)、秩序(198)、生活(45)、生计(28)、运转(23)、不(156)、左右(40)、较(28)、天(23)、一个(81)、下去(36)、治安(27)、零(23)、原判(57)、正常(35)、以上(26)、高位(23)。

这些词可以归纳为名词、动词、形容词、助词、数词、代词、连词等,我们去掉数词、代词、连词等非搭配关系词,得到“维持”右搭配词词性归类:

名词:秩序、原判、水平、生活、左右、现状、生命、时间、生计、治安、以上、天气、目前、政策、高位。

动词:变、下去、至、运转、比较、运营、运行。

形容词:稳定、高、低、正常、安全、长。

代词:一个、这个、这种、自己。

2.2.3 “保持”和“维持”右侧搭配词的对比考察

名词:维持后接的名词常常是个人的最低需求,如生活、生计、生命,维持后最常接名词“秩序”,而在其他场合,维持和保持可以互换,如左右、政策、水平等。

动词:保持常常后接的表现人与人之间关系的动词,如沟通、克制、交往、领先,而维持常跟着表示事物运动的动词,如变化、下去、至、运转、比较、运营、运行。

形容词:两者都可以表示事物处于“稳定”状态,但是保持还常常与人心理有关的形容词搭配,且常常是积极的,如清醒、冷静。

代词:保持跟不定代词“一个”搭配较多,而维持还可以跟有定代词“这个、这种”搭配。

2.3 “保持”和“维持”的左侧搭配词研究

2.3.1 “保持”左侧搭配词考察

AntConc3.4.3w(Windows)2014对“保持”搭配词进行检索,按照T值和MI值分别进行排序,再按照MI3且T2.33取值,最后得出85条高频右侧搭配词,总计频数1868次。现按搭配词的共现频率排列如下:

继续(157)、会(41)、仍然(27)、总体(20)、要(155)、能(40)、水土(26)、事务(19)、始终(79)、能够(37)、连续(25)、为了(19)、将(74)、双方(33)、愿(25)、各方(17)、一直(59)、希望(33)、价格(23)、内(16)。

这些词可以归纳为名词、动词、形容词、副词、连词、介词等,“维持”右搭配词词性归类:

名词:关系、双方、希望、金融、水土、价格、纪录、中方、总体、事物、各方、危机。

动词:继续、要、会、能、能够、连续、愿、处理、冲击、呼吁、扩大。

形容词:好、努力。

副词:始终、将、一直、还、仍、仍然、依然、必须。

2.3.2 “维持”左侧搭配词考察

AntConc3.4.3w (Windows)2014对“保持”搭配词进行检索,按照T值和MI值分别进行排序,再按照MI3且T2.33取值,最后得出105条高频右侧搭配词,总计频数1958次。现按搭配词的共现频率排列如下(限于篇幅,取前20个):

将(140)、一直(46)、如果(23)、联邦(17)、来(101)、上诉(38)、现场(23)、难以(17)、还(86)、靠(37)、只(23)、判决(17)、继续(76)、为了(37)、但(21)、气温(17)、能(76)、可以(30)、并(20)、想(17)。

这些词可以归纳为名词、动词、形容词、副词、连词、介词等,“维持”右搭配词词性归类:

名词:利率、价格、现场、地区、基金、警察、联邦、判决、气温、二审、美联储、央行。

动词:来、继续、能、要、能够、上诉、靠、可以、难以、宣布、决定、驳回、想、主导。

副词:还、仍、仍然、一直、依然、只、才、只能。

2.3.3 “保持”和“维持”左侧搭配词的对比考察

就名词和动词来讲,保持和维持没有显著差异,但是两者前面的副词存在差异,保持前只能加“还、仍然、一直”等副词,而维持还可以加“只、才、只能”等副词。

3 结论

以下是HSK语料中,维持误用为保持的案例:

用机器把营[C]养送给{CC到}病人,维持{CC保持}病人的生命。

这三个和尚的故事告诉我们{CJX}在生活上很重要的事,[BC。]就是应该互相帮助,要不然难以维持{C保持}社会秩序。

但是经济方面,对越南来讲,比较[F較]困难一点,因为家里只有一个人工作,是很难维持{CC保持}生计[F計]的。

最重要的是我们以后怎样维持{CC保持}我们的生命?

为了维持{CC保持}生命,吃的食品[BD,]后来变成威胁人类生命的存在。

人类为了维持{CC保持}自己的生活才种粮食{CC食[C]物}。

因此保持[C]夫妻的好关系才会维持{CC保持}温暖[C]的家庭[C]。

以下是HSK语料中,维持误用为保持的案例:

可是汽车的喇叭声应该保持{CC维持}现在的声音,否则一定会{CJ-zy会}发生严重的交通事故,总之我觉得这个作法要看情况。

我希望爸爸在光州经常你一个人生活{CJZR},还是能保持{CC维持}健康,过得开心。

我们还是在有声音的状况下才能活,[BC、]才能保持{CC维持}冷静{CQ的}自己。

用本文研究方法考察出的“维持”与“保持”的区别可以很好地帮助留学生采取正确的表达。同时,通过个例研究可以推广到其他近义词的比较,这对于近义词词典的编纂起到了很好的补充作用。

4 不足与展望

第一,语料库来源单一。本文只选用了中国传媒大学的语料库,如果同时从国家语委以及北京大学的现代汉语语料库中抽取相同比例的语料,会使语料更具平衡性。

第二,参考类连接。本文只使用了语料库驱动的方式进行研究,如果参考建立类连接,将会更好地从句法层面凸显“维持”和“保持”区别。

参考文献:

[1] 林杏光.论词语搭配及其研究[J].语言教学与研究,1994(4):19-25.

[2] 卫乃兴.词语搭配的界定与研究体系[M].上海:上海交通大学出版社,2002.

[3] 李文中.基于COLEC的中介语搭配及学习者策略分析[J].河南师范大学学报,2004(31):5.

[4] 缪海燕,孙蓝.非词汇入高频动词搭配的组块效应——一项基于语料库的研究[J].解放军外国语学院学报,2005,28(3):40-43.

[5] 卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,4(2):101-104.

[6] 孙宏林.词语搭配在文本中的分布特征[A].黄昌宁.1998中文信息处理国际会议论文集[C].北京:清华大学出版社,1998:230-236.

[7] 汪腊萍.词项搭配的定量分析方法[J].上海师范大学学报(哲学社会科学版),2006(6):117-122.

猜你喜欢

语料库
《语料库翻译文体学》评介
基于语料库的“はずだ”语义用法分析
基于语料库“隐秘”的词类标注初步探究
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
基于英汉双语平行语料库的无根回译研究
基于语料库的近义词辨析研究——以suspect和doubt为例
低碳经济英语语料库建设与应用
基于网络语料库的“给力”研究