基于词同现网络的“一起”与“一齐”比较分析
2017-06-23杨佳璐
杨佳璐
(华中师范大学 语言与语言教育研究中心,湖北 武汉 430079)
基于词同现网络的“一起”与“一齐”比较分析
杨佳璐
(华中师范大学 语言与语言教育研究中心,湖北 武汉 430079)
“一起”和“一齐”是两个意义相近、容易混淆的词,学界已从不同角度对两词进行过比较分析。拟以中等规模的自建语料库为基础,借助语言网络理论对两词进行了考察。研究发现:(1)“一起”“一齐”中心性均不高,位于中间偏后的位置;(2)“一起”的中心性要强于“一齐”。通过比较分析,为“一起”“一齐”的对比研究提供了更为客观的统计数据。
一起;一齐;词同现;语言网络;协同副词
“一起”“一齐”是两个意义十分相近的词。《现代汉语词典》(第六版)中对“一起”的解释为:“①同一个处所;②一同;③一共”。其中,①是名词意义,②③为副词意义;对“一齐”的解释为:“表示同时”,为副词意义。两词意义相近,一般是指它们用作副词时意义相近。
已有研究中,对“一起”已有较为充分的探讨,如王仁法、徐以中(2003),李胜梅(2004),葛婷(2009),石佩璇(2009),邵洪亮(2010),唐昱(2011),等等。对“一齐”的分析,则多集中在与“一起”或其他词语的对比研究中,如从语义角度展开的“一起”“一齐”对比分析(王兆麟,1979;叶秋生,2007),“一起”“一齐”可替换度的研究(葛婷,2009),关于两词语法化过程的探讨(李晨溪,2013),等等。这些研究就“一起”“一齐”的相同点、差异乃至成因都做了较为充分的探讨,但同时也展现出一种明显的“多列例证,少见客观系统的数据分析”的特点。
语言网络具有系统性、复杂性。复杂网络具备小世界、无标度等特征,语言网络也是如此。(如Cancho,Sole,2001;刘知远,孙茂松,2007;刘海涛,2010)这无疑为我们借助客观数据来审视具体的语言现象提供了新的视角与方法。
因此,我们通过大规模的语料库,构建了表示次前后邻接同现关系的有向网络,在语言网络中来进一步考察“一起”和“一齐”的特征及差异,为相关研究提供了更为客观的统计数据。
一、词同现网络的基本数据
研究所用语料均来自于自建语料库。语料共计约1630万字符,主要来源于现当代小说、新闻及现当代散文等。
我们首先利用国家语委开发的CorpusWordParser软件对语料进行了自动分词处理,以逗号、分号、句号、问号等标点符号进一步划分分词结果,通过MySQL构建了大型语料库。再利用WordCooHelper 1.6①对语料进行了语言网络的自动构建,并借助pajek 4.08对数据进行了分析。
我们将语料库中的语料随机分为5个部分,每组平均326万字符,分别构建为5个有向网络,具体参数如表1所示。
表1
在将语料转化为网络后,逗号、分号、句号、问号、感叹号等标点符号不再保留,但仍然保留了一些具有特殊表意作用的符号,如%、℃等。
为了便于分析,在5个语言网络中,均添加了“ROOT”节点,用以标识句子。如:
(1) 原句:“所有人一起惊呼。”
有向网络中的表现形式:“ROOT←所有←人←一起←惊呼”
(2) 原句:“和我一起到的还有一队运送铁锭的车队。”
有向网络中的表现形式:“ROOT←和←我←一起←到←的←还有←一←队←运送←铁←锭←的←车队”
(3) 原句:“两个兵一齐向他们说。”
有向网络中的表现形式:“ROOT←两←个←兵←一齐←向←他们←说”
若以上三例表示成网络图,则如图1所示:
图1 简单的表示词前后邻接同现关系有向图
三个例句在构建为一个词同现网络后,一方面通过“ROOT”节点标识原句开头,另一方面也通过该节点将几个句子连接在了同一网络之中。
二、 “一起”“一齐”在语言网络中的地位
节点在网络中的地位主要取决于其中心性。我们一般从节点度、接近度和中间度来考察网络节点的中心性。其中,节点度、接近度还包括输入,输出两种情况的考察。
中间度是用来衡量节点“中介”性的一个重要指标。由于两个非邻接节点的相互作用依赖于网络中位于两节点之间路径上的那些节点,(Freeman,1977)那么这条路径上的节点便起到了一种“中介”作用。因而中间度越高,其“中介”性越好。
同时,我们首先使用自建语料库中的语料构建了20个不同规模的有向网络,观察发现,在中间度、节点度、接近度几个特征中,节点在中间度这一特性上数值差异大,呈现出明显的层级性(如图2)。虽然接近度也体现出明显的层级性(如图4),但同一节点在5个网络中排名位置浮动很大,稳定性不足,不适合作为度量标准。因而我们以中间度为标准,将节点划分为5个层级:中心节点,次中心节点,一般节点,次边缘节点,边缘节点。5个层级“中介”性依次降低。其中,中心节点的中间度远远高于其他节点,一般有且仅有一个,而且往往是“的”;边缘节点则是中间度为0的节点。
图2 20个不同规模的有向网络中间度均值及离散度
通过考察五个网络中“一起”“一齐”的中间度,可以发现,“一起”“一齐”均应被归入“一般节点”之中。但它们的中间度在“一般节点”中相对较低,属于靠近下边界的节点。“一起”在5个网络中的中间度平均值为0.0003843,“一齐”则为0.0000715,平均中间度之差为0.0003128。这反映出它们的中间度差异并不大。换言之,在中等规模的语言网络中,“一起”“一齐”的“中介”性均不高。
节点度即考察与一个节点直接相连的其他节点的个数,(陈芯莹,刘海涛,2011)包括“点入度”和“点出度”。在有向图中,点入度反映的是节点与其后接(邻接)节点的连接情况,点出度反映的是节点与其前接(邻接)节点的连接情况。如图1所示语言网络中,“一齐”的前接节点为“兵”,计入点出度;后接节点为“向”,计入点入度。
节点度可以由数量上的差异来比较直观地反映节点中心性差异,但因其并未考虑间接相连的节点,所以这一特征更多地与词语的使用频率直接相关,其参考价值要弱于中间度。
“一起”“一齐”的节点度排名在整体排名中位置较为靠前,在平均63593.8个节点中,“一起”的点入度平均排名为379,点出度平均排名为1640.6;“一齐”的点入度平均排名为303.4,点出度排名为1987.6。它们点入度、点出度的排名差异较大,但总体靠前。
然而从具体数值上看,“一起”点入度、点出平均值分别为446、674.6,“一齐”点入度、点出度平均值分别为114、115.6 ,它们的节点度均不是很高。原因主要在于:第一,整个网络节点度跨度很大,节点度最高的节点为“的”(不计“ROOT”节点),可达一万以上,而节点度最低的节点,其节点度为0;第二,排名位于它们之后的节点中,仍有大量节点的节点度与之相近。因而,从这一角度看,它们依然处于整个网络里较后的位置。
接近度考察的是节点与其他节点的距离。如果一个节点与“其他许多点的距离都很短,这样的点与网络中许多其他点都‘接近’”。(陈芯莹,刘海涛,2011)接近度也是衡量节点中心性的重要指标之一。
接近度与词频之间没有明显的联系(如图3),词频很高的词,在网络中的接近度也可能会很低,词频极低的词,在网络中的接近度也可能会很高。按接近度的数值来看(如图4),相较于节点度和中间度而言,其变化也较为平稳。
图3 N1内接近度散点图(按词频顺序排列) 图4 N1内接近度散点图(按内接近度大小排列)
由于接近度考察的是语言网络中节点与其他节点间的距离,对应到实际语言中,反映的是一个词语在连接其他词语时的能力。即当一个节点接近度很高时,其他的词语能够借助相应词语在很短距离内发生关联。同时意味着,如果网络中某两个节点通过A节点能够在S步内连系起来,一旦“剔除”掉A节点后,这两个节点连系步数可能会远远大于S步甚至无法连系。如:N2网络中“商贩”、“绕过”两个节点可以直接通过“一起”相连(“和←其他←许多←商贩←一起←绕过←大路←循着←秦岭←小路←返回←了←汉中”),而删除了“一起”之后,“商贩”“路径”之间的最短路径发生了如图5(右)的变化。
图5 N2网络“商贩”“绕过”间的最短路径
左:删除“一起”前;右:删除“一起”后
再如,N5网络中“老兵←一齐←下蹲”,“老兵”“下蹲”通过“一齐”相连,而当“一齐”被删除之后,“老兵”便完全无法与“下蹲”相连。
表2
“一起”“一齐”的接近度数值上差异并不大,而且十分稳定(见表2),整体来说均位于网络的中间位置(最大约0.62,最低0)。因而,它们在关联其他词语的能力上也并不弱。在有限规模的网络中,甚至有一些词语依赖于它们才得以连系。
三、“一起”“一齐”的中心性差异
在对“一起”“一齐”中心性进行的分析中,也可以反映出两个词之间具有较为明显的差异。
首先,在中间度方面,虽然“一起”“一齐”的“中介”性均不高,同属于靠近下边界的“一般节点”,但在5个网络中,“一起”的中间度始终高于“一齐”,这依然能够反映出“一起”的“中介”性强于“一齐”。
通过我们的观察,一个词语在语言网络中的“中介”性越好,在具体的语言运用中也更容易被使用,换言之,即使用频率可能越高。(反之并不成立,如我们添加的“ROOT”节点在词频上总是位于第1名的位置,但它的中间度始终是0)那么, “中介”性更强的“一起”在语言中使用的频率应该会高于“中介”性更弱的“一齐”。实际的统计中也印证了这一事实。在5个网络语料的词频及其排序中,“一起”和“一齐”名次差异很大:“一起”平均出现674.6次,平均名次为317.4,最高名次302,最低名次360;“一齐”平均出现115.6次,平均名次2017.4,最高名次1901,最低名次2110。
其次,“一起”“一齐”之间节点度差异也很明显。
图6 “一起”“一齐”的节点度
一方面,如图6所示,从总体上看,“一起”的
节点度均大于“一齐”。“一起”的点入度、点出度平均值分别为446、674.6,明显高于“一齐”的114、115.6。不过这一点也明显受到词语使用频率的影响。一般而言,在一定规模的语料中,除去往往单独成句的那些词语外,一个词语使用频率越高,能与之前后搭配的词语在数量上相应地就越多,反映到词共现网络中,即节点度相应地越高。
另一方面,“一起”点入度、点出度差异很大,而“一齐”点入度、点出度则体现出高度一致性。在5个网络中,“一起”的点出度始终高于点入度,平均值之差高达228.6;而“一齐”的仅为1.6,且在N3、N4之中的点入度、点出度等值。由于节点度反映了节点与其邻接节点的连接情况,实际上即反映了相对应的词语在语言中邻接成分的情况。所以,上述差异进一步反映出它们在语句中所处的位置偏好:除去位于句中的情况,“一起”更倾向于出现在句末而非句首;“一齐”出现在句首的情况与出现在句末的情况在数量上差异不大,不过在实际考察中发现“一齐”少见于句末,则事实上它更倾向于出现在句中。
然后,对于接近度,虽然“一起”“一齐”均位于网络的中间位置,有一定的连系其他词语的能力,差异并不大;但不论是从它们在5个网络中的具体数值来看(表3),还是从标准差及平均值来看(表2),“一起”的接近度都要略高于“一齐”,而且“一起”名次总体靠前,“一齐”则明显靠后许多。
表3
而且,接近度在不同网络中的排名差异也十分巨大。“一起”“一齐”最靠前排名分别为181(N5,外接近度)、2939(N3,内接近度),最靠后排名分别为6025(N3,外接近度)、21128(N1,内接近度)。
因而,“一起”在语言中连系其他词语的能力要比“一齐”更强一些。
结语
总体而言,“一起”“一齐”在语言网络中的中心性并不高:①虽然它们属于“一般节点”,但在中间度数值上已比较接近“次边缘节点”;②即使节点度排名较前,但在数值上仍属于较低值;③接近度在数值上位于众节点的中间位置,对于连系其他节点起到了一定的作用。
同时,“一起”的中心性要强于“一齐”:在5个词共现有向网络中,①“一起”的中间度始终高于“一齐”;②“一起”的节点度始终大于“一齐”;③“一起”的接近度基本都高于“一齐”。进一步而言,这在事实上也印证了已有研究中的结论:“一起”替换“一齐”的可替换度要高于“一齐”替换“一起”。(葛婷,2009)即由于两词意义相近,而“一起”的中心性,尤其是接近度又强于“一齐”,“一齐”可以使用的地方,“一起”往往也能使用,反之则不然。
最后,我们的分析为“一起”“一齐”的对比研究提供了更为客观的统计数据,但我们仅仅只是对“一起”“一齐”在语言网络中的地位展开了探讨,研究范围仍然十分有限,实际上对于两词的对比还可以从k-邻接、k-核心、集聚系数等其他方面展开,这将会是我们下一步展开的工作。
注释
① 该软件由华中师范大学文学院肖辛格先生开发。
[1]Cancho R F I , Sole R V .The Small World of Human Language[J] .Proceedings of the Royal Society of London Series B-Biological Sciences, 2001 .
[2]Freeman L C. A set of measures of centrality based on betweenness[J]. Sociometry, 1977.
[3]陈芯莹, 刘海涛. 汉语句法网络的中心节点研究[J]. 科学通报,2011(10) .
[4]葛婷. 协同副词“一起、一块”的虚化与同形异构[J]. 枣庄学院学报,2009(4).
[5]葛婷. 协同副词“一起”与“一齐”可替换度研究[J]. 合肥师范学院学报,2009(2).
[6]李晨溪. 协同副词“一起”和“一齐”辨析[J]. 现代语文(语言研究版),2013(7).
[7]李胜梅.现代汉语“一起”的义项和语法功能[J].浙江树人大学学报,2004(5).
[8]刘知远, 孙茂松. 汉语词同现网络的小世界效应和无标度特性[J]. 中文信息学报, 2007(6).
[9]刘海涛.语言网络:隐喻,还是利器?[J]. 浙江大学学报(人文社会科学版), 2010(12).
[10]邵洪亮. “一起”的句法语义功能及其嬗变过程[J]. 对外汉语研究,2010(00).
[11]石佩璇. 试论“一起”的产生和发展[J]. 湖北广播电视大学学报,2009(5).
[12]唐昱. “一起”和“共同”的辨析[J]. 长春理工大学学报(社会科学版),2011(12).
[13]王仁法,徐以中. 副词“分别”与“一起”的歧义探讨[J]. 语言科学,2003(4).
[14]王兆麟. “一齐”和“一起”[J]. 语文学习,1979(1).
[15]叶秋生. 协同副词“一起”、“一齐”语义选择浅析[J].齐齐哈尔师范高等专科学校学报,2007(2).
Class No.:H146 Document Mark:A
(责任编辑:蔡雪岚)
A Comparative Analysis of Chinese Words “一起” and “一齐” Based on Word Co-occurrence Network
Yang Jialu
(Center for Language and Language Education, Huazhong Normal University, Wuhan, Hubei 430079,China)
The Chinese words 一起 and 一齐 are two separate words and easy to confuse the meaning of the two words. People have made a comparative from different angles . Based on the medium - sized self - built corpus, the article examines the two words by means of linguistic network theory. It is found that: (1) The word 一起 and the word 一齐 located in the middle of the posterior position; (2) The centrality of the word 一起is stronger than that of 一齐 . Through comparative analysis, the article provides a more objective statistical data for the further study of the two Chinese words.
Chinese word 一起and 一齐; word co-occurrence; language network; synonyms
杨佳璐,硕士,华中师范大学语言与语言教育研究中心。
1672-6758(2017)06-0152-5
H146
A