语言是一种复杂网络
2013-08-15刘海涛
刘海涛
(浙江大学外语学院,浙江杭州 310058)
索绪尔在其《普通语言学教程》中指出:“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑。…… 语言既是一个系统,它的各项要素都有连带关系,而且其中每项要素的价值都只是因为有其他各项要素同时存在的结果。”[1]127,160
如果语言是一种系统,那么我们就需要采用研究系统的一般方法来研究语言。遗憾的是,在索绪尔以后的现代语言学研究中,我们很难发现真正意义的从系统科学角度研究语言的成果。这对于全面理解语言系统的运作机理是不利的。
语言系统具有以下特征:语言是开放的与动态的,而不是均衡的;语言含有大量相互联系的成分;语言具有涌现的特点;语言中结构单元的分布是非线性的;语言具有缩放属性[2]。这些特征是复杂系统的典型特征。对于复杂系统的研究,需要专门的理论与方法。方法与理论的缺失,可能是导致语言学家在此方面研究成果不多的主要原因。
由于缺乏适宜的研究手段,语言学家对于语言复杂性的认识与研究大多停留在说说而已的层面。尽管如此,语言的复杂系统观也在一定程度上有助于我们对语言系统的全面理解,有益于推动语言学在理论方面的根本性改变。
近年来,随着系统科学的发展,出现了不少研究工具和方法,这使得语言学家采用实证的方法研究语言复杂系统成为可能。从系统的角度研究语言,可从这样两方面展开:一是研究语言系统的整体或全局特征;二是将语言视为一个含有多个子系统的大系统,研究子系统(如:词汇、句法、语义等)内部各个组成要素之间的关系以及子系统之间的关系。前者可采用复杂网络方法,后者可采用现代计量语言学的理论与方法[3]。值得注意的是,无论是构拟语言复杂网络,还是验证计量语言学中关于语言系统的假设与定律,都需要使用真实的语言材料。这是因为语言是一个动态的复杂系统,系统中的许多关系与要素只有在使用中才能被感知与确定。换言之,语言的规律蕴含在使用(及语言材料)之中,语言是语言系统运作的产物,而不是一堆静止的、没有生命的符号。
语言系统是一种关系系统,这种想法几乎贯穿了索绪尔之后的语言学的发展历程,从叶姆斯列夫、兰姆到现代认知语言学理论“认知语法”、“构式语法”及“词语法”,都不难见到“关系”的身影。如果语言是一种关系系统,那么将所有关系组合在一起就形成了语言系统。形式上,这种基于关系的系统是一种网络。但网络不一定就是复杂网络。一般认为,复杂网络是一种无法由其组成部分预测整体行为的网络,这一点是与认知语言学“整体大于部分之和”的语言观相吻合的。这也意味着,我们可以采用复杂网络技术来对语言进行分析和研究。
复杂网络分析方法可以在大规模真实语料的基础上,通过实证的方法,研究语言作为一种关系系统的整体特征及语言的涌现现象。此种研究有益于发现语言网络与自然界及人类社会其他现实网络的异同,加深对人类知识系统组织结构的认识,有助于构建更具心理现实性的人类知识处理体系,提升语言学研究的学术价值。
复杂网络的行为主要取决于节点之间的连接(结构)及相互作用。从结构方面来看,构成网络的基本要素并不复杂,因为每个网络都是由节点与边组成的,尽管在不同的现实网络里,节点与边的意义也会不同。就语言网络而言,节点一般为各种语言系统元素,如汉字的偏旁部首、汉字、词等,边为这些元素间的关系。研究目的的不同产生了多种多样的语言网络构拟方式,常见的有:(1)在类属词典的根词与其同义词之间建立关系;(2)在语义词典的基础上构建意义间的关系;(3)利用句子中词的共现形成关系;(4)利用具有依存句法关系标注的语料库构建语言网络等。我们可将(1)(2)两种基于词典等语言资源所构建的网络称为静态语言网络,而把(3)(4)两种根据真实文本构造的语言网络称为动态语言网络。静态语言网络反映了语言作为一种知识网络的状况,而动态网络可用来研究语言作为一种交际系统的特质。如果我们认为人类语言系统是在语言的使用中形成与不断完善的,那么动态与静态的关系可能是这样的:静态网络是动态行为的产物,静态网络反过来又服务于动态的语言处理。
语言系统是一个多层级系统,从网络的角度看,同样的语言材料,由于构造方式不同,可以形成多层次的语言网络。例如,使用同样的几个汉语句子,可以形成如下三种不同的网络:汉字同现网络a,汉语句法网络b及语义角色网络c。网络a中的节点是汉字,节点关系是在句中相邻汉字间形成的,这是一种可用来研究汉语词汇形成机制的汉语网络。网络b的节点为词,节点关系是句法功能关系,其理论基础是依存语法[4],它是由经过依存句法标注的句子集合转换而来的,是一种汉语句法网络。网络c是由经过语义角色标注的句子集合转换得来的,是一种汉语语义网络。将这三个网络导入到网络分析软件中,不难看出它们之间是存在较大差异的。例如,虚词在三个网络中作用和地位明显不同:在网络a中,如果把虚词移走,那么网络中相邻节点所展现的是一种构成词的概率;在b中,如果将虚词从网络中移走,剩下的节点就难以形成一个联通的网络,这说明虚词在汉语句法层面占有很重要的地位;网络c的节点均是实词,虚词在语义网络的缺失,使得语义网络更接近于概念网络。如果语言学家的任务是研究从线性句子到概念网络之间的转换机制,那么通过这三种网络间的差异,就有可能探究概念与语言表达之间认知机制的差异。因此,语言复杂网络的研究有助于加深我们对人类由思维到语言实现过程的认识。
值得注意的是,这些建构原则与结构层面各不相同的语言网络均具有小世界和无标度特征。也就是说,几乎所有基于真实语料的语言网络都具有复杂网络的基本特征。对于习惯于研究语言局部特征的语言学家或只注重语言网络全局特征的自然科学家而言,不应只满足于发现与研究各种语言网络的普遍特征,而应将现有语言学成果与复杂网络的参数联系在一起研究,探究用复杂网络能解决什么传统语言学研究方法解决不了的问题,才是更重要的努力方向。每一位语言网络的研究者,都应该对以下问题做出回答:网络中的节点及边表示的是什么?为什么要研究这种语言网络?研究了哪些复杂网络参数,这些参数的语言学意义是什么?小世界语言网络的产生机理是什么?如何解释网络的增长方式与动态演化?
目前的复杂网络参数大多揭示的是网络的整体特点。换言之,通过这些参数有助于了解语言系统的整体或全局特征,而这些特征采用注重局部的语言学传统方法是很难获得的。无论是何种语言网络,其节点都是语言系统的组成元素,这些元素之间的关系是该元素在相应的语言结构层面上结合能力的体现。语言网络是构成语言系统各元素间关系的一种现实抽象,这样的网络也是研究语言构成元素活力(生命力)的模型,是维特根斯坦“用法论”的具体实现。由此可以看出,如果想用复杂网络来研究语言,那么在构造语言网络时,应具有语言学理据,应将网络的构造尽可能建立在语言学理论之上。非语言学家,由于缺乏必要的语言学知识,所构造的网络及由此得到的发现,很难得到合理的语言学解释,这大大削弱了研究的价值。下面我们以语言分类为例,看看如何用语言复杂网络来研究语言问题。
“语言类型学”正在成为一门显学,究其本质来看,类型是与分类密切相关的。Altmann与Lehfeldt将语言分类视为“普通语言类型学”的两大主要任务之一[5]。在他们看来,语言分类就是构建一种建立在语言整体相似性之上的自然语言分类体系。就语言的分类而言,现代语言类型学的方法存在以下两个问题:一是过于重视个别参数研究的趋向,这可能导致难以从整体的角度对语言进行分类,进而影响类型学研究成果对语言分类的效果;二是资源问题,尽管当前的语言类型研究语种库已有近千种语言,但这些语言的类型数据大多不是来自于日常交流中随处可见的自然话语。根据此类数据得到的结论,难以全面、真实地反映一种语言的类型学特点,更难以作为语言分类的理据。
从整体的角度研究语言的分类有其合理性,当人们说某种语言与另一种语言相似或不相似时,一般是从整体的角度出发的,而不是指的某个具体的语言特征。此前我们说过,目前的复杂网络参数大多是用来衡量系统整体特征的,因此构拟不同语言的语言网络,提取它们的网络参数,对这些网络参数进行对比分析,便有可能达到从整体的角度对语言进行分类的目标。同时,如果我们用的是语言的动态网络,也就可以保证语言分类的结果建立在真实的语言材料之上,其结果也可反映真正的语言差异。
国际上,这方面最早的研究始于刘海涛有关两种不同语体复杂网络的研究[6]。这项研究发现,具有相同直径的两种语体的句法网络,在平均度、平均路径长度、幂律指数和聚集系数方面的差别比较明显。研究表明,复杂网络有可能成为一种语体分类的方法与工具。这项研究更重要的意义在于,语体分类与语言分类具有极大的相似性,当所处理的文本属于同一种语言不同种类的时候,我们进行的是语体(文本)分类;当所处理的文本属于不同语言时,就是语言分类或语言类型判别研究。
此后,刘海涛构造了15个语言的句法复杂网络[7],并采用复杂网络研究工具对这些语言网络进行了分类研究。结果显示,通过复杂网络的主要参数,即:节点的平均度、聚类系数、平均路径长度、网络中心度、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数,可以对人类语言进行分类,其准确性与利用现代语序类型学主要指标进行的语言分类准确性相当[8]。再后来,Abramov与 Mehler采用类似的方法与不同的语料再次证明了复杂网络作为语言分类工具的可行性与可靠性[9]。然而,通过复杂网络参数为什么能对语言进行分类呢?复杂网络反映了语言的哪些特征呢?为了研究这些问题,刘海涛与徐春山根据15种语言的依存句法树库构造了相应的词形网与词目网,并对这30个语言网络进行了研究分析[10]。研究发现,词目网与词形网参数之差可取得更好的语言分类结果。这说明,采用句法依存网络可以反映语言的形态变化程度及语言的形态复杂度。如果复杂网络可以更好地反映一种语言的形态变化复杂度,那么其可以用来进行语言分类也就不足为奇了,因为形态历来是判别语言类型的一种有效手段。
就方法而言,上述基于复杂网络的语言分类主要存在两大问题:一是构建句法依存网络所用的语料在语义内容和语体方面的一致性难以保证。所选语料在语义内容和语体上的不一致性有可能影响相应的句法依存网络在拓扑结构上的异同,进而影响语言分类的结果;二是句法依存网络的构建需要耗费大量人力物力。尽管已有多种依存句法分析器可供选用,但如果要满足语言学研究的要求,仍需人工对自动分析结果进行逐词逐句的校改。因此,我们需要寻找一种更易获得的语言网络来作为句法依存网络的替代品。
为了克服以上研究所用依存树库资源难以获得的问题,刘海涛、丛进研究了在基于复杂网络的语言分类中使用平行词同现网络替代句法依存网络的可行性[11]。他们采用12种斯拉夫语言和2种非斯拉夫语言的平行文本,构建了14个词同现网络。研究发现,通过这些网络的主要参数的恰当组合,聚类分析能将斯拉夫诸语言与非斯拉夫语言区分开来,并可将12种斯拉夫语言正确地划分到各自的语支中去。另外,聚类也能反映某些斯拉夫语言在其语支内部的亲缘关系。这表明,平行词同现网络能够被用于语言的精细分类,而且在基于复杂网络的语言分类中可被用作句法依存网络的一种更为便捷的替代品。
近年来,Amancio等人又将基于复杂网络进行文本分类的方法拓展到文学作品的断代、译文质量评估、语言复杂度判别等领域[12]。
通过以上事例,不难看出,采用复杂网络方法来进行语言(文本)分类研究,不但克服了类型学研究中语种库语料为非真实语料及参数选择中过于注重微观的问题,所得到的结果更能体现语言的整体类型学特征,也拓展了复杂网络在人文、社会与生命科学等领域的应用。
从跨学科及学科整合的角度看,此种研究不但有助于我们更好地理解语言的结构和组织,有益于认识语言的普遍性和特殊性,有益于对语言知识网络的认识,也有助于推进语言学研究的科学化与中国语言学的国际化。
当然,作为一种新的语言学研究方法,还有许多问题需要解决,但可以肯定的是,这是一条可以通向美好未来的路,一条越走越宽的路,值得更多的同行参与。为了语言学的科学化与中国语言学的国际化,让我们一起上路吧!
[1]索绪尔.普通语言学教程[M].高名凯,译.北京:商务印书馆,1980.
[2]Kretzschmar W A.The Linguistics of Speech[M].New York:Cambridge University Press,2009.
[3]刘海涛,黄 伟.计量语言学的现状、理论与方法[J].浙江大学学报:人文社会科学版,2012,43(2):178-192.
[4]刘海涛.依存语法的理论与实践[M].北京:科学出版社,2009.
[5]Altmann G,Lehfeldt W.Allgemeine Sprachtypologie:Prinzipien und Messverfahren[M].Munich:Fink,1973.
[6]Liu H.The complexity of Chinese dependency syntactic networks[J].Physica A,2008,387(12):3048-3058.
[7]刘海涛.语言复杂网络的聚类研究[J].科学通报,2010,55(27-28):2667-2674.
[8]Liu H.Dependency direction as a means of word-order typology:A method based on dependency treebanks[J].Lingua,2010,120:1567-1578.
[9]Abramov O,Mehler A.Automatic Language Classification by means of Syntactic Dependency Networks[J].Journal of Quantitative Linguistics,2011,18(4):291-336.
[10]Liu H,Xu C.Can syntactic network indicate morphological complexity of a language?[J].EPL,2011,93(2):28005.
[11]刘海涛,丛 进.基于平行词同现网络的语言聚类[J].科学通报,2013,58(5-6):432-437.
[12]Amancio D R,et al.Complex networks analysis of language complexity[J].EPL,2012,100(5):58002.