《左传》及白话左传语言网络中的模体探查
2015-05-04许超
许 超
(南京师范大学 文学院,江苏 南京 210097)
“一门21世纪的科学”,邓肯·瓦兹2007年发表在《自然》上的文章以此为题评论网络科学 (Watts D.,2007)。这一断言基于两点:首先,网络科学是一门新生的学科,它刚刚兴起于20世纪的最后两年;其次,网络科学将成为21世纪的显学。
在21世纪的第一个十年中,《自然》和《科学》期刊多次刊发网络科学的专辑和封面文章,网络科学已经兴起成为一种新的研究范式。本文的工作就是尝试将网络科学应用到语言学研究中,具体地说,是在构建《左传》及白话左传语言网络的基础上,探查其中存在的模体。
1.网络科学与语言网络
1.1 网络科学的定义
网络科学是以复杂网络为研究对象的跨学科的研究领域,着眼于复杂网络的定量与定性特征的科学理解。“复杂性”不仅仅体现在结构的复杂、节点的复杂、结构与节点之间的相互影响关系的复杂,更重要的是,复杂性是系统整体层次展现出来的、无法还原为个体简单因素的特征或规律。
复杂网络的研究对象是复杂系统。大英百科全书对复杂系统(Complex System)这一词条的解释为:“复杂系统通常是指那些由相对简单的个体通过较强的相互作用而形成的具有涌现特征的整体。所谓的涌现特征则是指系统整体层次展现出来的、无法还原为个体简单因素的特征或规律”(Britannica, 2014)。
2009年《科学》出版了一期以“复杂系统与网络”为题的特刊,在导论中,Barabási指出:“在每个复杂系统背后,都有一个错综复杂相互联系的网络,这个网络定义了复杂系统的各个成分间的互动关系。我们必须构造并分析复杂系统背后的网络,否则我们永远无法理解复杂系统。”(Barabási&Zahn, 2009)
1.2 语言网络研究概况
随着网络科学如火如荼的发展,研究者发现可以以复杂网络的视角研究自然语言。这种用研究信息网络、生物网络、社会网络的理论和方法研究自然语言的尝试,给传统语言学研究带来了一股清新之风。
复杂网络视野下的语言网络建模和实证分析,以2001年西班牙学者Ferrer i Cancho R.和Sole R.V.的英语单词句中共现网络研究为标志,该研究以《人类语言的小世界性》为题,发表在《伦敦皇家学会会议录B:生物科学》上 (Cancho&Sole,2001),他们发现词共现网络具有小世界性和无标度性。
国内较早的研究出现在2004、2005年,韦洛霞等分别在2004年和2005年在《科学通报》上发表论文《汉字网络的3度分隔与小世界效应》(韦洛霞,李勇,2004)和《汉语词组网的组织结构与无标度特性》(韦洛霞,李勇,2005),分析了词之间以共享汉字为关系的复杂网络,发现这种网络模型具备小世界性和无标度性。
近十年来,作为网络科学实践的方向之一,语言网络的建模和分析得到迅速发展。越来越多的学者以复杂网络的视角来研究自然语言,认为其宏观结构符合复杂适应性系统的一些普遍特征。这方面的研究,在横向(多语种)、纵向(多个语言层面)和深度(多种关系类型)上,呈现立体式发展。
1.3 语言网络的概念
对于“语言网络”这一术语,并没有严格的定义,只要是用网络的“点”和“线”来表达语言单位及单位之间的关系,构建出语言单位的关系网络,就可以称之为语言网络。对于语言网络研究而言,更重要的是语言网络的分类,因为不同的语言网络具有完全不同的语言学意义。
构建语言网络最关键的要素是材料来源、节点和连线,所以我们可以从这三个要素的角度进行分类。
按材料来源分:静态的,是从词典、语言知识库等静态资源中提取节点与连线;动态的,是从语料库中,以句子为单位提取节点与连线。因为一切语言的静态资源都是以真实语料为基础构建的,所以这里强调“以句子为单位”,否则就无法区分静态和动态。
按构成节点的单位分:可以以音节、字、词、义元、义征为单位。
按构成连线的手段分:可以以语言单位的共现、共享(共享某个字、某个词)为连线,或以语言单位的句法依存关系为连线,或以语言单位的语义关系为连线。前两种是语言单位形式上的关系,可以称为形合关系,后一种称为意合关系。
这三个方面相互组合,可以构建多种多样的语言网络。按词典中有相同字的词语建立网络,就是静态的形合字网;按词语在句中的共现关系建立网络,就是动态的形合词网;按词语在句中的语义关系建立网络,就是动态的意合词网。
词共现网是以词语为节点,词与词在语料中的共现关系为边构建的网络,拥有连线的一对词一定是在语料中共现过的。这样得到的网络是一个有向权值网,方向是词在句中的前后语序关系,权值是在这对词在语料中的共现次数。图1是一个简单的词共现网的例子,这个网络由两个句子组成:
A.我去一家教育机构。
B.家里一直耐心教育小孩。
这个简单的词共现网在网络分析软件Pajek①中作图为:
图1
本文所构建的《左传》及白话左传的语言网络就是词共现网,下文将具体介绍该网络的构建方法。
2.模体分析
模体(motif)是网络中由少量节点,如基因、蛋白质、生物分子,按照一定拓扑结构构成并且相对于随机网络在网络中富集出现的小规模模式 (郭世泽,陆哲明,2012)。模体在网络中以子图形式反复出现,其比例明显高于相同规模的随机网络中这些子图所占比例。辨识出模体有助于识别网络的典型的局部连接模式,在生物网络、神经网络和技术网络等多种网络的研究中,都找到了显著而稳定的模体。
实际网络的节点之间相互作用非常复杂、难以厘清,但模体分析可以帮助我们对网络进行简化,达到看清网络全局结构的目的。图2就是三个非孤立节点组成的所有可能的13个模体(有向子图)。
图2
Shen-Orr和Milo最早调查了生物网络中的模体,发现了大肠杆菌基因的转录关系网中的三种核心功能模块(Shen-Orr&Milo, 2002),这篇文章发表在《自然·遗传学》(Nature genetics)期刊后之后,引起了广泛关注,此后模体分析被广泛应用在生物信息、电子设计、神经网络研究中。Milo比较了生物、电子电气、自然语言、计算机科学方面的多个网络,发现不同领域的网络其“模体记号”显著不同,可以看做“指纹”来自动识别不同领域的网络(Milo,2004)。
Biemann和Roos在语言网络方面继续了Milo的工作,他们构建了英语词共现网,提取出了两类模体,分别为规模为3的有向模体和规模为4的无向模体,发现这两种模体能较好地区分出真实文本与根据二元、三元同现概率构造的“伪文本”(Biemann&Roos,2012)。
本文的工作以《左传》及白话左传的词共现网为对象,探查其中可能存在的模体并给出语言学的解释。
3.《左传》及白话左传语言网络的构建
3.1 语料来源
本文使用的《左传》底本是北京大学出版社2000年12月出版的《春秋《左传》正义》②,白话左传使用的底本是岳麓书社1993年8月出版,杨伯峻著的白话左传。
杨伯峻的白话左传非常忠实于原文,几乎是对《左传》句对句的翻译,完全可以看做是先秦汉语和现代汉语对照的平行语料,这是非常宝贵的一种语料。我们对古典文献信息处理的结果,经常拿来和现代汉语进行比较分析,但是选取的现代汉语语料却通常是新闻语料,例如拿 《左传》与1998年1月的《人民日报》语料比较,这样的比较不是没有意义,但是在语料选择上是欠妥的。我们认为,古典文献与对应的白话版本,是对同一客观世界对象的描述,摈弃了非语言因素的干扰,这种对比更有语言学上的意义,能够更好地体现古汉语与现代汉语的特点。
《左传》语料经(石民,2010)分词词性标注并人工校对,白话左传语料使用张华平开发的NLPIR汉语分词词性标注系统2014版进行处理,并人工校对。表1是《左传》和白话左传语料的规模概况。
表1
白话左传总字例数是《左传》的1.8倍,也就是表达同样的内容,现代汉语需要先秦汉语近2倍的字数,这与现代汉语的双音节化是吻合的。白话左传总词例数只是《左传》的1.38倍,这是因为《左传》中单字词的词例非常多,虽然总字例数少,但总词例数并不少。
3.2 《左传》与白话左传语言网络的设计
本文设计了两种语言网络,分别是词语共现网络和词/词性共现网络。前者以词语为节点,词语之间的共现为弧,体现了词语在句中的语序,以此建构词汇系统背后的复杂网络;后者以词/词性为节点,词/词性的共现为弧,与词共现网对照比较,能够反映句法的制约关系。
本文采用的词语共现标准是:以顿号、书名号以外的任何标点为边界的字符串内的二元接续共现。因为被标点符号分隔的两部分,通常不在一个句法结构内,所以中间隔着标点的两个词语不能算是共现,顿号和书名号除外。此外,引号比较特殊,既可能是直接引用的话,又可能是有特别用意的词、短语,但好在文本中引号基本上表示直接引用,因此我们把引号都算作分隔边界。
据此,我们就有四个语言网络:《左传》词共现网、《左传》词/词性共现网、白话左传词共现网、白话左传词/词性共现网,这四个网络都是有向权值网。
4.模体探查方法
本文以规模为3的模体分析为分析对象。因为在词共现网中,规模为3的模体,正是一个词和它的左右邻居,反映了词和它的左右邻之间各种可能的位置关系。汉语属于孤立语,没有严格的语法形态,靠语序和虚词等其他语法手段表示语法意义和语法关系。探讨词和它的左右邻之间的位置关系模式是非常有意义的。
本文使用德国耶拿大学Sebastian Wernicke开发的模体探测程序fanmod④,该程序在生物信息网络研究中使用较多,优点是快速、可视化,且有较强的假设检验功能。模体检测的标准是:将待分析网络的各个子图所占比例与大量随机网络的各个子图所占比例做z检验,具有显著性的子图就是模体,这样可以区分是随机因素造成的子图模式还是待分析网络本身的特性构成的子图模式。
我们的实验参数为:
*对网络的所有子图做枚举检测。
*构造200个随机网络。
*随机网络采用对原网络节点随机交换连线得到,每条连线随机交换3次。
5.模体探查结果
表2是我们对规模为3的有向模体的考察结果。在表格中显示的都是对于随机网络而言,有显著性的子图模式即模体,这个显著性用z检验值来衡量。
表2 《左传》及其白话版本模体考察《左传》词共现网5个模体
《左传》词词性共现网5个模体
模体ID 6 36 14 164 12模体实际频率占比 21.627% 26.978% 6.4711% 6.8717% 36.326%随机网络频率占比 21.461% 26.861% 6.4291% 6.8211% 36.289%随机网络标准差 5.5206e-005 5.6736e-005 4.974e-005 8.5417e-005 8.8053e-005 Z 值 30.17 20.621 8.4296 5.9225 4.2087
白话左传词共现网5个模体
模体ID 36 6 14 164 78模体实际频率占比20.554% 21.845% 8.7686% 9.0865% 1.3541%随机网络频率占比20.468% 21.771% 8.7414% 9.0754% 1.3504%随机网络标准差 3.2952e-005 2.9128e-005 4.3319e-005 4.2988e-005 1.4911e-005 Z值26.254 25.314 6.2935 2.5828 2.4461
?
白话左传词/词性共现网5个模体
从表2中可以看出,四个网络都有5个模体,明显不同之处在于:《左传》的词和词/词性共现网有编号为12的模体,但没有编号为78的模体;白话左传的词和词/词性共现网有编号为78的模体,但没有编号为12的模体。这种差异值得认真分析。下面我们具体看看12号模体和78号模体。
12号模体是一个链式关系的模体,只允许A→B→C这样的次序,这种模体存在于《左传》的共现网中,在白话左传中不显著。该模体显示出《左传》中存在由单向词序组成的功能模块,而白话左传中这种具有单向强制性的模块并不显著。我们又仔细分析了12号模体这种子图在白话左传中的出现频率,发现频率其实相当高,占了总子图数的37%,但与随机网络相比并不具有显著性,所以不能算是模体。
78号模体是一个双向选择的模体,一个节点可以接受相邻节点的双向选择,但邻节点之间没有关系,这种模体存在于白话左传的共现网中,在《左传》中不显著。该子图其实在《左传》和白话左传网络中的占比都不高,但在白话左传中具有显著性。78号模体在词共现网中是一种语序相当灵活的功能模块,一个词语和它的邻居前后顺序可以互换,“安定←→国家”和“安定←→君位”在白话左传中都出现过,但在《左传》中,就只有“宁→国”而没有“宁←国”。
我们认为,《左传》与白话版本在12号和78号模体上的差异,反映了白话左传相对《左传》而言,语序显得更灵活,具有单向强制性的模块不显著,双向互换的模块有显著性;《左传》则相反,受单向语序制约的模块比较显著,语序不那么灵活。语序是孤立语重要的语法手段,白话左传在这方面似乎重要性稍弱,《左传》稍强。
6.结果的讨论
通过对《左传》与白话左传的四种语言网络中模体的考察,我们发现存在一些有趣的差异,那么这种差异是否具有语言学上的普遍意义呢?
首先,我们认为,这不能完全用样本造成的误差来解释,因为我们比较的是《左传》与白话左传两个平行语料,描述的是同一历史对象。如果用《左传》与人民日报一个月的语料相比,那么可能两个样本的容量都较小,不足以证明模体差异在语言学上的普遍意义;但是对平行语料而言,白话左传相当于《左传》的现汉翻译,它们之间的差异就不能完全用样本容量导致的误差来解释了。
合理的推断可以是:《左传》与白话左传语言网络中模体存在的差异是由《左传》中的先秦汉语与白话左传的现代汉语本身的差异导致的,这种差异就是现代汉语中语序更灵活,先秦汉语中语序较为受限;语序是孤立语重要的语法手段,现代汉语与先秦汉语的这种差异颇为耐人寻味。
当然,这只是我们在实验结果上的推断,并没有排除样本容量可能造成的影响,妥当的方法是对所有先秦文献及其白话版本做对比分析,这是我们今后要做的工作。
注释:
①http://vlado.fmf.uni-lj.si/pub/networks/pajek.
②忽略注疏部分,只保留经文部分.
③此处的“词型”是区分词性的,下文如无明确交代,均区分词性.
④http://theinf1.informatik.uni-jena.de/motifs.
[1]Barabási, A.-L., &Zahn, L. (2009).Connections.Science, 325(7):405.
[2]Biemann, C., &Roos, S. (2012).Quantifying Semantics Using Complex Network Analysis. COLING 2012,(pp.263-278).Mumbai.
[3]Britannica, E. (2014).complexity.Retrieved from Encyclopaedia Britannica Online
[4]Cancho, F.i., &Sole, R.V.(2001).The small world of human language.The Royal Socienty, 268(3): 2261-2265.
[5]Milo, R.I.Superfamilies of evolved and designed networks.Science,2004,303(5663): 1538-1542.
[6]Shen-Orr, S., &Milo, R.etwork motifs in the transcriptional regulation network of Escherichia coli.Nature genetics,2002,31(1): 64–68.
[7]Watts, D.A 21st century science.Nature,2007,445:489.
[8]郭世泽,陆哲明.复杂网络基础理论.北京:科学出版社,2012.
[9]石民.基于CRF的先秦汉语分词标注一体化研究.中文信息学报,2010,24(2): 39-45.
[10]韦洛霞,李勇.汉字网络的3度分隔与小世界效应.科学通报,2004,49(24):2615-2616.
[11]韦洛霞,李勇.汉语词组网的组织结构与无标度特性.科学通报,2005,50(15):1575-1579.