APP下载

基于词向量空间的大规模中文语义网络构建与复杂性分析

2014-12-16曹茂元等

电脑知识与技术 2014年32期

曹茂元等

摘要:当前对于汉语语义层次的语言网络研究方法仅限于静态词典生成以及人工手动生成两种方法,具有很大的局限性。对此,该文从大规模语料库生成的语义空间出发,结合语义空间丰富的语义信息和义类词典资源,提出一种新颖的基于分布语义的语义网络构建策略,并在此基础上探究了由不同性质的语义空间所构建的语义网络的统计特性。相比前人的方法,该文提出的方法优势在于无需依赖人工标注,支持大规模动态语料的网络自动构建。实验结果表明,语义网络具有复杂网络两个典型的特性:小世界效应和无标度特性。此外,由于语义网络描述的是词之间最为本质的语义关系,与不同文体中的措辞、使用习惯、风格等不存在直接的关系,因此当语义网络节点到达一定规模时,语义网络的某些统计特性可能会趋于一致。

关键词:语义网络;语义空间;小世界;无标度

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)32-7703-07

复杂网络研究方法的出现使对语言网络进行大规模实证性研究成为可能[1]。语义研究是当前研究的热点,如何借助复杂网络方法研究语言的语义特性是一个十分关键的问题。唐璐、张永光等[2]在两个大型词典HowNet和WordNet基础上,利用词典信息构建了两个语义网络。刘海涛[3]通过人工语义标注的语料,构建了一个小型的语义网络,借此探究语义网络的复杂特性。Steyvers 和Tnenenbaum[4]利用WordNet、罗杰分类词典等资源分别构建了大规模英语语义网络,并对其进行复杂统计分析。但现有的工作依赖手工标注或者完全借助词典(如WordNet)的方法来构建语义网络,这些方法数据规模小,移植拓展性差,无法很好的说明问题。而分布语义是语义表示的重要方法,由大规模语料所构建的语义空间里已经包含了可以计算的语义信息。其优势是不需要依赖人工标注,可以从语料中获得大量语义表示。如果能从大规模分布语义空间中自动构建语义网络并应用复杂网络方法加以探究,则将能很好地推动语义网络复杂特性方面的研究。该文将开展这方面的工作。该文主要关注中文的情况,但相关的方法也可以扩展到其他语言。

Harris提出语言学的分布假设[8]:两个词之间的相似度可由它们共现词的分布相似度近似,换而言之,即具有相似上下文的词具有相似语义。这里,我们对基于分布假设理论计算的相似度给出定义,称为分布语义相似度:

定义1.1 分布语义相似度,指在分布假设理论下,通过借助上下文共现分布的相似性对两个词相似性进行的度量。

从上文可知,分布语义相似度的计算是根据两个词语出现的上下文重叠程度计算它们之间的相似度,换而言之,上下文背景越相似,词的相似度就越大。目前对分布语义的表示、比较,采用的是基于向量空间模型的语义空间的方法[9]。由于语义空间内蕴含着丰富的语义信息,因此在语义空间的基础上构建语义网络是具有理论依据且十分有意义的。

2 语义网络构建算法

2.2 节点拓展

利用语义空间自带的丰富的语义信息可以计算两个词之间的分布语义相似度,将相似度高于一定阈值的两个词连边,认为二者具有语义关系,从而将语义空间拓展成对应的语义网络。

对每一个当前进行拓展的新节点(拓展词)分配集合NewSet保存该节点拓展信息,集合OldSet保存已拓展词的历史信息。考虑到复杂度以及作为基元(维度)的词的丰富语义信息,该文采用贪心思想进行节点的拓展来生成语义网络,即假定词w1的语义向量对应某基元的值大于某个阈值e,则认为词w1与该基元存在语义关系,则将二者相连,并将拓展到的节点(基元)加入集合NewSet。在此假定下,继续按相同方法拓展基元直至无可再拓展基元,则认为该词w1拓展结束。为防止出现不连通图,即若出现NewSet和OldSet两集合不相交的情况,则以概率1/size(OldSet)将两个集合进行连边,否则计算拓展词与OldSet里非基元词的相似度进行连边。最后将NewSet并入OldSet中。

按本节所提算法对语义空间进行边的拓展生成语义网络,但发现其与人工标注生成的语义网络结构存在较大的差异,主要原因是由于语义分布相似度描述的特性混合了相似性与相关性,因此产生了多余的、与语义分析相违背的连边,故需要对所生成的初始语义网络里不合理的边进行过滤,以生成更接近人工生成的语义网络。

2.3 过滤不合理的连接

本节首先对相似性和相关性给出定义及其度量方法,再据此提出2条启发式的过滤规则,实现对语义网络里不合理的连接进行过滤。

4 总结及展望

语义网络介于句法网络和概念网络之间,是人类知识的高级表示。而当前对语义网络的研究仅有人工手动生成与使用义类词典资源两种方式,对进行大规模语义网络研究有很大的局限性。由于语义空间内蕴含着大量准确而丰富的语义信息,因此本文提出了基于语义空间和义类词典资源结合的语义网络生成算法,能够对大规模语料进行语义网络复杂特性的探究,网络节点更加丰富,更能体现语言在真实文本中的动态特性。实验结果发现:基于语义空间生成的语义网络符合小世界和无标度特性;当语义网络节点到达一定规模时,语义网络的某些统计特性可能会趋于一致;一定规模下,不同方式生成的语义空间对最终生成的语义网络的某些统计特性不会造成重大的影响。未来的工作主要有:分布语义受训练文本的影响较大,也仅能表现出现在文本内的语义,因此在一个更大规模语料上进行本文的研究是必要的;当前对语言网络的研究还多局限于总体宏观统计特性,在未来的研究工作中应该关注于复杂网络局部所表现出的特性,比如社区发现等。

参考文献:

[1] 刘海涛.语言网络:隐喻,还是利器? [J].浙江大学学报:人文社会科学版,2011,41(2):169-180.

[2] Tang L, Zhang Y G, Fu X. Structures of semantic networks: How do we learn semantic knowledge[J]. Journal of Southeast University (English Edition), 2006, 22(3):413-417.endprint

[3] 刘海涛.汉语语义网络的统计特性[J].科学通报,2009,54(16):2781-1785.

[4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.

[5] 汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2006.

[6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.

[7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.

[8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.

[9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.

[10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.

[11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.

[12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.

[13] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北,2002,7:59-76.

[14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint

[3] 刘海涛.汉语语义网络的统计特性[J].科学通报,2009,54(16):2781-1785.

[4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.

[5] 汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2006.

[6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.

[7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.

[8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.

[9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.

[10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.

[11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.

[12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.

[13] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北,2002,7:59-76.

[14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint

[3] 刘海涛.汉语语义网络的统计特性[J].科学通报,2009,54(16):2781-1785.

[4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.

[5] 汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2006.

[6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.

[7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.

[8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.

[9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.

[10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.

[11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.

[12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.

[13] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北,2002,7:59-76.

[14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint