汉语的语素概念提取与语义构词分析

2018-04-16康司辰

中文信息学报 2018年2期

刘扬，林子，康司辰

(1.北京大学计算语言学教育部重点实验室，北京 100871；2.北京大学计算语言学研究所，北京100871；3.北京大学中国语言文学系，北京 100871)

0　引言

在汉语中，存在着“语素、词、短语、句子”等由小到大的语言单位和层级结构，而语素构词更是汉语的特点。作为基础的符号单位，语素及其意义，以及此上的构词分析和意义表达，既是汉语语义分析的起点，也是计算机理解词义的关键。

在研究构词结构时，人们很早就注意到了汉语词法与句法的平行性，汉语中的由字组词、由词造句的过程遵循同一原则。赵元任[1]认为构词成分之间存在造句关系。此后，陆志韦[2]、朱德熙[3]、王洪君[4]等指出，复合词内部的结构关系和句法结构是类似的。这在汉语词的历时形成过程中亦可找到解释。董秀芳指出[5]，现代汉语中的多字词多是古汉语单字词短语词汇化的产物，一些复合词的前身即是自由的句法组合。另一方面，考虑构词结构下的成分与整体，语素义与词义在某种程度上显然是关联的。徐通锵[6]分析汉语社团的思维方式与编码机制，强调汉语作为语义型语言，字的表义性是其内在结构基础。此外，符淮青[7]、周荐[8]等也注意到了汉语词的意合特征，认为汉语中的语素义和词义之间具有很强的推导性。这表明，探究汉语的语素构成及其意义系统，以及在此基础上的语义构词分析有扎实的理论基础和潜在的应用价值。

从自然语言处理的实践看，此前汉语的句法及语义分析一直居于主流地位，但是对语素、词法和意义的系统化的构建和分析工作还很欠缺。目前，关于语素与构词分析方面的研发工作主要包括以下几项：

(1) 清华大学苑春法的“汉语语素数据库”[9]，以语素描写和构词分析为核心，覆盖常见汉字的语素项信息，包括语法类、语素义的刻画，并对语素项构成的汉语词进行了结构描述和意义绑定。但不同的语素项之间是彼此孤立的，缺乏面向整个语言系统的意义关联，只以离散的语素项集合的面貌出现，没有形成体系结构，无法满足基于意义比较的计算需求；

(2) 鲁东大学亢世勇的“汉字义类信息库”和“汉语语义构词信息库”[10]，前者描写了常见汉字的字位(不妨理解为语素的义项)，后者在此基础上对二字合成词进行标注，对字位和合成词均进行了归类并形成了积极的意义关联。归类以此前已有的《同义词词林》为标准，存在语素义与词义的本原、因果参照问题，结构合理性有待商榷。

(3) 台湾大学周亚民的汉字知识本体(Hantology)[11]，分析了许慎《说文解字》中的540个部首汉字所刻画的基本义符概念，并映射到IEEE SU M O上层共用知识本体上，形成了与世界通用概念(该通用概念由英语词汇来承担)对应的层次结构。该本体在分类上同样存在先天的参照问题，且只考虑少数部首汉字的粗粒度意义，也难以对汉语的语素认知、计算提供足够的支撑。

(4) 中国科学院董振东的知网(HowNet)[12]，认为任何一个概念均能够分解为一组义原，并以此为基础来加以定义，并且在不同语言中存在同样的义原集合。基于对汉字的考察、分析，目前归纳、提取了2 800多个义原，采用人工给定的英—汉词汇序列表示并在其间形成了层次结构。这些义原均没有特定的语素载体，定位近于抽象的语素义。知网注意到了汉语的意合特征，为汉语的词义计算做出了贡献，但并没有走语素和构词分析的路，义原的形成和认定也带有较强的主观性。

这些先驱工作开拓了人们的视野，值得思考和借鉴。与此同时，他们在汉语语素及其意义的构建客观性、数据覆盖度、结构体系化以及汉语构词的全局性语义分析、数据挖掘与可视化等方面，还有期待改进的地方。

我们希望在WordNet理论、生成词库理论[13]等观点指导下，以《现代汉语词典(第5版)》(以下简称《现汉》)刻画的全部汉语语素及语素义为客观依据，基于语素义的相似度计算形成“同义语素集”，用来表征“语素概念”并建立“语素概念系统”，以描述汉语世界中的语义基元。在此基础上，进一步描述汉语词的构词结构，实现构词结构下的构词成分与“语素概念”的严格绑定，系统化地揭示汉语的语义构词现象并做数据挖掘和可视化呈现，推动人文领域和计算应用等相关工作的开展。

1　汉语语素概念提取方法

1.1　语义基元理论基础

语言中的语义基元揭示了人们思维中的核心语义概念，在语言认知与计算等诸多方面扮演着重要角色[14]。20世纪30年代，语言学家们探究了“基本语义单元”的概念，表达了对该类系统的期望[15-16]。到70年代，Wierzbicka等人认为“复合词的语义能够被一组意义更简单、更易理解的词语来解释”，并称其为“语义基元”(semantic primitives)[17]，这是重要的思路和提示。然而，在各种语言中，目前还没有找到表征和生成语义基元的有效方法。

在英语中，语素处于相对弱势的地位，语言中的概念意义主要由词来承载和体现，WordNet率先采用“同义词集”来表征“词汇概念”。值得注意的是，汉语是一种意合语言，语素作为最小的字符单位具有很强的表义性，对更大单位的词义的贡献十分明显。结合Wierzbicka等人的观点，并考虑汉语构词的特点，我们希望以“同义语素集”来表征“语素概念”。一个“语素概念”中包含了语言中大致同义或同类的所有语素，也代表了汉语世界中的一个语义基元。

1.2　语素类区分与语素义编码

考虑词典的权威性和应用的影响力，汉字语素取自《现汉》中的定义。目前，《现汉》只为成词语素标注了词类，可视为成词语素的语素类；对不成词语素，我们用人工标注的方式补齐了语素类。在8 514个汉字(包括繁体、异体字)的20 855个语素义中，名、动、形语素分别占46.90%、30.59%、11.25%，共计88.74%，构成主体；而副、数、量、代、介、助、连、拟、叹、缀语素共计11.26%，形成补充。

在此基础上，我们对上述语素义做释义文本的提取，并赋予唯一的“语素义编码”。例如，“材”字有多个语素义，其中的一个释义文本为“有才能的人”，其“语素义编码”为“材1_05_04”，依次表明：这是该字在《现汉》中的第一次条目出现，该条目下共有五个语素义，当前为第四个语素义。

1.3　语义相似度计算与语素概念生成

为了获得可靠的“同义语素集”，需要对《现汉》中的不同语素义的释义文本进行语义相似度计算。

对于特定语素类的任一语素义的释义文本，按照它与同语素类的其他语素义的语义相似度值降序排列，并按设定阈值将意义相近的语素义推荐给专家。经人工检验，每确定一条即对其做语义相似度值的迭代计算，如此反复补充、过滤，形成一个“同义语素集”，亦即一个“语素概念”，或称一个语义基元。对剩余语素义的释义文本，重复此过程，直至覆盖该特定语素类的全部语素义为止。然后，选择新的语素类，重复以上过程。

1.4　语素概念的结构化与系统描述

在获得汉语的“语素概念”全集后，需要进一步在这些语义基元之间建立起层次结构，让离散的概念维持基本的语义关联，形成义场，以方便认知、推理和计算。

受WordNet启发，名语素的“语素概念”主要依据上下位关系进行结构化建设，形成同语素类的聚合关系。在跨语素类的语义关联方面，则借鉴生成词库理论，对动语素和形语素分别建立起以名语素结构为中心和参照的对应体系。在该体系中，动语素表达名语素所指事物的事件，或者说，动语素的主体是对应的名语素；形语素表达名语素所指事物的属性，或者说，形语素修饰的对象是对应的名语素。由此，名、动、形等不同语素类的层次结构是大致同构的，并形成同语素类内的聚合关系以及跨语素类间的组合关系，该体系有利于各类“语素概念”的组织和计算。

基于以上方案，我们对汉语的“语素概念”建立了层次结构，并对内部节点进行了特征描写和赋值，这也是对汉语世界中的语义基元的系统描述。

2　汉语语义构词分析方法

2.1　语义构词理论基础

对于汉语的构词结构性质，语言学界一般有语法构词[1-3]、语义构词[6,19]等不同观点。前者强调构词成分之间的语法关系，如主谓、述宾等语法标签的认定，而后者强调构词成分之间的语义关系，如主体、客体等语义标签的认定。

考虑语言计算、应用的状况和需求，傅爱平[20]指出：虽然语义构词在表示词义时有天然、直观的优势，但是其结构产生依据过于复杂，标签集难以统一，并不利于机器处理。相比之下，语法构词的结构体系较为简单，标准统一，且与句法结构有天然的相似性。苑春法[9]的研究也表明，语法构词与构词语素类、词性之间存在一定的相关性，采用语法构词体系有利于计算的开展。

在借鉴前人观点的基础上，我们选择语法构词体系以方便工程展开，这也遵循了自然语言处理中从形式到意义的主流路线。值得注意的是，事实上，由于后续环节要求构词成分对“语素概念”的严格绑定，我们获得的依然是广义的语义构词知识。

2.2　构词结构类型界定与标注

语法构词体系，语言学界大多沿用朱德熙[3]的方案。杨梅[21]在借鉴了语法构词和语义构词两派的观点后，提出了一套以语法标签为主的构词体系，并兼顾了语义构词派的部分观点。

在杨梅标签基础上，我们增加“单纯式”标签，用于表示成分义与词义之间缺乏关联，并将“附加式”细分为前附加、后附加。同时，删除了一些缺乏计算价值或结构类别实例过少的标签，如截取式、虚配式、指量式、数构式。最终确定的标签集包括16种标签，即：主谓式、连谓式、联合式、述宾式、述补式、定中式、状中式、介宾式、重叠式、名量式、数量式、方位式、复量式、前附加、后附加、单纯式。

构词结构类型界定后，在义项区分的基础上，我们为《现汉》中的所有二字词依规范标注了构词结构，共计52 108个。

2.3　构词成分与语素义绑定

在构词结构基础上，对二字词中的构词成分，即前后语素，我们继续标注它们在《现汉》中的语素义。

注意到，一个语素义对应一个“语素义编码”，并进入一个“同义语素集”，这一过程实际上是将构词成分与特定“语素概念”建立了绑定关系，并受整个“语素概念体系”意义系统的表达和制约。这样一来，单一的语素义就携带了丰富的、便于计算的内容，包括了其在“语素概念”中的“同伴”信息、在“语素概念体系”中的“位置”信息以及由此取得的基于继承链条的一系列“特征取值”信息。

2.4　语义构词知识表示

符淮青[7]等语言学家指出：语素义的组合在一定程度上体现词义。因此，利用语义构词知识进行词义知识表示是一种新的选择。这种表示具有简单、直观的特点，并反映构词成分对词义的贡献。例如，在“选材”中，“选”的语素义为“挑选、选拔”，“材”的语素义为“有才能的人”，其结构关系及成分义较为准确地反映了词义。

基于上述工作，我们获得的语义构词知识涵盖词性、构词结构、前后语素类、前后语素义等广义知识，其中，前三个属于语法层，最后一个属于语义层。例如，“选材”的语义构词知识如表1所示。需要指出的是，前后语素义的“语素义编码”已经携带了丰富的、便于计算的多项信息。

表1　语义构词知识示例

3　数据结果分析

3.1　关于汉语语素概念的分析

依计算结果和工程进展，目前，名、动、形语素分别形成了2 018、1 631、550个“语素概念”，共计4 199个。

表2～4依据 “同义语素集”的大小、多少等信息，分别展示了名、动、形语素“语素概念”覆盖、分布的一般情况。例如，在名语素“语素概念”中，语素个数为16的“同义语素集”共有7个，占该类“语素概念”总数的比例为0.35%，其中的一个“语素概念”包含了特定语素“匠哲器彦才材杰氏秀英豪贤通骥模尖”(基于可以理解和简化描述的原因，这里均省略了相应的“语素义编码”，仅以语素字的形式出现，且不排斥相同字的出现)，其概念意义为“有才能的人”。

表2　名语素“语素概念”覆盖、分布情况

续表

表4　形语素“语素概念”覆盖、分布情况

很明显，这些以技术手段初次呈现的语义基元，表现出了确定、离散、可枚举的特性。例如，在动语素中，对于承载“挑选、选拔”这一概念意义的语义基元，我们有较大信心说有且仅有12个汉语语素，包括“刷抡拔拣择择挑擢调选遴铨”等单字可以用于汉语构词并做现实的表达，在人与机器的认知、理解上都能得到很好的诠释。

对《现汉》中的全部语素，我们采取既定、明确的表达方式和自底向上的技术路线来指导语义基元的构造，杜绝了以往“拍脑袋”式的主观性。通过对数据结果的观察，可以看出，这些“语素概念”相对准确、完整地涵盖了汉语语素所能表达的概念意义，有较强的数据客观性、覆盖度及完备性。进一步，依据生成词库理论，我们采取自顶向下的技术路线，为名、动、形语素“语素概念”建立了层次结构，形成了“语素概念体系”，这也是对汉语世界中的语义基元的系统描述。

近年来，深度学习在自然语言处理领域广泛应用，比如，通过神经概率语言模型学习语义向量表达[22]，这种经验方法取得了不错的效果。而上述语义基元的提取加工，则是一种理性方法，希望在未来的人文领域和计算应用中做新的结合和尝试。

3.2　关于汉语语义构词的分析

与英语不同，汉语中的词没有固定的形式标准，语言使用者可以相对自由地造词，因此，对语义构词模式的分析尤为重要。一般认为，构词能产性是语素、构词过程与规则创造新词的能力[23]，它衡量语素成分现实及潜在的构词能力，反映出词汇系统的某些特性。

语素构词能力也是对外汉语教学等人文领域特别关心的问题，在确定汉语教学基础汉字时，除了关注字的出现频率之外，往往需要考虑语素的构词能力，它影响汉字的认知加工。尹斌庸[24]统计表明，粗略地基于字考虑构词，可以对汉语构词能力有初步把握。有专家学者进一步从语素类和构词规则的角度进行了研究[9]，此外，还有一些基于语义构词的语言学本体研究和个例剖析，不再赘述。

在对汉字的认知加工过程中，语义是十分重要的因素。一字多义、多字一义是汉语的常态。例如，“云侃具叙吭启咧哨唠扯拉提摆曰称聊言讲话语……”等单字，它们的某一义项具有相同或相近的意义，被归并到了“同义语素集”中，属于表示“言谈交流”的“语素概念”。在汉语的意义体系中，它们发挥着十分相近的功能。然而，此前，由于数据匮乏和手段不足等问题，还无法从语义角度对语素构词能力进行量化描写和绘制。

我们首次将“语素概念”作为节点，刻画构词过程中基本意义单元之间的结合情况。如图1所示，每一个矩阵节点代表一个“语素概念”，节点的大小代表“语素概念”中的各个语素(已确定了语素义)在构词过程中贡献的能产性的加和，而节点之间的边代表两个“语素概念”中的某两个语素依确定的语素义参与了构词过程，参与次数体现为边的权重，即边越粗，表明两个“语素概念”结合的可能性越大。该图依据前述4 199个名、动、形语素的“语素概念”和52 108个二字词的语义构词知识绘制，客观、充分地反映了汉语世界中的语义基元的能产性分布状况。当然，具体、微观一些，也可以考察这些“语素概念”中的特定语素的能产性和搭配特征。这是以往基于字符、语素类、构词规则统计或语义构词个例剖析等不能得到的语言学结论，也显示了对汉语构词进行全局性语义挖掘与可视化分析的比较优势。

图1　基于“语素概念”的构词能产性示例

未来，语义构词模式的分析可以加深对词的结构和意义的理解，并用于未登录词识别和意义判定。在机器学习领域，这也是一项极其重要的特征和任务，基于语义基元的构词能产性数据给出了语义构词的转移概率，能为相关的算法开发提供支持。

4　结语

综上所述，我们提出了一种探寻汉语语义基元和分析词义的新的视角和方法，并表现出明显的优势：一、语素及其意义作为抽象概念难以表达、计算，“语素概念”架起了汉语的语素及其意义和构词分析的天然联系，契合了汉语的意合特征，这也是对汉语世界中的语义基元的系统描述；二、建立在这些基础上的汉语构词分析，在全局性语义分析、数据挖掘等方面也有新的进展；三、从语言知识工程的角度看，面向《现汉》中的全部语素和二字词，在“语素概念”提取等环节采取人机结合、自底向上的策略，尽量排除主观因素的干扰，这些做法也保障了研发数据的覆盖度和完备性，提升了语言资源建设的质量。

这些创新的思路、做法以及获得的数据成果，在人文领域和计算应用等方面都有潜在的应用价值。前者如词典编纂与查询浏览、汉语教学、语言本体研究等，对于后者，我们也有初步验证，在汉语未登录词的词义知识表示与语义预测[25]、汉语词语语义相似度计算[26]等方面进行了探索和尝试。

在此前阶段，汉语的语义构词分析主要针对词的本义，但部分合成词的词义存在转义、隐喻等现象，如何有效表达和处理这类现象，将是后续工作的一项重点。此外，“语素概念”及其体系的考核、优化以及多字词的词义知识表示的拓展也在扎实推进中。在此基础上，我们希望推出包含全集数据和API接口的北京大学《汉语概念词典》(ChineseObject-OrientedLexicon，COOL)。

[1]赵元任.中国话的文法[M].丁邦新译.香港：香港中文大学出版社，1980.

[2]陆志韦.汉语的构词法(修订本)[M].北京：科学出版社，1964.

[3]朱德熙.语法讲义[M].北京：商务印书馆，1982.

[4]王洪君.汉语语法的基本单位与研究策略[J].语言教学与研究，2000(2)：10-18.

[5]董秀芳.词汇化：汉语双音词的衍生与发展(修订本)[M].北京：商务印书馆，2011.

[6]徐通锵.核心字和汉语的语义构辞法研究[J].语文研究，1997(3)：2-16.

[7]符淮青.词义和构成词的语素义的关系[J].辞书研究，1981，01：98-110.

[8]周荐.论词的构成、结构和地位[J].中国语文，2003，02：148-155，192.

[9]苑春法，黄昌宁.基于语素数据库的汉语语素及构词研究[J].世界汉语教学，1998，02：8-13.

[10]亢世勇，李毅，孙道功，等.汉语系统语料库的建设与词典编纂[C].2004年辞书与数字化研讨论文集.上海辞书学会，2004.

[11]周亚民.汉字知识本体——以字为本的知识结构与其应用示例[D].台湾：台湾大学博士学位论文.

[12]董振东，董强，郝长伶.知网的理论发现[J].中文信息学报，2007，21(4)：3-9.

[13]Pustejovsky J.The generative lexicon[M].Mass：MIT Press,1995.

[14]Pesina S,Solonchak T.Semantic primitives and conceptual focus[J].Procedia-Social and Behavioral Sciences,2015,192：339-345.

[15]Sapir E,Swadesh M,Morris A V.The expression of the ending-point relation in English,French and German[J].Language,1932,8(1)：11-125.

[16]Sapir E.Grading：A study in semantics[J].Philosophy of Science,1944,11：93-116.

[17]Wierzbicka A.Semantic primitives[M].Frankfurt/M.：AthenäumVerlag,1972.

[18]吕叔湘.《现代汉语词典》编写细则(修订稿)[M].《现代汉语词典》五十年.北京：商务印书馆，2004.

[19]刘叔新.汉语描写词汇学[M].北京：商务印书馆，1990.

[20]傅爱平.汉语信息处理中单字的构词方式与合成词的识别与理解[J].语言文字应用，2003，04：25-33.

[21]杨梅.现代汉语合成词构词研究[D].南京：南京师范大学博士学位论文，2006.

[22]Yoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Jauvin.A neural probabilistic language model[J].Journal of Machine Learning Research.2003,03：1137.

[23]Plag I.Word-formation in English[M].Cambridge,UK：Cambridge University Press,2003.

[24]尹斌庸.汉语语素的定量研究[J].中国语文,1984,(5)：340.

[25]田元贺，刘扬.汉语未登录词的词义知识表示及语义预测[J].中文信息学报，2016，30(6)：26-34.

[26]康司辰，刘扬.基于语义构词的汉语词语语义相似度计算[J].中文信息学报，2017，31(1)：94-101.