语素位置及语素义对构词的贡献分析
——基于字位分词的理论依据
2019-04-19戴玉玲
戴玉玲
(南京师范大学 文学院,江苏 南京 210097)
基于字位的分词方法是目前中文文本分词的重要方法,它将分词任务转换成了标注任务,首先按照字在词中所处的位置,将语料库中已正确切分的词语转化为一个标注序列,通过训练最大熵模型或随机场模型进行机器学习,由训练得出的标注器来执行标注任务,最后将被标注的测试数据再转换为分词形式。字本位分词,无须词表,占用资源少;分词速度和效果也最高,对于没有大量分析结果的特质语料和古典文学这些同质性较少的语料来说更能满足用户需求。针对该种分词方法,已有多项实验证明使用该方法进行分词,其结果的精确率和召回率均已达到较高水平,是一种行之有效的分词方法[1](29-48)。 但历年来对该方法的研究仅限于实验应用方面,而对于其有效性的理论分析却稍显不足。作为一种成功的分词方法,对其背后蕴含的语言学理论及知识的挖掘也十分必要。本文将从语言学理论角度出发,对基于字位的分词方法加以分析,采用假设检验法,假设语素义、语素位置以及词义三者之间关联,并通过实验和统计分析,证明语素义、语素位置对构词的作用,并且总结字位分词的错误类型及原因。
一、前人工作
(一)基于字位分词的相关研究
薛念文[2](57-63)在2002年首次提出了基于字的分词方法,他提出将分词过程视作构词过程,标记特定词语中每个字的位置:LL标记词首,RR标记词尾,MM标记词中,LR标记单字词。所有的标记根据定义好的特征模板进行学习并获得概率模型。然后,在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的标注结果。再根据标注结果获得分词结果。他在次年运用最大熵模型训练的分词系统在评测任务中取得了优秀的成绩。在Bakeoff-2005和Bakeoff-2006中,采用条件随机场模型训练的分词系统的各项评测结果均独占鳌头。
此后,使用最大熵模型和条件随机场等模型的基于字的分词方法得到了广泛的应用,并且由众多学者进行优化推广。针对标点符号、姓氏和地名机构名添加相应的特征模板,提高分词精度[3]。近年来深度学习的方法如循环神经网络、卷积神经网络等模型也被运用于字序列标注[4](169-177)。出现了特定领域的如基于字序列标注的对书目名的关键词抽取[5](39-45),对于同样没有明显词 语边界的外语文 本如缅甸语,也有研究者基于该方法论述了其分词问题及其实现[6](1682-1688)。
但纵览相关论文,它们基本都是从实验角度对基于字位的分词方法进行验证和优化,薛念文给出该方法的理据支撑是汉语中特定词语的字数有限,一般在四字以内,且汉字总体数量保持相对稳定[1]。从语言学角度看,词是由语素构成的,且汉语中的语素大部分都是单字,因此,可以从语素角度切入,分析基于字位的分词方法的理据性。
(二)语素位置及语素义的相关研究
语素是语言中最小的音义结合体,也是最小的构词单位。《现代汉语》对语素进行了简单的分类:根据语素是否可以单独成词,可以分为成词语素和不成词语素;根据不成词语素在词语中的位置是否固定,可分为定位语素和不定位语素[7]。
最近研究表明,不管语素是否可以单独成词,将一段文本中词语语素的位置打乱,汉语母语者仍然可以畅通无阻地理解文本的内涵[8](158-166)。他们会在阅读中不自觉地还原语素固有的位置信息,这从心理学角度证明了语素位置与词语分割以及词义认知关系密切。而对于语素义的研究较少,主要集中于词义的研究。吉志薇通过标注词语中语素的义类,根据语素意义分布表计算得到所有义类组合的词语,返回排名最高的义类组合作为该词最有可能的意义,以此辅助分词以及识别理解未登录词[9](63-68)。 总体来说,从语素位置与语素义的角度入手,进行分词实验的优化或是对分词方法的理论分析依然有待挖掘。
由于现代汉语中的词语大多数为二字词语,因此本文将利用《现代汉语词典》(第六版)中51265个二三字词作为研究对象,剔除其中含字母的词7个,共计51258个词语,并提取其中出现频率最高的前50个语素,根据这些高频语素在词中的位置及语义信息,讨论语素对构词的贡献以及基于字的分词方法的有效性。
二、语素位置对构词的贡献
本章首先对已得出的50个高频语素的位置信息进行统计,查看各语素在词语中的位置分布情况,发现一些特定的语素,例如词尾出现词语的末尾的特征可以作为自动分词的依据之一。再对特定的语素“人”进行研究,发现语素位置在一定程度上影响着其构词方式。
(一)语素位置信息统计
统计50个高频语素出现在《现代汉语词典》中词语的词首位置(第一位置)、词中位置(第二位置)、词尾位置(第三位置),可以得出:除了“子”“儿”“头”三个语素外,其他高频语素出现在第三个位置上的概率均小于0.1,且“小”“打”“不”“出”的相应概率为0。其中“子”“儿”出现在第一位置的概率也小于0.1。这印证了“子”“儿”“头”常以词语后缀的形式出现。但各高频语素出现在各个位置上的概率差异并不明显。计算各高频语素位置的熵信息[10](23)来表示其分布的均匀程度。熵,又称自信息,可度量变量的不确定性,变量数和集中程度都能够影响熵值。一般来说,熵值越大,表明变量的数量越多,分布均匀,不确定性越大;反之则确定性越大,熵值为0,表明变量完全可以确定。
计算每个高频语素X在每个位置上的概率P(X),再根据给定的熵的计算公式得出每个语素X的熵①。对得出的结果进行统计。图1为语素位置的熵值分布图:
图1 语素位置的熵值分布
若熵值越大,则分布越均匀,仅通过语素位置信息进行分词的困难也就越大。反之,熵值越小,分布越不均匀,语素固有的位置信息则可以作为分词的标准之一。从图1可以看出,该50个高频语素的熵值均较大,集中在0.3-0.5之间。这说明总体来看,各语素在各位置上的分布较均衡,因此不能单凭语素固有的位置信息作为分词的依据。
(二)语素位置与构词方式的关系
根据上述实验可以看到,单纯看待词内部每个语素的位置分布似乎没有什么规律可言。那语素构词的方式是否与其出现在特定词中的位置有关?本文选取在《现代汉语词典》(第六版)中出现频率高且在词内各位置上分布较均匀的语素“人”,分别统计二字词和三字词中,“人”出现在词各位置上时语素的构词方式,形成表1。
表1 “人”出现在词各位置上的构词方式
表1中共统计了418个含“人”的词语,其中二字词278个,三字词199个。可以看出,不管是二字词还是三字词,偏正结构的构词方式占据了绝对地位,共230例,其次是述宾结构的构词方式,共145例。而述宾结构不出现在第一位置,主谓结构不出现在第二位置,这说明语素出现的位置在一定程度上限制了其构词方式。表2给出了语素“人”在不同词位上的概率和熵值。观察发现,“人”处于三字词的第一位置时熵值最小,为0.15,此时这些三字词有极大可能是偏正结构。
表2 “人”出现在词各位置上构词方式的熵值
三、语素义对构词的贡献
第二章统计分析了语素的位置信息及其与特定词的构词方式的关系,发现了其位置信息虽然可以揭露出一定的构词方式信息,但无法作为判断分词的唯一标准。因此本章将从语素意义的角度,探究跨词语语素意义以及词语内语素意义的关系,分析其是否有可能对构词产生影响,进一步成为基于字的分词方式的理论支撑。
(一)跨词语语素义与词语内语素义
由于汉语中语素的意义通常比较复杂,因此本文仅选取语料库在线中的单个实例,手工对该句子进行分词,得到8对跨词语素及6对词内语素,分别研究其跨词语素以及词语内语素的在语料库中的分布情况,并通过查询《现代汉语词典》(第六版)每个语素的义项,观察各对语素的意义之间是否具有相近或相关关系。
革命/人民/团结/越/广泛,阶级/敌人/越/孤立[11]。
表3 例句中语素对之间的频次及语素义关系
表3中的频次一栏表示的是各语素对在语料库在线中的频次分布,可以清楚地看出词间语素对的频次远远高于跨词语素间的频次,下面以“团结”“结越”为例,查询“团”“结”“越”在《现代汉语词典》(第六版)中的相关义项,说明语素义间的关系。
【团】tuán⑤会合在一起:~聚|~结。[12](1321)
【结】jié④凝聚;凝结:~晶|湖面~了一层冰。[12](662)
【越】1yuè①跨过(阻碍);跳过:~墙|翻山~岭。 ②不按照一般的次序;超出(范围):~级|~权。③(声音、情感)昂扬:激~|声音清~。④〈书〉抢夺:杀人~货。
【越】2yuè叠用,表示程度随着条件的变化而变化(跟“愈…愈…”相同):脑子~用~灵|争论~认真,是非也就~清楚。
【越】3yuè①周朝国名,原来在今浙江东部,后来扩展到江苏、山东。 ②指浙江东部。 ③姓。[12](1609)
观察所列出的义项,“团”的⑤义项和“结”的④义项呈现出语义相似的关系,都包含着“聚合”的意义,因此二者结合成词的可能性很大,而“结”与“越”的任何一个义项都没有相似或相关关系,因此二者结合成词的可能性很小。这说明词语中各项语素义之间呈现出紧密的联系,而对跨词语中各项语素义之间联系不大。语素意义的考虑说明了词并不是字与字的简单堆砌,而是有其内部的结构和意义,也正因此印证了各语素对在语料库中的出现频次差别如此之大,足以使通过机器学习获得概率模型,进一步进行基于字的分词方法成为可能。
(二)语素义与词义的关系
除了词语内部的语素义,语素义与词义的关系也十分密切。 根据符淮青[13](98-110)的观点,语素义和词义的关系可分为5种:第一种类型,语素义直接地完全地表示词义,即相等关系;第二种,语素义直接地但部分地表示词义。这种类型的词义等于语素义之和加上词的暗含内容,即缩小关系;第三种类型,语素义和词义的联系是间接的,词义是语素义的引申比喻义即扩大关系;第四种类型,部分语素在构词中失落原义,即缺失关系;第五种类型,构成词的所有语素的意义都不显示词义,即语素义与词义无关。
图2 “人”的语素义与词义的关系
从图2中可以看出,对高频语素“人”来说,语素义直接完全地表示词义的情况,即词义相等的情况最为突出,共297个词例,占比71.05%,而其他几种情况出现的频次则较为平均,且频率较低,前三种情况中,语素义都与词义有关,共计360例,占比86.12%。这说明了语素义对词义的理解具有较大的帮助。在分词时,若在统计或深度学习的基础上能将语素义纳入考虑,在现阶段分词技术的基础上,利用词典或知网等中各语素的义项,自动分析分词后语素义之间的关联度,以及各相邻词义之间的关联度,可以进一步提高分词精度。
四、分词错误类型及原因
目前基于字的分词方法的应用已较为广泛,不管是使用传统机器学习的最大熵模型和随机场模型的分词系统,还是使用深度学习中一些模型的分词系统,其分词精度均已达到95%左右甚至更高,但在分词结果中仍不可避免地出现一些错误,本章将归纳两种分词过程中的常见错误,并且尝试给出分词错误的原因。
(一)错误类型
未登录词是指在机器可读的词典中没有出现过的词,有数据表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上[14](8-19),但自从采取了基于字的分词方法,由于将分词的任务转化为构词的任务,未登陆词的识别错误情况已明显改善,但仍然不可避免。
未登录词的识别错误主要体现在命名实体识别错误以及专业术语的识别错误。命名实体主要包括人名、地名、机构名,例如“某某出席宗教团体负责人迎春座谈会。”,根据《信息处理用现代汉语分词规范》,汉族人名的姓和名需要进行切分,分开处理,但分词系统会对该词进行误判断,将它作为普通名词进行处理,切分情况为“某某/出席/宗教/团体/负责人/迎春/座谈会/。/”。其次对于某些特定领域的文本来看,其中可能充斥着较多的专业术语,例如“组织间桥”是医学专业术语,分词系统会将它作普通名词处理,错误切分为“组织/间桥/”。
词语的歧义类型可以分为交集型歧义和组合型歧义。前者指对于一个汉字串ABC,在不考虑上下文的情况下,切分为AB/C或者A/BC都是合理的,如汉字串“地面积”,可以切分为“地面/积”或者是“地/面积”,后者指的是对于一个汉字串AB,在不考虑上下文的情况下,切分或者合并都是合理的,即可以切分为A/B,也可以不切分,如汉字串“将来”可以切分为“将/来”,也可以不进行切分[15](171-176)。 目前随着模型的不断优化,基于字的分词方法可以有效解决两种歧义引起的问题,但切分错误的情况也时有发生。
(二)错误原因
语言学知识的利用率低。以基于字的分词方法中,使用的条件随机场模型为例,虽然在条件随机场模型中的特征模板有意识地添加一些语言学的规则,例如“子”“儿”等一般情况下是词尾,因此可以估计它们出现的位置,但这特征只能在分词中起到微弱的辅助作用,一是因为汉语中本来作词尾的语素就很少,特征无法具有概括性;二是因为即使是这些常作词尾的语素,也有可能出现在词的其他位置,例如“子孙”。由上文的分析可知,语素义对词语的构成以及词义的影响很大,而目前主流的基于统计的方法和基于深度学习的方法无法利用语素义来辅助分词,它们对于系统中参数的估计只能依靠不断的调试。
不管是基于统计的方法还是基于深度学习的方法,在开放测试的环境下表现并不是非常出彩,因此它们都要求一个尽可能大,且涉及领域尽可能广的训练集。训练集越小、训练集文本的题材越单一,分词的精度也就越差。再加上未登录词由于其性质特殊,也就更加难以切分出来。
五、总结及未来工作
在汉语文本的自动分词任务中,利用基于字的分词方法表现出优秀的分词效果,占据了主流的地位,因此本文期望找到该分词方法背后的语言学知识的支撑,即语素位置在一定程度上影响着构词的方式,通过对词内语素对和跨词语素对的分析,发现语素义间的紧密关系是构词成功的重要依据。之后,本文通过对含高频语素“人”的词的词义进行统计,说明了语素义和词义之间也存在着紧密的联系,大部分的语素义都可以直接完全地表示词义。最后,归纳了分词中常见的错误类型及错误原因,提出若能将语素义作为自动分词的标准之一,那么自动分词的精度或许会进一步提高。
因此,从理论角度看,现有词典中并没有清晰地将语素意义的义项和词义义项区分开来,未来此类资源有待加入到词典中。从应用角度看,在自动分词领域中,如何最大程度地利用语言学的本体知识,与机器学习或者深度学习的方法相结合,是未来值得考虑的一个方向。从语言学的理论角度看,语素与语素组合成词是否可以归纳出更加简洁深刻的规律,并以机器可读的方式呈现出来;语素义这一判断标准如何能够量化计算,运用于自动分词中也很值得研究。
注释:
①规定当概率为0时,熵值也为0。