APP下载

面向普通未登录词理解的二字词语义构词研究

2015-04-21吉志薇冯敏萱

中文信息学报 2015年5期
关键词:词素构词分词

吉志薇,冯敏萱

(1. 南京师范大学 文学院,江苏 南京 210097; 2. 天津滨湖中学,天津 300060)



面向普通未登录词理解的二字词语义构词研究

吉志薇1,2,冯敏萱1

(1. 南京师范大学 文学院,江苏 南京 210097; 2. 天津滨湖中学,天津 300060)

把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。

二字词;普通未登录词;语义构词

1 引言

根据黄昌宁的研究,未登录词中除去日期、时间、百分数、人名、地名、机构名等专名以及派生词的那一部分就是普通未登录词,也有学者称之为新词。在中文信息处理领域,未登录词是影响分词精度最主要的因素之一。未登录词中的新词数量众多, 和

现代汉语中基本词、常用词等在构词规律上有很大的相似性,具有重要的研究价值。在现代汉语词汇中,二字词占主体地位,对其研究有助于我们了解大多数词汇的构词规律。与词相比,词素数量相对有限,在一个相对封闭的范围内,对二字词的词素进行穷尽式考察可以帮助我们更好地发现一个字串之所以成为词的理由。

2 确定研究对象

首先利用计算机提取《现代汉语词典》*下文简称《现汉》。(第6版)[1]中的所有二三字词*尽管本文的研究目标是二字词,但考虑到三字词的意义以及进一步研究的需要,我们选择高频词素时也兼顾到了三字词。和构成这些二三字词的词素,进而计算每个词素的构词量,最终选取构词能力最强的50个词素,在《现汉》中查找这些词素构成的二字词并将其录入excel表格中。

根据本文的研究目标,我们排除以下几类词汇: (1)标注有〈方〉的方言词;(2)意义虚化、读音弱化、位置固定、能产性强的典型词缀构成的词,以“子”为例,它有两种用法: 有意义区别作用的自由和半自由词素,如“父子”、“男子”等;没有意义区别作用的不自由词素,如“帽子”、“旗子”等。后一类就属于典型词缀构成的词;(3)单纯词,如“卡车”;(4)简称,如“光驱”;(5)专名,如“道光”;(6)《现汉》(第6版)中新出现的二字词。

3 构建标注体系

参照鲁川[2]的词义方程式,本文将词素间的静态关系,即义类组合,称为词素意义;将词素间的动态关系,即词素和词素化合时产生的词素义之外的意义,称为词化意义;综合词素意义和词化意义即可得到一个二字词的释义模式。

3.1 词素意义的标注说明

本文首先依据《现汉》标注词义,又参照知网对前字和后字的义项进行归类,最后根据词义为前字和后字选择相应的义类。以“滚水”为例,由《现汉》可知“滚水”的词义是“正在开着的或刚开过的水”。

“滚”字的义项见表1:

表1 “滚”字的义项

观察上表可得“滚”字七个义项分属五个义类,义项①、②和⑤均属于“变空间位置”这一义类,需要进行合并。根据词义“正在开着的或刚开过的水”可知,“滚”字在“滚水”一词中使用的是义项③,所属义类为“外观变”。同理, “水”字在“滚水”一词中使用的义项是“最简单的氢氧化合物”,所属义类为“液”。因此,“滚水”的词素意义应为“外观变+液”。8 984个二字词共包含2 268个不同的词素,通过标注,我们构建了基于这2 268个词素的词素-义类数据库。

3.2 词化意义的标注说明

词化意义主要是从意合结构、意根分布、意指方式和意变类型四个方面进行界定: 意合结构说明词素和词素间的语法关系;意根分布是指二字词意义核心所在的位置;意指方式说明词素义和词义之间的关系;意变类型立足于历时发展,说明词义变化的类型。具体分类如表2。

表2 词化意义标注体系

续表

另外,在标注失指(S)、另指(L)和仿指(F)时还需标出产生失落、换喻或隐喻的词素的位置(YZWZ),具体有三种: 前字(Q)、后字(H)以及整词(Z)。

综合词素意义和词化意义示例如表3所示。

表3 标注示例

4 二字词语义描写体系的构建

对8 984个二字词的词素意义和词素间的词化意义逐一进行标注和统计,可得词素意义分布表(见表4)、词化意义分布表(见表5)和释义模式分布表(见表6)。综合词素-义类数据库,我们构建了二字词的语义描写体系。

表4 二字词词素意义分布表部分示例

①本文所有数据均四舍五入精确到小数点后两位。

续表

表5 二字词词素间词化意义分布表部分示例

表6 二字词释义模式部分示例

续表

5 二字词语义描写体系的应用

(1) 实验对象

根据研究目标,本文从天涯论坛一则名为“你好,陌生人!日记接龙,献给八卦的筒子们”的帖子*http://bbs.tianya.cn/post-funinfo-3189865-1.shtml中选取2014年4月至2015年4月的所有留言,经过简单的人工处理,得到共计3 128个字的实验语料。

(2) 实验过程

分别利用陈小荷的中文信息处理实验平台和中科院的ICTCLAS对实验语料进行分词。选取两种分词软件均切分有误的二字词,可将其分成两类: 一是专名,例如,“倒 春寒、回 南 天、汪 峰、徐 静 蕾、齐 秦、星 某 克”等;二是普通未登录词,例如,“舍 友 、前 路、自 处、煎 蛋、水 煮、微 博、发 帖、命 格、妹 纸、脑 抽、驴 饮、扎 口”等。应用二字词的语义描写体系对分词有误的22个普通未登录词进行识别和理解。

利用词素-义类数据库自动标注二字词前后字的义类组合,以“安监”为例,首先从词素-义类数据库中分别提取“安”和“监”的所有义类,可知“安”有六种义类,“监”有两种义类;然后将“安”的所有义类逐一与“监”的所有义类进行组合,最终共得12种义类组合类型(见表7)。依据词素意义分布表,计算机会对所有义类组合进行自动排序,同时返回排名最高的义类组合作为该词最有可能的词素意义。仍然以“安监”为例,观察表7可得,“安监”的义类组合中,排名最高的是“变空间位置+变感知”。

依据释义模式分布表,计算机会为已经确定词

表7 “安监”的义类组合类型

素意义的新词标注释义模式并进行排序,同时返回排名最高的释义模式,据此推测新词的词义。观察表8可得,词素意义为“变空间位置+变感知”的释义模式共有五种,其中“XEG+(变空间位置+变感知)”的排名最高,因此“安监”最有可能的释义模式就是“XEG+(变空间位置+变感知)”。

表8 “安监”的释义模式排序

(3) 实验结果

观察表9可得,除了“自处”一词,其他21个普通未登录词的词素意义均在词素意义分布表中出现过,即这21个词含有辅助计算机自动识别的词素意义类型,可被计算机识别,识别率为95.45%。

我们将词素意义分布表的构词量百分比*构词量百分比是指在8 984个二字词中,一定范围的词素意义能构成二字词的比例。作为标准,结合构词量,在降序排列的词素意义分布表中以 20%左右的梯 度进行分类,设定了五个参照集(见表10)。在这个表格中,处于第1参照集的词素意义构词量最多,处于第5参照集的词素意义构词数量最少。构词数量越多,证明此类词素意义构词能力越强,因此五个参照集中,第1参照集的构词能力最强,剩下四个的构词能力依次降低。

表9 22个普通未登录词的识别结果

表10 五个词素意义参照集

续表

在21个可识别的普通未登录词中(见表11),有六个二字组处于第1参照集中,成词可能性非常大;有四个二字组处于第2参照集中,成词可能性比较大;有五个二字组处于第3参照集中,成词可能性一般;有四个二字组和2个二字组分别处于第4和第5参照集中,成词可能性比较小。

表11 21个二字组的成词可能性分布表

利用释义模式分布表标注各词,结果如表12。观察可得,22个词中,只有“发帖、命格、舍友、雾霾、作死”5个词的释义模式可以大致推测出正确的词义,理解正确率为22.73%。

表12 22个普通未登录词的释义模式

续表

本文的实验语料来自论坛,所以这些分词有误的普通未登录词大多为网络语言。这些词有些为原创,难以寻找构词理据,如“心塞”;有些为谐音,难以还原词素意义,如“妹纸”;有些为借用,往往产生了引申义或比喻义,如“扎口”等。因此,尽管大多数词都含有可辅助计算机自动识别的词素意义,但计算机还是很难准确地推测出它们的词义。

鉴于上述实验的局限性,作为补充,本文又在《现汉》(第6版)新出现的2 400多个二字词中选取了新的实验对象。本文构建的二字词语义描写体系只对8 984个二字词中出现过的词素所构成的新词有应用价值。经过筛选,我们共得到1 419个有效新词,删掉6个同形词,最终确定了1 413个实验对象。经过实验,我们发现有1 367个新词含有至少出现一次的义类组合形式,约占新词总数的96.74%。基于五个词素意义参照集,这1 367个二字组的成词可能性如表13所示。

我们选取了词素意义排名最高的“特性值+人”作为考察对象,由释义模式分布表可知,“特性值+人”最常和“JHG”连用,其次为“JHZ、JHJ、JHGT”等。在1 413个新词中,共有71个词的义类组合中有“特性值+人”这一类,由于此类排名最高,所以计算机自动将“JHG+(特性值+人)” 认定为这些词最有可能的释义模式。依据“JHG+(特性值+人)”进行推测,词义应为“具有某种特性的人”。参照《现汉》(第六版)的释义,我们可以发现共有31个词,例如,“坐台、主厨、杂役、淫妇、新兵”等可以表示这种词义,其余40个词如“座驾、坐台、重器、中号”等均不含这种词义,理解正确率为43.67%。由此可见,基于《现汉》(第6版)1 413个二字新词的实验效果更好,本文的研究成果对较为规范的普通未登录词的应用价值更大。

表13 1 367个二字组的成词可能性分布表

①百分比是指二字组个数在1367个总数中的百分比。

6 结语

通过面向自然语料的实验,我们发现在规模较小的语料中,普通未登录词对分词精度的影响非常之大。现有的基于词表的分词方法、基于统计的分词方法以及基于隐马尔科夫模型的分词方法对普通未登录词的识别都有点儿束手无策,而二字词的语义描写体系能够有效地辅助识别普通未登录词。现有问题是究竟频率多大的词素意义可以被基本认定为词,还有待进一步验证。通过进一步的对比实验,我们还发现,二字词的语义描写体系对较为规范的二字词的理解效果更好。从实验结果来看,“从语义上寻找词素和词素组合成词的规律,进而指导普通未登录词的识别和理解”这一思路对中文自动分词存在着较高的应用价值,对这一专题深入研究,看似是一条提高自动分词精度的可行之路。

[1] 中国社会科学院语言所词典编辑室.现代汉语词典(第6版)[Z].北京: 商务印书馆,2012.

[2] 鲁川,王玉菊.汉语信息语法学[M].济南:山东教育出版社,2008.

[3] 李行健.汉语构词法研究中的一个问题—关于“养病”“救火”“打抱不平”等词语的结构[J].语文研究,1982,(2):61-68.

[4] 符淮青.现代汉语词汇[M].北京:北京大学出版社,1985.

[5] 王树斋.汉语复合词词素义和词义的关系[J].汉语学习,1993,(3):17-22.

[6] 苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].世界汉语教学,1998,(2):7-12.

[7] 朱彦.复合词的语义结构与词素义的提示机制[D].广西师范大学硕士学位论文,2000.

[8] 冯海霞,张志毅.《现代汉语词典》释义体系的创建与完善[J].中国语文,2006,(5):455-480.

A Study on Semantic Word-Formation of Bi-Character Words for Common Unknown Word Understanding

JI Zhiwei1,2, FENG Minxuan1

(1. School of Chinese Language and Literature, Nanjing Normal University, Nanjing, Jiangsu 210097, China;2. Bin Hu Middle School, Tianjin 300060, China)

The approach to investigate the semantic rules in word- formation via the the granularity of the morpheme can help understand natural language .This paper first labeles the sense of the front and back morpheme of the two-character words by referring to the Modern Chinese Dictionary and HowNet. Then we labele the lexicalized meaning between the morphemes from the perspectives of the structure of semantic combination, the distribution of semantic root, the mode of semantic combination and the type of semantic variation. Finally, we combined the morpheme meaning with lexicalization meaning quantitatively to set up a semantic scheme to account for the two-character words . Tested by the two-character words from BBS and the Modern Chinese Dictionary, it reveals some applicationvalue on the understanding of common unknown words.

two-character words; semantic word-formation; common unknown word

吉志薇(1988—),硕士研究生,主要研究领域为计算语言学、词汇语义学。E-mail:sichenfeimengli@163.com冯敏萱(1978—),通信作者,副教授,主要研究领域为中文信息处理、平行语料库建设。E-mail:fengminxuan@njnu.edu.cn

1003-0077(2015)05-0063-06

2015-07-10 定稿日期: 2015-09-10

江苏高校优势学科建设工程资助项目;基于注疏文献的先秦汉语语料信息处理研究(15BYY096);向量组合学习框架下基于依存混合树的中文语义解析研究(F020606)

TP391

A

猜你喜欢

词素构词分词
从构词词源看英汉时空性差异
结巴分词在词云中的应用
词素配价理论与应用
认知视野下“好”、“坏”构词的对称性研究
从词素来源看现代汉语词素同一性问题
值得重视的分词的特殊用法
“分”的音变构词及其句法语义特征
词素溶合与溶合词素
高考分词作状语考点归纳与疑难解析
俄语词素及其意义探究