APP下载

词边界标记浅谈

2014-11-15袁子渊朱力

文学教育 2014年11期

袁子渊+朱力

内容摘要:通过分析中文文本呈现特点及字与字、词与词间的切分、识别等问题产生之原因,提出一些留学生汉语阅读材料中标记词边界的手段,使造成理解、切分困难的字词边界明晰,帮助学生解决阅读中的词识别及切分问题。

关键词:词识别 切分 原因 词界标记

一.引言

1.选题源起

词边界问题最初针对自然语言理解中的“交集型歧义字段”提出,这里指留学生在阅读中同样存在词边界信息含混而致的词“识别和边界切分”问题。有人提出增加空格“分词连写”,一定程度解决了问题,但相关研究证明其存在较大差异及矛盾。

多数汉语文本词界研究都基于“正词法”分词连写的词间空格作词边界标记,人工处理“痕迹”太明显,脱离语言实际,与阅读效率、理解正确率之间的关系不明确。如高珊等通过实验发现,阅读效率和正确理解率间似无必然联系。袁嘉等初步考察了对外汉语教学里中级学生遇到的“骑马词”, “骑马词”产生原因是“似是而非的‘熟面孔文字组合”和“‘先入为主的信息接收心理”。谢晓燕通过实验归纳了分词偏误的基本类型、原因,给出了提高留学生分词能力的具体建议。

综合袁嘉、高珊、谢海燕等人的数据及实验结果、汉语文本实际情况和教学实践分析看:1.学生并不总面临词边界识别困难;2.词间空格分词处理后形成的空格,跟字母文字词间空格形成的自然界限有本质区别,脱离正常中文文本实际,也不经济;3.采用词间空格的教材多为零起点与初级,词间空格和注音紧密联系,空格位置缺乏统一标准又各有细微调整甚至与正词法冲突。李宝贵发现不少教材注音和拼写方面或多或少存在不规范。

二.留学生中文阅读文本的一些处理办法及局限

汉语词边界模糊多在书面语中,表意汉字记录的汉语书面语则丧失了口语所能凭据的大部分排歧条件。

阅读中学生并不总面临词识别和切分问题,故边界标记手段也最好具针对性。即只适当标记那些学生可能难以区分的边界,而非切分全文。

1.适当运用停顿与标点符号

标点符号的使用虽是文字记录语言更为精确的表现,但也存在一定主观性甚至随意性,标点在表停顿、语气和词语性质等方面的功能并未完全体现出来;词边界问题借助标点符号标记词边界有利于保持文本的原生态。

2.适当使用点号标记词界

针对内部本来可以或应有停顿,但却无停顿的句子,例如:

(1)想不到这里地方不大人却这么多。

口语中,上句可根据语音停顿、重音等作以下切分:

(2)想不到,这里地方不大,人却这么多。

即用点号把在口语中清晰而在文本中模糊的语义停顿和划分重新标注出来,类似句子可作同样处理。例如:

(3)白天鹅又游回来了。

(4)一天山上下来的客人在他家菜园子里丢了垃圾。

(5)这样的人才能做研究工作。

相应地可运用停顿和点号作如下处理:

(6)白天,鹅又游回来了。

(7)一天,山上下来的人在他家菜园子里丢了垃圾。

(8)这样的人,才能做研究工作。

例(3)存在两种切分,另一种:

(9)白天鹅 又游回来了。

口语中,停顿及韵律可有效区分“白天 鹅”和“白天鹅”,对后一意义,字串“白天鹅”与“又游回来了”间的语音停顿尚未到达能用点号点开的程度,此时用点号标记词边界就显示出了其局限性,可考虑用标号来标记。

3.用标号来标记

标号主要指引号、着重号和专名号。汉语中姓名、地名、专名情况复杂,无特定标记信息,对此类断词困难,适当使用标号是有效解决办法之一。

如“公路局处理解放大道路面积水问题”,用标号(如引号、着重号)作标记可使界限清晰:

(10)a公路局处理“解放大道”路面积水问题。b“公路局”处理“解放大道”路面积水问题。

对这类句子,学生最大的难处在于很可能不知道“公路局”是机构,而“解放大道”是地名。标记了这两处,学生对句子的切分和理解问题迎刃而解。此类切分困难,用标号作适当标记不失为有效处理方法。

该方法同样可解决专名、姓名、称呼等造成的边界问题。例如:

(11)a教育部长跑活动负责人与商家总经理被曝系师生。b“教育部”长跑负责人与商家总经理被曝系师生。

(12)祝贺老总百战百胜。

a祝贺老总百战百胜。

b祝贺“老总”百战百胜。

于例(12),用引号标记可能会显得怪异,所以对姓名、称呼等而起的断词困难,结合文意用“专名号”来标记界限可能比用“引号”好:

(13)由于先生表演的杂技很精彩。

a由于先生表演的杂技很精彩。

b由于先生表演的杂技很精彩。

(14)唐鹏和同学走了。

a唐鹏和同学走了。

b唐鹏和同学走了。

但对例(15),以上标记方法会遇到困难:

(15)专家只会诊一些特殊的疾病。

上例字串“只会诊”可做两种意思截然不同的切分(这里借助空格切分):

(16)专家 只 会诊 一些特殊的疾病。

(17)专家 只会 诊一些特殊的疾病。

上两例“会”是同形同音异义字,例(16)“会”作为语素参与构词,例(17)“会”为助动词,上述标记方法可有效切分例(16),但于(17)有困难,若标记“只会”:

(18)专家只会诊一些特殊的疾病。

但“只会”不构成独立意义单位,边界标记出的语言片段最好是独立意义单位,这是该标记方法局限之处。endprint

4.对造成断词障碍的字词处理

“断词障碍”主要指3和4中所述的现代汉语中保留的一些文言字词、语用歧义以及口语书面语之间的差异带来的困难。例如:(19)陈晓辞任国美董事局主席。

(20)可以这样的方式来做。

例(19)“辞任”的确收录在《现代汉语词典》,“辞”基本上仍保留了古语意义,这种标题易引起歧义,如不熟悉“辞任”一词,不知“陈晓”是名字,可能把“陈晓辞”当成名字,整个标题所表达的意思就变了。不过,姓名标记的确能解决部分问题。

例(20)“可”和“以”连成一个字串组成词“可以”,但只要把“可”换成“可是”,该断词问题便迎刃而解。

但故并非所有句子都能这样改,较极端的例子,当两词指称相同却意义不同,如“启明星”与“长庚星”。例如:(21)金星早晨见于东方称为“启明星”。

若改为:(22)金星早晨见于东方称为“长庚星”。

则是错的。

5.几个语用歧义、语义歧义的处理

新闻标题常有“美国会采取措施制裁伊拉克”一类句子,大凡带“国”字的国名都有类似问题,汉语母语读者已习惯“美国国会”缩减为“美国会”类的表达方式,但留学生理解却有困难。

类似用例:(23)微软在美国已经历过各式各样的反垄断诉讼。

处理方法大致相同,但得具体情况具体分析,例如:(24)县里的通知说,让赵乡长本月15日前去汇报。

“前”字前属还是后属直接影响整个句义理解,须用不同手段来实现歧义分解:

(25)县里的通知说,让赵乡长本月15日之前去汇报。

(26)县里的通知说,让赵乡长本月15日当天去汇报。

这类语用歧义解决起来简单,但易在留学生阅读文本处理中被忽视,可当作严密用词规范的用例。

另一种语义歧义,是由汉字里的同形异义字引起的,例如:

(27)直到其中的一颗(种子)一时兴(xìng)起苏醒过来。

(28)一时兴(xīng)起一股新文化的热潮。

(29)下一个圈套。

(30)下一局棋。

例(27)(28)两个“一时兴起”同形异构,“兴”的读音区别了汉字“兴”所记录的两个不同语素,进而区别两个组合单位。对由同形异义异音字带来的切分问题,可标注读。例(29)(30)中同形同音异义字引起的切分问题,标注读音难起区分作用,因两例潜在词边界位置有差异。例(30)汉字“下”既可为“下棋”的“下”也可为“下一个人”的“下”。此种切分问题尚未找到合适标记法。

三.结语

本文通过词边界问题的分析分类针对性地提出了一些词界标记方法,如标号、点号的适当使用、严密用词、改写、标注读音等,其对提及到边界问题的处理较有效,在书面语系统内部解决边界问题以保持文本原生态性的思路也是值得参考的。其次,这些标记方法涉及的边界问题类尚有限,难处理“下一个圈套”类结构;标记方法尚缺乏系统性,一些标记方法实践时能解决哪类问题尚缺乏系统总结,可考虑在更大规模语料支撑下细化边界问题分类,再提出针对性标记方法,形成系统性的标记。

参考文献

1.陈嘉映《语言哲学》,北京:北京大学出版社 2003.

2.高 珊 词边界信息对留学生汉语阅读的影响,北京语言大学2006届硕士学位论文。

3.李宝贵 汉语拼音正词法及其在对外汉语教学中的应用,《大连民族学院学报》第7卷第2期,2005.

4.梁菲菲、白学军 切分空间和切分方式对中文阅读绩效影响的眼动研究,《心理研究》第1期.2010.

5.陆丙甫 增加汉语书写系统的语法信息,《南昌大学学报(人文社会科学版)》第4期.2003.

6.陆俭明 《现代汉语语法研究教程》,北京:北京大学出版社.2005.

7.任瑚琏 字、词与对外汉语教学的基本单位及教学策略,《世界汉语教学》第4期.2002.

8.沈模卫、李忠平等 词切分与字间距对引导式汉语文本阅读工效的影响,《心理学报》第5期.2001.

9.谢晓燕 中高级留学生汉语阅读词界识别能力研究,暨南大学2006届硕士学位论文.2006.

10.信世昌 “分词断句”的阅读策略训练—文句的认读教程发展与实践,《第六届世界华语文教学研讨会论文集第四册(教学应用篇)》2000.

11.杨万兵、蒋利平 不同水平留学生汉语切分歧义识别实验研究,《语言教学与研究》第3期.2012.

12.杨玉芳 孙健 词边界信息在句中的分布,《心理学报》第26卷第1期.1994.

13.叶蜚声 徐通锵 《语言学纲要(修订本)》,北京:北京大学出版社.2000.

14.袁 嘉 “骑马词”的成因及对策,《语文建设》第6期.1993.

15.袁 嘉 对外汉语教学中的“骑马词”问题,《西南民族大学学报》第6期.1996.

16.周健、谢海燕留学生汉语阅读分词和语义提取能力研究,《汉语学习》第2期.2007

17.朱德熙《语法答问》,北京:商务印书馆.1983.

(作者介绍:袁子渊,北京大学对外汉语教育学院硕士研究生;朱力,华中师范大学国际文化交流学院讲师)endprint