信息处理用藏文分词单位研究
2010-06-04关白
关 白
(西藏大学 计算机科学技术系,西藏 拉萨 850000)
1 引言
藏文分词是藏文信息处理中一项不可缺少的基础性工作。从基本的输入系统,到文字处理,无处不渗透着分词系统的应用,所以藏文分词作为藏文信息处理系统的基础,有着极其广泛的应用前景。
藏文分词的研究从1999年中国藏学研究中心扎西次仁所著的《一个人机互助的藏文分词和词登陆系统的设计》[1]算起已有十多年的时间了,其间不管是对其应用还是理论都做过很多的研究。2002年2月,陈玉忠等人分析了藏文文本的规则分词、格助词分词以及切分难点的基础上,根据藏文的字、词、句切分的特点,首次提出了一种基于格助词和连续特征(BCCF, Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案[2]。初步测试表明该方案在发现和消除切分歧义、解决未登录词问题、提高藏文分词精度方面都具有很高的实用价值。同年12月,依据BCCF的总体设计思想,陈玉忠等人阐述了书面藏文自动分词系统的具体实现过程,并通过实验表明该系统具有较高的切分精度和较好的通用性[3]。2005年“第十届全国少数民族语言文字信息处理学术研讨会”使得对藏文信息的研究推向一个高潮,在此后的四五年的时间里有关于藏文分词的文章就如雨后春笋般涌现。
藏文的分词问题虽然和汉文分词有很多相似性,但藏文作为拼音文字且具有二维的书写规则、由音节字成词以及其特殊的构词方式和语序等特点,使得它的分词研究又有别于汉文分词,但是“借鉴汉语分词研究的已有成果和成功经验,无疑对把握分词问题的本质,针对性地开展藏文分词理论研究具有非常重要的指导意义[4]。”
2 确立分词单位
2.1 分词单位
要确立分词单位首先要明确分词单位的定义,分词单位是国家标准《信息处理用现代汉语分词规范》[5]中的一个基本概念,是指信息处理中使用的、具有确定的语义和语法功能的基本单位。由《信息处理用现代汉语分词规范》中对分词单位的定义可以看到,信息处理中的分词单位比传统意义上的词更宽泛些,这也就避开了理论上对于词的界定难以把握的困扰,分词系统可以根据实际问题的需求和真实语料中使用的频繁程度来确定分词单位。
分词单位除了词,也包括了一部分使用频度高的词组。“在某些特殊情况下孤立的语素或非语素字也可能出现在切分序列中”[6],也可以包含未登录词识别以及一些词法分析的切分单位,例如:一些人名、地名、机构名、外国人译名等。“从字数考虑,对两个字的组合可较宽地看作是一个分词单位,三个字的较严,四个字以上的若不是成语、习惯用语、简称、地名或外族人名,则一般不看作是一个分词单位”[6]。
2.2 分词所需藏文词类的划分体系
词类划分体系是确立分词单位的依据,为了进行语法研究与信息处理,需要把语法功能相同的或者相近的词归成一类。本文将以《信息处理用现代汉语分词规范》对分词单位的定义为出发点,以藏文文法对词类的划分为基础,参照《信息处理用现代汉语分词规范》和《资讯处理用中文分词规范》、《现代汉语语法信息词典》、《新编藏文字典》[7]、《藏汉词典》[8]、《信息处理用现代汉语分词规范》及《信息处理用现代藏语词语的分类方案》[9]所采用的词类划分体系,结合藏文文法自身的特点,建立信息处理用藏文分词所需的十六个词类如下:1.名词;2.时间词;3.处所词;4.方位词;5.数词;6.量词;7.代词;8.动词;9.形容词;10.状态词;11.副词;12.格助词[9];13.接续词[9];14.助词;15.象声词;16.叹词。藏语中的格助词和接续词按《信息处理用现代藏语词语的分类方案》单独作为一词类进行分类。对这十六个词类的细分将在第三章中叙述。
除了以上词类,在分词时还会遇到比词大或小的分词单位,比如词藻、语素、标点符号和成语等。其中词藻是藏文词类中区别于其他类的最为特殊的一类,由于它表示“明白论证事物名字之命名、运用、同义异名等”[10],从而被《藏汉词典》将其归为名词。对这些小于或大于词的字符串进行分析和归类后得到的六个类,即:1.前接成分;2.后接成分;3.语素;4.非语素字;5.简称略语;6.标点符号。再将其归入此体系中,从而产生了由二十二个词与非词组成的分类体系。大于词的习惯语和成语根据其语法属性归类到相应的词类中。
2.3 分词单位的切分原则
切分原则是确定分词单位最主要的基础,是排除了语言学界众多歧义而确立的分词标准。分词单位的确立需要充分考虑形式和意义的统一,“形式上要看一个结构体的组成成分能否单用,结构体能否扩张,组成成分的结构关系以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性[11]”,所以分词既要符合语言学的一般原则,也要便于词类和句法分析,因此确定哪些是分词单位,哪些又不是分词单位,需要分词单位的定义和词类划分等诸多因素外,更要有切分的原则。本文参考《信息处理用现代汉语分词规范》和《资讯处理用中文分词规范》[12],为藏文分词单位确立了九项基本原则和三项辅助原则。
2.3.1 基本原则
基本原则从语义、语法两方面来规范并使之符合语言学理论,也就是从语义与语法两个方面来说明分词单位。这是依据语言学理论给出的分词依据,视为分词的不变的最高原则。
1) 具有独立意义,且扮演固定词类的字符串被视为一分词单位[12]。例如:
2) 空格或标点符号是计算机中分词单位的分隔标记被视为一分词单位。藏文文本中有一些较为常用,但又不属于藏文原“书写符号系统”的特殊符号,如借用汉语或英语的引号、问号、书名号、圆括号、方括号、尖括号、百分比号等符号。
3) 凡字符串之间有助词及格助词被视为一分词单位。例如:
4) 附着语素尽量和词根合为一个分词单位。例如:
5) 略语一律被视为一分词单位。例如:
6) 现在藏语中出现的非藏文字符号被视为一分词单位,例如其他语言的字符串、数学符号、化学符号、阿拉伯数字等,仍保留原有形式[13]。例如:
CCTV 3.14 NBA
7) 藏语中其他语言的藏文音译外来词被视为一分词单位[13]。例如:
8) 使用频率高或共现率高的字符串被视为一分词单位。例如:
9) 十位数与个位数之间的垫词被视为一分词单位[13]。例如:
基本原则配合定义分词单位,是以根据语言学的信息处理为着眼点,是规范藏文字符串基本语意单位切分的遵循标准。
2.3.2 辅助原则
辅助原则可因需要而有变异性。因为词的界定是抽象概念,必须在定义和基本原则上增加一些辅助原则,并依各种不同词的类型分别确定切分办法。因此辅助原则是操作性原则,并非绝对原则,富于弹性,是用来辅助基本原则的,不同的语言环境视情况需要而有所增减。
1) 语义无法由组合成分直接相加而得到的字符串应该合为一个分词单位。下列字符串因其组合后语意已改变,皆应视为一个分词单位。例如:
由于切分后所得分词单位相加后,不能组合出原有词语的意义,故可视为一个分词单位。
3) 不同语言环境中的同形异构现象,按照具体语言环境的语义进行切分。例如:
语言是一个复杂的有机体,很多规则不能用定量的形式描述,几乎每条规则都有可能出现例外。本文力图用二十二个词类和切分原则两大块来明确文本中出现的每一串字符,而这样定性描述也不可避免地带来一定的模糊性,造成了前后不一致,甚至相互矛盾的说法。因此在下面的“划分分词单位”中将进行逐一进行说明。
3 划分分词单位
以下将以词类划分体系中二十二个类为依据,分词的基本原则和辅助原则为基础对藏语文本中所出现的字符串进行具体说明如下。
3.1 名词
3.1.1 两个音节词或两个音节词的名词性复合词为一个分词单位。例如:
3.1.2 由名词加形容词组成的词组中的表示性质或状态的形容词为一个分词单位。例如:
3.1.3 名词加形容词组成的有转义的复合词为一个分词单位。例如:
3.1.5 动词与名词结合而成的名词为一个分词单位。例如:
3.1.6 各类专业的基本术语为一个分词单位。例如:
3.1.7 藏语中人名与称谓经常出现在一起的为一个分词单位。例如:
3.1.9 国家名为一个分词单位。例如:
3.2 时间词
3.2.1 每周的七天各为一个分词单位。例如:
3.2.3 表示节气的时间词为一分词单位。例如:
3.2.4 表示年代的时间词为一分词单位。例如:
3.3 处所词为一个分词单位
3.4 方位词为一个分词单位
3.5 数词
3.5.1 数词为一个分词单位
3.5.3 表示概数的数字为一个分词单位。例如:
3.6 量词为一个分词单位
3.7 代词
3.7.3 人称代词为一个分词单位。例如:
3.8 动词
3.8.1 及物动词为一个分词单位。例如:
3.8.2 不及物动词为一个分词单位。例如:
3.8.3 判断动词为一个分词单位。例如:
3.8.4 助动词为一个分词单位。例如:
3.9 形容词
3.9.1 重叠形式的形容词(A AA AABB)为一个分词单位。例如:
3.9.2 并列形式的形容词为一个分词单位。例如:
3.9.3 有关颜色带后缀的或复合形式的形容词为一个分词单位。例如:
3.10 状态词为一个分词单位
3.11 副词为一个分词单位
3.12 格助词
3.12.1 属格助词为一个分词单位。例如:
3.12.2 作格助词为一个分词单位。例如:
3.12.3 La格助词为一个分词单位。例如:
3.12.4 从格助词为一个分词单位。例如:
3.13 接续词为一个分词单位
3.14 助词
3.14.1 时态助词为一个分词单位。例如:
3.14.2 语气助词为一个分词单位。例如:
3.14.3 疑问助词为一个分词单位。例如:
3.14.4 终助词为一个分词单位。例如:
3.15 象声词为一个分词单位
3.16 叹词为一个分词单位
4 结语
分词单位作为分词系统的基础,对其进行研究有着非常重要的意义,要使分词系统更加准确地切分藏文字符串,必须有专门的理论体系。本文以建立分词单位的基础(切分原则)和依据(词类体系)为出发点,论述了各个分词单位及其归属,力图为信息处理用藏文分词单位提供理论依据。
[1] 扎西次仁.一个人机互助的藏文分词和词登陆系统的设计 [C]//李晋有.中国少数民族语言文字现代化文集.北京:民族出版社,1999: 322-327.
[2] 陈玉忠,李保利,俞士汶,等. 基于格助词和连续特征的藏文自动分词方案[J].语言文字应用, 2003,(1): 75-82.
[3] 陈玉忠,李保利,俞士汶. 藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3): 15-20.
[4] 陈玉忠,俞士汶. 藏文信息处理技术的研究现状与展望[J]. 中国藏学, 2003,(4): 97-107.
[5] 中华人民共和国国家标准(GB13715).信息处理用现代汉语分词规范[S]. 北京,中国标准出版社,1992.
[6] 俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J]. 中文信息学报,2000,14(6): 58-64.
[7] 新编藏文字典[M]. 青海民族出版社,西宁,1979.6.
[8] 西北民族学院藏文教研组编. 藏汉词典[M]. 甘肃民族出版社, 兰州, 1996.5.
[9] 陈玉忠. 信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,西宁,2005:24-29.
[10] 张怡荪,藏汉大词典[M]. 北京:民族出版社,1999.
[11] 973当代汉语文本语料库分词、词性标注加工规范(草案)[EB/OL] http://www.chineseldc.org/EN/doc/CLDC-LAC-2003-003/label.htm.
[12] 台湾经济部中央标局标准(CNS98).资讯处理用中文信息分词规范[S].台北:台湾计算语言学学会,1996.
[13] 罗秉芬,江荻.藏语计算机自动分词的基本规则[C]//李晋有.中国少数民族语言文字现代化文集.北京:民族出版社,1999: 304-314.
[14] 江荻. 现代藏语组块分词的方法与过程[J]. 民族语文,2003(4): 30-39.
[15] 祁坤钰. 信息处理用藏文自动分词研究[J]. 西北民族大学学报,2006(4): 92-97.
[16] 江荻.现代藏语的机器处理及发展之路[C]// 徐波,孙茂松,靳光瑾. 中文信处理若干重要问题,北京:科学出版社,2003年,438-448.
[17] 陈玉忠,俞士汶. 面向信息处理的藏语虚词的语法信息表述研究[C]//Advances in Computation of Oriental Languages—Proceedings of the 20th International Conference on Computer Processing of Oriental Languages , 2003: 161-168.