现代藏语助动词结尾句子边界识别方法
2013-04-23赵维纳刘汇丹
赵维纳, 于 新,刘汇丹,3,李 琳,王 磊,吴 健
(1.青海师范大学,青海 西宁 810008;2.中国科学院 软件研究所,北京 100190;3.中国科学院大学,北京 100049;4. 中国社会科学院 民族学与人类学研究所,北京 100081;5.北京语言大学,北京 100083)
1 引言
藏文是记录藏语这门古老语言的书写符号系统,据记载从公元7世纪创造起至今已有1400多年的历史。藏语自身有自己的文字、语音和语法系统。书面藏语具有独特的标点符号体系,至今仍然在使用。
藏文标点符号是一套未臻完备的符号系统,主要表现为变体形式较多、意义含混、功能不确定等。这些特征突出地表现在藏语边界识别方面,为此藏语文本处理中,首先需要考虑句子边界识别(又称分句)问题。
藏语标点符号系统不同于汉语或英语中的常见的句号“。”、逗号“,”等标点符号。藏语中涉及分句的标点符号主要有[1]以下几种。
其次还有敬重号和着重号等,多用于古籍和经卷当中,现代书面语当中较少。
原文:
第四条县级以上人民政府环境保护行政主管部门对大气污染防治实施统一监督管理。各级公安、交通、铁道、渔业管理部门根据各自的职责,对机动车船污染大气实施监督管理。
译文:
上例中的汉语例句可利用句号、逗号等显性标志直接识别出句子的边界和标点符号的功能。但是对应的藏语句子中,一共出现了6个单垂符(下划线部分),无法直接从单垂符的形式上区分单垂符在句子中所起的作用,更谈不上正确识别藏语句子的边界。
藏语标点符号的特殊性,造成藏语句子的句终符号的不确定性,从而导致计算机在正确识别藏语句子边界时出现困难。类似句子边界识别的问题也存在于英文[2-10]和维语[11]中。江荻[12]提出了有关藏文句子边界识别的问题;罗秉芬、江荻对藏语疑问句及其边界进行识别[13];赵维纳[14]对藏语法律题材文本中句子边界进行识别,这些方法对本文都有借鉴作用。本文主要对现代藏语中以助动词结尾句子边界识别进行研究。
2 藏语助动词词法特性及句法特性
藏语句子语序结构不同于汉语或英语的语序结构,属于SOV型,即{主语+宾语+谓语}的句子语序,其中谓语部分中包括整个句子中的核心动词。藏语句子中谓语部分的构成比较多样,其中单独以动词煞尾的句子不多见。一般在句子的谓语部分中核心动词后边总是附加包含有一些其他成分,这些成分可统称为动词的语尾,其谓语的语序格式为: {(谓语动词(+状语补语)(+助动词[情态和趋向])(+体貌—示证标记)(语气词)}[16]。所以在一个完整的藏语句子中核心谓语动词的句法位置始终位于句子的结尾部分。而谓语部分的末端应当是整个句子的煞尾结点,正确识别谓语边界有助于识别整个藏语句子边界。藏语句子中谓语动词后接助动词结尾的句式是现代书面藏语句式中常见的一种句式。通过对5万句左右藏语句式统计得到以助动词结尾的句子数量较多所占比例达37%左右,所以识别这类句子边界非常重要。
从句法结构的角度分析,藏语中助动词的作用是补充和修饰动词,在句子中所处的位置可以分为两种: 一种是出现在句子中非谓语动词的后面,构成非谓语动词短语。
例如,非谓语形式
值得看的小说要多看。(《藏语拉萨话语法》)
另一种是直接跟在句子中的核心动词后面,与核心动词共同构成句子的复合谓语。
例如,复合谓语形式
地里需要浇水。(《藏汉大辞典》)
助动词在充当复合谓语时,句子的结尾形式可以分为三种。
首先,是可以在复合谓语后,也就是在助动词后直接添加表示体貌标记的藏语语尾;
例如,添加体貌标记
他牵来了一匹马。(《藏语拉萨话语法》)
其次,是在复合谓语后添加语气词作为句子的完结,通常语气词语可以为表示终结的语气词等。
例如,添加语气词
最后,是在复合谓语后均不添加任何词语,直接以助动词直接煞尾。
例如,直接煞尾
不管怎样讲都不肯听。
唐太宗李世民文治武功堪称千古一帝,其书法也非常高妙。一次,唐太宗正在临摹大书法家虞世南的字,写“戬”字时,正好看见虞世南走来,他便只写个“晋”旁,让虞世南补上“戈”部。第二天,唐太宗把字拿给魏徵看,想听听他的意见。魏徵看后说:“圣上之作,唯‘戈’法似虞世南。”
3 藏语助动词结尾句子边界识别
通过对藏语助动词词法和句法的分析,可以确定藏语助动词作为复合谓语直接煞尾的句子末尾是藏语以助动词结尾的句子边界。由于藏语语法较为完善,所以可以通过规则方式正确识别该类句子边界。全面分析助动词与谓语动词的构成结构是识别这类句式边界的关键。
3.1 藏语助动词复合谓语结构特性
通常助动词直接连接在谓语动词后边。例如,
我可以当你的助手。(《藏汉大辞典》)
朋友受到侵害,自己不能一旁坐视。(《汉藏大辞典》)
藏语以助动词结尾的形式化表示如下:
其中,藏语助动词复合谓语结构为“谓语动词+(副词或助词)+助动词”。
3.2 同形异质成分现象
3.3 识别方法
基于以上三点的分析,可确立藏语助动词结尾句子边界识别的规则。
1) 首先,识别出单垂符之前的助动词,可基本确立助动词位置;
2) 其次,通过助动词判断之前是否为动词,以此可基本确立是否为助动词复合谓语,同时为避免同形异质成分现象需添加判断是否为同形异质成分;
3) 最后,判断该句音节数是否大于7个音节的最小句子长度。
为此必须建立完整的藏语助动词句尾边界库、藏语动词词库、同形异质成分库。
1) 藏语助动词句尾边界库
通过整理共收集32个助动词的一般形式、否定形式以及部分助词的特殊形式共111种,为便于识别另外在音节最前端包含有音节点,末端包含有单垂符。如表1所示。
表1 藏语助动词句尾边界库样例
2) 藏语动词词库
藏语动词词库包括有所有2 000多个藏语动词,为实现算法,同时库中包括10个副词或助词成分。
3) 同形异质成分库
同形异质成分库主要依靠藏语电子词典,收集所有满足“动词+助动词”结构的同形异质成分。识别过程如图1所示。
4 实验
实验语料为藏语法律公文、政府工作报告、领袖著作为主。语料规模大小为595个文本,62 590句藏语句子。前期通过人工分句统计后得出语料中含有以助动词结尾句子共计19 985句。实验验证通过与人工识别句子数进行比对,在评价指标中只引入准确率作为评价。未再引入召回率作为评价,原因在于算法识别出的所有句子中完全包含了所有人工识别的句子,所以召回率可看似为100%。准确率P为正确识别句子数与识别句子总数的比值。
通过实验共识别出38种助动词形式共20 064句,其中识别错误句子数79句,识别准确率达99.60%。其中错误原因主要为部分情况下一些句子长度过低小于7个音节,以及语料本身错误问题和少量同形异质成分问题。结果表明利用规则方法可以较好的识别出藏语助动词结尾句子边界。
5 结束语
由于藏语中标点符号的特殊性,造成计算机对句子的边界难以直接做出准确的判断。但是通过藏语自身语法特性可行之有效地识别其句子边界。本文主要针对现代藏语助动词结尾的句型边界识别进行研究。首先对藏文中助动词的词法和句法进行分析;后提出藏语助动词结尾句型形式表达式,并引出藏语助动词复合谓语结构形式;最终利用助动词复合谓语结构特性制定边界识别方法。方法依靠助动词句尾边界库、藏语动词词库、同形异质成分库以及最小句子长度限制,设计出识别方案。经实验证明结果较为理想。
[1] 胡书津.简明藏文文法[M].昆明:云南民族出版社,2000.
[2] Palmer D D,Hearst M A. Adaptive multilingual sentence boundary disambiguation[J]. Computatonal Linguistics,1997,23(3):241-267.
[3] Reynar J C,Ratnaparkhi A. A maximum entropy approach to indentifying sentence boundaries[C]//Proceedings of the 5th ACL Conference on Applied Natural Language Processing(ANLP’97). Washington D.C, 1997.
[4] Mikheev A. Tagging sentence boundaries[C]//Proceedings of NACL’2000ACL. 2000: 264-271.
[5] Dan Gillick. Sentence Boundary Detection and the Problem with the U.S.[C]//Proceedings of NAACL HLT 2009. Short Papers: 241-244.
[6] Jeffrey C Reyaar,Adwait Ratnaparkhi. A Maximum Entropy Approach to Identifying Sentence Boundaries[C]//Proceeding of the 1997 Conference on Applied Natural Language Processing. Washington D. C., USA: [s. n.], 1997.
[7] Andrei Mikheev. Tagging Sentence Boundaries[C]//Proceedings of NAACU, 2000.
[8] 于中华,张容,唐常杰,等. 基于前后文词形特征的生物医学文献句子边界识别[J]. 小型微型计算机系统,2006,27(1):180-184.
[9] 朱莉,孟遥,赵铁军,等. 英语句子边界的识别[C]//全国机器翻译研讨会,2002.
[10] 王斌. 汉英双语语料库自动对齐研究[D]. 中国科学院计算技术研究所博士论文,1999.
[11] 阿比达·吾买尔,吐尔根·依布拉音. 维吾尔语句子边界识别算法的设计与实现[J]. 新疆大学学报,2008,25(3):360-363.
[12] 江荻. 藏语文本信息处理的历程与进展[C]//中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集,2006.
[13] 罗秉芬,江荻. 藏语文的疑问句与边界识别[C]//民族语文论坛,2000.
[14] 赵维纳. 面向法律文本的藏语句子边界识别[C]//第五届全国青年计算语言学研讨会,2010.
[15] 龙从军,江荻. 现代藏语带助动词的谓语组块及其识别[C]//第二届全国学生计算语言学研讨会,2004.
[16] 江荻. 中国民族语言工程研究新进展[M]. 北京: 社会科学文献出版社,2005.
[17] 格桑居冕. 实用藏文文法[M]. 成都: 四川民族出版社,1987.
[18] 周季文,谢后芳. 藏语拉萨话语法[M]. 北京: 民族出版社,2003.
[19] 张怡荪. 藏汉大辞典[M]. 北京: 民族出版社,1985.