基于句法知识的复句解构对韩汉复句机器翻译改进刍议
2017-03-12毕玉德
刘 洋, 毕玉德, 李 健
(解放军外国语学院 a.语言工程系; b.基础部计算机与网络教研室, 河南洛阳 471003)
基于句法知识的复句解构对韩汉复句机器翻译改进刍议
刘 洋a, 毕玉德a, 李 健b
(解放军外国语学院 a.语言工程系; b.基础部计算机与网络教研室, 河南洛阳 471003)
为解决韩国语复句中,机器翻译的逻辑语义处理问题,提出了一种基于连接词尾的“复句解构思想”,其用在机器翻译之前,可对复句进行“解构化”处理,从而提高韩国语复句机器翻译质量.经过实验表明,基于连接词尾的单重连接复句解构可以有效提高复句的翻译效果.
韩国语;复句;连接词尾;解构化
0 引言
基于规则、 统计或者综合策略的机器翻译系统的构建过程十分复杂. 从以往的研究成果来看, 多种模型和特征的结合, 尤其是句法结构信息和语义信息的利用, 已经成为改进和提高翻译系统性能的有效途径.
韩国语是黏着语, 依靠复杂的词尾和助词实现语法功能. 其中, 连接词尾不但可以在句法功能上衔接单句组成连接复句, 具有句法功能, 还可以显示单句间逻辑语义关系, 本身带有语义, 因此可以看作连接复句中句法信息和语义信息的结合. 所以, 笔者尝试通过分析韩国语连接复句的特点, 进而探索通过连接词尾对韩国语连接复句进行解构处理, 以期对提高韩国语复句翻译质量起到积极作用.
1 相关语言学知识及理论基础
1.1 连接词尾和连接复句
(1) 连接词尾
韩国语连接复句的惯用分类方法是基于连接词尾的分类. 但并不是所有的连接词尾都可以看作复句关系标记[2]. 韩国语连接词尾按功能可分为对等性、从属性和辅助性三类.其中, 对等性和从属性连接词尾均可连接分句构成复句, 而辅助性连接词尾(共4个)一般和补助谓词连用, 构成语法连语, 但不构成复句. 补助连接词尾不能看作复句关系标记的情况, 我们已经在前期的工作中予以排除, 在此拟不赘述. 所以, 本文中所指的连接词尾等同于连接复句关系标记.
(2) 连接复句
讨论连接词尾对韩国语连接复句翻译效果的改进, 首先需要明确连接复句概念, 所以需要审视连接复句的结构特点, 其主要包括两个方面:
首先是句子概念. 基于不同的标准和视角, 句子可做不同分类. 例如:从语气情态角度, 句子可分为陈述、 命令、 疑问、 共动; 从包含主谓关系的数量出发, 可分为简单句和复句. 其中, 复句又可根据主谓结构之间是否存在包孕关系分为连接复句和包孕句. 本文的研究对象就是复句体系内的连接复句(复句体系划分尚存在争议, 涉及到连接复句的主要是下位语义类型及状语从句, 对结构分析影响不大. 本文的连接复句界定采用韩国国立国语院的教学体系分类方法).
(a)构成上的表现, 指出所谓“复”即分句的复合.
(b)复句句末有终止性停顿.
(c)复句的构成单位之间从构成基础看是小句, 从构成结果看是分句.
也就是说, 一个复句一旦成立, 那么复句内的各个分句就具有相对独立和相互依存的特征. 其中的“相对独立”就是指“每个分句都有‘句’的性质和地位, 但分句互相不充当成分”.
(3)连接复句的数学表示
结合上文连接复句的结构特点, 我们可以把所有的分句看作一个集合, 连接词尾看作一个集合. 这样一来, 所有单重连接复句均可以表征为集合S, 集合内元素由小句集合C和连接词尾集合J内的元素组成. 也就是说, 任意一个复句, 都可以通过从小句集合和连接词尾集合中抽取元素来表示. 这种表征系统的三个概念及其所含元素如下:
复句:S={S1, S2, …Sn}; 分句:C={C1, C2, …Cm}; 连接词尾:J={J1, J2, …J139}
对于任意一个韩国语复句, 其数学表达式可写为:S=Ci+Jm+Cu. 其中, Jm的逻辑语义决定了分句Ci、 Cu之间的逻辑语义关系. 试看下例.
结合以上分析可知, 韩国语连接复句在结构上独立, 语义上关联, 这种特点决定了韩国语复句的机器翻译改进可以从下述角度着眼考虑:
二是分层处理, 化繁为简. 分层则是通过降低句子复杂度, “化繁为简, 分而治之”. 也就是将复句分解为相对应的分句, 分别处理.
1.2 相关研究及理论基础
根据目前掌握的资料, 国内关于韩国语复句的研究多立足于传统语法, 且侧重中韩对比和语言教学, 代表性的有刘沛霖、 张光军等专家的研究. 韩国语是小语种, 受限于技术和资源, 自然语言处理领域的研究发展相对滞后, 目前国内可见的应用性研究成果相对较少, 几乎无法找到基于连接词尾的复句分解专题研究.
基于连接词尾的复句解构体现出分类和分层的研究思路, 以往研究成果中对本文有启发的主要有汉语、 韩语和日语学界的研究.
分类研究中, 田中康仁[8]提到在日英机器翻译中将句子分类的思想, 他认为可以把句子分为简单句、 复句、 重句. 除此之外, 还可以将句子分为陈述、 疑问、 命令、 共动句. 虽然这些研究或多或少论及复句或者长句的自然语言处理, 但均未形成体系, 也未体现出区分单句和复句, 以及根据复句层级数量分别处理的思想.
对句子进行分层切分处理的思想较早见于标点符号的处理. C.Meyer(1987)最早把标点符号用于信息处理的研究, 他根据语料库把标点符号进行分类并介绍各自功能. G.Nunberg(1990)和B.jones(1994,1996,1997)通过大量理论和实验数据证明了将标点符号信息融入句法分析的有效性. 其将标点符号看作句子结构的形态标记, 并运用到句法分析中, 体现了长句分层处理的思想. 李幸[10]研究了汉语标点符号在句子中的作用和使用规律, 提出了针对汉语长句句法分析的分层处理方法.
范莉馨等[11]认为应该利用浅层变换知识, 提出了根据句子结构特征来进行日中翻译的手法, 由此而建立了一个中日机器翻译实验系统, 并通过部分实验验证了这一手法的有效性. 由于日语和韩语同属黏着语, 语言特点具有相似性, 范莉馨的研究对我们设计韩国语句子结构解构程序有一定借鉴作用.
为了量化喷施过程中的雾滴飘移情况,将辅助气流出口下风向5m处的位置定义为飘失边界,雾滴运动至到喷头下方0.5m以下认为其沉积到标靶或地面上(如图1所示);把通过该边界的雾滴质量设定为飘移量,飘移量与喷施的药液量的比值定义为飘移率。最终,把雾滴飘移率作为雾滴飘移的评价指标,具体公式为
2 基于连接词尾的韩国语复句解构化
2.1 连接复句的翻译效果及分析
1) 语料说明
2) 翻译结果
2.2 基于连接词尾的解构思路
基于上述两个事实, 结合韩国语连接复句的结构特点, 即单重连接复句由连接词尾和小句组成, 如果将连接词尾拆解成终结词尾和副词, 并把韩国语复句转换成对应的单句组合, 翻译后按照逻辑关系进行重组, 则可能会对改进翻译效果起到帮助作用.
2.3 基于个案的实现
根据上文分析, 我们对例句S进行了拆解处理. 将这一复句按照连接词尾相对应的终结词尾和副词的搭配拆分成两个单句. 即将S拆解为S1和S2.
↓
之后对拆分后的两个单句进行了机器翻译, 得出的翻译结果如表3所示.
通过上例可以看到, 三个翻译平台对拆分后的单句翻译效果相对于复句翻译效果有一定提升. 除个别词汇多义问题未得到较好处理外, 三个翻译平台均正确处理了复句结构.
3 实验检测及程序设计
3.1 实验检测
翻译后进行人工判别得出表4~表6和图2.
为尽可能控制变量, 降低其他语法素对翻译效果的影响, 我们所选的例句均为简单的复句. 通过实验, 我们可以得出以下几个实验结果:
(1)句子结构解构化对简单结构复句的机器翻译效果提升有明显改进作用, 对必应翻译质量改进优于有道和Naver.
(2)复句中助词的使用会降低解构效果, 从而影响解构后翻译准确度.
这里需要指出的是, 翻译质量判断标准和参数具有不可避免的主观性, 在后续研究中将通过增大实验样本, 采取多方评判的方式对此进行改善.
3.2 句子逻辑语义结构解构器编程思路
目前, 对韩国语复句和简单句的判别抽取程序编写已经完成, 具体的句子结构解构程序编写还需要进一步研究结果作为支撑. 其基本实现流程如下:
(1)对句子进行预判断处理, 如果为单句, 直接输入翻译器进行翻译; 如果为复句, 判断复句层级结构;
(2)提取连接词尾, 将连接词尾重设为终结词尾加连接词尾形式. 即, 将复句转换成两个单句, 提前抽取出单句间通过连接词尾表达的逻辑语义关系, 分置于单句前.;
(3)将两个翻译后的中文单句合并为复句.
4 总结和展望
本文主要观点有:(1)认为可以在进行翻译处理前, 对韩国语句子进行结构判别, 从而对单句和复句进行分别处理; (2)在对复句进行处理时, 可以将复句的结构标记, 即将连接词尾转换为相对应的终结词尾和接续副词, 然后进行复句的翻译和整合. 实验表明, 这种方法可以在一定程度上提高常见翻译软件对韩国语复句的翻译质量, 尤其是对必应在线翻译和有道在线翻译的改进效果明显.
[3] 刑福义.汉语复句研究[M].北京:商务印书馆, 2001,25-31.
[8] 田中康仁.关于机器翻译系统未来的方向[A]; 自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C], 2001.
[9] 宗成庆, 统计自然语言理解[M]. 北京:清华大学出版社, 2006.165-166.
[10] 李幸, 宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报, 2006(4):8-15.
[11] 范莉馨, 任福继, 宫永喜一, 等.一个利用句子结构特征实现的中日机器翻译系统[A]. 中国科学技术协会首届青年学术年会论文集:工科分册·上册[C], 1992.
[责任编辑 徐 刚]
Improvement of Korean-Chinese Machine Translation Based on Complex Sentence Deconstruction
LIU Yang1, BI Yu-de1, LI Jian2
(1. Department of Language Engineering, PLAUFL, Luoyang 471003, China; 2. General Courses Division, PLAUFL, Luoyang 471003, China)
Popular Korean-Chinese machine translation (MT) platform can’t deal with complex sentence as well as simple sentence. The reason is believed to be the procession of connecting suffix. With this consideration, “Korean complex sentence de-construction method” based on connecting suffix is proposed, which shall be used before machine translation to improve the translation quality. Experiments show that MT based on the “Korean complex sentence deconstruction method” can achieve obvious improvements, which verify the feasibility of the method.
Korean; complex sentence; connecting suffix; deconstruction
2016-12-06
国家社会科学基金项目(16BYY157)
刘洋(1989─), 男, 博士. 研究方向: 韩国语自然语言处理, 机器翻译.
毕玉德(1967─), 男, 博士, 教授. 研究方向: 韩国语句法语义学, 计算语言学.
TP391.2
A
1009-4970(2017)02-0049-06