APP下载

基于自然句法标记的日汉机器翻译架构

2018-03-10刘伍颖张兴

关键词:句法语料日语

刘伍颖,张兴

(1. 广东外语外贸大学 语言工程与计算实验室,广东 广州 510420;2.中山大学 外国语学院,广东 广州 510275)

0 引言

在世界现存约7 000种语言当中,至少有2 000多种语言有书面文字。为了实现异语信息自动转换,机器翻译(Machine Translation,MT)研究应运而生,并随着人工智能的兴衰已走过了跌宕起伏的60多年。

回顾相关研究历程可知国外较早开展了机器翻译研究。1998年,美国国防部高级研究计划署(DARPA)集成推出TIDES项目[1],旨在研发技术对多语言信息进行发现、提取、摘要和翻译。2006年底,DARPA又启动GALE项目[2],从语音转录、翻译和过滤入手进行探索,旨在收集、分析和解释巨量多语言文本和语音信息,提高语言翻译和文本分析效率。此后,DARPA还启动了MADCAT项目、TRANSTAC项目等。随着大数据时代的到来,2014年,DARPA启动LORELEI项目[3],旨在研发处理任何语言的系统。2017年初,美国高级情报研究计划署(IARPA)也启动了对任何语言信息进行英语检索的机器翻译(MATERIAL)项目,旨在对全球7 000种语言的文档进行跨语言翻译检索。

国内相关研究几乎与国外同步发展。1998年,国内就开展了汉英机器翻译评测[4]。从2003年开始,连续几年开展了机器翻译评测,涉及英语、日语、汉语等。2007年,863重点项目“面向跨语言搜索的机器翻译关键技术研究”[5]和“面向网络海量信息处理多策略机器翻译系统研究”[6]启动。后来2011年,又启动863重大项目“互联网语言翻译系统研制”[7]。同时,国家自然科学基金也资助了大量相关项目[8]。仅2010年至今,先后启动“高精度的跨语言信息检索查询词自动翻译技术研究”[9]、“基于语言理解的机器翻译方法研究”[10]、“跨语言信息检索中的机器翻译研究”[11]、“面向多层次篇章语义的机器翻译理论、方法与实现”[12]、“基于句法结构和语义框架的机器翻译自动评价方法研究”[13]、“统计机器翻译”[14-15]等。

上述研究历程表明早期机器翻译注重语言转换规则的显式描述,算法泛化性较弱。后来逐渐过渡到统计方法[16],设计了一些有效的统计机器翻译算法[17]。近来深度学习方法[18]已取代统计方法的主导地位,在机器翻译上取得了重大突破[19]。神经机器翻译成了最新的主流技术,越来越多的应用系统采用神经机器翻译算法实现。此外,国外追求全语言到英语的机器翻译,注重顶层架构设计,强调研究的系统性和成果的实用性。而国内顶层架构设计还不够完备,使得相关研究往往缺乏系统性和可持续性。不仅如此,无论是统计机器翻译还是神经机器翻译,外语到汉语的译文质量离人们的理想目标还相去甚远。翻译架构、语料规模、训练开销等诸多方面的问题仍然困扰着当前的研究。

在机器翻译面临的众多语言当中,日语和汉语研究较早[20],迄今已提出很多有效的机器翻译算法[21]。针对这些算法,除了从计算层面进一步改进之外,如何充分发掘语言特点和规律,提升机器翻译算法效能也是一个很值得期待的研究方向。基于这一动机,我们针对日语到汉语机器翻译问题,重新审视源语言自然的形态特性,并把日语自然形态特性融入日汉机器翻译算法,从翻译架构创新、语料规模扩充、训练开销降低等方面进行一些有益的探索。

1 日语自然形态特性

日汉机器翻译问题的数学描述是如何在日语(J)与汉语(C)之间建立一种基于语义(s(·))等价的形态映射(f(·)),对于任意日语形态表示(j∈J),都能通过形态映射计算得到对应的汉语形态表示(f(j)=c, (c∈C)),且两种表示之间满足语义等价约束(s(j)=s(c))。统计机器翻译根据Bayes概率公式将形态映射f(·)的构建间接转化成argmaxcp(j|c)p(c)的求解运算,需要通过日汉对齐语料[22]训练翻译模型p(j|c)以及汉语语料训练语言模型p(c)[23]。而神经机器翻译直接通过大规模日汉对齐语料训练多层神经网络构建形态映射f(·)。

我们认为自然语言是人类大脑认知的复杂符号系统,包括深层语义认知和表层形态表示。深层语义认知是基于先天的生物感知和神经机能,在全体人类中是等价的;而表层形态表示则是基于部分人群后天的共同环境,在不同人群之间是有差异的。因此,不同的自然语言在语义上存在等价性,而在形态上则存在特异性。自然语言语义的等价性成了形态映射可计算的基础,而形态的特异性又能够支撑我们对每种自然语言进行具体分析。

通过对日语自然形态特性的分析可知日语符号系统主要是由平假名、片假名、汉字以及西文字符等符号子系统组成。不同的符号子系统担负不同的句法功能:平假名符号子系统具体担负助词、助动词、送假名、部分转写名词等功能;片假名符号子系统相对独立,通常担负外来词音译表示功能;汉字符号子系统主要担负名词以及部分动词、形容词词干功能;西文字符符号子系统除了用来分割文节、句子、段落,也担负时间、数字、西文单词等表示功能。这些符号子系统共同构成日语符号系统自然的形态划分,非常适合形态计算处理。其中平假名符号子系统中除了部分转写名词之外,几乎担负了全部的句法框架显示功能[24]。因此,我们提出一种新的日汉机器翻译架构。该架构集成翻译记忆[25]、句法匹配[26]、信息检索、双语语料等技术和数据,是一种独立于具体机器翻译算法的元架构。

2 日汉机器翻译架构与算法

我们设计的日汉机器翻译架构如图1所示,包括了5种处理部件和2类语料数据。翻译记忆部件采用高效的信息索引和检索技术[27],存储日汉句库并提供查询接口。形态标注部件一方面负责日语段落、句子、文节、标点符号、单字节片假名(JIS X 0201)、词汇等粒度的基本形态处理,另一方面还能够提取平假名表示的自然句法标记(Natural Syntactic Annotation,NSA)。词汇记忆部件接收日语词汇的查询请求,查询日汉词库后返回日汉词对集。句法匹配部件能够根据自然句法标记快速从日汉句库中找出句法相似度最高的日汉句对集[28]。高级翻译部件接收日汉词对集和日汉句对集,既可以采用机助人译方式实现,也可以部署任何高级的机器翻译算法。由此可见,我们的日汉机器翻译架构是一种两层翻译结构,优先匹配第一层的翻译记忆,当无法匹配时执行第二层的高级翻译。这种架构的有效性主要由日汉语料资源和句法匹配算法决定。当前语言科学和计算技术的进步促使网络语言大数据爆发,一定程度上缓解了日汉语料资源的匮乏。我们可以通过互联网不间断获取并对齐相关资源,增量更新日汉句库和日汉词库。例如我们可以采用网络爬虫(Spider)抓取日汉双语新闻网页,再进行句子分割和对齐;还可以监视Wikipedia网站,通过链接和上下文特征对齐日汉词汇。而日语平假名符号子系统担负的句法框架功能可以帮助我们高效实现句法匹配算法。

Fig.1 Japanese-Chinese machine translation architecture图1 日汉机器翻译架构

根据上述架构,我们设计的基于自然句法标记的日汉机器翻译(NSA-based Japanese-Chinese Machine Translation, NJCMT)算法伪码如算法1所示,TranslationMemory (翻译记忆)、MorphologicalAnnotation (形态标注)、WordMemory (词汇记忆)、SyntacticMatching (句法匹配)、AdvancedTranslation (高级翻译)以及JCSenBank (日汉句库)、JCWordBank (日汉词库)分别实现架构中相应的处理部件和语料数据。整个算法需要预先执行indexing()函数,也就是采用字符串Hash表数据结构为日汉句库和日汉词库建立索引。除了日语句子到汉语句子的索引、日语词汇到汉语词汇的索引之外,还有一种自然句法标记到日语句子的索引。这里采用自然连续的平假名串来实现近似的句法标记。算法最关键SyntacticMatching的nsa()函数就是根据自然句法标记到日语句子的索引,快速检索出句法相似的日语句子集合,该集合规模通常远小于日汉句库规模。相当于先根据句法进行了句子相似度过滤[29],然后再采用Levenshtein距离进行精匹配。当新来一个日语句子需要翻译时,先检索日语句子到汉语句子的索引,若未命中则继续进行形态标注并调用高级翻译,或输出日汉词对集和句法相似的日语句子辅助人工翻译。

算法1 基于自然句法标记的日汉机器翻译算法

由此可知,我们的NJCMT算法将日汉机器翻译训练问题转化为索引预建过程,将日汉机器翻译应用流程转化为索引检索过程。若用N和n分别表示日汉句库句对总数和日汉句对集句对数,那么NJCMT算法的最大复杂度是与N值无关的O(n),通常n值远小于N值。因此,NJCMT算法适合实际应用需求。

3 实验

为了验证基于自然句法标记的日汉机器翻译架构与算法的有效性,我们进行下列实验。首先通过执行indexing()函数说明Hash表索引数据结构的时空高效性,接着对比经典的Levenshtein算法证明自然句法标记句法匹配SyntacticMatching的有效性,最后通过比较人工译文讨论我们日汉机器翻译的优越性。

3.1 语料数据预处理

实验采用公开的日汉句库(JCSB)*http:∥cbd.nichesite.org/CBD2014D002.htm语料数据,共包含371 712组无重复的日汉句对;采用我们的日汉词库,共包含436 199组无重复的日汉词对。实验运行环境是Intel Core i5-2520M CPU和4.00 GB RAM的PC机。为了构造科学的测试集合,我们从JCSB中采用简单随机采样(Simple Random Sampling)抽取10个测试集,每个测试集包含1 000组日汉句对,相对每个测试集剩下的370 712组日汉句对被用于算法中的JCSenBank。实验分别在每个测试集上运行,最终报告10组实验结果的算术均值。

经过索引构建预处理,原始JCSB语料33 MB纯文本建成35 MB日汉句子索引和29 MB自然句法标记到日语句子的索引,原始日汉词库语料17 MB纯文本建成21 MB日汉词汇索引。由于这两个语料都是已去重的,所以索引文件和原始文件的存储空间比较接近,相当于采用空间紧凑的索引格式化原始数据。又因为Hash表数据结构每次检索的常数量级时间开销,所以索引数据结构是时空高效的。

3.2 句法匹配结果与讨论

句法匹配实验中,测试集和JCSenBank没有交集,因此日汉句子索引不会被命中。为了对比,我们还实现了基于经典Levenshtein算法的字符串匹配Baseline。对于测试集中每个句子,Baseline都需要计算370 712次Levenshtein距离,并得到距离最小的相似句子集合。我们把全部相似句子集合当成伪标准答案,并采用信息检索中的准确率(Precision)、召回率(Recall)、F1测度评价实验结果。

Fig.2 Precision,recall,F1 measure and running time图2 准确率、召回率、F1测度和运行时间

实验中Baseline平均耗费3 088 s完成1 000个句子匹配,每个句子进行了370 712次距离计算,耗时约3 s。图2显示了不同n值情况下我们nsa()实验结果,其中n表示前n个相似句子,实验时预置在nsa()函数中。从图2可以发现nsa()函数只需耗费40 s就能达到37%准确率,比起3 088 s大大降低。当n=190时,平均每个句子耗时40/1 000=0.04 s。这表明nsa()函数在370 712规模的大数据集上,每秒钟能够完成25次句法匹配。此外,37%准确率仅仅是比较形态匹配的伪标准答案,而实际的句法匹配准确率应该高于37%,因为形态匹配比句法匹配更加严格。上述实验结果证明日语自然连续的平假名串能够近似句法标记,帮助算法高效实现句法匹配。

3.3 日汉机器翻译结果与讨论

机器翻译评价指标BLEU4使用最广泛[30]。公式(1)给出了采用平滑改进k元准确率的BLEU4计算方法,其中c表示候选译文长度,r表示有效参考译文长度,pk表示平滑改进k元准确率。

(1)

我们在实验中计算了两类结果的BLEU4指标。计算BLEU4.JSens时,采用NJCMT算法输出日汉句对中的日语句子作为候选译文,把伪标准答案中的日语句子作为参考译文。计算BLEU4.CSens时,采用NJCMT算法输出日汉句对中的汉语句子作为候选译文,把日汉句库中的人工汉语译文作为参考译文。表1给出详细的耗时和BLEU4结果。随着n值从10到190变化,耗时仅仅缓慢增加。当n=190时,NJCMT算法达到最佳性能(BLEU4.JSens=0.475 6,BLEU4.CSens=0.179 7)。

表1 运行时间和BLEU4结果

通过随机选出图3所示的两个例句,我们进一步阐释NJCMT算法的优越性。图中分别显示了JCSB语料、伪标准答案、NJCMT算法得到的日语句子()以及对应的汉语句子()。从例句1可知Baseline的Levenshtein算法和NJCMT算法结果相同,且结果日语句子与JCSB语料中的日语句子比较接近。如果用户输入例句1中JCSB语料的日语句子,机辅翻译系统能够给出例句1的结果日汉句对,那么用户在日汉词库的帮助下几乎可以很好地完成翻译。从例句2可知Levenshtein算法得到了一个相似句子,而NJCMT算法得到了三个相似句子。通过日语专家的人工判断,三个相似句子的句法结构与JCSB语料中的日语句子的更加接近。所以尽管NJCMT算法没有命中伪标准答案,但语言专家却认为[○J0]反而更合适。

Fig.3 Example sentence图3 例句

语言学家通过计算匹配率来证明他们的观点。表2给出了例句2的多粒度Token位图,对于每个日语句子显示了3行:第1行是字符位图,第2行是平假名串位图,第3行是词汇位图。

表2例句2的多粒度Token位图

Table 2 Multi-Granularity token bitmap of example sentencez

彼は歌がへたなので人を静めることができず、聴衆はみな帰ってしまった。12345678910111213141516171819202122232425262728293031323334はがへたなのでをめることができずはみなってしまった123456彼は歌がへたなので人を静めることができず、聴衆はみな帰ってしまった。12345678910111213141516171819202122

根据上述位图可以计算出每个句子的匹配率。具体的多粒度匹配率如表3所示。我们发现伪标准答案句子的三种粒度匹配率均低于NJCMT算法的句子0。特别是在四个句子的词汇匹配率上,NJCMT算法达到最高值0.714,这也证明NJCMT算法推荐的句子0与JCSB语料中的日语句子具有最相似的句法模式。

表3 多粒度匹配率

上述实验结果证明对于基于自然句法标记的日汉机器翻译架构与算法:(Ⅰ)索引数据结构是时空高效的;(Ⅱ)平假名符号子系统近似担负句法框架显示功能;(Ⅲ)NJCMT算法能够在较低的时间开销下获得优异的效能。

4 结论

通过对日语符号系统的平假名、片假名、汉字以及西文字符等符号子系统的句法功能分析,我们发现平假名符号子系统具有显式的自然句法标记。基于这一发现而设计的日汉机器翻译架构能够有效地提高日汉机器翻译效能。尤其是用于机辅翻译时,提供准确的双语词汇和句法相似的句子会比给出一个不太准确的译文更加实用。

未来的研究将关注平假名符号子系统的细粒度划分。通过深入研究语言特点和规律,设计实现平假名符号子系统中自然句法标记与转写名词的区分算法,进一步提高日汉机器翻译架构的实用性。此外,我们还准备将上述研究思路和成果运用到其他适合的语言上。

[1] Cieri C,Liberman M.TIDES Language Resources:A Resource Map for Translingual Information Access[C]∥The 3rd International Conference on Language Resources and Evaluation (LREC) Proceedings,ELRA,2002:1334-1339.DOI:10.1.1.678.9829.

[2] Olive J,Christianson C,McCary J.Handbook of Natural Language Processing and Machine Translation:DARPA Global Autonomous Language Exploitation[M].Berlin:Springer,ISBN:9781441977120,2011.

[3] Cieri C,Maxwell M,Strassel S,etal.Selection Criteria for Low Resource Language Programs[C]∥The 10th International Conference on Language Resources and Evaluation (LREC) Proceedings,ELRA,2016:4543-4549.

[4] 刘洋,刘群,林守勋.机器翻译评测中的模糊匹配[J].中文信息学报,2005,19(3):45-53.

[5] 刘群.机器翻译研究新进展[J].当代语言学,2009,11(2):147-158.

[6] 李业刚,黄河燕,史树敏,等.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9.

[7] Zhang J,Zhai F,Zong C.A Substitution-Translation-Restoration Framework for Handling Unknown Words in Statistical Machine Translation[J].JournalofComputerScienceandTechnology,2013,28(5):907-918.DOI:10.1007/s11390-013-1386-5.

[8] 徐琳,赵铁军.国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述[J].软件学报,2005,16(10):1853-1858.DOI:10.1360/jos161853.

[9] 洪宇,康杨杨,姚建民,等.一种新型最优检索结果的发现与论证[J].计算机学报,2013,36(3):643-653.DOI:10.3724/sp.j.1016.2013.00643.

[10] 李茂西,宗成庆.机器翻译系统融合技术综述[J].中文信息学报,2010,24(4):74-84.

[11] 王冠群,田雪,黄德根,等.中文微博观点句识别及要素抽取研究[J].数据采集与处理,2016,31(1):160-167.DOI:10.16337/j.1004-9037.2016.01.017.

[12] 王超超,熊德意,张民.基于双语合成语义的翻译相似度模型[J].北京大学学报(自然科学版),2015,51(2):335-341.DOI:10.13209/j.0479-8023.2015.031.

[13] 刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71.

[14] 李鹏,刘洋,孙茂松.层次短语翻译的神经网络调序模型[J].清华大学学报(自然科学版),2014,54(12):1529-1533.DOI:10.16511/j.cnki.qhdxxb.2014.12.013.

[15] 唐海庆,熊德意.基于选择偏向性的统计机器翻译模型[J].北京大学学报(自然科学版),2016,52(1):127-133,2016.DOI:10.13209/j.0479-8023.2016.013.

[16] Koehn P.Statistical Machine Translation[M].Cambridge:Cambridge University Press,ISBN:9780521874151,2009.

[17] 苏劲松,董槐林,陈毅东,等.引入基于主题复述知识的统计机器翻译模型[J].浙江大学学报(工学版),2014,48(10):1843-1849.DOI:10.3785/j.issn.1008-973X.2014.10.019.

[18] LeCun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521:436-444.

[19] Sutskever I,Vinyals O,Le Q V.Sequence to Sequence Learning with Neural Networks[R].Technical Report,arXiv,2014.DOI:10.1.1.1009.9175.

[20] Dan H,Sudoh K,Wu X,etal.Head Finalization Reordering for Chinese-to-Japanese Machine Translation[C]∥Proceedings of the Sixth Workshop on Syntax,Semantics and Structure in Statistical Translation,Stroudsburg,PA,USA,2012:57-66.DOI:10.1.1.362.590.

[21] Chu C,Nakazawa T,Kawahara D,etal.Chinese-Japanese Machine Translation Exploiting Chinese Characters[J].ACM Transactions on Asian Language Information Processing,2013,12(4):16.

[22] Callison-Burch C,Talbot D,Osborne M.Statistical Machine Translation with Word-and Sentence-Aligned Parallel Corpora[C]∥Proceedings of ACL’04,the 42nd Meeting of the Association for Computational Linguistics,Barcelona,Spain,Main Volume,2004:175-182.DOI:10.1.1.127.4109.

[23] 王楠,徐金安,明芳,等.融合被动和可能态模型的日汉统计机器翻译[J].中文信息学报,2016,30(6):201-207.

[24] 张兴,刘伍颖.基于平假名Token的快速日本语句法匹配[J].山西大学学报(自然科学版),2015,38(4):567-572.DOI:10.13451/j.cnki.shanxi.univ(nat.sci.).2015.04.003.

[25] Brown R D.The CMU-EBMT Machine Translation System[J].MachineTranslation,2011,25(2):179-195.

[26] Tom V,Vincent V.Improving Fuzzy Matching through Syntactic Knowledge[C]∥Proceedings of the 36th Translating and the Computer Conference,Westminster,London,UK,2014.

[27] Navarro G,Baeza-Yates R,Sutinen E,etal.Indexing Methods for Approximate String Matching[J].IEEEDataEngineeringBulletin,2001,24(4):19-27.DOI:10.1.1.11.5629.

[28] Koehn P,Senellart J.Fast Approximate String Matching with Suffix Arrays and A* Parsing[C]∥Proceedings of AMTA 2010,the 9th Biennial Conference of the Association for Machine Translation in the Americas,Denver,Colorado,USA,2010.DOI:10.1.1.233.4116.

[29] 冶忠林,贾真,杨燕,等.基于语义扩展的句子相似度算法[J].山西大学学报(自然科学版),2015,38(3):399-405.DOI:10.13451/j.cnki.shanxi.univ(nat.sci.).2015.03.003.

[30] Lin C,Och F J.ORANGE:A Method for Evaluating Automatic Evaluation Metrics for Machine Translation[C]∥Proceedings of the 20th International Conference on Computational Linguistics,Geneva,Switzerland,2004:501.DOI:10.1.1.135.2004.

猜你喜欢

句法语料日语
从推量助动词看日语表达的暧昧性
述谓结构与英语句法配置
明朝日语学习研究
句法二题
诗词联句句法梳理
基于语料调查的“连……都(也)……”出现的语义背景分析
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
信息结构与句法异位
Reliability assessment consideringdependent competing failure process and shifting-threshold