英汉机器翻译中译文自动生成系统设计
2018-12-14邢蕾
邢蕾
关键词: 英汉机器翻译; 译文生成; 词法分析; 解码; 译文规则; 系统设计
中图分类号: TN911.23?34; TP391.02 文獻标识码: A 文章编号: 1004?373X(2018)24?0086?04
Design of translation automatic generation system for
English?Chinese machine translation
XING Lei
(Shandong University of Technology, Zibo 255000, China)
Abstract: Since the traditional translation generation system has long?term existing problems of inaccurate translation generation results and little similarity with the original text in the process of English?Chinese machine translation, a translation automatic generation system based on double?layer analysis is proposed and designed for English?Chinese machine translation. The system is mainly composed of preprocessing module, lexical analysis and word segmentation module, part?of?speech tagging and phrase analysis module, translation rule establishment module, decoding module and translation generation module. Experimental analysis was carried out. The experimental results show that, in comparison with the traditional generation system, the translation generation accuracy and similarity (with the original text) of the improved generation system are increased respectively by about 34.8% and about 0.4, and the system has a certain advantage and high practicability.
Keywords: English?Chinese machine translation; translation generation; lexical analysis; decoding; translation rule; system design
0 引 言
当下,互联网得到了广泛普及,经济全球化范围不断扩大,推动了国际间的交流与协作不断深入[1]。各个行业的人们每天都要与讲不同语言的人进行交流,浏览大量使用了他们不熟悉的语言所书写的文档资料,这使得人们的交流障碍越来越严重,对语言的翻译需求越来越多,语言差异已经成为国际间交流与合作的主要障碍[2]。由原始的人工翻译到突破语言障碍的机器翻译,加快了信息传播的速度。如何在这种信息传播方式下,快速地生成其译文,成为该领域亟待解决的问题[3]。传统的英汉机器翻译译文生成系统,主要通过以短语中心点构造短语结构,改进标准GLR算法实现对英汉机器翻译译文自动生成,但存在生成结果准确度低与原文的相关性差。对此,提出并设计基于双层分析的英汉机器翻译译文自动生成系统,并进行实验分析。
1 英汉机器翻译译文自动生成系统整体结构
英汉机器翻译译文自动生成系统由以下模块组成:预处理模块、词法分析及分词模块、词类标注及短语分析模块、译文规则建立模块、解码模块、译文生成模块。
1.1 预处理模块
在进行英汉机器翻译过程中,分隔单词主要利用标点符号或者是空格,不过在分词过程中容易出现错误。虽然字典中助动词通常被当成是多字单词的一部分,订单在句子中还是要根据语法进行形态的不规则变化[4],而预处理模块就是针对这一变化做出相应处理的模块。预处理模块的功能是对标点符号和单词连写进行特殊处理,并且对助动词的不规则形态变化进行规范处理,将空格当作唯一的单词分隔符,使英汉机器翻译能够在格式良好的字符串中对词法进行分析,降低词法分析过程中出现分词错误的概率。
中国国家标准总局颁布了一套标准的文档格式,该标准总共收录了6 763个汉字,还包含了希腊字母、拉丁字母、日语平假名及片假名字母等特殊字符[5]。目前该标准已经满足中文巨大部分的需要,国内的中文系统和国际版本的系统都支持GB2312编码格式。
1.2 词法分析及分词模块
经过预处理模块的特殊处理后,由空格分开的字符串有4种表现形式:第1种是单词;第2种是多字单词的一部分;第3种是特殊符号;第4种是某个单词的变形。通过对字符串的形态进行分析,对比字典判断字符串是否为变形单词,再参照词典中单词的词义等知识为后续处理进行铺垫[6]。词法分析及分词模块主要包括单词形态分析、未登录词的处理和多字单词的切分三个部分。
在对词法分析的基础上对其进行分词处理,词法分析及分词模块是系统的核心模块,该模块主要分为2个子模块,最大匹配模块和命名实体识别模块见图1。
1.3 词类标注及短语分析模块
作为词汇最重要的属性之一,词类能够将词汇连接到句法。在自然语言中,单词兼类普遍存在,但是在给定句子中兼类词必须具有明确的词类[7]。对于这种现象,词类标注模块的主要任务就是给句子中的单词确定一个最大可能性的词类序列。起初,词类标注主要根据规则方法,之后慢慢发展为重点使用统计方法。在本文设计的系统中,词类标注模块对兼类词的词类备注是依照基于单词的兼类消歧的规则来进行的。
短语分析模块的功能是在短语层次识别出句子的短语结构,主要对名词短语(NP)、动词短语(VP)、副词短语(ADVP)和形容词短语(ADJP)进行识别。短语分析模块的主要任务是依据词类信息对短语进行识别,针对有歧义的并列结构短语,则需要依照词汇的语义信息和词汇的搭配信息进行识别[8]。如果有单词不是以NP,VP,ADVP和ADJP四类短语组成,为了保证后续处理的统一性,都作为短语看待。依照短语在句子中的位置,生成相对应的短语符号序列,方便后续分析过程的使用。
1.4 译文规则建立模块
译文规则建立模块的主要功能是选择词汇级语义、转换短语级结构、添加量词和否定词等。词义选择是语义消歧的具体实现部分,主要解决了多一次的译文选择问题[9]。词义选择主要依照词典内的信息对词汇进行约束,并参照词汇的上下文,给出词汇级译文。如果是未登录词,则直接给出对应的译文即可。短语级结构的转换是在短语的内部进行词汇的调整,调整是参照目标语短语的结构知识进行的。在选择词义的基础上,依据短语的结构和短语的中心词语义属性来决定量词和否定词是否需要添加以及如何添加。
设立一种中间语言,将源语言转换成中间语言,再将中间语言转换成目标语言,这种方法称为中间语言法。理论上,中间语言法是比较方便的方法,但实际操作过程中,中间语言的设立是很困难的,中间语言独立于各种自然语言,却可以准确表达出各种自然语言,因此寻找或创造一种中间语言是有很大难度的。译文规则建立模块如图2所示。
中间语言法是一种更为彻底的源语言分析。中间语言法与直接翻译法的不同之處主要表现在翻译过程中,两种方法对源语言的分析程度不同。直接翻译法是不需要考虑源语言的语法结构,不需对源语言进行深层次的分析,而中间语言法则需要对源语言的语法结构进行分析,并且将其转换成相对应的内部表达[10]。
1.5 解码模块
解码器是系统的核心模块,通过解码,将一个输入的汉语句子翻译成英语句子,流程图如图3所示。
1.6 译文生成模块
机器翻译系统完成从源语言的翻译过程,是一个复杂的整体过程,从功能上来讲,系统的实现可分为源语分析和译文生成两部分,如图4所示。
源语分析部分对源语言的词法、形态、语义、语法依照语言学的知识分别进行深层次的分析,分析结果用内部表示形式表现出来[11]。这种内部表示形式通过译文生成部分转化为目标语中的合法语句,进一步生成所需要的译文。
由于英语中一个单词往往对应着多个汉语的多个译文,因此在小句分析、短语分析和词类标注的基础上,依照上下文进行分析,确定单词的译文。
规则库中的排序是依照优先级的原则进行的,这个优先级在规则匹配的过程中起着主导作用。普遍而言,规则越是具体证明该规则的优先级越高,规则越是抽象则代表该规则的优先级越低。因此,在同一个规则库下,结构更长、约束更多、更具体的规则将被放在前面。语言规则是具有层次性的,规则的层次性有利于解决规则的冲突。本文采用如图5所示的方法对译文进行转换和生成。
2 实验结果分析
2.1 开发技术及工具
本系统运用工具及平台设置如下:
操作系统为Windows 10,脚本语言为PHP,开发工具为Dreamweaver CS3,数据库为MySQL,数据库管理工具为Navicat for MySQL,软件集成环境为XAMPP。
2.2 评估指标
本文设置生成准确率和本文相似度两个指标对翻译结果进行验证。
生成准确率指在基于模式方法中,相似度超过门限从而能够进行译文输出语句占总输入译文的比例,即:
[ξp=NAN×100%] (1)
式中:[ξp]表示基于模式的生成准确率;[N]为输入译文总数;[NA]表示译文输出语句量。
GTM(General Text Matcher)是基于调和平均值的文本相似度方法,计算公式如下:
[GTM=2·Precision·RecallPrecall+Recall] (2)
[Preision=MMS/Lsys,Recall=MMS/Lres]
式中:MMS为最大匹配长度;GTM得分范围在0~1之间,分数越高越好。
2.3 实验结果分析
为了验证本文改进的生成系统在译文生成准确度方面具有优势,将传统方法与本文方法进行对比实验,具体的实验结果如图6所示。
根据图6分析能够看出,随着译文量的不断增加,传统方法的准确度围绕着50%上下波动,最低为48%,最高仅为60%;相比之下,本文方法的准确度从89%开始不断上升,当译文量达到400时,准确度为100%,并一直保持稳定。由此可以说明,在进行中英文翻译时,本文方法在译文生成时的准确度稳定,随着译文量的增加而不断提高,并且高于传统方法,具有一定的优越性。
进一步验证采用本文方法改进生成系统在译文相似度方面具有优越性,将本文方法与传统方法进行实验对比,实验结果见图7。
由图7分析可知,采用传统方法,当译文量在0~40之间,GTM从0提升到0.4,在译文量达到220时GTM仅达到0.8;相比之下,采用本文方法,译文量在0~20之间,GTM有大幅度的提升,从0提升到0.78,当译文量达到220时,GTM达到1。由此可以说明,相较于传统方法在进行中英文翻译时,本文方法在译文生成时的相似度更高,具有一定的优越性。
3 结 论
针对传统自动生成系统一直存在生成准确度低、相似度差的问题,提出并设计了基于双层分析的英汉机器翻译译文自动生成系统。实验结果表明,采用改进系统,其生成正确度较高,且译文与原文的相似度较高,具有一定优势。
参考文献
[1] 蒋向勇,邵娟萍.英汉借形缩略语生成的认知阐释[J].北京化工大学学报(社会科学版),2017(2):44?48.
JIANG Xiangyong, Shao Juanping. A cognitive exploration on the motivations of homographic abbreviations in English & Chinese [J]. Journal of Beijing University of Chemical Technology (Social sciences edition), 2017(2): 44?48.
[2] 范松.从商贸英汉翻译看译者主体性[J].昭通学院学报,2017,39(4):113?116.
FAN Song. An analysis of translator′s subjectivity in business and trade E?C translation [J]. Journal of Zhaotong University, 2017, 39(4): 113?116.
[3] 余碧燕.机器翻译中的歧异性研究现状综述[J].兰州文理学院学报(社会科学版),2017,33(5):106?111.
YU Biyan. Current studies on translation divergence in machine translation at home and abroad [J]. Journal of Lanzhou University of Arts and Science (Social sciences edition), 2017, 33(5): 106?111.
[4] 朱丽秋.英汉机器翻译中的短语自动识别算法[J].现代电子技术,2017,40(15):126?128.
ZHU Liqiu. Phrase automatic identification algorithm for English?Chinese machine translation [J]. Modern electronics technique, 2017, 40(15): 126?128.
[5] 仇蓓玲.术语生成原则视角下的文学术语翻译新范式[J].中国科技术语,2017,19(4):24?28.
QIU Beiling. A new paradigm for translation of literary terms under the principle of terminology processing [J]. China terminology, 2017, 19(4): 24?28.
[6] 李洪政,赵凯,胡韧奋,等.面向专利领域的汉英机器翻译融合系统[J].情报工程,2017,3(3):105?115.
LI Hongzheng, ZHAO Kai, HU Renfen, et al. A hybrid system for Chinese?English patent machine translation [J]. Technology intelligence engineering, 2017, 3(3): 105?115.
[7] 孔金英,李晓,王磊,等.调序规则表的深度过滤研究[J].计算机科学与探索,2017,11(5):785?793.
KONG Jinying, LI Xiao, WANG Lei, et al. Research of deep filtering lexical reordering table [J]. Journal of frontiers of computer science & technology, 2017, 11(5): 785?793.
[8] 姚亮,洪宇,刘昊,等.基于语义分布相似度的翻译模型领域自适应研究[J].山东大学学报(理学版),2016,51(7):43?50.
YAO Liang, HONG Yu, LIU Hao, et al. Translation model adaptation based on semantic distribution similarity [J]. Journal of Shandong University (Natural science), 2016, 51(7): 43?50.
[9] 蒋宗礼,王威.融合检索技术的译文推荐系统[J].哈尔滨工程大学学报,2017,38(3):419?424.
JIANG Zongli, WANG Wei. Translation recommendation system with information retrieval technology [J]. Journal of Harbin Engineering University, 2017, 38(3): 419?424.
[10] 高恩婷,段湘煜.英汉机器音译系统对比研究[J].北京大学学报(自然科学版),2017,53(2):287?294.
GAO Enting, DUAN Xiangyu. A comparative study on English?Chinese machine transliteration [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 287?294.
[11] 方芳.“翻译能力”为核心的应用型英语专业模块化探索[J].应用型高等教育研究,2017,2(1):58?62.
FANG Fang. The exploration of translation?ability?centered module course system for application?oriented English majors [J]. Application?oriented higher education research, 2017, 2(1): 58?62.