APP下载

人物简历汉维机器翻译系统的设计与实现

2018-12-14王路路斯拉吉艾合麦提·如则麦麦提艾山·吾买尔吐尔根·依布拉音买合木提·买买提卡哈尔江·阿比的热西提

现代电子技术 2018年24期

王路路 斯拉吉艾合麦提·如则麦麦提 艾山·吾买尔 吐尔根·依布拉音 买合木提·买买提 卡哈尔江·阿比的热西提

关键词: 人物简历; 汉维机器翻译; 模板库; 命名实体; 正则表达式; 句子结构

中图分类号: TN912.3?34; TP391                 文献标识码: A                  文章编号: 1004?373X(2018)24?0101?05

Design and implementation of Chinese?Uyghur machine translation

system for personage resumes

WANG Lulu1,2, Silajiaihemaiti Ruzemaimaiti1,2, Aishan Wumaier1,2, Tuergen Yibulayin1,2,

Maihemuti Maimaiti1,2, Kahaerjiang Abiderexiti1,2

(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;

2. Xinjiang Laboratory of Multi?Language Information Technology, Urumqi 830046, China)

Abstract: A Chinese?Uyghur machine translation system based on the combination of templates and dictionaries is designed and implemented for personage resumes to resolve the problems of high cost and low efficiency of translating the Chinese personage resume into the Uyghur version. The named entities are generalized, and the Chinese resume templates are automatically created by analyzing the sentence structure characteristics of Chinese resumes. A Chinese?Uyghur template library is established by using regular expressions. The named entities are translated by combining with the method based on rules and dictionaries, so as to obtain the Uyghur personage resumes. The experimental results show that the system uses limited templates and dictionaries in the monolingual situation, its BLUE value can reach 0.38, and in comparison with the machine translation systems that require large?scale bilingual corpora training, the system has a better practical application value.

Keywords: personage resume; Chinese?Uyghur machine translation; template library; named entity; regular expression; sentence structure

0  引  言

新疆是多民族人民聚居区域,使用的语言主要有汉语、维吾尔语和哈萨克语等。其中维吾尔语和哈萨克语属于黏着语,与汉语属于不同语系。互联网上的各界人物简历频频出现,林娜等分析研究了简历受限汉语使用机器翻译的重要性,而维吾尔语版本的人物简历不能实时地翻译,如果人工翻译,将会造成成本高、效率低,所以研究人物简历的汉维机器翻译具有重大的研究意义[1]。机器翻译是指使用机器自动地将一种自然语言转化为具有完全相同语义的另一种自然语言的过程[2]。机器翻译可以分为基于规则的机器翻译[3]和基于语料库的机器翻译,其中基于语料库的机器翻译分为基于记忆的机器翻译[4]、基于实例的机器翻译[5?6],基于模板的机器翻译[7?8]、基于统计的机器翻译[9?10]和基于神经网络的机器翻译[11?13]等方法。国内外对机器翻译研究从未止步,机器翻译在汉语、英语、法语等语料资源庞大的语种上的研究颇多;但是,在维吾尔语等语料资源匮乏的语种中研究仍然相对较少,还没出现有关汉语?维吾尔语的人物简历翻译系统的研究报道。本文针对人物简历的汉维机器翻译问题,以体坛人物的简历为研究对象,提出了基于词典与模板相结合的方法实现了人物简历汉维机器翻译系统。首先采集并分析中文的简历信息,并对命名实体进行统计;然后构建汉维时间表达式规则库和模板库,采用基于模板的方法实现人物简历的机器翻译。

1  人物简历汉维翻译系统的设计与实现

1.1  系统开发与运行环境

本文使用3.2 GHz的CPU,10 GB的运行内存的硬件环境;软件环境主要是Windows 10操作系统以及其自带的IIS服务器、SQL Server 2014数据库管理系统,并使用实体框架(Entity Framework,EF)的相关技术进行开发,其中EF是一个对象/关系映射框架,支持3种开发模式,分别是数据库优先、模型优先、代码优先。

1.2  系统的功能结构

人物简历汉维机器翻译系统的功能结构分为数据采集与分析模块、数据管理模块、翻译模块三大模块。数据采集与分析模块主要包含爬虫、分词、抽取命名实体、统计等功能;数据管理模块包含后台用户管理、词典管理、词汇统计、系统日志管理等功能;翻译模块包括基于模板的翻译和基于词典的翻译等功能。系统功能结构如图1所示。

1.2.1  数据采集与分析模块

数据采集与分析主要包括爬虫、解析及抽取、中文分词、命名实体识别、构建汉维双语命名实体词典。本文从百度百科中爬虫获取体坛明星的简历信息网页,采用正则表达式解析匹配HTML标签,抽取体坛任务的姓名、基本情况、重要经历;并使用可加入自定义词典的开源工具jieba分词进行中文分词。

简历存在诸多的命名实体,而这些命名实体部分可能是机器翻译的未登录词,如果直接通过机器自动翻译成维语,在词法、句法结构等层面上存在诸多的不利因素,很难实现高质量的汉维机器翻译。若解决上述问题,首先建立特定领域(人物简历)中各种命名实体的词典,然后建立命名实体汉维双语语料库。

为了构建汉维双语命名实体双语语料库,本文首先采用玻森中文语义开放平台(BosonNLP) 以及哈工大的语言技术平台(LTP)分别针对人名、地名、组织机构名(例如:运动队)、职业名(例如:职业篮球运动员)等实体进行识别并收集。

1.2.2  数据管理模块

数据管理模块主要包含用户管理、词典管理、词汇统计、日志与反馈。其中词典管理中包括待翻译词的词典管理和已翻译词的词典管理;词汇统计主要是针对命名实体中人名、机构名、地名等数据进行统计并以饼状图进行显示;日志与反馈主要针对系统的日志文件和用户反馈意见进行管理。

1.2.3  翻译模块

1) 简历分析

本文通过对体坛人物基本简历的分析研究,发现简历信息中主要包含个人的基本信息和其运动生涯经历两个部分。其中个人基本信息主要包括:姓名、性别、出生日期、出生地、职业、工作单位等基本信息;运动生涯经历主要是何年获得了何种奖项或者何年入选/加盟哪个运动队。这些信息是相互独立的并不需要通过与上下文的语义结构和语境结合来进行翻译。

通过对简历的词按照词性进行词频统计,发现名词出现频率最高,主要包括:人名、地名和职业名等。除此之外,时间性词语与动词也有较高的出现几率,如:xxx年xx月xx日;参加、入选、夺得、加盟等。因此本文通过结合领域知识和规则模板,建立了人物简历模板和时间日期模板,通过模板匹配方法实现体坛人物简历的汉维机器翻译。

2) 时间日期的抽取研究

简历信息中往往包含大量的时间日期信息,如何实现对时间日期的正确翻译具有重要研究意义。通过对人物简历进行分析,发现规范的任务简历文本中通常采用绝对时间日期,如“2017年1月15日,获得2016年CCTV体坛风云人物最佳女运动员”。因此,本文采用正则表达式创建汉语?维吾尔语时间表达式,从而构建汉维时间表达式规则库,汉维时间表达式的实例规则见表1。

时间表达式的识别与翻译流程如图2所示。

3) 简历模板的抽取及翻译研究

所谓的模板可以认为是一种颗粒度介于“翻译规则”和“翻译实例”之间的翻译知识表示形式,基于模板的方法实际上是基于实例翻译方法的延伸。模板是由变量和常量组成的字符串,两种语言的翻译模板中变量存在意义上的对应关系。如简历中专有名词如人名(RM)、地名(DM)、机构名(JGM)、职业名(ZHY)、赛事名(SSH)等可以视作變量。因此本文首先泛化(符号化)专有名词,自动获取句子模板;然后针对符号化后的字符串进行相似性对比处理,建立适用于简历翻译的汉维模板库。

具有规则性的汉维模板库如表2所示。

首先对待翻译的简历文本进行预处理,即分句、分词,采用上文的符号化方法将文本进行泛化,然后对泛化后的字符串进行模板匹配。判断模板是否匹配成功,如果成功匹配,直接返回翻译结果,否则按词典来翻译。其中模板匹配使用长度优先匹配算法,即模板长度决定匹配优先级的高低。翻译流程如图3所示。

2  系统数据库设计

系统主要包括用户、词典、待翻译词典、日志、反馈与意见5个表。其中词典表主要保存已翻译的命名实体或者其他专有名词,待翻译词典表主要保存使用者翻译和查询的过程中系统中没有翻译或者查询不到的专有名词,如表3、表4所示。

3  实验结果与分析

本文构建人物简历中使用于主要经历的模板102对,时间日期模板15对,然后按照不同运动项目类型总计随机抽取了50个运动员的简历作为测试集,总计是968条句子,每个测试句子仅有一个参考译文。为评价人物简历的翻译性能,本文以BLUE值作为评测指标。实验结果如表5所示。

由表5可看出,本文的方法BLUE达到0.386 4,说明该系统在中文单语以及没有训练集的情况下,相比于民族语文翻译局翻译系统训练语料规模在百万级以上具有一定的可比性。为了充分分析系统的可靠性,本文进一步对翻译结果进行分析,在句子与模板匹配时可以对其进行准确翻译;然而如果模板库中不存在与句子匹配的模板,则会丢失部分翻译结果。例如:

待翻译文本:1957年11月出生于岳普湖县维吾尔族传统摔跤继承人

泛化结果:TIME 出生于 DM MZ 传统摔跤继承人

机器翻译结果:1957?yili 11?ayda tughulghan uyghur 传统摔跤继承人

正确翻译结果:1957?yili 11?ayda tughulghan uyghur eneniwiy chilishish warisi

由上可知,错误原因是模板庫中未存在泛化后的模板,导致无法匹配模板,只能通过词典翻译部分内容,从而使得翻译结果不完整甚至错误。

4  结  语

本文研究体坛领域的人物简历汉维机器翻译问题,采用一种基于模板与词典的机器翻译方法,建立命名实体翻译等价对,构建翻译模板库,最终实现人物简历的汉维机器翻译系统。由于模板库存在局限性、维吾尔语语料规模较小以及维吾尔语的黏着性等特征,翻译结果尚存在不足,在未来的工作中,会对进一步的研究工作继续改进。

注:本文通讯作者为艾山·吾买尔。

参考文献

[1] 林娜,唐跃勤,黎斌.谈受限汉语在机器翻译中的运用:以中文简历英译为例[J].西南交通大学学报(社会科学版),2012,13(5):49?53.

LIN N, TANG Yueqin, LI Bin. Machine translation and restricted Chinese: a case study of translating Chinese resume into English [J]. Journal of Southwest Jiaotong University (Social sciences), 2012, 13(5): 49?53.

[2] 菲利普·科恩.统计机器翻译[M].宗成庆,张霄军,译.北京:电子工业出版社,2012.

KOEHN P. Statistical machine translation [M]. ZONG Chengqing, ZHANG Xiaojun, translation. Beijing: Publishing House of Electronics Industry, 2012.

[3] 如克燕木·吾斯曼江,买热哈巴·艾力,吐尔根·依布拉音.基于规则的维吾尔语、哈萨克语机器翻译[J].新疆大学学报(自然科学版),2016,33(3):338?342.

Rukeyanmu Wusimanjiang, Maierhaba Aili, Tuergen Yibulayin. The rule?based Uygur Kazak machine translation [J]. Journal of Xinjiang University (Natural science edition), 2016, 33(3): 338?342.

[4] 解倩倩,艾山·吾买尔,吐尔根·依布拉音,等.混合策略的汉维辅助翻译系统的设计与实现[J].现代电子技术,2017,40(20):5?9.

XIE Qianaian, Aishan Wumaier, Tuergen Yibulayin, et al. Design and implementation of Chinese and Uyghur computer?aided translation system based on hybrid strategy [J]. Modern electronics technique, 2017, 40(20): 5?9.

[5] ZHOU M, HUANG J X, HUANG C N, et al. Example based machine translation system: 7353165 [P]. 2008?04?01.

[6] 卡哈尔江·阿比的热西提.基于实例的汉维?维汉双向机器翻译系统的研究[D].上海:上海交通大学,2012.

Kahaerjiang Abiderexiti. Research on an example?based Chinese?Uyghur and Uyghur?Chinese bidirectional machine translation system [D]. Shanghai: Shanghai Jiao Tong University, 2012.

[7] 张冬梅,刘小蝶,晋耀红.基于模板的汉英专利机器翻译研究[J].计算机应用研究,2013,30(7):2044?2046.

ZHANG Dongmei, LIU Xiaodie, JIN Yaohong. Chinese?English patent machine translation based on templates [J]. Application research of computers, 2013, 30(7): 2044?2046.

[8] 史建国.基于模板的斯拉夫蒙古文—汉文机器翻译系统的研究与实现[D].呼和浩特:内蒙古大学,2013.

SHI Jianguo. Research and implementation of Slavic Mongolian?Chinese machine translation system based on template [D]. Hohhot: Inner Mongolia University, 2013.

[9] 徐春,杨勇,董兴华.汉维/维汉统计机器翻译中若干问题研究[J].计算机工程与应用,2011,47(35):150?154.

XU Chun, YANG Yong, DONG Xinghua. Research on aspects of statistical machine translation between Chinese and Uyghur [J]. Computer engineering and applications, 2011, 47(35): 150?154.

[10] BROWN P F, COCKE J, PIETRA S A D, et al. A statistical approach to machine translation [J]. Computational linguistics, 2002, 16(2): 79?85.

[11] CHO K, MERRI?NBOER B V, GULCEHRE C, et al. Learning phrase representations using RNN encoder?decoder for statistical machine translation [J/OL]. [2014?09?03]. https://arxiv.org/pdf/1406.1078.pdf.

[12] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [J/OL]. [2014?12?14]. https://arxiv.org/pdf/1409.3215.pdf.

[13] WU Y, SCHUSTER M, CHEN Z, et al. Google′s neural machine translation system: bridging the gap between human and machine translation [J/OL]. [2016?10?08]. https://arxiv.org/pdf/1609.08144.pdf.