APP下载

基于Android和深度学习的彝汉翻译系统实现

2020-07-16田大雕阮心如王可豪

缔客世界 2020年1期
关键词:客户机语料库卷积

田大雕 阮心如 王可豪

(西南民族大学 四川 成都 610225)

引言

民族语言翻译工作是促进民族事业发展的重要内容之一,是促进民族地区经济、文化和社会建设尤其是国家安全的客观需要[1]。

Android平台作为现今最新、应用最为广泛的移动操作系统,因具有能支持强大的硬件配置和多种无线通信方式等优势功能,被运用于各种移动终端设备中[2]。本系统基于Android平台开发,同时,我们收集了近50000条彝语和汉语的对应的平行语料库,并结合Tensorflow框架构建神经网络作为训练框架来实现翻译功能。

1 系统构架

本翻译系统的总构架包块客户端设备、无线访问点、交换机以及服务器和数据库。用户端是用户可直观使用的设备,无线访问点和交换机用于数据通道的传输,服务器负责和客户机连接以及Tensorflow算法程序的封装,语料库负责存储和管理彝汉双语平行语料库。

在该结构系统中,客户端使用Android 4.0版本以上的设备,连接服务器的方式可以采用ADSL有线连接或WIFI无线连接的方式访问服务器。当用户在手机端输入需要翻译的文字后,发送HTTP请求给服务器进行翻译,服务器接受请求响应后,向语料库查询匹配语料数据,并将数据通过模型训练,以得到翻译的结果,最后服务器将翻译结果反馈给用户端,从而实现翻译的功能。

2 C/S结构介绍

由于在线翻译需要运行大量框架程序,内存空间需求大,所以本文在软件系统设计中采用C/S结构并将程序封装在服务器端[3]。客户机通过局域网与服务器相连,当接受到用户的请求数据后,会通过网络向服务器提出请求。当服务器接受到客户机的请求后,会调取语料库的数据,并进行模型训练得出结果,最后将翻译结果提交给客户机,客户机再将数据结果直接呈现给用户,这样便完成了翻译的全部流程。

使用这种结构可以提高系统的通信速度,并结合Android的操作机制,大大减轻了前端界面的操作压力;同时,这种结构还可以合理有效的分配客户机和服务器端的任务,充分利用系统硬件配置[3],从而减少了系统的通信开销[4]。

3 神经网络模型结构

3.1 深度可分离卷积神经网络

深度可分离卷积是引入深度可分离卷积的Inception,通常称之为“Xception”。它将传统卷积分解成一个深度卷积和一个1*1的卷积。

深度卷积通过在每个独立的输入通道上执行空间卷积,在比传统卷积减少参数数量的同时,也对每个通道进行了学习。通过采用1*1的窗口逐点卷,从而把深度卷积的输出映射到一个新的通道空间[5]。具体过程如图1所示:

3.2 LSTM神经网络

长短期记忆循环神经网络(LSTM)是一种循环神经网络(RNN)[6],内部有四个网络层。它能够学习利用以前的信息来对当前任务进行相应的操作。与传统的RNN网络相比,它是为了解决训练过程中的梯度消失和长依赖问题,因此提出了一种“记忆机制”,即对状态进行选择与处理。

LSTM网络结构可以分成输入门、输出门、遗忘门和输入输出神经网络这几个部分。而这种特殊的门结构可以选择让哪些信息通过,通过丢弃、添加、更新细胞状态等来达到使用目的[7]。其作用公式如下:

其中,i(t)表示输入门输出、o(t)代表输出门输出、f(t)表示遗忘门输出、c(t)表示细胞状态、h(t)表示t时刻隐藏层的输出数据、a表示激活函数。

4 实验过程及结果分析

4.1 神经网络处理结果

4.1.1 实验思路

神经机器翻译(NMT)是机器翻译的重要方向。由循环神经网络演化而来的神经网络机器翻译模型可以综合语言的语法、语义以及连贯性等方面进行机器翻译、语义提取、文本摘要等任务[7]。

彝语属于资源稀缺型的语言,其语料收集困难,地方种类繁杂,使得数据稀疏问题严重。本工作首先将彝语切分为词、音节、字符、字词4种不同的粒度。通过采用双向长短时记忆(LSTM)神经网络形成词语表示,将深度卷积神经网络应用于源语言,对不同的粒度序列进行卷机运算,使编码器完整地捕获源语言句子语义信息。

4.1.2 实验设置

本实验中训练的彝汉双语语料规模为5万句对。随机划分测试集和训练集,训练之前对语料进行了人工校对。实验分为汉语——彝语和彝语——汉语两个翻译方向。卷积神经网络CNN由五层编码器和九层解码器构成,batch_size的大小为128。深度可分离卷积翻译模型卷积核为3*3,每层核的宽度为3。实验使用双语互译评估(BLEU)值作为模型效果的指标。

4.1.3 结果展示

本模型得到的BLEU值在20%左右,效果较好。汉彝的翻译效果较彝汉好,平均高出0.805个百分点。其原因可能是汉语组词复杂,训练过程中涉及到的词数量有限,造成BLEU值偏低。此外,实验中子词粒度的效果最优,这是因为子词粒度可以由低频词切分成高频词片段,缓解数据稀疏的问题。而字符粒度的BLEU较低的原因是彝语切分为字符后,虽然缓解了数据稀疏问题,但是增加了句子长度,使得长距离依赖学习的更加困难[8]。

4.2 Android端翻译测试

本文根据已经构建好的Android端软件和服务器端,进行翻译测试实验。在界面中通过输入文本(用户可以根据需要选择翻译类型),然后数据将传输到服务器端,并使用LSTM算法返回翻译结果。结果在翻译界面中可以实时查看。

在软件上对中文和彝文进行几次翻译后,就可以实现从中文到彝文,从彝文到中文的双向翻译,本文通过给能够识别彝汉双语的人识别,结果显示许多测试翻译结果大致一样。但是由于系统和模型的内在缺陷存在,本系统的准确性和文学性与陈述的实际条目和含义之间存在一定偏差,但不会影响整体阅读。

综上所述,经反复测试,采用深度可分离网络、LSTM等算法的翻译结果测试集准确度达到86%,并且系统在Android方面也显示了翻译的完整性和可行性。

5 结语

本文中设计的翻译系统,可以实现彝语和汉语之间的互译功能。在技术上,主要基于Android平台开发、数据库开发和当前流行的机器翻译框架,并利用Flask框架搭建了数据交互的桥梁;从翻译的结果来看,该系统有较准确的翻译结果。

此外,本项目在后期开发时,可以根据现有框架,并结合各种语言的特有语法结构进行分析,优化翻译模型;以便加入更多的民族语言,比如藏语、维吾尔语、回文等;当系统达到一定规模后,这将在促进民族地区交流沟通的同时,还可以极大的保护我国少数民族语言的多样性。

猜你喜欢

客户机语料库卷积
基于语料库的清末民初日源外来词汉化研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
《语料库翻译文体学》评介
从滤波器理解卷积
隔山亦能打牛,本本巧变远控利器
基于傅里叶域卷积表示的目标跟踪算法
语篇元功能的语料库支撑范式介入
升腾瘦客户机借神码翱翔“云端”
基于Web数据提高访问速度的方法