基于机器辅助的高校英语专有名词自动翻译研究*
2022-11-28赵元
赵元
(陕西中医药大学外语学院,陕西 咸阳 712046)
1 引言
互联网技术的迅速普及,为机器翻译提供了发展平台,实时为用户提供在线翻译,可操作性和实用性较强。因此,研究机器辅助自动翻译方法,相互转换输入语言,为用户提供满意的翻译结果。现阶段,国外研究机器翻译起步较早,英美率先提出利用计算机进行翻译的想法,伴随近代计算机技术的进步,人们对机器翻译本身的应用背景、目标等有了更加准确的认识。国内机器翻译的研究从50年代开始,多家大学和研究机构先后开发出俄汉、英汉、汉英、日汉、汉日等机器翻译系统。文献[1]采用DFMapper 作为机器辅助翻译工作,利用SQL 解析器和语义概念树,将其转换为正确的HiveQL 语句,但该方法认为所有短语的语义匹配概率相等,导致数据召回率较低。文献[2]采用知识数据库管理思想,构建由校正单元、翻译单元、管理单元、收发单元组成的系统架框,辅助英语翻译,但该方法对单元功能性分析不全面,导致翻译准确率较低。文献[3]分析翻译内容的语义本体结构,构建句子、短语、单词的智能翻译语料库实现翻译智能化,但该方法筛选的语义信息匹配程度不高,数据召回率同样较低。针对以上问题,设计基于机器辅助的高校英语专有名词自动翻译方法,匹配用户输入名词和语料库检索名词语义,优化英语名词翻译的召回率和准确率。
2 机器辅助的高校英语专有名词自动翻译方法
2.1 英语平行语料库构建
构建大数量、高质量的英语平行语料库,为机器辅助提供大量语料。将多种格式的文件,都转化为doc 格式。将英语专有名词作为文本向量包含的特征项,令名词的相对词频表示向量分量。计算文本向量中特征项的权重,第i个专有名词的逆文献频率hi计算公式为:
其中mi为含有名词的文本数目,M为文本总数。名词i在文本j中的初始频率ki,j计算公式为:
其中li,j为名词i在文本j中的标准化频率,max(li,j)为i在j中出现的所有次数。名词i在文本j中的权重wi,j计算公式为:
将权重最大的名词作为特征串,得到名词之间的语义相似度。将名词序列看作一个字符串,统计两个字符串的公共子串个数。计算名词i语法相似度Ki,公式为:
其中a为公共子串个数,bi、ci分别为任意两个文本中名词序列的名词个数[4]。提取对齐名词,导入名词至数据库,完成英语平行语料库的构建。
2.2 构建英语专有名词语义模型
构建语义模型,匹配语义关联的用户输入名词、语料库中的检索名词。通过语义分割,实现语料库检索名词的内部关联[5]。
将专有名词作为词向量,把名词总数作为词向量维度,按顺序编入名词至词向量中,使名词对应词向量的维度值为1,其余维度为0[6]。设用户输入的名词序列为R,机器翻译在语料库中检索的名词序列为L,R和L的关联系数O(R,L)计算公式为:
其中m、n分别为R序列和L序列对应的词向量,Hmax为序列中对应词向量的余弦相似度最大值,d为放大系数,设置系数的限值范围为[-1,1],用于词向量间余弦相似度的调整[7]。引入字符匹配算子,计算R和L映射后的名词语义关联程度,公式为:
其中D(R,L)为输入名词序列和检索名词序列的编辑距离,u1、u2分别为关联系数和编辑距离的相对权重,r为词向量序列的字符匹配算子。通过公式(6),进一步筛选与用户输入名词关联程度高的词向量。根据筛选后的所有语料库检索名词集合z,获得用户输入名词的相关性参数集合B(R),表达式为:
其中Sz为集合z的评价集,G(M)为评价集实数M的整算子,ez为集合z的语义分布,U为评价集包含元素个数提取B(R)的二元语义信息,立二元语义相关的概念树,完成英语专有名词语义模型的构建。
2.3 选取语义最优匹配译文组合
优化英语专有名词翻译算法,组合用户输入名词、语料库检索名词相匹配的语义特征,输出英语专有名词译文。建立名词语义匹配的评价体系。计算第x个组合的距离相对贴近度Cx,公式为:
其中Ix为组合x二元语义信息的符号转移值,maxSx为组合x二元语义信息的最大关联程度。译文组合x的语义相对贴近度Zx计算公式为:
其中W为语义模型对名词语义匹配的决策函数,f1、f2分别为组合中输入名词和检索名词的字符串长度。在此基础上,获得辅助名词和检索名词的概念集。译文组合调整的翻译规则函数Q,计算公式为:
其中E(L)、E(T)分别为检索名词、辅助名词交互信息的交互系数,g为交互特征的语义关联程度。为贴近度和翻译规则函数分配评价权系数,计算名词语义匹配的最终评价值N为:
3 实验论证分析
将此次设计方法,与基于微处理器的英语名词自动翻译方法、基于规则和统计的英语名词自动翻译方法,进行对比实验,比较英语专有名词自动翻译的准确性。
3.1 实验准备
实验数据为25000对汉英专有名词,其中英语专有名词平均长度为5.12个词,英语专有名词平均长度为5.01个词,语料来自LDCt。将英语专有名词文件上传服务器,审核文件通过后,标记目标文件,设置专有名词的取词频率为14KHz,名词最大长度为900Bit,英语语义和汉语语义的概念集,分别设定为250 个样本和270 个样本,作为三种方法的自动翻译文本。
3.2 实验结果
3.2.1 数据召回率实验对比结果
设置名词语义特征维度为100,改变英语专有名词的词汇包大小,比较三种方法的数据召回率,实验对比结果如下图所示。
由上图可知,英语翻译的数据召回率,整体随词汇包大小的增加而增加。设计方法数据召回率分别提高了4.4%和6.8%。将专有名词语义特征维度作为测试条件,设置词汇包大小为400Gibt,统计不同特征维度下的召回率,实验对比结果如下图所示。
由上图可知,数据召回率随语义特征维度的增加,整体呈先增加后减小的变化。设计方法数据召回率分别提高了7.0%和8.5%,提高了英语专有名词翻译的准确性。
3.2.2 翻译准确率实验对比结果
比较三种方法英语专有名词翻译的准确率,不同词汇包大小下的实验对比结果如下图所示。
由上图可知,词汇包大于300Gibt 时,设计方法翻译准确率增长速率迅速提升,准确率与另两种方法相差较大。设计方法翻译准确率分别提高了0.9%和2.2%。不同语义特征维度下的翻译准确率实验结果如4图所示。
由图4可知,专有名词语义特征维度增加时,三种方法翻译准确率也随之增加,但上升幅度不大。设计方法翻译准确率分别提高了1.4%和3.5%。
3.2.3 F值实验对比结果
在前两组实验的基础上,比较三种方法英语翻译的F值,F值表示召回率与准确率的调和均值,F值计算公式为:
其中r、s分别表示召回率和准确率。不同词汇包大小下的实验对比结果如下图所示。
由上图可知,专有名词F值随词汇包大小的增加而增加,匹配率增加的上升速率趋于缓慢。针对不同词汇包大小,设计方法F值分别提高了3.5%和6.4%。
4 结束语
此次研究设计了一种英语专有名词自动翻译方法,充分发挥了机器辅助技术优势,提高了英语专有名词翻译的准确性。但此次研究仍存在一定不足,在今后的研究中,会对英语专有名词文件进行内部解析工作,完善文件解析的核心应用组件,支持多种格式文本的翻译工作,提高机器辅助翻译的兼容性。