基于机器辅助的高校英语专有名词自动翻译研究＊

2022-11-28赵元

自动化技术与应用 2022年10期

赵元

（陕西中医药大学外语学院，陕西咸阳 712046）

1 引言

互联网技术的迅速普及，为机器翻译提供了发展平台，实时为用户提供在线翻译，可操作性和实用性较强。因此，研究机器辅助自动翻译方法，相互转换输入语言，为用户提供满意的翻译结果。现阶段，国外研究机器翻译起步较早，英美率先提出利用计算机进行翻译的想法，伴随近代计算机技术的进步，人们对机器翻译本身的应用背景、目标等有了更加准确的认识。国内机器翻译的研究从50年代开始，多家大学和研究机构先后开发出俄汉、英汉、汉英、日汉、汉日等机器翻译系统。文献[1]采用DFMapper 作为机器辅助翻译工作，利用SQL 解析器和语义概念树，将其转换为正确的HiveQL 语句，但该方法认为所有短语的语义匹配概率相等，导致数据召回率较低。文献[2]采用知识数据库管理思想，构建由校正单元、翻译单元、管理单元、收发单元组成的系统架框，辅助英语翻译，但该方法对单元功能性分析不全面，导致翻译准确率较低。文献[3]分析翻译内容的语义本体结构，构建句子、短语、单词的智能翻译语料库实现翻译智能化，但该方法筛选的语义信息匹配程度不高，数据召回率同样较低。针对以上问题，设计基于机器辅助的高校英语专有名词自动翻译方法，匹配用户输入名词和语料库检索名词语义，优化英语名词翻译的召回率和准确率。

2 机器辅助的高校英语专有名词自动翻译方法

2.1 英语平行语料库构建

构建大数量、高质量的英语平行语料库，为机器辅助提供大量语料。将多种格式的文件，都转化为doc 格式。将英语专有名词作为文本向量包含的特征项，令名词的相对词频表示向量分量。计算文本向量中特征项的权重，第i个专有名词的逆文献频率hi计算公式为：

其中mi为含有名词的文本数目，M为文本总数。名词i在文本j中的初始频率ki，j计算公式为：

其中li，j为名词i在文本j中的标准化频率，max(li，j)为i在j中出现的所有次数。名词i在文本j中的权重wi，j计算公式为：

将权重最大的名词作为特征串，得到名词之间的语义相似度。将名词序列看作一个字符串，统计两个字符串的公共子串个数。计算名词i语法相似度Ki，公式为：

其中a为公共子串个数，bi、ci分别为任意两个文本中名词序列的名词个数[4]。提取对齐名词，导入名词至数据库，完成英语平行语料库的构建。

2.2 构建英语专有名词语义模型

构建语义模型，匹配语义关联的用户输入名词、语料库中的检索名词。通过语义分割，实现语料库检索名词的内部关联[5]。

将专有名词作为词向量，把名词总数作为词向量维度，按顺序编入名词至词向量中，使名词对应词向量的维度值为1，其余维度为0[6]。设用户输入的名词序列为R，机器翻译在语料库中检索的名词序列为L，R和L的关联系数O(R，L)计算公式为：

其中m、n分别为R序列和L序列对应的词向量，Hmax为序列中对应词向量的余弦相似度最大值，d为放大系数，设置系数的限值范围为[-1，1]，用于词向量间余弦相似度的调整[7]。引入字符匹配算子，计算R和L映射后的名词语义关联程度，公式为：

其中D(R，L)为输入名词序列和检索名词序列的编辑距离，u1、u2分别为关联系数和编辑距离的相对权重，r为词向量序列的字符匹配算子。通过公式(6)，进一步筛选与用户输入名词关联程度高的词向量。根据筛选后的所有语料库检索名词集合z，获得用户输入名词的相关性参数集合B(R)，表达式为：

其中Sz为集合z的评价集，G(M)为评价集实数M的整算子，ez为集合z的语义分布，U为评价集包含元素个数提取B(R)的二元语义信息，立二元语义相关的概念树，完成英语专有名词语义模型的构建。

2.3 选取语义最优匹配译文组合

优化英语专有名词翻译算法，组合用户输入名词、语料库检索名词相匹配的语义特征，输出英语专有名词译文。建立名词语义匹配的评价体系。计算第x个组合的距离相对贴近度Cx，公式为：

其中Ix为组合x二元语义信息的符号转移值，maxSx为组合x二元语义信息的最大关联程度。译文组合x的语义相对贴近度Zx计算公式为：

其中W为语义模型对名词语义匹配的决策函数，f1、f2分别为组合中输入名词和检索名词的字符串长度。在此基础上，获得辅助名词和检索名词的概念集。译文组合调整的翻译规则函数Q，计算公式为：

其中E(L)、E(T)分别为检索名词、辅助名词交互信息的交互系数，g为交互特征的语义关联程度。为贴近度和翻译规则函数分配评价权系数，计算名词语义匹配的最终评价值N为：

3 实验论证分析

将此次设计方法，与基于微处理器的英语名词自动翻译方法、基于规则和统计的英语名词自动翻译方法，进行对比实验，比较英语专有名词自动翻译的准确性。

3.1 实验准备

实验数据为25000对汉英专有名词，其中英语专有名词平均长度为5．12个词，英语专有名词平均长度为5．01个词，语料来自LDCt。将英语专有名词文件上传服务器，审核文件通过后，标记目标文件，设置专有名词的取词频率为14KHz，名词最大长度为900Bit，英语语义和汉语语义的概念集，分别设定为250 个样本和270 个样本，作为三种方法的自动翻译文本。