基于随机森林的翻译文本误译语句自动识别方法＊

2022-06-09樊迪

自动化技术与应用 2022年5期

樊迪

（西安理工大学，陕西西安 710048）

1 引言

翻译文本的文化属性是文化翻译学的重要组成部分。从文化翻译的角度看，翻译的最高境界就是文化因素的翻译，尽管翻译是一种文化移植，但译文的文化属性并不是源文化所独有的。译文中包含了大量目的语言文化元素，但由于译入语读者对译语文化习以为常，在翻译过程中往往会因为不了解译语文化发生误译语句，所以导致语句理解错误的现象。因此，有必要对翻译文本误译语句进行自动识别，有助于加深对翻译本质的认识，从而促进一般翻译学相关问题的研究。

陈国等人研究用户短文本无关语自动识别方法，通过利用二阶隐马尔可夫模型自动识别用户短文本中无关词的方法。可以避免人工编写训练文本规则的限制[1]；梁慧提出嵌入式英语语音识别系统误差自动检测方法，所设计系统发音误差自动检测准确性较好，对语音信号的分辨能力较好[2]。

上述两种方法未充分进行误译情况下语句识别训练，无法有效快速实现误译语句的识别。为此，本文通过计算基尼指数，以最小基尼指数作为特征选择的准则，建立检测模型用随机森林对测试样本进行预测。将二维信息熵理论引入到翻译文本误译语句识别过程中，识别出误译语句分布的全局综合特征，并设定了误译语句识别阈值，从而完成了基于随机森林的翻译文本误译语句自动识别。

2 随机森林下翻译文本误译语句自动识别研究

随机森林是一种基于Bagging的机器学习模型，作为以决策树算法的集成学习模型，并且在许多领域有着良好的应用，可以达到较高的预测精度。

2.1 CART决策树属性集成

决策树(Decisiontree，DT)是一种集成算法，它是以已知各种情况发生的概率为基础，通过形成决策树，得出净现值期望值大于或等于零的概率，对项目风险进行评估，并判断其可行性的一种决策分析方法。这是一种直观地使用概率分析的图解方法。因为这个决策分支被绘制成一个图，它与树的分支非常相似，所以被称为决策树。在机器学习中，决策树是一种预测模型，它表示对象属性和对象值之间的映射关系[3]。这个过程不仅仅是划分比赛场地，还包括决策树的构建。CART(Classification and regression tree，分类与回归树)的生成是一个递归构造二叉决策树的过程，根据基尼指数最小化准则选择最优函数，并确定该函数的最优二元分割点。

设定存在K类，样本点属于k类的概率为Pk，那么基尼指数定义如下所示：

CART决策树的生成通过计算基尼指数，以最小基尼指数作为特征选择的准则[4]。从根节点开始递归生成决策树，并将训练集划分为分类基本正确的子集。

2.2 随机森林算法检测框架

在记录中包含m个样本的数据集，随机选择一个样本并放置样本集内，将样本放回原始记录中，以确保下一个样本被选中后即可。m次随机抽样可以得到一个包含m个样本的样本集。然后，对包含m个训练样本的T样本集进行抽样，根据每个样本集训练一个基本学习者，然后将其进行组合[5]。

在随机森林的基础上，将随机属性引入决策树训练中，具体内容如图1所示。

图1 检测模型框架

2.3 数据预处理

在翻译文本中很容易出现一些误译语句，若没有及时发现，会影响最终的识别结果。因此，为了达到更好的建模效果，需要对翻译文本误译语句实施预处理操作。采用拉格朗日插值法对缺失值进行插值[6]，其表达式为：

在公式(2)中，li(x)表示误译语句，yi表示正确语句，Hdf表示插值结果。

由于翻译文本中不同的评价指标具有不同的维度，会影响分析和建模结果。为了消除影响，利用标准差对文本进行归一化处理，并对原始语句进行线性变换，使之映射到[0，1]之间的值。

在公式(3)中，max 用来描述翻译文本数据最大值，min用来描述翻译文本数据最小值，max-min 用来描述翻译文本数据的极差。

2.4 特征提取

2.4.1 文本层静态统计特征

增加非字母数字字符的比例和基于特征码的匹配结果[7]。字符运算转换后，非字母数字字符的比例一般大于普通页面。提取最长的连续字符串记录长度，通常小于150。

文本重合指数IC的表达式为：

在公式(4)中，fi代表字符对应的重合值，n代表全部字符数量，为字符i出现的频数。

信息熵的运算公式如下：

在公式(5)中，χ代表文本内的全部字符，p(x)代表字符x的概率函数。

未压缩文本的大小与压缩文件大小的比率，代码混淆后的文件压缩比大于普通文件。经过字符转换和加密模糊处理后，非字母数字字符与特殊字符总数和文本字符总数之比大于普通文件。样本匹配签名文本中的规则标记为1，否则标记为0。

2.4.2 利用N元语言模型进行特征提取

数据传输和执行传输中目前还没有一个完善的方法来定位数据传输的步骤，采用一元语法模型(1-gram)在代码文本层对样本进行分段，并将连续字符串和以左括号结尾的字符串常量作为一个短语，并统计每个短语在样本中出现的次数，得到了基于函数和字符串常数的文本层词频矩阵作为特征向量[8-9]。

特征选择是机器学习和模式识别领域的热点之一。Fisher 线性判别法是基于距离测量的滤波特征选择方法之一，具有计算量小、精度高、可操作性好、计算时间短等优点。

通过Fisher线性判别算法进行特征选择和特征降维，其中心思想是寻找一个合适的投影轴，使样本在该轴上投影时，同一类的投影点应尽可能靠近，不同类型的投影点应尽量远离，即：类内离差尽可能小，类间离差尽可能大，目标函数表示如下：

在公式(6)中，w代表投影方向，Sb代表类间散布矩阵，Sw代表类内散布矩阵，当J的数值越大，w的判别能力越强。Fisher 特征选择以特征为投影轴，计算特征方向的判别值，并根据其判别值从大到小对每个特征进行排序。判别值越大，特征分类的有效性越高，本文将提取的特征按Fisher 判别值由大到小排序，并按适当的比例选取重要特征，形成新的特征集，供以后的模型训练使用。

特征提取后的输入矩阵和输出矩阵作为样本进行训练[10]。随机森林是一种集成学习设备，具有分析复杂交互特性的能力，对翻译文本误译语句能够快速地进行识别。

2.5 基于阈值的误译语句自动识别

在翻译文本误译语句的自动识别过程中，首先利用二维信息熵理论定义编辑距离除以两个字符串的平均长度，识别不同类型的误译语句，有效区分相似度高的差异特征，并在不同特征之间生成最大的识别结构，从而为翻译文本误译语句的自动识别奠定了基础[11]。通过上述获得的翻译文本误译语句内容识别分数后，确定误译语句的空间属性特征量，并对每个差异标记的二维信息熵进行优化，以确定差异函数的识别阈值，下面描述各个步骤。

根据上述步骤，完成了对翻译文本误译语句的自动识别。

3 实验结果分析

在Windows7环境下搭建了误译语句识别仿真平台。实验机配置为CPU 英特尔酷睿i5 250．GHz，内存为4GB，使用Java实现。

在3000 个中文树数据库上进行了实验，验证了该方法的有效性，对数据库中的每个句子都用语法成分手工标记。首先对句子及其注释进行处理，根据需要提取特征。然后，将3000 个句子分成两个语料集，其中2000 个句子作为训练集计算参数，1000个句子作为测试集。

将用户短文本无关语自动识别方法、嵌入式英语语音识别系统误差自动检测方法与本文方法进行比较分析，三种方法检测效果如表1所示。

表1 不同方法检测效果

通过表1比得出嵌入式英语语音识别系统误差自动检测方法检测效果优于用户短文本无关语自动识别方法检测效果，本文方法在准确率、召回率和虚警率方面均优于上述两种检测模型，检测时间小于0．2 秒，表明基于Fisher 特征选择和随机森林的检测模型对未知样本具有较好的拟合能力和较好的检测能力。

然后采用二维信息熵方法识别具有多重差异的误译语句。基于二维信息熵方法测试误译语句的召回率，测试结果如图2所示。

图2 误译语句识别后的召回率

由图2可知，所设计翻译文本误译语句自动识别方法能够得出二维信息熵可以反映出每个误译语句分布空间特征的特征，从而有效地保证了翻译文本误译语句的自动识别精度。

4 结束语

本文的研究成果主要应用于自动分类和文本主题词挖掘领域，提出基于随机森林的翻译文本误译语句自动识别方法，在准确率、召回率、误报率上都有所提升。随机森林检测模型对误译语句的识别具有较高的准确率，具有较好的分类性能，能够满足误译语句自动识别的需要，对实际应用具有一定的实验参考作用。下一步将对文本挖掘方面进行研究。