基于人机交互和特征提取的英汉翻译系统研究
2020-06-30吴晓丽
吴晓丽
摘 要: 为了提高英汉翻译系统的翻译精度,提出一种基于人机交互和特征提取的英汉翻译系统模型。首先,为了实现翻译特征语境特征的提取,通过特征提取算法提取语义翻译语境矩阵和非语义翻译语境矩阵;其次,为度量同一翻译环境下的两个语义向量之间的相似度,选择余弦相似度函数计算翻译相似度。将翻译相似度引入英汉翻译系统模型,通过比较两个语义向量之间的翻译相似度实现英汉之间的翻译。与SOA、SCA和SLA对比可知,基于人机交互和特征提取的英汉翻译具有更高的准确率、精确率和召回率,为英语翻译提供新的方法和途径。
关键词: 人机交互; 特征提取; 翻译系统; 相似度; 语义向量
中图分类号: TM 933.4 文献标志码: A
Study on English-Chinese Translation System Based on Human-Computer Interaction and Feature Extraction
WU Xiaoli
(School of Humanities, Shangluo University, Shangluo, Shanxi 726000, China)
Abstract:
In order to improve the translation accuracy of English-Chinese translation system, combining feature extraction and human-computer interaction, an English-Chinese translation system model based on human-computer interaction and feature extraction is proposed. Firstly, in order to extract the context features of translation features, the semantic translation context matrix and non-semantic translation context matrix are extracted by feature extraction algorithm. Secondly, in order to measure the similarity between two semantic vectors in the same translation environment, the cosine similarity function is chosen to calculate the translation similarity. The translation similarity is introduced into the English and Chinese translation system model, and the translation similarity between the two semantic vectors is compared. Compared with SOA, SCA, and SLA, English-Chinese translation based on human-computer interaction and feature extraction has higher accuracy and recall rates, hence, it provides new methods and approaches for English translation.
Key words:
human-computer interaction; feature extraction; translation system; similarity; semantic vector
0 引言
隨着我国改革开放程度的加大和对外合作的程度进一步加深,跨国的文化交流、旅游和商务活动等日益频繁,然而语言不同给交流和沟通带来了极大不便。随着计算机技术和机器学习技术的快速发展,机器翻译为解决语言不同沟通障碍问题提供了新的方法和途径[1]。在机器翻译中,名词短语识别是机器翻译句法分析的基础,其识别的精度直接关系机器翻译结果的准确性和可靠性。
目前英语名词短语识别的方法有基于机器学习的识别方法、基于统计的识别方法以及基于规则的识别方法[2]。基于规则的识别方法主要通过语料库自动获取或者专家编写,具有容易理解的优点,但是通用性差、费时而容易产生歧义;基于统计的方法将名词短语识别问题转化为相似词汇的标注问题,该方法具有简单灵活,且不依赖具体的语言模型,目前是较为流行的主流翻译算法;然而该方法基于大量样本数据,容易发生过拟合问题。随着人工智能和机器学习方法的兴起,基于神经网络的名词短语识别方法被应用于英语名词短语识别,但是由于英语语法的规律较为复杂,因此英语名词短语识别准确率有待提高。
为提高英汉翻译系统的翻译精度,提出一种基于人机交互和特征提取的英汉翻译模型系统。结合人机交互的整体定性认识和逻辑推理的能力[3],将翻译相似度模型引入英汉翻译系统模型,通过计算同一语义空间下两个语义向量之间的翻译相似度实现英汉翻译结果的获取。与SOA、SCA和SLA对比可知,基于人机交互和特征提取的英汉翻译具有更高的准确率Accuracy、精确率Precision和召回率Recall,为英语翻译提供新的方法和途径。
1 特征提取算法
为实现特征语境的标准提取,通过特征提取算法将最佳语境的映射提取到翻译过程中[4]。假设翻译过程中存在N个翻译语境,其中有K类语义翻译,翻译语境数量为Ni(i=1,2,…,K),K类语义翻译用概率为Xi={Xi1,Xi2,…, XiN},i=1,2,…,K是一个定向n维向量集合。通过限定过程能够达到基本标准翻译语境的翻译如式(1)所示。
其中,αi为能够到翻译语义翻译语境,最佳语境α选定过程如式(2)所示。
分别计算适合语义翻译语境矩阵SB和非语义翻译语境矩阵Sw[5]如式(3)所示。
假设λ为语义语境关联矩阵STwSB的最优语境,而f是衡量语义语境关联度的标准,则α的值直接能够反映关联过程的映射。语义语境关联矩阵STwSB最多有K-1个最佳翻译语境,其提取的最优语境为R(R≤K-1)个,则最优语境下的特征语义可用β表示如式(4)所示。
2 翻译相似度模型
所谓翻译相似度模型是指同一翻译环境下两个语义向量u和v的相似程度。如果两个语义向量与的相似程度越高,则两个语义向量u和v的语义更加接近。本文选择余弦相似度函数度量同一翻译环境下两个语义向量u和v之间的翻译相似度[6-7]如式(5)所示。
其中,Sim(u,v)为同一翻译环境下两个语义向量u和v的翻译相似程度。同一语义环境下,翻译相似度计算结果如表1所示。
表1中,D1、D2和D3分别为短语“举行 选举”、“hold election”以及“celebrate election”。D1与D2和D3的相似度分别为Sim(D1,D2)=0.86和Sim(D1,D3)=0.53,从而说明D1与D2的翻译相似度高于D1与D3的翻译相似度。因此,当进行翻译时,将D2作为源语言“举行选举”的翻译结果。
3 基于人机交互和特征提取的英汉翻译模型
3.1 人机交互
为了充分发挥计算机的逻辑推理能力和人类的整体定性认识能力,将计算机和人类结合起来的方法称为人机交互[8-9]。
3.2 设计框架
基于人机交互和特征提取的英汉翻译系统的人机交互模块如图1所示。
基于人机交互和特征提取的英汉翻译系统由图形化界面、指标加载、指标计算、翻译质量评估等模块组成。
(1) 图形化界面:提供人机交互界面,加载待翻译语句、选择评价指标和指标计算以及英汉翻译结果评价和显示。
(2) 指标加载:加载翻译结果评价指标。
(3) 指标计算:计算翻译结果评价指标。
(4) 翻译质量评估模块:根据翻译结果评价指标,判定翻译效果。
3.3 算法步骤
基于人机交互和特征提取的英汉翻译模型的算法流程如图3所示。
其算法步骤可描述为:
(1) 预处理翻译数据语料库,提取语义向量(源端短语以及目标端短语);
(2) 根据语义向量映射模型,实现源端短语到目标端短语的语义空间映射;
(3) 根据翻译相似度模型计算同一翻译环境下不同语
义向量的翻译相似度;
(4) 选择翻译相似度作为特征向量,并将其加入翻译解码得到翻译结果。
4 实证分析
4.1 数据来源和评价指标
为了验证本文算法的有效性,选择微软研究院释义语料库[10](MSRP)数据集为研究对象,为评价本文算法的有效性,选择准确率、召回率、精确率作为评价指标[11-12]如式(6)所示。
其中,TP为正类判定为正类;FP为负类判定为正类;FN为正类判定为负类;TN为负类判定为负类。
4.2 结果分析
为了说明本文方法进行英汉翻译的有效性和可靠性,将本文算法与基于基础词项的余弦相似度算法[13](SCA)、基于词项目重合的重叠相似度算法[14](SOA)以及基于语义词典的词典相似度算法[15](SLA),对比结果如表2所示。
由本文算法和SOA、SCA以及SLA对比可知,本文算法进行英语翻译具有更高的准确率Accuracy、精确率Precision和召回率Recall,分别为91.09%、88.57%和88.57%,优于SOA的83.49%、75.71%和75.71%。其中,SLA的Accuracy、Precision和Recall分别为46.31%、45.71%和45.71%,在几种算法中最低。与SOA、SCA和SLA对比可知,本文算法进行英语翻译具有更高的准确率Accuracy、精确率Precision和召回率Recall,效果较好,为英语翻译提供新的方法和途径。
5 总结
为提高英汉翻译系统的翻译精度,提出一种基于人机交互和特征提取的英汉翻译模型系统。结合人机交互的整体定性认识和逻辑推理的能力,将翻译相似度模型引入英汉翻译系统模型,通过计算同一语义空间下两个语义向量之间的翻译相似度实现英汉翻译结果的获取。与SOA、SCA和SLA对比可知,本文算法进行英语翻译具有更高的准确率Accuracy、精确率Precision和召回率Recall,效果较好,为英语翻译提供新的方法和途径。
参考文献
[1] 黄登娴. 英语翻译软件翻译准确性矫正算法设计[J]. 现代电子技术, 2018, 41(14):180-185.
[2] 张莹. 基于英语在线翻译平台的设计与实现[J]. 自动化与仪器仪表, 2017,6(7):253-255.
[3] 王超超, 熊德意, 張民, 等. 基于双语合成语义的翻译相似度模型[J]. 北京大学学报(自然科学版), 2015(2):1-6.
[4] 王海燕, 杨鸿武, 甘振业, 等. 基于说话人自适应训练的汉藏双语语音合成[J]. 清华大学学报(自然科学版), 2013(6):776-780.
[5] 周文, 徐国梁. 翻译记忆中语句相似度计算方法的研究[J]. 计算机应用, 2007, 27(5):1210-1213.
[7] 费洪晓, 莫天池, 林青, 等. 基于树状语料库的中文短语相似度计算[J]. 计算机应用与软件, 2013(8):24-28.
[8] 徐小娟, 徐国梁, 黄新. 基于本体的英汉翻译记忆系统的研究[J]. 科学技术与工程, 2008(10):202-204.
[9] 邓子龄. 基于粗糙集的翻译方法的改进仿真研究[J]. 科技通报, 2013,12(10):26-29.
[10] 于夏薇, 袁军鹏. 融合语料库的论文作者姓名中英自动翻译研究[J]. 情报工程, 2018,3(7):22-26.
[12] 王清, 殷业. 基于Globish的旅游用英汉翻译系统的研究[J]. 企业科技与发展, 2008,5(12):17-22.
[13] 李新福,赵蕾蕾,何海斌,等.使用Logistic回归模型进行中文文本分类[J].计算机工程与应用,2009,45(14):152-156.
[14] 张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78.
[15] 王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383.
(收稿日期: 2019.07.28)