应用随机特征码检测雷同译文
2010-05-29秦颖,文秋芳,梁茂成
外语电化教学 2009年6期
秦 颖,文秋芳,梁茂成
摘要:试卷自动评分研究中有个十分重要却常被忽略的环节———对于雷同内容的自动检测。翻译考试的雷同译文与一般的重复文档有着不同的特点。通过对比各种文档相似算法,最终选择了特征码的方法用于检测汉译英雷同译文,并结合翻译考试的特点,提出了随机特征码的方法,解决了特征码选取位置难以确定的问题,同时降低了特征码对于编辑差异的敏感度,提高了雷同内容检测的查准率和查全率。该算法的复杂度为线性,适用于大规模翻译试卷的快速检查。
关键词:自动评分;雷同内容检测;文本相似度;特征码