APP下载

关于解决蒙古文形对码错错误的研究综述

2020-11-26杨利润斯琴巴图锡林宝力尔

现代计算机 2020年4期
关键词:语料读音词典

杨利润,斯琴巴图,锡林宝力尔

(1.内蒙古建筑职业技术学院,呼和浩特 010070;2.内蒙古妇女干部学校,呼和浩特 010051;3.内蒙古广播电视台,呼和浩特 010058)

0 引言

“形对码错”错误是蒙古文电子文本中普遍存在的文本错误[1],具体指单词的字形虽然正确,但内部编码错误的一类文本错误。由于文字检索、搜索引擎、文字转语音等多种应用都是通过内部编码识别单词,而并非通过字形识别单词,所以不及时处理文本中“形对码错”错误,会导致这些电子文本在应用价值方面大打折扣。本文归纳总结了前人解决“形对码错”错误的主要方法,以期对后来研究者提供参考。

1“形对码错”的概念及产生原因

“形对码错”错误是指单词的字形虽然正确,但其内部编码错误的一类错误。这类错误主要由两种原因引起。第一种是因为蒙古文中存在形同音异的字母(具体为字母的变形显现字符的形状相同),使用者在通过键盘录入时由于并不清楚(或不在乎)字符编码问题,认为字形正确即可,从而将字形正确而发音错误的字母键入单词中,引起“形对码错”错误。这种起因在没有接受过蒙古文输入法培训的使用者中普遍存在。经过抽样调查,首次使用蒙古文输入法的使用者在没有查看使用说明的情况下,都会认为键盘上的“O”和“U”(目前流行的输入法中均代表第六和第七元音)分别代表蒙古文中的第四和第五元音字母。而且,在输入蒙古文时,通过“O”和“U”也能得到第四、五元音字母的词中和词尾的形状。例如,单词“”的正确的键盘输入序列应为“yabv”,但通过错误的键盘输入序列“yabu”和“yabo”等都能获得正确的字形“”。此外,使用者在使用没有整词或联想功能的输入法时,由于对输入法的控制符并不熟悉,在输入分写字母时滥用控制符,也会引起“形对码错”。下面将由以上原因引起“形对码错”的错误称为“读音非词”错误。

第二种引起“形对码错”的原因是由于应用OCR识别纸质文档或将形码、音形码等(非国际标准编码)转换为纯音码的Unicode国际标准编码时,将同形词(多音字)的读音选错,从而导致单词的编码出错。此外,本文将“”(键盘输入序列 ende)识别为“”(键盘输入序列为ada)一类单词也归为第二类。下面将由第二种原因引起“形对码错”的错误称为“同形词替代”错误。并将由第一种原因引起“形对码错”的单词,碰巧该单词又为多音字,键入的读音虽然在词典内,但并不是想要的正确读音的错误归为本类错误。

2“读音非词”错误的处理方法

2009年,斯·劳格劳在其文章中为了与常见非词(字形非词)区别,给出了“读音非词”的概念,并归为非词错误[2]。本文前面在其基础之上对“读音非词”概念做了进一步说明。针对“读音非词”错误的处理,先后有赵军、斯·劳格劳、郝莉、苏传捷、廉冰、蔡祝元等进行了具体的研究。

2007年,赵军在硕士论文中提出了一种基于音节的统计语言模型的蒙古文校对方法[3],主要处理多余字母、遗漏字母和错录字母等类型的文本错误,并在介绍错录字母的小节中专门提到“读音非词”(文中描述为形码相同,内码不同)错误可以使用其给出的2-gram模型的Viterbi算法解决。但文中只是简单说明,一笔带过,并未通过实验证实,也没有给出准确率等指标。

于2009年,斯·劳格劳在“如何组织词典数据和规则是提高‘词典+规则’校对方法效率的关键所在”的思路下,提出了一种通过不确定有限自动机组织蒙古文词典数据和规则的方法,从而使校对速度比传统方法快了将近一倍,且读音查错算法的平均查准率为82.86%,读音纠错算法的平均准确率为92.09%[2]。该方法根据不确定有限自动机理论模型构造了“基于字形的蒙古文词法分析器”和“基于读音的蒙古文词法分析器”等两种词法分析器,词法分析器中包含了“词干词典”和“构形附加成分词典”等两种词典。由于该方法属于“词典+规则”的方法,所以词典和规则库的规模对于“读音非词”错误的处理至关重要。

2010年,郝莉等提出了采用贝叶斯算法校正蒙古文中读音混淆造成的拼写错误(包括读音非词错误)的方法,其拼写纠错率可达89%以上,较好地处理了“读音非词”错误[4]。该方法校正失败的主要原因在于算法推荐的最佳更正词并非是应该被选择的正确词。而出现这种问题是因为该方法最佳更正词的概率通过先验概率和条件概率计算得出,而先验概率通过对训练语料的学习获得,条件概率是通过统计手工收集的语料获得。因此,训练语料的规模和用于计算条件概率的语料对于上述方法非常重要。

苏传捷等在2013年的文章中,提出一种基于统计翻译框架的蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译[5]。文中通过改进基于短语的统计机器翻译模型得到了一种拼写校对模型,并通过3万词的平行训练语料训练了该模型。使用该文方法可以校对“字形非词”和“读音非词”,校对后正确词的比例最高可达97.55%。此处需要注意的是该文给出的评价指标并非是“平均准确率”,而是最高可达的正确词的比例。由于统计机器翻译需要庞大的语料库的支持,所以使用该方法实现精准校对的关键也在语料库的规模上。此外,处理庞大的语料资源还需要强大的计算能力的支持。

2014年,廉冰在其硕士论文中提出了一种基于有限自动机的校对方法,通过该方法可以解决“读音非词”错误,其平均准确率为91.5%[6]。该方法构造了一个包括五种自动机的词法分析器,并建立了一个同形字符规则库,并根据规则库,在词法分析器上搜索需要校对的单词,当单词不正确时选取同形词纠错。该方法仍属于“词典+规则”的方法。

2019年蔡祝元在硕士论文中提出了将蒙古文正字法词典中的单词切分为音节,在音节统计特征的分析基础上,建立音节级4-gram模型,并结合构词规则和音节级4-gram模型查找非词错误(包括读音非词),再通过字典(蒙古文音节混淆集字典)校对非词错误的方案[7]。该方案融合了N-gram法和“词典+规则”的方法,其查错召回率75.38%,查错准确率为54.18%,文中未给出纠错准确率具体值。

3“同形词替代”错误的处理方法

“同形词替代”错误应归为真词错误类。目前,在很多学者研究同形词的文章中可以找到“同形词替代”错误的处理方法。当然,也可以在解决真词错误的文章中找到解决方法。

2005年,张建梅在其硕士论文中,以100万词级《现代蒙古语文数据库》(以下简称100TUM)为标准分析了同形异音词的情况后,归纳出了同形异音词的读音识别条件[8]。具体为1有些同形异音词在100TUM中,只出现了一种读音,并未出现其他读音时,按照真实语料的实际情况,将该词看作只有一种读音的单词处理;2有些同形异音词,以一种读音为主,其他读音出现次数极少的,为极少出现的读音设置识别条件,不符合识别条件的全部归为主读音;3对于出现多种读音,且各种读音的出现次数差距不大时,给每种读音建立搭配词库,并使用搭配词识别具体用哪种读音;4根据同形词和标点符号的位置识别读音。之后,从500万词级《现代蒙古语文数据库》(当时大部分为生语料)中,选择了出现频率较高的140个同形异音词,按照上面归纳出的读音识别条件在122个文件上做了测试。测试的召回率为82.80%,准确率为99.01%。

2010年,淑琴等在其文章中为同形词建立了存放共现词(即与同形词在句子中经常配对出现的单词)的“共现库”[9]。之后在识别同形词的读音时,通过句子中出现了哪个共现词来区分采用哪种读音。当遇到歧义不能区分读音时,为同形词直接设置100TUM中出现次数最多的读音。该方法的准确率为81.7%,召回率为99.8%。该文中的同形词概念不仅包括同形异音词,还包括形音均相同,意义不同的单词。所以该文提供的准确率和召回率与张建梅文章中的准确率和召回率不能相互比较。

2016年,哈斯等提出了使用词汇语义网络识别同形词词义的方法[10]。具体为通过计算同形词与所在句子中的名词在语义网中的距离判断该同形词的词义。使用该方法识别同形词词义时,最高准确率达到了88.80%,最低准确率为23.30%,平均准确率为55.1%。通过这种方法,也可以处理“同形词替代”错误。

2017年,迎春在其硕士论文中给出了一种校对真词错误的方法,其中查错功能在词语同现矩阵的基础上,利用词的二元接续关系实现,纠错功能通过易混淆词词典及生成纠错建议的算法实现[11]。该文方法的召回率为82%,正确率为3.4%,纠错建议生成率为91%。

2019年蔡祝元在其硕士论文中,除了提出校对非词错误的一种方案以外,还提出了在真词混淆集的基础上结合3-gram语言模型和上下文语境实现蒙古文真词错误(包括同形词替代错误)的查错与纠错方案,该方案的查错召回率为77.78%,查错准确率为60.87%,纠错率为 78.57%[7]。

4 结语

“形对码错”错误的出现主要由两种原因引起,由第一种原因引起的称为“读音非词”错误,由第二种原因引起的称为“同形词替代”错误。“读音非词”主要由于使用者在键盘输入时,混淆了字母而引起。“同形词替代”主要由于应用OCR识别纸质文档或将非国际标准编码转换为国际标准编码时产生。目前,处理“读音非词”的研究方法主要有:基于词典+规则的方法(包括基于有限状态自动机方法)、基于贝叶斯算法的方法、基于统计翻译框架的方法和N-gram融合“词典+规则”的方法等。处理“同形词替代”的研究方法主要有:基于统计规则的方法(包括共现库的方法)、基于语义网络的方法、基于词的二元接续关系算法的方法和N-gram融合上下文语境的方法等。由于以上文章中选取的测试数据不同,测试人员不同,提供的评价指标不同,甚至研究范畴不同,所以不能仅仅根据其召回率和准确率等判断方法的优劣。

上述各种方法都直接或间接依赖高质量、大规模的语料库资源,所以尽快建立高质量、大规模,向所有研究蒙古文信息处理的人员开放的共享语料库对“形对码错”错误的解决,对蒙古文文本自动校对水平的提高,乃至对蒙古文信息处理整体水平的提高都尤为重要。

猜你喜欢

语料读音词典
海量标注语料库智能构建系统的设计与实现
“那”与“哪”的读音
字词篇
米兰·昆德拉的A-Z词典(节选)
米沃什词典
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
从《泊船瓜洲》中“间”字的读音说开去
“函数及图象”错解词典
我是小字典