现代藏文中词的自动校对方法研究
2016-08-18刘芳关白
刘芳 关白
摘要:藏文文本的自动校对是藏文信息处理的主要应用领域之一,现代藏文词的自动校对是其中重要的关键技术之一。本文根据藏文词错误的类型,分别提出了对应的校对方法。对非词错误,采用分词切分和散串匹配处理方法。对于真词错误,主要检查词的二元接续关系和词性邻接关系,均取得了较好的校对效果。
关键词:藏文文本;自动校对;非词;真词
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)19-0200-02
Research for Modern Tibetan Word Automatic Proofreading Method
LIU Fang, GUAN Bai
(Tibetan Information Technology Research Center in Tibet University, Lasa 850000, China)
Abstract Tibetan text automatic proofreading is one of the main application fields of Tibetan information processing. Modern Tibetan word automatic proofreading is one of the important key technologies. This paper makes proofreading methods based on different types of Tibetan word error. Non word error proofreading could be done by word segmentation and string matching processing. True word error proofreading could be done by checking the binary relationship of words connection and adjacency relationship of words. Results of both proofreading methods are good.
Key words: Tibetan Text, Automatic Proofreading, Non Word, True Word
随着藏区经济和网络技术的发展,藏文信息处理技术得到了很大的发展,藏民族文化的传播和发展也更迅速、手段更现代化。
文本自动校对是较复杂的语言处理过程,也是自然语言处理的重要研究领域之一。目前,对于英语、汉语的文本自动校对方法很多,所取得的研究成果也应用在了较多的领域。从目前的研究现状来看,针对藏文文本的自动校对技术的研究文献还不太多,对藏文化的快速传播和发展带来了一定的影响。
藏文文本的自动校对技术除了应用在藏文字的手写识别和语音识别等方面,在藏文拼写检查、自动分词、语料库制作等领域也有着很广泛的应用[1]。因此,藏文词的自动校对技术研究有很高的现实意义和实用价值。
目前,藏文文本的校对主要是基于语法、语义分析的方法[2]。该方法需要建立大量语料的词库、字符续接关系表、语法规则库等。校对过程中需要将原始文本与词库和各种语法表进行比对,然后将疑似错误的地方标注出来。
本文主要针对现代藏文中出现的常见词错误,分别对非词和真词的侦错和纠错提出了自动校对的方法。
1现代藏文词的常见错误类型
1.1 非词错误
1.2 真词错误
2 现代藏文词校对的功能设计
要对词进行校对首先要对待校文本进行分词处理,一个好的分词算法对文本校对的最终结果起着举足轻重的作用,分词的正确率的高低直接影响到校对质量的高低。
如上图所以,我们采用BCCF算法对待校文本进行分词。BCCF算法首先用单垂线或双垂线(
3 非词错误自动校对
由于此前已完成的音节字的校对,因此此时的文本中不会再有非词音节字。但在一些文本中,某一些真词音节字组合在一起时,形成的藏文词并非现代藏文中的真词,而是一个非词错误。非词错误会使我们在对待校文本进行自动分词时,切分后的文本中连续出现较多的单字词或无法成词的多个音节字,也就是所谓的散串。因此,散串的定位与处理便成为非词错误侦错的关键。
对非词错误将采用的校对方案如下:
1)对待校对藏文文本进行分词,得到分词结果S=W1W2…Wn;
2)根据分词结果,定位不成词的音节字串或散串Wi;
3)将散串与词的混淆集进行最大逆向匹配,查询是否有与WiWi+1…Wi+m字串完全匹配的,如果有,这个散串是错误的,从混淆集中得到与其对应的正确的词;
4)若匹配不成功则采用最小编辑距离法,对该散串进行纠错。
4 真词错误自动校对
真词错误指的是现代藏文中有这样的词,但不是当前语境中所需要的词,它会导致该词与上下文搭配不当,因此也把它称之为上下文相关的文本错误[4]。
对于真词错误我们将采用词的二元接续关系和词性邻接关系检查进行侦错。
词的二元接续关系是指有前后顺序的词之间的相邻关系[5]。二元接续关系是指在考察词W1W2…Wi-1WiWi+1…Wn中Wi和相邻词间的相邻关系时,根据语料库语言学中的二元模型理论,只须考察词Wi-1和Wi以及Wi和Wi+1之间的关系即可[5]。经过对大规模语料的分析处理,如果发现从Wi-1到Wi的转移概率P(Wi/Wi-1)满足一定的阈值限制,我们即认为Wi-1和Wi接续[4]。在自动查错过程中,若要考察Wi是否出错,首先检查Wi-1和Wi是否接续,如果不接续,这时再检查Wi和Wi+1的接续关系(即检查从Wi到Wi+1的转移概率P(Wi+1/Wi))[6],如果Wi和Wi+1也不接续,则判定的词Wi出错。
完成侦错后,便采用词的混淆集对其进行纠错,若该音节字无法通过混淆集纠错,则采用最小编辑距离法为该非词错误找可能的正确的候选词,并对这些候选进行排序,纠错时以第一候选音节字加以改正。
5 现代藏文词的自动校对实例说明
6 结束语
现代藏文词的自动校对是在完成藏文音节字的自动校对以后进行的。本文根据现代藏文词中的非词和真词分别提出了对应的自动校对方法。总结来看,在现代藏文词的自动校对中,针对其错误类型需要建立专门的字词混淆集,侦测到疑似错误的词时,首先采用此混淆集对其进行纠错。无法用混淆集对其进行纠错的则采用最小编辑距离法对其进行纠错。
参考文献:
[1] 关白,才科扎西.现代藏文音节字自动校对研究[J].计算机工程与应用,2012(29):151-156.
[2] 才让卓玛,才智杰.藏文文本自动校对系统开发研究[J].西北民族大学学报:自然科学版,2009(1):25-28.
[3] 珠杰,李天瑞,刘胜久.藏文文本自动校对方法及系统设计[J].北京大学学报:自然科学版,2014(1):142-148.
[4] 普布旦增,关白.基于统计的藏文音节字校对系统开发研究[J].西藏大学学报:自然科学版,2015(1):74-78.
[5] 张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001(3):36-43.
[6] 于志恒.基于笔形相似的文本校对算法及其接口原型系统的研究[D].东北师范大学,2007.