基于正则表达式的藏文属格的识别及其检错算法研究
2018-02-25拉毛措
拉毛措
摘要 文中结合传统的格助词添接规则和正则表达式对属格助词进行了识别和检错的算法研究,提出了藏文属格助词的识别算法,再次基础上我们提出了基于正则表达式和消歧知识库的属格助词自动检错算法。最后3本藏文书文本作为实验语料,结果表明该检错算法能够较好地完成5个藏文属格助词的自动检错任务。
【关键词】属格助词 歧义 识别 检错
藏文信息处理的技术水平在逐步提高,但客观地说这项技术仍然不够成熟,一些技术难关和关键问题还没有找到有效的解决方法。比如,有很多学者在研究藏文虚词的识别、藏文音节字校对、文本校对、歧义虚词的消歧等问题,但都没能通过语义对藏文虚词进行自动校对。校对是文本编辑中确保文本与原文一致的重要手段。藏语虚词在藏语中占有特殊地位,其词具有结构复杂、含义广泛、使用频繁等特点,因而藏文文本中藏文虚词的校对较为复杂,尤其是藏文不自由虚词的识别及其校对。藏文虚词的校对是藏文词、字、句校对和信息检索、双语互译、自动分类等的基础,有著极其广泛的应用价值。本文通过研究藏语虚词的添接规则和传统的藏语文法,对属格助词的识别方法及其树检错算法进行研究。
针对传统的藏文文法,我们建立基于正则语法的藏文虚词添接规则表达式。因藏文虚词有二义性,建立消歧知识库来消歧虚词的歧义性。
1 藏文属格助词的识别算法
很多研究藏文虚词校对方法是首先判断一个词是否可能是虚词,其次获取其前一个词的后加字,再次判断后加字后的虚词的添接是否正确。我们的作法是把后两个过程合二为一,提高性能。
2 藏文属格助词的校对正则表达式
正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个语法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
3 基于正则表达式的藏文虚词属格的自动校对算法
3.1 基于正则表达式的属格助词自动检错算法
基于正则表达式的藏文虚词属格自动检错算法,具体描述如下:
基于正则表达式的藏文属格助词自动检错算法的流程图,如图1所示。
但是,我们通过分析研究藏文语料库,发现藏文属格的5个助词都有二义性,5个助词在不同的语义中,有时是助词,有时是实词,我们以格萨尔中《i嗣“串习s。耵》为语料统计了属格5个助词的二义性情况,统计数据如表
如,§在语料中出现361次,其中15次为实词,为实词的百分比为4.1%。
为了提高基于正则表达式对属格助词检错的准确率,我们建立了属格助词的消歧知识库。消歧知识库的结构如表2所示。
3.2 基于正则表达式和知识库的属格助词自动检错算法
4 实验结果与分析
4.1 实验设计和结果
才旦夏茸大师文集第一册至十三册作为实验语料.其中第一册到第三册为训练语料,用于建设消歧知识库和训练属格的5个助词的检错正则表达式,第四册至第六册内容作了修改作为测试语料。语料的规模如表3。
衡量指标选用了准确率P:
方法1 代表基于正则表达式的属格助词自动检错算法1,方法2代表基于正则表达式和知识库的属格助词自动检错算法,实验结果如表4。
4.2 实验结果分析
从计算的结果可以看出,采用方法2检错率比方法l的检错率高,虽然只增加了消歧知识库,但准确率明显提高,但方法2比方法1增加了时间复杂度T(n)=O(log2(n》。
在实验过程中也发现一些有待解决的问题:消歧知识库的规模不大,还得扩充知识库。
5 结束语
纵观当前少数民族语言文字发展的现状,我们可以清楚地看到,要想句法分析向语义分析阶段顺利迈进,目前最重要的问题就是处理好藏文的虚词,藏文虚词的研究成果可以在各个层面上推广应用。下一步工作计划是,扩充藏文歧义虚词知识库,提高藏文虚词识别和检错的准确性。
总体而言藏文属格助词的识别及其自动检错算法的研究达到了可实用的水平。
参考文献
[1]卓玛吉,安见才让.藏文不自由虚词的自动识别研究[J].商业文化,2014 (05),
[2]高定国,扎西加,赵栋材.计算机识别藏语虚词的方法研究[J].中文信息学报,2014, 28 (01):113-05.
[3]吴朔平.科技英语虚词分析法简介[J],系统工程与电子技术学报,1986 (07).
[4]杨慧玲.英语虚词在常规句和疑难句中的翻译比较分析[J].昆明师范高等专科学校学报,2006,28 (01): 86-88.
[5]多拉.藏语语义理解中功能性虚词研究[J],西藏大学学报(社会科学版), 2011, 26 (04):106-107.
[6]胡书津.简明藏丈文法:藏汉对照2版[M].云南民族出版社,2000 (10).
[7]格桑局冕,格桑央金,实用藏文文法教程[M].四川民族出版社,2004 (11).
[8]才旦夏著,藏文文法详解[M].青海民族出版社,1954,5:18-45.