基于正则表达式的藏文虚词“”类识别算法研究
2019-10-14更藏卓玛安见才让
数字通信世界 2019年9期
更藏卓玛,安见才让
(青海民族大学计算机学院,西宁 810007)
藏文中共有85个虚词,它比实词少很多,但藏文虚词在藏文中的使用及其广泛,而且它在不同语境中扮演者不同的角色,因此出现了虚词的歧义问题,而因它的歧义性问题识别起来非常复杂,尤其是非依他关联词的识别。但对它的研究对藏文词和句子的处理起着重要性的作用。因此,文章通过藏文虚词添接规则和正则表达式对藏文虚词“”类进行识别研究。
表1 虚词“”类添接表
表1 虚词“”类添接表
藏文文本校对过程中校对藏文虚词的添接是一项很重要的工作,要完成这个工作首先要识别藏文虚词。
检测添接规则,并统计其次数。如图1所示。
图1
其表示匹配字母或数字或下划线或藏文字重复零次或者更多次后((匹配除了换行符以外的字符(匹配前面的位置加,例 如不能检测添接规则,并统计其次数。如图2所示。
图2
图3
检测添接规则,并统计其次数。如图4所示。
图4
2 实验结果
表2 “”等14个词语料中的数量统计
表2 “”等14个词语料中的数量统计
图5
表3 虚词“”类的歧义统计
表3 虚词“”类的歧义统计
数量名称总数 为虚词总数 为虚词百分比“ཞིང”类 9902 3996 40.3%