藏文自动分词技术研究综述
2016-07-12于诗画赵小兵
于诗画 赵小兵
【摘 要】藏文分词是藏文信息处理中最为基础却又十分重要的工作,而藏文的自动分词是提高藏文信息处理工作效率的重要技术。本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。
【关键词】分词;藏文分词;分词方法
1 藏文自动分词的主要意义
分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。在英文中, 单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2 国内藏文自动分词的研究现状
迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1]; 2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。
而由于标注语料资源的限制,采用机器学习方法在最近三年才逐渐受到重视。其中,刘汇丹、李亚超各自采用基于条件随机场的音节标注方法,把分词看成判断音节在词中位置的过程,并取得了很好的效果,该方法基于统计机器学习模型,是藏文分词研究的最新研究成果[4]。
3 藏文自动分词的基本步骤
藏语是黏着性语言, 藏语句子的组织过程就是在词与词、短语与短语之间添加格助词并与句末动词有效地结合的过程。因此,藏文分词的关键是如何结合藏语字、词、句各类形式特征来确定格助词及其接续特征规则的识别算法。
藏语句子的各个功能性成分主要是词和格助词及其接续特征词的结合体,同时还有一些则是短语或子句与格助词组成的连续结合体,统一称之为块。由短语或子句组成的句节内词的切分必须借助词典和接续特征规则。句节内无法切分的“堆块”以及由属格格助词引起的“截断”问题在分析阶段需综合各类知识才能解决。据此,有专家提出利用字切分特征和字性库先“认字”,再用标点符号和关联词 “断句”,用格助词“分块”,再用词典“认词”,充分利用各类接续特征“分词”的多级切分策略。
4 藏文自动分词面临的主要问题
目前的藏文分词处理通常都是首先由计算机对藏文文本进行自动分词,然后再对分词结果附以人工校对。但无论是计算机自动分词还是人工校对,前提是都需要符合一定的分词标准或规范以保证分词结果的正确性,从而也为藏文信息处理的后续工作提供统一的输入。但即使如此,也并不能完全保证分词结果的正确性,因为藏文自动分词还面临着两个最大的困难:一是歧义切分问题,二是未登录词识别问题。
4.1 歧义切分问题
在分词过程中,文句中某个片段可能存在两个或两个以上切分形式的字段,称为分词歧义字段[5]。针对分词中的歧义现象,人们从不同的角度提出了不同的分类方式,从歧义字段的主要构成形式来分,藏文分词中歧义分为两种: 一种是交集型歧义字段,另一种是组合型歧义字段。据统计,藏文中交集型歧义占歧义问题的90%以上[6],因此, 如何解决好交集型歧义字段的切分问题,对于藏文歧义字段的切分具有重要的意义。
而对于藏文分词中交集型歧义问题的研究,一般采用两种解决方法。一是采用双向扫描匹配方法,即对同一字段分别进行正向最大匹配和逆向最大匹配,如果扫描结果不同,则认为是交集型歧义;也有人采用最大概率方法来消解交集型歧义,主要利用词频信息来找出最佳的切分结果。但是由于高频单音节对切分结果的影响,有时也往往无法得出期望的切分结果。因此,无论是哪一种消歧方法,还都有待于在实验中不断改进。
4.2 未登录词问题
大规模的藏文本处理中,会遇到很多机器可读词典中未收录不能识别的词汇,“包括中外人名、地名、机构组织名、事件名、货币名、缩略名、派生词及各种专业术语等,这些词总称为未登录词”。未登录词包括两大类:一类是新涌现的普通词汇或专业术语;另一类是专有名词,例如:人名、地名、国名、组织机构等名。未登录词在藏语真实文本中普遍存在。
有实验统计,用含7万词条的词典,对2万余字的藏文网页新闻文本语料进行自动切分后发现,其中有20%的词不在词典中;对1万字的藏文科技文本进行自动切分,其中有40%的词不在词典中;对6万字藏文文学、新闻、民俗等多种文本进行自动切分,发现绝大多数错误是由未登录词造成。未登录词是影响藏文分词正确率的主要因素,对分词精度的影响超过了歧义切分。因此,要从根本上提高藏文分词效率,解决未登录词问题尤为重要。
5 结语
藏文分词是藏文文本处理中最基础也最为首要的工作,其分词的正确性将直接影响到藏文信息处理的有效性与应用价值;而藏文自动分词技术则是藏语自然语言处理中的一项关键技术,因为该项技术不仅直接运用于藏文文字识别、藏文语音处理、藏语机器翻译、藏语教学技术研究等方面,而且也是未来藏语的智能化研究以及藏语文化、信息传播与交换的直接动力与基础支撑;同时这也将对藏族地区的社会生活与社会发展带来深远的影响。当然,藏文自动分词技术还并为成熟,还有很多亟待解决的问题,如程序中关于unicode编码处理的问题、藏文文字的在线输入问题、人工标注库的建立和完善等,这就需要相关研究人员投入进一步的研究工作。
【参考文献】
[1]何向真,李亚超,马宁,于洪志.基于音节标注的藏文自动分词研究[J].计算机应用研究,2015,07:1989-1991.
[2]索郎桑姆.藏语语料库构建与加工技术研究[D].西藏大学,2013.
[3]刘汇丹.藏文分词及文本资源挖掘研究[D].中国科学院大学,2012.
[4]汤小娜.词义消歧在统计机器翻译中的应用研究[D].厦门大学,2007.
[5]李伟.中文分词歧义消解技术的研究[D].青岛科技大学,2014.
[6]艾金勇.“藏文自动分词技术研究”报告[R].2013,12.
[责任编辑:杨玉洁]