APP下载

盲文分词修改系统的设计与实现

2019-11-13李妍关钟刘志丽阎嘉孙岩

科技视界 2019年30期

李妍 关钟 刘志丽 阎嘉 孙岩

【摘 要】目前汉语盲文语料库多是txt文本,txt文本在进行汉文和盲文采集、修改、管理时,操作不便,处理速度慢且效率低,本盲文分词修改系统提供了一个平台,可以将多个不同分词版本的txt导入到平台,实现多版本盲文分词的格式化排版、自动对齐、同步编辑、智能校对等操作,帮助用户更快、更便捷的进行盲文分词标记工作。

【关键词】盲文分词;标记;格式化排版;自动对齐

中图分类号: TP391.1 文献标识码: A文章编号: 2095-2457(2019)30-0089-002

DOI:10.19694/j.cnki.issn2095-2457.2019.30.045

0 背景

盲文是盲人學习文化知识的媒介,在盲人教育中具有基础性地位,是盲人语言文字权益的核心。国家对残疾人语言文字权益一直高度重视,对盲文规范化高度重视。现行盲文对推动我国盲人教育、文化、出版事业发展和盲人文化知识水平提高,发挥了非常重要的作用[1]。现行盲文是记录汉语的一种工具,是我国有法定地位的记录汉语的一种触觉符号系统。汉语现行盲文与众不同的标调和分词连写方式形成了它独具特色的技术方案,具有流通性和法定性,因此它具有了文字地位。现行盲文与汉语拼音有较多的共同点,但在分词连写和标调两个重要方面都有本质的差异。

分词连写是现行盲文首创的一个重要规则,它是现行盲文脱离注音符号走向文字的标志。汉语盲文的分词连写既不同于汉语拼音正词法基本规则的分词连写方式,也不同于汉语信息处理领域常用的分词规则。现行盲文的绝大多数连写单位与汉语的词是一致的,这样的连写单位就是一个汉语的词。有少数连写单位长于一般汉语语料库切分单位,主要是现行盲文将附加成分、修饰成分与中心词一般连写在一起,助词“着、了、过”与动词连写,也有一部分联合词组、偏正词组、述补词组等连写。还有极少数成语(天衣/无/缝)按照内部结构进行了分写,这样的连写单位小于一般汉语语料库切分单位,甚至小于词典词。之所以这样定义,是因为盲文短语是在词语的基础上再加上连写的规则而形成的,它不同于传统意义上的词语和短语。据此,改进《汉语盲文分词连写规则》[2]中的盲文短语就可以从分词和连写两个方面来进行研究[3]。

由于盲文分词连写的特殊性,导致现行盲文语料在分词连写上存在着很大的分歧。因此科学的选材和标注,对现存的盲文语料进行分词连写的修订,对全面的分析现存语料的分词问题有着重要的作用,并对提高盲文分词的一致性,促进盲文的发展有着重要的意义。

但目前我国盲文信息化水平与上世纪末汉语信息化水平相当,近二十年语言科技的迅猛发展几乎没有惠及盲文。盲文信息的处理、校对、教学材料的制作还处于人工阶段,劳动强度大,效率低。我国现有的几个汉盲自动翻译、盲文编校软件准确率差,用户满意度很低[4]。盲文语料库的建设进程也受到了很大的影响,如何提高盲文语料库的建设进程,加快盲文信息化处理的速度也是盲文研究者共同努力的目标。

1 系统模块设计

通过与参与盲文分词标记修订的老师和学生的大量沟通和调研,以及在分词标记过程中的常见的问题的分析,完成了盲文分词修改平台的设计与实现。

盲文分词修改系统模块结构如图1所示。

图1 模块结构

本平台从功能大类上分为两类:一为多版本盲文分词TXT源文件导入、二为盲文分词标记修订。

1.1 多版本盲文分词TXT源文件导入

多版本盲文分词TXT源文件导入模块功能是实现将清华、北理工和中科院三家提供的TXT格式的盲文分词源文件导入到盲文分词系统平台数据库中,在导入时通过专用算法,进行初步信息处理。

本平台选择清华大学版、北京理工大学版和中科院版三家的盲文分词TXT文件作为源文件,通过专用算法(遍历每一行字符设置标识记号比较基础版本,生成基础数据。)将三个版本的分词进行对比、参照,并将对照结果生成特殊标记作为数据分词对齐依据,为后期人工对照修订提供初始化版本,解决利用txt汉语盲文进行采集、修改、管理操作不便、管理效率低的问题,提高了自动化程度,解决了人工分词的诸多弊端。

多版本盲文分词TXT源文件导入后经过算法处理、排版、分词对齐后显示如图2所示。首先将三个版本的源文件按照分词进行对齐,方便用户同一篇文章,同一个分词之间进行比对。其次利用颜色进行突出显示,提示用户三个版本之间的区别,例如图2中绿色背景凸显的是分词连写,即编号28行,盲文分词应该是“不会”,但中科院、北理工和清华分成了两个词“不”和“会”,因此利用背景凸显方法根据相关标记,将本应2个分词显示的内容,与“不会”进行关联对比,行程分词连写效果。再例如图3中编号31和编号33行粉色背景凸显了不同版本之间分词相同但标记不同的情况,提示修改者是否要进行修改。其他未进行颜色突出显示的情况表明分词相同,标记相同,是否要进行修改,由修改者自行浏览修订。

1.2 盲文分词词性标注修订

盲文分词词性标注修订模块功能是提供用户分词标记修改、备注、查询词性的平台。利用信息技术提高分词词性标记的速度,快速完成盲文资料的编辑和整理工作。

盲文分词词性标注修订主要使用人员有超级管理员、一级用户、二级用户。

超级管理员拥有平台所有管理、修改、查询权限。

一级用户可以管理二级用户,对二级用户名及密码进行添加、删除和修改。并拥有文章分配、文章选择两个模块的全部功能。

二级用户只拥有名下分配文章的文章选择模块的功能。

用户管理模块可以实现添加用户、修改用户和删除用户,此处用户包括一级用户和二级用户,通过权限设置实现用户文章修订的权限管理。

文章分配模块可以实现给不同用户分配不同文章,根据用户数和文章数,由超级管理员为一级用户或二级用户分配要修订的文章,一级用户可以再为二级用户分配要修订的文章。

文章选择模块要实现根据文章分配的后的结果,不同用户只可以看到分配到个人名下的文章,可以选择不同的文章进行编辑。

选择好文章后,进入编辑修改界面。用户根据对已有三方源文件处理后的结果进行人工校对和标记修改。

多人协作人工校对工作主要在这个模块实现,通过三个版本自动比对后的显示排版,由用户进行人工校对,校对包括分词的准确性、标记的争取与否。如果分词不正确,在备注栏中标注,如果标记不正确可以,但中科院、北理工和清华中有正确标记的,可以点击“替换”按钮,实现正确标记的自动替换。如果三个版本中均无正确的标记,则人工录入正确标记。如果分词词性标记记不住,可以点击“符号查询”,查找正确标记符号。

2 结束语

本系统平台作为汉语盲文语料库建设中必不可少的一环,提高了盲文分词修改方法的自动化程度,解决了人工分词标记校对、修改的诸多弊端,提高了分词标记的正确率。与人工识别相比较能够提高统计速度和统计效率。在识别和对比中设置盲文分词的连写标记,为数据显示提供重要标识,减少人工工作量,简化人工判断流程,为汉语盲文语料库建设进程提供了重要的信息化保障。

【参考文献】

[1]钟经华.国家通用盲文方案研究.中国特殊教育,2018,6(216):42-43

[2]滕伟民,李伟洪.中国盲文(第2版)[M].北京:华夏出版社,2008.

[3][5]孙宇,李纯莲.应用“层次分析法”优化汉语盲文分词连写规则.长春大学学报,2015.5(5):126-129.

[4]程黎,顾定倩,刘艳红,等.我国盲文使用状况的调查研究.语言文字应用,2013,(2):42-48.