汉语盲文语料库建设探析
2024-01-03钟经华
阎 嘉,耿 楠,钟经华
(北京联合大学 特殊教育学院,北京 100075)
0 引言
现代语料库从20世纪60年代开始发展,已经成为语言研究、语言信息处理不可或缺的基础性资源。我国汉语语料库建设从20世纪80年代开始,至今已有国家语委现代汉语平衡语料库、北京大学现代汉语语料库和《人民日报》标注语料库、台湾“中研院”现代汉语平衡语料库等具有较大影响力的成果面世,在自然语言处理、规范标准制定、语言基础研究等方面得到了重要应用。
汉语盲文与明眼文之间在语法、语义层面是一致的,但在字符和词汇层面存在显著差别。汉语盲文的分词连写和标调问题是导致盲文翻译准确率低、存在歧义的主要原因。汉语盲文研究难以直接使用汉语语料库的已有成果,需要建立专门的盲文语料库来了解汉语盲文的全貌,促进盲文的基础研究和应用研究,特别是盲文信息化的相关研究。
我国盲文研究尚属薄弱领域,多数研究以盲文使用的感性认识为基础,而以语料库为基础的研究,特别是具备一定规模并以真实盲文语料为主体的能够全面服务于盲文基础研究、规范化研究和信息化研究的盲文语料库建设尚未进入盲文研究者的视野。党的十八大以来,习近平总书记对语言文字工作作出了一系列重要论述,体现了党中央对语言文字事业的高度重视,也为新时代语言文字事业的改革和发展提供了坚实的理论基础和行动指南。2021年6月,由中国残联、中央宣传部等多部门联合制定的《第二期国家手语和盲文规范化行动计划(2021—2025年)》中特别强调了要加快推进手语和盲文规范化、标准化、信息化建设的任务目标,其中建设手语和盲文语料库、手语和盲文信息平台及提高信息化水平是主要措施之一。
1 汉语盲文语料库建设方法
一是理论研究。对汉语盲文语料库的理论地位和实际功能进行深入研究,明确汉语盲文语料库作为一种具有鲜明特色的汉语语料库,要扩展汉语语言资源类型和功能,要具备服务盲文本体研究、盲文教学、盲文信息化、盲文教材编写、盲文词典编纂等多种功能[1]。
二是盲文语料的采集与校对。根据语料采集原则和抽样方法,采集盲文图书1 100余种、盲校教材26种、盲文刊物1种、报纸(转写)2种。对于电子版的盲文语料,直接上传到语料库建设的专用网站。针对无电子版的单面盲文语料,以图片方式采集了4届全国残疾人高等教育单考单招盲文作文试卷241份,经信息化预处理后,进行人工校对。早期《毛泽东选集(一至四卷)》盲文版由于版本陈旧及保护的需要,无法扫描识别,聘请盲文出版社盲人手动录入采集,并进行了二校一审。
三是研制盲文语料标注规范。盲文语料库从3个维度进行标注:第一个维度是盲文—拼音—汉字的对照标注[2],真实呈现汉语盲文的现状;第二个维度是盲文语料库特有的触觉信息标注,为了反映触觉的真实属性,给予连珠型、密点型、中空型、假空方、破方等最高优先标注等级[3];第三个维度是根据现行盲文的特点进行语言学标注,包括声调标注和分词连写标注(只标不切)。针对单方标注进行过4类试验,对整体标注进行过6类试验,并邀请多所重点高校语言学专业的师生进行标注,经多次试验,反复修改,形成了盲文语料库的标注规范。首先,利用“五重校验法”对语料进行标注和检查,再使用自主研发的标注一致性检测系统,最后进行人工审核和修改。在不间断的调查试验中,建成了富内容关联的六层精标注汉语盲文语料库。
四是研发计算机辅助软件。在语料库的建设研究过程中,根据盲文特点设计开发计算机辅助软件,提高了盲文语料库建设的质量、效率和管理水平。研究过程中研发的辅助软件主要包括:盲文语料采集软件、汉语原文采集软件、拼音—汉字对照标注辅助软件、语言信息标注辅助软件、触觉标注软件、人工校对平台、一致性检测平台以及语料库检索系统。
2 汉语盲文语料库建设成果
2.1 语料库的基本规模
汉语盲文语料库通过对现行盲文颁布60多年来的盲文出版物语料、非出版物语料以及盲人的个人盲文语料进行调查筛选,采集了盲文语料1 171万方,超额完成采集任务17.1%[4],完成了1 031万方盲文语料触觉(单方—整体)、对照(汉字—拼音)、语言学(声调—分词连写)的三维六层标注,并对其中691万方核心语料进行精标注校对。
2.2 盲文语料的触觉品质
在6 916 953方精标注语料中,字均约为1.91方,方均约为2.84点。以静态单方为单位,“完善、上层、下层、中空、单点、破方、单列、单行”型符号的出现频率分别为:27.98%、26.46%、15.98%、11.38%、9.18%、4.69%、2.83%、1.50%。以动态连写块为单位,包含一方及以上完善型符号的块占66.76%,方间形成完善参照的块占23.75%,缺陷符号约占8.83%,严重缺陷符号约占0.63%(破方、假空方、连珠、单行、单列)。
2.3 盲文语料的标调情况
早期《毛泽东选集》语料的标调率为6.40%,近期标调率为12.39%。大幅度上升的标调率主要集中在声韵母自成的音节上。
标调不一致现象普遍存在,其中“研、司、即、怨、维、咨、缘”等标调率和非标调率均接近50%(±2%)。15 715个双音节词有多形现象,出现573 159次,其中239个词达到一词四形的理论极限,出现20 370次。5 081个多音节词有多形现象,出现49 565次,例如,“爱因斯坦”有5种标调形式。
2.4 盲文语料的分词连写情况
盲文块平均词长为1.74字,字均空方率为0.57方。单音节块有684 905个,占35.45%。连续20个及以上的单音节块出现了5组,最多可达22块。10个字及以上的连写块有3块,最长的为15个字。
四字格成语全连的占41.86%,二分的占36.30%,三分的占18.06%,四分的占3.78%。同一个成语存在多种写法,其中615个成语有两种写法、51个成语有3种写法、8个成语有4种写法,如:不/以为/然、不以/为/然、不以为/然、不以为然。还有的成语内部分写,其首尾又与其他词连写,如:不信以/为/真、雨/后/春笋般、萎靡/不振得、欲/说/还休着。
同一语义单元被拆分的现象屡见不鲜,频次较高的有:一席/话、一时/间、一/转眼、刹那/间、突然/间。也有跨语义单元的分词连写,同一个语义单元内分写,两个不同语义单元之间连写,例如,后三分/之/一处、虽然/说到/头/来。
除专有名词外,2.36%的块为词典词的分写块,共32 835块,被分写的词类频次由高到低依次为:名词、动词、助词、连词、副词、量词、数词、形容词、介词、代词。高频分写词有:的/话、别/说、尚/未、之/所以、一口/气。
盲文中有些连写词组(称为假词)与某个词典词外形相同,例如,四周/MN、学会/VV、马上/NNf。普通假词会增加词义,增加义项。特殊的假词还会增加读音,变成多音多义词,例如,假词“总长”(chang2)在盲文中连写,与词典词“总长(zhang3)”同形。这是标注的难点,也是盲文翻译需要特别注意的地方,这种假词在盲文词典中需要增列条目。
2.5 《国家通用盲文方案》出台
基于汉语盲文语料库,以声母分组的声调使用频率为基础数据,打破音节界限,按阴平、阳平、上声、去声分成4组,综合考虑每组的使用频率、摸读习惯、构词能力、触觉品质、轻声等多种因素,选择一组省写声调,形成了按声母省写的《国家通用盲文方案》。《国家通用盲文方案》基本上实现了汉语盲文字字带调,避免现行盲文的猜调问题,提高了盲文的表意功能,同时解决了因字字标调而产生的篇幅增加问题。
3 思考与展望
3.1 研究成果的意义
汉语盲文语料库是盲文研究领域的重大基础建设,是具有长远性意义的学术资源库,具有原创性、开拓性、集成性,是综合性重大现实研究成果,具有学科跨度大、协同创新程度高等特点,在盲文研究领域具有重大意义。
一是填补了盲文语料库的国际空白。汉语盲文语料库首次揭示了多维度盲文统计特征,包括:标调率、标调一致性、分词连写一致性、平均词长、字均方数、方均点数、一形多词、一词多形,一语多分等一大批以前未知的重要数据,建立了盲文—汉字—拼音之间多层次、富内容关联的全息存储模式,是世界首例规模较大的6层精标注盲文语料库,填补了国内、国际盲文语料库的空白。
二是推进了盲文规范化和信息化进程。汉语盲文语料库是特殊标调的汉语注音语料库,是对我国汉语拼音语料库的一个有益补充,也是首个采用特殊分词连写的汉语语料库。盲文原始的分词连写得以保留,将大于汉语词的连写单位按照内部语法结构标注词性,揭示了其构成成分;将小于汉语词的分写语素缀合成词标注词性,揭示了其整体的语法特征。对语料库中真实的盲文语言材料进行观察、比较,在统计分析的基础上得出盲文运用的概率信息,为盲文规范化提供了基础数据平台。基于大量盲文语料,制定了《国家通用盲文方案》并经国家语委规范标准审定委员会审定,由教育部、国家语委、中国残联发布实施,解决了几十年来盲文读音不准的问题,实现了盲文由“猜”到“读”的转变,是盲文规范化继往开来的里程碑,进一步推进了盲文规范化的进程。同时,汉语盲文语料库还具备了转写为国家通用盲文语料库的基础。汉语盲文语料库规模大、设计合理、标注精细,可为汉盲双向翻译、盲文自动校对等技术的研发提供关键性的数据支持,并成为本领域重要的基础资源,对相关技术的发展产生深远影响。以汉语盲文语料库部分精标注语料为基础,基于人工智能和机器学习技术的汉语盲文双向翻译实践,充分体现了大规模精标注语料库在盲文计算机处理中的优越性和重要性,对盲文信息化进程起到了推动作用。
三是占领了盲文研究的国际制高点。汉语盲文语料库为汉语盲文研究带来一个强有力的工具及大规模基础数据,能够为全面分析汉语盲文的词汇、标调、触觉品质等提供检索及统计等多项功能[5]。因为布莱尔6点盲文符号的基本结构国际通用,触觉信息不涉及盲文字符含义,汉语盲文语料库的触觉品质功能可以跨语种通用,能够进行跨语种盲文触觉品质的定量研究与评价[6]。现阶段国际上其他盲文研究还停留在内省法和诱导法的阶段,我国将引领盲文研究从抽象转向实用,使之达到国际领先水平。
四是增进了盲人群体的语言文字权益。汉语盲文语料库建设投入了大量人力和技术,克服了重重困难,盲文语料库多层标注数据是盲文理论研究和实践研究的宝贵资源,让广大盲人切实感受到了国家对盲人语言文字权益的高度重视。语料库展现出了盲文在分词连写的一致性、成语分写、连续零散单音节等方面存在的突出问题,为盲文规范化研究指明了方向。此外,汉语盲文语料库为盲文词典编纂提供了坚实的基础,对提升词典的文化担当及社会责任有重要意义。
3.2 未来研究展望
一是轻声符号的探索。汉语盲文语料库建设是在现行盲文轻声没有符号的主背景下进行的,轻声与现行盲文不标调同形。在语料库建设后期(2018年)发布的《国家通用盲文方案》中,轻声与通用盲文省写同形,轻声有了特殊地位,但语料库建设方案已经来不及调整,没有为轻声设计标注符号[7]。轻声造成的混淆问题较少,但是在后续研究中还需继续探索轻声符号的处理问题,减少或避免盲文语料中的读音混淆问题。
二是盲文分词连写规则需要修订。为了保持语料库的中立,忠实呈现盲文语料的原始状态,在语料库建设中只对分词连写笔误进行了最小限度的修改。在汉语盲文语料库中存在盲文分词连写问题多、一致性差、语义逻辑被打破的现象,零散的单音节大量存在。有的分法误导读者,有的规则没有被执行,也有的是规则本身存在问题[8]。分词连写不一致是盲文规范化的拦路虎,是盲文信息化的绊脚石,迫切需要对盲文分词连写规则进行本体研究和可操作性研究。
三是汉语关键节点需要分词。汉语中一直缺少表示逻辑停顿的空格,尤其是在专有名词和歧义字段等关键节点上[9]。人名、地名复杂多变,特别是两端的字与相邻字可组成常用词时,更难以区分。关键节点分词(借鉴盲文的空格)是有效的解决办法[10]。关键节点分词有利于信息处理突破歧义字段、地名、人名等瓶颈,关键节点加空格后,对网络搜索、机器翻译(盲文翻译)等计算机自然语言处理将起到至关重要的作用;关键节点分词还有利于为学生减负,例如:“我国的煤都是XXX”,需要防范“都是”这个陷阱,只需在“都”和“是”之间加一个空格,学生就不会答成“黑的”,为学生减去不应有的负担;关键节点分词能够降低阅读难度,将精力聚焦于内部理解,而不是表层切分。此举对普通读者有利,对听力障碍、智力障碍、孤独症和阅读困难等特殊群体更有利,同时,也有利于对外汉语教学,有利于促进汉语国际化。
四是消极残疾用语需要警示。汉语盲文语料库中发现“瞎子”12次、“聋子”4次、“哑巴”5次、“残废”5次、“傻瓜”23次,这些强烈伤害残疾人情感的消极词语被当作普通词语使用,许多残疾用语还保留着污名化痕迹。社会大众无从知晓“瞎”不等于盲的消极内涵,这需要辞书补位,将其消极内涵予以明确警示[11]。
五是外来字母词需要消化。汉语盲文使用布莱尔符号拼写汉语音节,外来字母词的危害非常显著。中外文都使用布莱尔6点符号,外形上无差别,汉字与外来字母混排是盲文摸读的陷阱[12]。英语盲文的大写号与汉语盲文的黑体号相同,是盲文信息化的绊脚石。盲人读到外文字母会突然停顿,再改用外文的方式重读。汉英混排给盲文造成很大混乱,盲文语料库需要中英文两套盲文标点符号。外来字母词对盲文造成了严重冲击,盲文已经发出了预警。尽管汉字不像盲文那么脆弱,但也必须积极应对国际文化交流带来的挑战。对外来字母词进行消化、吸收、规范,保持汉语的规范与纯洁,既有利于汉语盲文阅读,更能筑牢文化自信建设的根基。