汉语盲文语料库语料采集研究
2016-11-18钟经华徐洪妹
钟经华,朱 琳,高 旭,徐洪妹
(1. 北京联合大学 特殊教育学院, 北京 100075; 2. 中国盲文出版社,北京 100165;3. 上海盲童学校,上海 200336)
汉语盲文语料库语料采集研究
钟经华1,朱 琳1,高 旭2,徐洪妹3
(1. 北京联合大学 特殊教育学院, 北京 100075; 2. 中国盲文出版社,北京 100165;3. 上海盲童学校,上海 200336)
盲文语料库建设在国内外还没有先例。为了建设多功能、综合性的汉语盲文语料库,通过对现行盲文颁布60多年来的盲文出版物语料、非出版物语料以及盲人语料的采集,力图涵盖盲文使用的全貌。从语料调查、语料筛选、语料采集流程几个方面阐述了盲文语料库语料采集的主要内容,并指出语料采集的重点难点问题及应对策略。
盲文; 语料库; 采集
0 引言
汉语语料库的建设始于20世纪七、八十年代,30多年来,取得了丰硕成果,汉语语料库已成为汉语研究、汉语教学、语言信息处理不可或缺的基础性资源。近年来,小语种语料库建设也如火如荼地展开。2012、2013连续两年,国家社科基金开创先河,先后部署了“基于汉语和部分少数民族语言的手语语料库建设研究”和“汉语盲文语料库建设研究”两个重大项目,体现了国家对残疾人语言文字基础工程的高度重视。汉语盲文语料库建设将在国际上填补盲文语料库的空白。
由于我国大陆使用的现行盲文存在独特的分词连写和标调规则,使其不同于明眼人使用的汉语拼音,现行盲文基本具备了独立的文字地位。因此汉语盲文研究无法直接使用汉语明眼文语料库,需要建设专门的盲文语料库。汉语盲文语料库是具有鲜明特色的汉语语料库,是汉语语料库大家庭的重要成员之一。[1]
语料库在建设过程中应充分考虑语言使用的多样性,应广泛抽取语料,尽量使所收集的语料能在统计上代表各种类型真实语言的使用面貌。[2]语料采集是语料库建设的第一步,是决定语料库的平衡性和代表性的关键因素,关系到语料库的总体质量和应用价值。汉语盲文语料库建设的目标是建成包含1 000万方盲文,具有较高的平衡性和代表性,多层信息标注,在盲文领域通用性好的盲文—拼音—汉字对照的专门型语料库。[3]为保证盲文语料库的建设规模,语料采集数量应当增加10%左右的冗余,因此语料采集总规模应超过1 100万方盲文。
2 盲文语料调查
汉语盲文语料库的样本应包括自现行盲文颁布60多年来的盲文出版物、非出版物及盲人语料,要尽可能涵盖盲文使用的全貌。语料采集之前需要对盲文语料的种类、分布做全面详实的调查。由于盲文语料的特殊性,调查过程应分为出版物盲文语料、非出版物语料以及盲人语料三大类逐一展开。
2.1 出版物盲文语料调查
盲文出版是中国出版业的盲区[4],盲文出版物的品种和数量都不足,盲文出版物发行渠道不畅[5]。汉语图书只有极少部分被翻译成盲文。盲文出版机构少,中国大陆的盲文出版物仅来自中国盲文出版社、上海盲校盲文印刷厂。对这两家单位的盲文出版情况进行调研,可以获得盲文出版物的第一手资料。
根据《中国盲文出版社出版物分类统计目录》,自1953年现行盲文颁布至2015年底,中国盲文出版社翻译出版的盲文读物有5 217种,除少量无法归类的图书外,各类别盲文出版物占盲文总出版物的比例如下:文学类和医药卫生类的图书品种最多,分别占25.1%和21%,政治类占12.9%,文教体育和教材教辅各占12%,历史地理占5.5%,科技、法律、哲学所占比例较小,依次是3.4%、3.2%、3%。中国盲文出版社出版的盲文图书中,医药卫生类图书所占比例较大,反映了盲人集中从事中医按摩的职业现象。而自然科学读物的比例较小,与盲文表达图表、公式的局限有关。
上海盲校盲文印刷厂一直为全国盲校制作义务教育盲文教材及练习册,因此义务教育的课程设置及学生数量决定了盲文印刷厂出版的教材种类和数量。2015学年上海盲校盲文印刷厂发行盲文教材及练习册112种,共计7万余册。在教材语料采集中,为了提高盲文语料库的平衡性和代表性,根据学科特点进行筛选,比如英语、音乐两门学科中汉语盲文的比重特别小,不予采集。数理化学科的盲文教材包含大量公式、表格、化学方程式等与标调、分词连写无关的内容,采集时要尽量回避。
2.2 非出版物盲文语料和盲人语料调查
非出版物语料是指经过校对、有批量复本的盲文语料。主要包括较大规模的、设有资源中心的盲校(特殊教育学院)制作的盲文试卷、讲义、教材等,也包括盲人福利厂和大型按摩院的规章制度、业务培训等盲文资料。这些语料能够反映盲文的实际使用情况,为研究非专业出版人员翻译制作的汉语盲文提供第一手资料。
盲人语料是完成义务教育且使用盲文3年以上的盲人自然书写、未经校对、没有复本、供他人阅读的盲文语料。例如:答卷、作文、投稿等。通过盲人语料考察盲人的词汇搭配,主要是分词连写、标调等情况;考察不同方言区盲人标调的情况。盲人写给自己的盲文资料,如笔记、日记等,一方面可能存在隐私问题,另一方面可能包含自己的简写、速记符号,他人的可读性差,甚至无法机读,因此盲人自读的盲文语料不在采集范围内。
非出版物语料和盲人语料需要进行田野调查、访谈,调研语料的存放地,明眼文原文是否保存完好,以及是否有电子版等相关信息。
3 汉语盲文语料库的平衡性
盲文语料的平衡性和样本的代表性,关系到盲文语料库建设的科学性、学术性和应用价值。汉语盲文语料库参考国家语委现代汉语语料库的选材原则,将时间、学科、媒体作为3个平衡因子[6],并根据出版物、非出版物和盲人语料的不同类别有所调整。
3.1 正式出版物语料的平衡性
正式出版物盲文语料的时间分布:以上世纪五十年代现行盲文方案出台为起点,按照盲文出版中重要事件为节点划分,大致分3个时间段:第一阶段(1953—1982年)盲文分词连写规则形成;第二阶段(1983—1995年)盲文分词连写规则成熟;第三阶段(1996—2017年)盲文国家标准颁布、盲文活字印刷开始。
盲文由于阅读对象的特殊性导致出版物的学科分布也具有鲜明特色。盲文语料学科分类参考了国家图书馆分类目录和国家语委现代汉语语料库的分类[6],简化为:政治、文学、文科综合、医学、理科综合和其他六大类。由于盲文出版物中文学(25.1%)和医学(21%)所占比例特别大,使其独立成类,不隶属于文科综合和理科综合。
盲文出版物的媒体形式主要有教材、图书、期刊3种。其中图书的比例最大;在教材方面,义务教育阶段的盲文教材是上海盲校盲文印刷厂的优势领域,高中以上教材教辅以中国盲文出版社为主;盲文期刊比例很小,繁荣时有十多种,目前除《盲人月刊》外,多数已经停刊。
3.2 非正式出版物及盲人语料的平衡性
非正式出版物及盲人语料的平衡性面临很多挑战。由于非正式出版物及盲人语料保存的特殊困难,历时平衡难以达到理想状态,很难确定平衡因子。尤其是社会成年盲人的语料,能够收集到就很困难,共时平衡难度很大。在可能的情况下,减少对语料富裕地区的采集,对语料贫乏地区却无能为力,只能追求盲人语料的相对平衡性和代表性。
4 盲文语料库的采集原则
为提高语料库样本的代表性,使盲文语料尽量反映1953年现行盲文方案实施以来汉语盲文实际使用的全貌,语料样本的采集要遵循以下原则。
4.1 近期为主、早期为辅的原则
近期为主是语料库采集的通行原则,体现了语料库建设立足现在、兼顾过去、面向未来的根本宗旨。汉语盲文语料库采集的主体是1996年以后的语料(盲文国家标准颁行后)约占70%,早期语料不等比例递减。
4.2 正式出版物为主、其他语料为辅的原则
语料样本的选取以正式出版物为主、其他语料为辅。正式出版物占85%左右,非出版物和盲人语料占15%左右。正式出版物语料的选取以图书、教材为主,期刊杂志为辅。图书以中国盲文出版社为主,教材以上海盲文印刷厂为主。非出版物语料的选取以盲校(试题、讲义、校本教材)为主,高校、盲人按摩院等其他单位为辅。盲人语料以在校高中以上盲生为主,社会盲人为辅。
4.3 现实可能为主、理论完备为辅的原则
非出版物和盲人语料的收集无法按照理想的理论模型去实现,只能在现实允许的前提下,力求达到理论上的完备。比如盲人语料采集的时间维度很难按照理论模型执行。很少有盲生长期保留作文本,因此只能在现实条件下,尽量提高盲文语料的代表性。
5 语料样本采集
盲文语料库的语料采集包括元数据采集、盲文出版物语料采集和汉语原文语料采集、非出版物盲文语料采集、盲人语料采集等。
5.1 元数据采集
正式出版物盲文语料元数据的采集参照“信息技术元数据的规范与标准化”系列6个国家标准[7],对语料类别、样本名称、作者信息、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、样本、起止页数、样本字数、样本总数等篇头元数据进行采集。
非出版物盲文语料元数据采集参照出版物执行,简化掉不适合的项目。语料生成单位相当于出版者,编著者可以空缺,语料类别主要分为试卷、讲义、教材、公文等。
盲人语料的元数据包括作者姓名(可以化名)、地域、语料形成时间,以及语料形成时作者的年龄、学历、职业等,语料类别主要包括答卷、作文、投稿等。
5.2 盲文出版物语料采集
盲文出版物语料采集包括盲文语料和汉语原文语料两部分语料的采集。二者的采集流程基本一致。
5.2.1 盲文语料采集
1995年以前,大陆一直采用雕版(非活字)盲文印刷工艺,没有电子版盲文,这部分盲文需要通过扫描转换(或人工录入)为电子版再进行采集。1995年以后,中国盲文出版社、上海盲校盲文印刷厂先后引入了盲文电子制版系统,为高效采集盲文语料提供了便捷条件。盲文语料采集由中国盲文出版社和上海盲校盲文印刷厂两家盲文出版单位的采集子课题成员负责,就地采集各自单位的盲文出版物语料,具体采集流程如图1所示。
5.2.2 汉语原文语料采集
我国盲人作者的盲文稿成书出版的比例很小,盲文出版物绝大多数是由汉语出版物翻译而来。翻译过程基本上是对照汉语原文直接手工录入盲文符号,而不是由计算机自动生成。凡是由汉语原文翻译成盲文的,都要采集汉语原文。由于盲文出版单位很少保有汉语原文的电子版,汉语原文的采集对象主要是纸质版语料,其采集流程与盲文语料的采集流程基本一致。
5.3 非出版物盲文语料采集
一般语料库通常不采集非出版物语料。由于盲文正式出版物的数量极少,来源只有两个盲文出版单位。由于盲文的特殊性,很难建设更多专项的盲文语料库。汉语盲文语料库作为综合性多功能的盲文语料库,应尽可能反映我国盲文使用状况的全貌,语料类型应尽可能丰富。
对较大规模的盲校(特殊教育学院)、盲人按摩院、盲人协会等单位进行动员,宣传盲文语料库建设对盲人文化发展、盲文研究、盲文教学、盲文信息化的意义,号召他们将其保有的盲文语料贡献给盲文语料库(原件返还)。具体采集过程由采集子课题组完成。
非出版物语料采集的关键是发现各方言区盲校、盲协、盲人按摩院的语料来源,因为语料的总量少、变体少,采集难度相对较小。
5.4 盲人语料采集
盲人语料的采集是了解盲人语言生活状况不可或缺的重要方面。盲人语料不能随机抽样,必须
经过评估达到筛选的基本标准才能采集。首先对盲人语料进行外观初筛,对过于零散或保存不善无法辨识的直接淘汰,对符合外观标准的盲人语料进行复核和修校。修校盲人语料是一项棘手的工作,既要保持盲人语料的原貌,又要修校笔误、因保存原因造成的丢点现象,以便更真实地反映盲人写作的实际。盲人语料的评估筛选要把握好尺度,尽量做到宽严适度,标准放的过宽会造成后期标注加工困难,标准把握过严又会造成大量语料流失。如果经过修校还无法机读的语料,要进行二次淘汰。
盲人语料的采集对象包括在校盲生和社会盲人。在校盲生分布在各个学校,语料采集较容易,而社会盲人比较分散,语料采集难度较大。社会盲人语料采集主要依靠各级盲人协会,采用滚雪球抽样的方式进行,具体采集流程如图2所示。
盲人语料的采集对记录盲文的发展变化、盲文的实际使用状况有很高的价值,有助于研究不同阶段盲人的标调情况,分词连写情况(盲校没有分词连写的教学内容),研究普通盲人对盲文国家标准的执行情况,研究盲人语料、出版物、非出版物语料三者之间的差异。
采集盲人鲜活的语言进入盲文语料库,将盲人语料纳入盲文本体研究是盲文语料库建设的一个创新之处。
[1] 钟经华,肖航,韩萍,等.汉语盲文的升级之路[J].中国特殊教育,2014(10):46-50.
[2] Biber D. Representativeness in Corpus Design[J].Literary and Linguistics Computing,1993(6):37-45.
[3] 肖航,钟经华.汉语盲文语料库建设方案[J].语言文字应用,2015(8):109-118.
[4] 侯夷. 盲文出版物——中国出版业的盲区[J]. 中国出版,2005(11):30-32.
[5] 张映娣,张小慰.我国盲文读物出版及使用回顾与思考[J].中国出版,2006(3):21-23.
[6] 刘连元. 现代汉语语料库研制[J].语言文字应用,1996(3):2-9.
[7] 中华人民共和国国家质量监督检验检疫总局.GB/T 18391.1-2009信息技术元数据注册系统(MDR)[S]. 北京:中国标准出版社,2009.
(责任编辑 柴 智)
Study on Linguistic Material Collection of the Chinese Braille Corpus
ZHONG Jing-hua1,ZHU Lin1,GAO Xu2,XU Hong-mei3
(1.Special Education College, Beijing Union University, Beijing 10075, China; 2. China Braille Press, Beijing 100165, China; 3. Shanghai School for the Blind, Shanghai 200336, China)
The construction of Braille corpus is the first at home and abroad. We try to build a corpus of Chinese Braille multi-functional and comprehensive, which covering the whole using Braille. We studies word corpus of Braille publication, informal Braille publication and word corpus of the Blind since the promulgation of the current Chinese Braille. This paper explains linguistic material collection in terms of material investigation、selection and collection,and points out important and difficult issues in linguistic material collection process.
Braille; Corpus; Linguistic Material Collection
10.16255/j.cnki.ldxbz.2016.04.014
2016-07-11
国家社科基金重大项目“汉语盲文语料库建设研究”(13&ZD187)。
钟经华(1962—),男,山东昌乐人,北京联合大学特殊教育学院教授,主要研究方向为盲人教育及盲文研究。E-mail:zhongjinghua@buu.edu.cn
H 126.2
A
1005- 0310(2016)04- 0078- 05