辽宁普通话有声数据库的建设构想
2019-06-17徐今
徐 今
大连理工大学,辽宁 大连 116024
一、地方普通话有声数据库建设现状
地方普通话是方言区的人们在学习与使用标准普通话的过程中,受方言影响而形成的带有不同程度方言色彩的普通话,表现出中介语的特点,过去也叫作“蓝青官话”。地方普通话在当前跨地区交际中发挥着重要作用,全国范围内绝大多数人说的都是地方普通话。了解地方普通话的状况,探索地方普通话由低级向高级的发展规律,总结地方普通话的“板结”特点,对于推广普通话、研究语言学习规律等都具有重要意义。[1]
近些年,地方普通话的研究已然成为汉语研究一个新的增长点,但成果还远远不够。我们认为,地方普通话的研究应该充分重视地方普通话有声数据库的建设,它可为地方普通话的本体研究提供丰富的原始数据,并实现地方普通话的长效保存。
中国语言资源有声数据库在国家语委的筹划组织下于2008年开始建设,这是国家语委的重大建设项目。该项目将地方普通话列为主要调研对象之一,体现了国家对地方普通话的重视。项目旨在将中国各县域的语言实态记录下来,归档建库,永久保存,这一庞大工程目前正在各省陆续展开。地方普通话的调查内容是:1.用普通话讲述规定故事《牛郎织女》;2.用普通话朗读两篇短文《诚实与信任》与《大学生村官》。地方普通话分库相对于重点建设的方言库而言,明显居于次要地位。方言分库包括字库、词库、句库、话语库等多个子库,地方普通话分库则只有一个话语库,且所调查的内容是限定内容。方言库的话语库所调查的则是开放内容:一是任选话题进行讲述,每人共20分钟;二是任选话题进行对话,共20分钟。地方普通话分库无论在子库种类、内容存量上均和方言库有明显差异,反映出我国地方普通话有声数据库处于初步建设阶段。
2015年,教育部和国家语委在国家财政的支持下,开始实施中国语言资源保护工程,这是一项大型的语言文化类国家工程,计划5年时间完成。“语保工程”是2008年的中国语言资源有声数据库建设工作的延续、扩充和提升。[2]然而,“语保工程”在地方普通话的调研上,与2018年的方案相比没有变化,依然是整个建设工程中不被重视的部分。
二、辽宁普通话有声数据库建库目的
辽宁普通话有声数据库的建库目的有三:其一,旨在“保存”。记录和保存地方普通话是方言保存的一种特殊形式,是对单纯的方言保存工作的有机补充。
其二,旨在“研究”,地方普通话是方言向标准普通话过渡的一种中介语形式,中介语研究无论对于源语研究还是目的语研究均有积极意义。
其三,旨在“展示”,为其他省份的人以及辽宁地区的外国留学生了解和熟悉辽宁普通话提供有声材料。
这一建库目的区别于国家语保工程的“保存”目的,因此,辽宁普通话有声数据库的建库设计,将在参考国家语保工程的基础上有些针对性的调整,主要体现在数据采集和数据处理两个方面。
三、辽宁普通话有声数据库数据采集
(一)调查地点
根据杨春宇的相关研究[3],辽宁境内方言可分为五个片区:朝峰片、辽西片、辽东片、盖桓片和登连片。片区内每个市、县设立一个调查点。
片区朝峰片辽西片确定标准中古疑母、影母字是否与泥母相混,是否带鼻化音中古精组字与知庄章组字是否相混、庄组字是否多于普通话辽东片中古精组字与知庄章组字是否相混、精组字是否多于普通话盖桓片包含的市县凌源市、建平县、喀左县、朝阳县、朝阳市、北票市建昌县、绥中县、兴城市、葫芦岛市、锦州市、凌海市;义县、北宁市、黑山县、阜新市、阜新县、彰武县、台安县、盘山县、盘锦市、大洼县康平县、法库县、昌图县、开原市、调兵山市、铁岭县、铁岭市、西丰县、沈阳市、辽中县、新民市;辽阳市、灯塔市、辽阳县、鞍山市、海城市、抚顺市、抚顺县、清原县、新宾县、本溪市、本溪县、凤城市营口市、大石桥市、盖州市、岫岩县、桓仁县、丹东市、东港市登连片调类多少与平声调值的实际读音,古清入声母的今读上声,日母的有无等调类的多少与平声调值的实际读音,古清入声母的今读上声,日母的有无等大连市、长海县、宽甸县、瓦房店市、普兰店市、庄河市
(二)调查对象
每个调查点选择2名地方普通话发音人,2名发音人的普通话水平均为二乙(即80-86.9)。不选择普通话水平为二甲的发音人,二甲等级的普通话是比较标准的普通话,已经不适宜看成方言向普通话的过渡态了。也不选择普通话水平在二乙以下的发音人,主要考虑有二:一是因为国家语保工程对这部分地方普通话发音人进行了调查,国家语保工程在每个调查点选择3名地方普通话发音人,1名发音人的普通话水平是三甲,另2名发音人的普通话水平不入级。选择普通话水平是二乙的发音人,正好构成对国家语保工程调研的有机补充。二是辽宁地区的方言主要是北方方言、东北方言和胶辽官话,和普通话的差异并不显著,换句话说,辽宁人的整体普通话水平高于全国平均水平。因此,我们对辽宁普通话发音人的普通话水平的择定等级略高于国家统一标准。
(三)调查内容
1.概况:包括调查点概况、发音人情况、调查人情况、调查情况。
2.语音:发音人念读《中国语言资源调查手册·汉语方言》[4]调查表中针对音系调查的字,调查人描写记录,整理出地方普通话的声韵调系统。
3.字:发音人念读调查表中的1000个单字。
4.词汇:发音人念读调查表中的1200个词汇。
5.朗读:发音人朗读短文《诚实与信任》和《大学生村官》。
6.讲述:
(1)发音人讲述规定故事《牛郎织女》。发音人提前熟悉故事内容,用普通话把故事的意思自然地讲述出来,内容可发挥,篇幅可加长。讲述时不允许看文本。
(2)发音人从给定的7个话题(当地情况、风俗习惯、传统节日、个人经历、工作情况、业余爱好、家庭情况)当中选择某几个话题进行讲述。发音人提前熟悉讲述的话题,用普通话自然地讲述,越具体越详细越好,不少于20分钟。
(3)对话。2位发音人自由对话,不少于20分钟。
(四)调查方法
采用“音像图文”四位一体的调查方法。
1.录音
(1)场所:安静的房间,语音数据信噪在-48d b以下。
(2)器材:运行噪音低的电脑,例如联想Think-PadX、T系列(2G以上内存,USB2.0以上接口,Windows XP、Windows7或Windows8操作系统)。使用SAMSON C03U话筒(心形指向、全指向可调,话筒内带声卡)和奥创Alctron MA016防喷罩。
(3)录音软件:使用byly(北语录音)或YBSL(语保摄录机),YBSL可设置为仅录音。这两款软件可对调查条目逐条录音,录音时同步显示波形,自动逐条保存并命名录音文件。语保摄录机还具备自动录音、语音质量检测、信息标记、图片关联等功能。
(4)录音参数:单声道;采样率为44100HZ;采样精度为16bit;音频格式为windows PCM(.WAV)。byly和YBSL已设置以上参数为默认值。
2.摄像
(1)器材:使用索尼、佳能、松下等一线品牌的全高清数码摄像机,配套有线或无线话筒及三脚架。使用一线品牌计算机,例如联想(含Thinkpad和Lenovo)、戴尔(Dell)等,配置酷睿i7以上的非低电压版CPU,DDR3 4G以上内存,转速7200转以上硬盘(最好是固态硬盘),USB接口不少于3个。
(2)摄像要求:镜头对准发音人的上半身,话筒放在发音人前方的适当位置或夹在领口。尽量用最远拍摄模式拍摄,不使用变焦(拉近放大)功能。如果必须变焦,只能使用光学变焦,不能使用数码变焦。发音人的背景应整齐干净平整,颜色不要太暗,使用纯蓝色背景。背景布上不要有明显的阴影。发音人的脸部正对镜头,不要背光,脸部不要有阴影。
(3)摄像方式:使用YBSL。YBSL具备录音和视频同步采集功能,能按条目对录音和视频文件进行自动切分、命名和存储。
(4)视频文件:一律选择摄像机的最高画质、采用全高清模式拍摄,视频文件参数不低于1920×1080/50i(或 25p)/15000kbps。格式视摄像设备而定,例如:m2ts,mpg。
3.照相
(1)照相内容:包括发音人像、调查工作场景和具有地方特色的事物和现象。
(2)照相器材:最好使用佳能、尼康等一线品牌1200万以上像素的数码单反相机。
(3)照片文件:选择相机的最高画质模式(最高分辨率和精细度)拍照,采用*jpg格式,分辨率最好不低于4368×2912像素。
四、辽宁普通话有声数据库数据处理
(一)音频处理
音频处理主要包括噪音消除和语音切分两个环节。为使原始声音干净、清晰,需要进行降噪处理,降噪处理可利用音频处理软件Audacity来实现。语音切分主要是针对话题讲述和自由对话的音频而言的,我们拟将这类话语切分为小句,每个小句对应一段音频,音频按一定的序列排列,这可为辽宁普通话的观测及语言研究带来极大的便利。切音工作可由机器进行,人工校正。我们经过前期的寻找、对比、测试,发现软件Aboboo有着强大的音频自动分句的功能,在录音效果较好的情况下,初次断句的准确率不低于人工。
(二)语音转写
话题讲述和自由对话的语音数据均需转写为文字。软件Aboboo虽有强大的切音能力,却不具备转写功能。我们对包括讯飞公司在内的一些国内生产的自动语音转写工具进行了测试,发现机器对语音的识别转写率随着发音人口音的加重而大幅降低,本项目的输入语言是带口音的非标准普通话,机器仅能起到有限的辅助作用,主要还是依靠人工来完成语音转写。
五、余论
本项目拟建的辽宁普通话有声数据库将建设为向公众开放的数据库。项目组会对相关语言材料进行后期整理,包括规范文件名、文件归档、校对等。然后购买域名和服务器,前端设计网页,后端接数据库。最后内部运行测试,合格稳定后向公众开放使用。