中国濒危语言有声语档数据规则
2016-02-19范俊军
范俊军
(暨南大学 文学院,广东 广州 510632)
中国濒危语言有声语档数据规则
范俊军
(暨南大学 文学院,广东 广州 510632)
中国濒危语言有声语档数据规则分五个部分:一、濒危语言的语档数据构成;二、语档数据文件格式;三、语档音像数据质量标准;四、语料采录和数据处理工具;五、音像语料采录环境和设备匹配建议。该规范适用于中国濒危语言的记录和建档,也可作为中国语言田野调查记录和语料处理的参考准则。
濒危语言;语档;数据规范
濒危语言有声语档是以音频文件及其转写文件为数据主体的濒危语言口语资料集。本文定义了濒危语言语档的数据构成、语料数据质量标准、语料采录的环境和设备匹配规范,适用于中国濒危语言的记录和建档,也可作为中国语言田野调查记录和语料处理的参考准则。*本文内容曾在“中国濒危语言有声资源采录与立档技术高级讲习班”暨南二期(2014年)、暨南三期(2015年)上讲解并征求学员意见,此次公开发表希望能更广泛征求意见。技术部分承蒙广东得胜电子有限公司周雨程和有关技术人员提出建议。在此一并致谢。
一、濒危语言的语档数据构成
濒危语言有声语档由媒体数据、转写数据、描写数据、元数据等四类数据构成。此外,也可包括多模态数据。媒体数据是以音频文件、视频文件、图形文件记录和存储的语言音像资料。转写数据是音频和视频的同步转写标注文本。描写数据是描写语言特点和相关知识的文字资料。元数据是标识濒危语言语档资源的标签数据。多模态数据是对语音和言语行为多学科测定和分析而获得的数据。
每类数据设必备项和可选项。必备项是语档的必备数据。可选项为非必需数据,以“可选”注明。适用于特定语言的数据项,加括号说明。
(一)媒体数据
媒体数据内容项包括基本录音资料和话语录音资料。基本录音主要是基本的字、词、句发音录音资料。话语录音主要是濒危语言社区日常生活中的个人口述和情景对话音像资料。这些音像资料应适应语言学习和语言恢复的需要。
1. 基本录音
a. 声母、韵母、声调例字或例词发音(适用于声调语言)
b. 元音、辅音例词发音(适用于非声调语言)c. 连读变调例词发音(适用于声调语言)
d. 重音、弱读、元音和谐等重要语音特点例词发音(适用于非声调语言)
e. 约2500个常用字读音(适用于汉语方言)f. 约3000个常用词读音
g. 约600个常用句读音h. 约100个常用句型例句读音
i. 上述a~d全程录音或全景摄像j. 上述a~d发音人面部摄像(可选)
2. 话语录音
话语指自然口语,分为个人口述、对话、游戏娱乐话语、歌唱话语、表演话语、民俗宗教礼仪话语等六类体裁。话语体裁设必备体裁和可选体裁,必备体裁涵盖濒危语言现存主要口语形式,是语档必需的话语体裁。可选体裁(如民歌、演唱等),在有的语言中可能不复存在,因而不作要求。每类体裁拟定若干话题。必备体裁每个话题录音时长应不少于20分钟。
(1)个人口述
a. 介绍本地农业生产和耕作知识经验b. 介绍本地畜牧和狩猎知识经验
c. 介绍本地器具制作工艺和流程d. 介绍本地食品制作程序和方法
e. 本地小集会或会议报告或发言f. 本地口传历史故事或口传文学
g. 本地社会生活近年发生的大事件h. 个人生活经历或亲身经历的事件
(2)对话
a. 室内座谈、采访或聊天b. 室外各种情景对话
(3)游戏娱乐(可选)
a. 童谣和游戏情景话语b. 谜语、玩笑
(4)歌唱(可选)
a. 独唱b. 对唱、合唱或轮唱c. 歌舞
(5)戏剧和表演(可选)
(6)民俗宗教礼仪
a. 节庆活动正式话语和自由言谈b. 民俗和宗教仪式的俗话、套话
c. 行话、暗语、秘密语(可选)d. 魔语、咒语、鬼语和其他神祗言语(可选)
(二)转写数据
转写濒危语言录音录像资料所用到的文字符号,包括汉字、国际音标、少数民族文字和其他符号。濒危语言音像资料应有国际音标注音、中文翻译和解释说明,能够确保够永久阅读和理解。转写数据包括基本录音转写和话语录音转写。
1. 基本录音转写
(1)少数民族濒危语言
a. 声母、韵母、声调列表、例词音标注音、中文对译、发音说明(适用于声调语言)
c. 元音和辅音列表、例词音标注音、发音说明(适用于非声调语言)
d. 其他重要语音特点列表和例词
e. 约3000个常用词音标注音、中文对译、意译、释义
f. 约600个日常用句音标注音、中文逐词对译、中文意译、语法标记
g. 约100个常用句型例句音标注音、中文逐词对译、中文意译、语法标记
h. 罗马字母拼音方案(可选)
i. 约3000个常用词罗马拼音转写或民族文字转写(可选)
j. 约600个日常用句罗马拼音转写或民族文字转写(可选)
100例患者中94例患者均抢救成功,通过有效治疗后好转或痊愈出院,有效率占94.00%。其余6例患者通过综合会诊后紧急转入上级医院诊治。
k. 约100个常用句型例句罗马拼音转写或民族文字转写(可选)
(2)濒危汉语方言
a. 声母、韵母、声调列表、例字、音标注音和发音说明
b. 连读变调例词、音标注音和变调规律描述
c. 约2500个常用字的音标注音
d. 约3000个常用词的方言字转写、音标注音和某些必要的注释说明,其中200个最常用词的详细释义
e. 约600个日常用句的音标注音、方言字转写、普通话意译
f. 约100个常用句型例句的音标注音、方言字转写、普通话意译、语法标注
g. 罗马字母拼音方案(可选)
h. 约2500个常用字拼音注音(可选)
i. 约3000个常用词语拼音转写(可选)
j. 常用词用法例句(可选)
2. 话语录音转写
(1)少数民族濒危语言
a. 音标注音b. 普通话逐词对译
c. 普通话逐句意译d. 非言语声音标记
e. 语法现象标记f. 罗马字母拼音转写或民族文字转写(可选)
g. 地方通用语逐词对译*地方通用语常常是省内通用的汉语方言。(可选)h. 地方通用语逐句意译(可选)
i. 言语行为或其他多模态标记(可选)
(2)濒危汉语方言
a. 方言字转写b. 音标注音
c. 普通话逐句翻译d. 罗马字母拼音转写(可选)
e. 非言语声音标记f. 语法现象标记
g. 言语行为或其他多模态标记(可选)
(三)描写数据
对一种濒危语言的描写,应包括基本状况概述和语言特点描写。
1. 濒危语言基本状况概述
(1)语言名称
a. 正名b. 别名c. ISO639-3标准代码
(2)语言系属
a. 语系b. 语族和语支
(3)方言
a. 方言土话分布(可选)b. 方言互通程度(可选)
(4)县内人口
a. 语言所在地全县总人口b. 各民族人口及乡镇分布
c. 各语言或方言的乡镇分布及使用人口
(5)乡镇和调查点人口
a. 乡镇总人口,各语言或方言人口及村组分布b. 调查点濒危语言群体人口
c. 调查点濒危语言使用人口d. 调查点濒危语言群体单语和双语人口
e. 濒危语言境外分布状况(可选)
(6)语言地位和使用范围
a. 濒危语言是否法定少数民族的语言b. 濒危语言所在县市的通用语言
c. 濒危语言所在乡镇的通用语言d. 濒危语言族群内部使用的语言
e. 濒危语言社区家庭使用的语言f. 与相邻其他族群交流使用的语言
(7)语言与民俗宗教
a. 语言族群宗教信仰(可选)b. 宗教活动使用的语言(可选)
c. 民俗活动使用的语言d. 法师道士等神职人员使用的语言
(8)语言态度
a. 积极/中性/消极b. 不同年龄、性别、职业和教育人群的语言态度
(9)语言发展(可选)
a. 乡村中小幼教学语言和校园语言b. 中小幼语言课程
c. 族群社区语言培训d. 语言学习出版物(含在线语言产品)
e. 广播电视语言节目
(10)语言活力和濒危等级
a. 脆弱b. 濒危c. 重度d. 极度e. 灭绝
(11)语言能力
a. 濒危语言族群普通话能力及人口比例b. 濒危语言族群汉语识字率
c. 濒危语言族群地方共通语能力及人口比例d. 濒危语言有无文字
(12)语言点的人文地理
a. 濒危语言分布地经纬度b. 濒危语言调查点与县城和集镇的距离
c. 濒危语言调查点的地形地貌d. 濒危语言调查点与外界交通状况
e. 濒危语言社区人口流动情况f. 卫星地图
2. 濒危语言特点描写
(1)濒危汉语方言
a. 音系表及语音特点b. 声韵调配合表
c. 同音字汇d. 词汇表
e. 构词法概述f. 词类特点概述
g. 句法特点概述
(2)少数民族濒危语言
a. 音系表及语音特点b. 音节表c. 词汇表
d. 构词和形态概述e. 句法特点概述
(四)元数据
元数据设通用元数据和专用元数据。通用元数据标识语档整体,专用元数据标识话语资料。
1.通用元数据
(1)项目名称:语档相关的基金项目、课题或资助计划名称。
(2)语档标题:语档名称。
(2)创建日期:创建语档的日期,以年月日表示。
(3)创建地点和日期:语档创建的时间和地点范围。
(4)内容描述:语档数据资料内容简要描述,或语档数据资料目录。
(5)创建人:创建语档的主要责任人。
(6)贡献者:对创建语档有贡献的人员,包括发音人、说话人、唱歌人、表演人、采访人、录音人、摄像人、翻译员、转写员、编校员等等。可参照OLAC角色词汇。
(7)文件格式:语档数据资料的文件格式,包括音频文件、视频文件、转写文件和其他数字文件格式。
(8)统一资源定位符:语档存储和读取的网站地址。
(9)元语言:用来描述濒危语言的语言,一般使用中文。
(10)对象语言:被记录和立档保存的濒危语言。
(11)语料来源:语档资料数据的出处和采录地点。
(12)学科分类:语档数据资料所属的学科领域。通常用语言学术语表示。
(13)版权信息:语档数据资料的版权说明,包括作者、贡献者、出版社、馆藏者、数据服务商等。
(14)使用权限:基于隐私、安全等对访问使用濒危语言语档数据资料的限制规定。
(15)介质:语档数据的物理载体,如纸质出版物、磁带、光盘、存储卡、硬盘等。
(16)设备:采录和处理语档数据资料的器材,如:录音机、摄像机、声卡、麦克风等。注明产品名称、型号和语料采录处理的相关参数设置。
(17)软件:创建和处理语档数据资料的操作系统、软件。如:音频和视频处理软件,转写标注软件,字库文件,数据转换软件等等。
2.专用元数据
(1)话题名称:一个独立完整的话语录音或录像文件的名称。
(2)背景介绍:话语事件的背景知识。
(3)体裁:按(一)2.话语录音所列6类体裁标识。
(4)交流方式:话语发生方式,如:座谈、采访、自由聊天、电话、网络通话等等。
(5)项目名称:语档数据采集的资助项目。
(6)话语来源:话语资料的获取途径。如:实地采集或录制,电话录音或网络下载,来自广播电视节目,或已有出版物,转录和复制个人的收藏物。
(7)说话人:话语录音中的说话人姓名。为保护隐私,可用假名或代号。
(8)语言:说话人的语言,即濒危语言。
(9)元语言:描写和解释话语录音资料的语言,通常用中文。
(10)日期和地点:话语事件发生的时间和地点。
(11)录音文件:话语录音文件名、时长、文件大小、录音设备名称和型号。
(12)转写状态:录音录像文件的转写标注信息。包括:
a. 转写文件名
b. 与媒体同步状况:完全同步,部分同步,未同步c. 媒体音段的切分层次
d. 转写标注规则
e. 转写精度等级:未转写,简单转写,基本转写,复杂转写
f. 转写软件名称及版本g. 转写文件在线浏览链接地址(可选)
h. 转写文本的其他文件格式(可选)
二、语档数据文件格式
语档数据文件格式设必备格式和可选格式。必备格式是创建数据资料的原始格式,可选格式是数据转换格式。
(一)媒体文件格式
1.音频文件
a. wavb. mp3(可选)
2. 视频文件
a. mts(可选)b. avi(可选)c. mov(可选)d. mp4(可选)
3. 图像文件
a. jpegb. tiff(可选)c. png(可选)
(二)转写文件格式
1.通用格式
a. xmlb. Unicode txt(可选)c. html(可选)
2. 专用软件格式
a. Elan格式eafb. EXMAraLDA格式exb
c. Praat格式textGrid(可选)d. Transcriber格式trs(可选)
(三)文本文件格式
a. docb. Unicode txtc. pdf
三、语档音像数据质量标准
语档音像资料的质量评估标准分主观评价标准和客观评价标准。主观评价根据人耳听辨判断。音质评估对象主要是语音。参照国标GB9375-88《收音机、录音机听音试验》五级主观评价标准。客观评价设定音频、视频录制的相关技术参数要求。
(一)主观评价标准
1. 人声主观评价
一级:优。不察觉失真,录制的人声(即重建语音)和原始人声之间只有很细微差异,若不对照听比,觉察不出这种差异。
二级:良。刚察觉失真,但不讨厌,重建语音的畸变或失真不明显,不注意听则感觉不到。
三级:中。察觉失真,稍微讨厌,重建语音有较明显可感知的畸变或失真,但语音自然度和清晰度仍好,且听起来没有疲劳感。
四级:差。讨厌但不令人反感,重建语音有较强畸变或失真,听起来有疲劳感。
五级:劣。极其讨厌,令人反感,重建语音质量极差,听觉无法忍受。
语言田野调查中室内录制的语音音质应达到二级,室外应达到三级。
2. 噪声主观评判
除了评估人声语音外,还需要评估背景噪声。噪声评估也可参照上述国标分为五级:
一级:优。录音中听不到持续“嘶嘶”低频噪声,没有偶发的短暂噪声人声交叠现象。
二级:良。有少量微弱的低频噪声,如交流电源和微风造成的“嘶嘶”声,但对人声听辨几乎无干扰。
三级:中。有较明显可感知的持续低噪声,对人声有轻微或少量遮盖,听觉略显疲劳,但可以接受。
四级:差。有明显可感知的噪声,人声不时被噪声遮盖,听起来有疲劳感。
五级:劣。有大量明显可感知的噪声,遮盖了大部分人声,听觉无法忍受。
(二)客观评价标准
1. 音频参数
背景噪声:小于-50dB
发音说话声:大于-18dB,小于-4dB
采样率:大于或等于44kHz
采样精度:16位或24位
声道:单声道。
2. 视频采录
分辨率:存档片不低于1920x1080像素,网络上传片不低于1080×720像素。
帧率:25fps/29.97fps(fps:每秒帧数)。
码率:存档版本不低于8Mbps,网络发布版本不低于2Mbps
效果:白平衡正确,无明显偏色(特效除外),无明显色差。图像不过亮、不过暗。人、物移动时无拖影耀光。全片图像同步性能稳定,无失步现象;图像无抖动跳跃,色彩无突变。人像脸部无重影、虚焦,单色背景与人像分明。无其它图像质量问题。
信噪比:不低于55dB,无明显杂波。
3. 图片
分辨率:不低于1024×768,高清标准。
四、语料采录和数据处理工具
工具指濒危语言音像资料采录软件和数据处理软件。软件设指定软件和可选软件,指定软件是创建和处理数据资料的必用工具,可选软件是临时替代工具和数据转换工具。
(1)录音软件
a. SonicFieldb. Audacityc. byly(可选)
d. Praat(可选)e. Soundforge(可选)
(2)话语转写软件
a. ELANb. EXAMARaLDAPartitur-editorc. Anvil(可选)
d. FOLKER(可选)
(3)多模态分析软件software of multimodal
a. Anvilb. Praatc. SFS(可选)
d. Sound analyzer(可选)e. 其他(可选)
(4)音频处理软件
a. Audacityb. Adobe audition(可选)c. Soundforge(可选)
d. Cubase(可选)
(5)视频处理软件
a. Sony Vegas prob. EDIUS(可选)
c. Adobe Premiere(可选)d. Final Cut(可选)
五、音像语料采录环境和设备匹配
采录濒危语言音像语料,应根据语料类别确定录音环境和匹配录音设备。录音环境分室内和室外,室内环境适合采录字词句基本音像语料,室外环境主要采录自然话语。录音设备有麦克风、声卡、录音机、摄像机等。
(一)录音环境
I类录音环境。安静的室内环境。典型情况是:室内无噪声,无电磁波干扰,无外界噪声传入,隔音墙面,消声板或地毯地面。面积大约15m2。这类场所有:专业录音室(棚),广播电视台播音室,演播室。
II类录音环境。较安静的室内环境。外面偶尔有噪声传入。典型情况是:内墙为绒布或皮革等软质装修,铺有地毯,面积约15m2。室外不临公路、街市、工厂、工地、娱乐厅、变压器、电讯基站、广播电视发射塔等。这类场所有:城镇的高中档宾馆客房、小会议室,政府机构的小会议室。
III类录音环境。普通的室内环境。外界有持续低噪声和间歇强噪声传入。硬质光滑内墙,水泥、瓷砖或木板地面。室外不临街市、公路、溪流、工厂、工地、娱乐厅、高压变电器、移动电讯基站和广播电视发射塔。这类场所有:乡村民宅、公馆、祠堂、普通旅馆。光滑硬质墙面和地面,可在说话人左侧、右侧、背面围挂布帘,地上铺设垫布,消除声音反射,减少室内和腿脚挪动噪声。
IV类录音环境。户外活动和劳作场所。有各种不可避免的持续噪声。说话人位置相对固定或不停走动。
(二)语料种类
不同发音和说话状态下产生的言语声音样本。濒危语言的有声语料包括单字录音、词汇录音、句子录音、话语录音等四大类。具体数据项见本文第一部分“濒危语言的语档数据构成”。
(三)设备匹配
录音设备有录音机、麦克风、声卡等。麦克风分为枪式、头戴式、领夹式、手握式等形式。录音机分台式、便携式和微型。应根据所要采录的语料种类选择录音场所,匹配相应的录音器材。设备应选用品牌产品。麦克风品牌如AdioTechnica(铁三角)、Sennheiser(森海塞尔)、Shure(舒尔)、Lewitt(利威特)、得胜(Takstar)等。数字录音机品牌如ZOOM、Sony。录音声卡品牌如M-audio、Mbox、Tascam、Prosonusaudiobox等。
1.I类环境设备匹配
(1)方案:专业录音话筒+专业录音声卡+台式或笔记本电脑+专业监听耳机+录音软件
(2)采录语料:汉语方言声韵调例字、单字,少数民族语言音系词,词汇和短语,日常用句,语法例句,个人讲述,三人以下座谈。
2. II类环境录音设备匹配
(1)方案
a. 麦克风+(声卡)+笔记本电脑+监听耳机+录音软件
b. 头戴麦克风+声卡+笔记本电脑+监听耳机+录音软件
(2)采录语料
方言声韵调例字、单字,少数民族语言音系词,词汇和短语,日常用句,语法例句,个人长篇讲述,三人以下座谈,室内自由聊天、言谈;室内电话或手机通话。
3. III类环境录音设备匹配
(1)方案
a. 头戴式麦克风+声卡+笔记本电脑+监听耳机+录音软件
b. 枪式麦克风+数字录音机c. 头戴式麦克风+录音机
(2)采录语料
词汇和短语,日常用句,语法例句,个人讲述,室内对话,室内电话或手机通话,工艺制作人言谈。
4. IV类环境录音设备匹配
(1)方案
a. 枪式麦克风+录音机(适用于说话人位置相对固定的场合)
b. 头戴式麦克风+录音机(适用于走动和劳动的说话人)
c. 摄像机+枪式麦克风+监听耳机(适用于场景和人声一起录制)
d. 头戴/领夹式无线话筒+发射机+接收机+声卡+录音机(适用于多人活动场合)
(2)采录语料
户外各种情景对话、演唱、演说等活动。包括:自由聚集聊天、自由聚会;村民会议发言;民俗仪式;游戏;婚姻、丧葬、生育或宗教、造屋、商贸集市等仪式和场景;宴席;生产劳动情景;生产劳动、工艺制作介绍;群体演唱、竞技活动。
5. 品牌产品目录(部分)
Audio Technica 2035铁三角大振膜电容话筒
Lewitt DGT 650 USB利威特专业录音麦克风
Takstar SGC-568得胜采访话筒
Shure beta 53舒尔头戴式话筒
Audio Technica铁三角头戴话筒
TS-8807A UHF得胜无线麦克风系统
ZOOM H4n便携式数字录音机
ZOOM H6便携式数字录音机
Takstar PRO 80得胜专业监听耳机
ProsonusAudioBox 22VSL USB2.0专业录音声卡
Canon XF100佳能摄像机
Takstar SGC-598得胜摄像机话筒
3米~6米卡侬线,话筒支架、摄像机支架。
(四)录音环境观测和噪声处理建议
1. 室外周边环境噪声源观察
(1)是否临近公路、街市。
(2)是否有建筑工地。
(3)是否有歌舞娱乐场所。
(4)是否有工厂。
(5)是否有厨房、锅炉房、洗衣房。
(6)是否有变压器或广电通讯发射站。
(7)是否有家禽牲畜。
2. 测定室内回声和噪声
(1)(关门窗、双击掌,是否听到回声,回声大小。
(2)(关闭空调、冰箱、风扇、排气扇、电视、路由器、日光灯等室内电器。
(3)(开启录音机内置话筒,将输入电平增益调至最大,在安静状态下录音采样,同时戴耳机监听噪声状况;再将增益降至60%~80%,进行二次采样和监听。
(4)(打开电脑,连接麦克风和声卡,用Audacity软件查看噪声等级。专业录音室噪声小于-60dB,较好室内噪声一般应小于-50dB。发音人和说话人言语声一般不超过0dB,以12dB左右合适。
(5)(在光滑地面铺上垫布,在光滑墙壁挂上布帘,减少声音反射。
(6)(正式录音时,使用遥控器操作录音机,避免录入按键声。
(责任编辑戴正责任校对戴正)
Data Standards of Audio-visual Documents of Endangered Languages in China
Fan Junjun
(College of Literal Arts,Jinan University, Guangzhou, Guangdong, 510632)
There are five parts in the draft of The Data Standards of Audio-visual Documents of Endangered Languages in China: 1.Data structure of language documents of endangered languages; 2.File formats of language documents; 3. Quality standards of audio-visual data of language archives;4. Language documents collecting and recording, and data processing tools; 5. Environment for audio-visual data collecting and recording, and recommendation of equipment. These standards work for the recording and archiving of endangered languages in China, and can also be a referential norm for language fieldwork and corpus processing in China.
endangered languages; language documents; data standards
1001-5140(2016)03-0053-09
2016-03-20
国家社科基金重点项目“中国濒危语言有声语档建设的理论规范、实践规程和技术准则研究”(项目编号:12AYY002)
范俊军(1963—),男,湖南桂阳县人,暨南大学文学院教授、博士生导师,主要研究濒危语言。
ABC
A