APP下载

中国濒危语言自然话语转写规则(试行)*

2016-11-25范俊军

暨南学报(哲学社会科学版) 2016年10期
关键词:语调发音话语

范俊军

(暨南大学 文学院, 广东 广州 510632)



【语言学研究】

中国濒危语言自然话语转写规则(试行)*

范俊军

(暨南大学 文学院, 广东 广州 510632)

本文定义了中国濒危语言自然话语转写规则,内容包括五个部分:一、定义和范围;二、引用和参考的规范性文件;三、口语现象;四、转写规则;五、转写符号集。本规则适用于中国濒危语言自然话语的采集、记录和建档,也可作为中国语言口语语料库建设的参考准则。

中国濒危语言; 自然话语; 转写规则

一、定义和范围 Definition and scope

本文定义了濒危语言自然话语中常见的口语现象,制定了自然话语录音录像的转写规则,适用于中国濒危语言口语声像资料的采录、加工和建档,也可作为汉语方言和少数民族语言田野调查记录以及口语语料库建设的参考准则。

二、引用和参考的规范性文件 Incited and referred normal initiatives and documents

(1)美国加州大学圣巴巴拉分校《美国英语口语语料库转写规则》(SBCSAE DT2,2006)。

(2)台湾语言研究所《口语现象标记》(2005)。

(3)德国语言研究院《话语分析转写系统》(GAT2,2009)。

(4)维也纳大学、牛津大学出版社《维也纳—牛津国际英语语料库转写规则》(VOICE Transcription Conventions,2008)。

三、口语现象 Speech phenomena

自然话语是语言社群日常交际中自然发生的口语,包括独白口述、情景对话、游戏、表演和说唱,等等。口语由言语、口音现象、非语音人声和背景声音构成。言语是口语的主体。口音现象是说话人在说话过程中的伴随发音特征。非言语人声是说话人发音器官发出的非语音声音和肢体动作声音。背景声音是说话人之外的自然环境声音和人为声音。

(一)口音现象 phonological phenomena

【拖长音】字音或词音节发音拖长,不限定在音节中的出现位置。

【吞音/合并音】说话过快或图省力而出现的几个音节合并、一带而过的囫囵发音。

【同化音】由语流发音影响而改变本来发音。

【异读音】同一个字词有两种或以上习惯发音。

【习惯发音偏差】发音偏离标准发音,但习惯上固定,有规律可循,仍可辨识字词。新老派发音差异归入此类。

【临时发音偏差】发音偏离标准发音,无规律可循,但仍可辨识字词。

【鼻化音】标准音无任何鼻音而实际说话时出现鼻音。不包括鼻塞产生的鼻音。

【喃喃自语】说话中无意让对方听见的连续不断的独自小声说话,内容清楚可辨。

【无法辨识的语音】说出的话语无法听清是何音、何字、何意。

【不确定字词音】根据前后话语可猜出大意,但不完全确定;或能听清发音并猜测大意,但无法确定具体字词。

【外来影响音】母语人能明显分辨的其他方言或语言借入的语音,或受其他方言和语言影响而产生的非母语习惯发音。

【语码转换】话语中插入或转说别的语言或方言。

【外语词】话语中的外语词,包括用母语译音的专有名词。

【沉默】说话人因话题衔接不上而无法维持正常接话速度时产生的停顿。

【停顿】语流中500毫秒以上的自行中断。对话回应中因态度犹豫而产生的有意停顿也归入此类。

【短停顿】语流中200~300毫秒的自发中断。

【口吃】说话人习惯性的发音重复、中断、拖长、含混现象。

【无停顿续语】本应先停顿再接着说却没有停顿而连续的话语。

【片段音】字词音节发音不完整,但能根据前后内容判断是何音、何字、何词。

【半截字词音】一个词只说了一半便突然中断,而转说别的词语。

【打住话头/半截话】一句话未说完即中断,并开始新的语句;或发觉不该说而半途中断说话。

【被打断语句】话语未结束即被另一说话人抢走说话权,造成说话被迫中断。

【重复语】因说话受干扰或说话人自身缘故而出现的同一个字词两次重复发音。多次习惯性重复归入口吃。

【口误】说话中的用词和语法错误。发音错误归入临时发音偏差。

【更正插语】说话时提示或纠正口误和发错音的插入语。

【停顿插入语】说话时用于舒缓语气和缓冲时间,以便思索组织话语的习惯插入语。如“这个,这个”等。

【重叠话语】说话人话轮还未结束,另一说话人同时开始新的话轮。

【回应插语】对话过程中听话人不时说出的简短字词,表示在听对方说话,或表示回应、同意、附和。

【同声回应】多位听话人同时应答或呼应。

【语速变快】语流中明显快于习惯速度的话语。

【语速变慢】语流中明显慢于习惯速度的话语。

【嗓音提高】说话过程中突然提高嗓门或大声说话。

【耳语】能听清语意内容的耳语。

【轻声细语】语流中嗓音和音量明显低于正常说话声的话语。

【引语仿声】说话过程中为模仿他人说话而改变自身嗓音和音色。

(二)非言语人声 non-phonological sounds

【口腔或鼻腔音】笑声、哭声、呼气声、吐气声、喘气声、吸气声、咂嘴声、啧舌声、叹气声、哈欠声、打嗝声、喷嚏声、沙哑声、鼻塞声、清喉咙声、咳嗽声、口哨声、吞口水声、哽喉声,以及其他无法辨识的声音。

【肢体动作声】掌声、叩击声、脚步声,其他肢体动作发出的声音。

(三)背景声音 background noises

【自然界噪声】风声、雨声、雷声、流水声、兽叫声、鸟叫声、虫叫声、牲畜叫声、家禽叫声,以及其他自然界声音。

【机械噪声】车船飞机声、广播电视声、家用电器声、手机电话铃声、电流声、音乐声、电磁波、干扰声,以及其他机械电器噪声。

【背景人声】喊叫声、吵闹声,说话人以外的其他说话声,其他的人为噪声。

四、转写规则 Transcription convention

转写*转写通常指口语中言语部分的文字记录,而对言语的翻译、解释、分析等记录则称为标注。本规范的转写包含转写和标注。是将录音录像的话语和言语行为按时序用文字和符号做作同步记录,使口语变成可阅读文本。转写分为最简转写、基本转写、综合转写三个等级。最简转写定义濒危语言口语录音录像的必需转写项,基本转写定义最简转写之上的增加项,综合转写是包含最简转写、基本转写和多模态转写的复杂精细转写。

(一)转写精细度层级 Transcription delicacy hierarchy

1.最简转写 Minimal transcript

最简转写包括下列各项:

a.说话人姓名,或假名、代号;

b.话语的标准正字(词)法转写(适用于有文字的语言);

c.话语的罗马字母转写(适用于无文字的语言);

d.话语国际音标注音;

e.普通话逐句意译;

f.普通话逐词对译;

g.话语口音现象标注;

h.非言语人声和背景声标注;

i.注释或说明。

2.基本转写 Basic transcript

基本转写包括下列各项:

a.句(末)语调;

b.句子重音;

c.词重音;

d.韵律句(可选);

e.音步(可选)。

3.综合转写 Complex transcript

综合转写包括下列各项但不限于:

a.手势、身势和互动行为;

b.声学数据(可选);

c.其他多模态数据(可选)。

(二)转写数据结构 Transcript data structure

口语转写应使用转写软件工具。转写文本采用分层结构,文本与录音对齐链接。使用普通文字处理软件转写口语,应按话轮和语调单位行间转写。非言语声音的转写符号应同步在言语转写文本中标记,其他非声音或多模态内容应另层标记。

用汉字转写的普通话和方言话语文本原则上不分词,口语现象随汉字文本标记。也可增加拼音文本。拼音文本必须分词。口语现象也可以在拼音文本中标记。

从右到左书写和竖排的少数民族转写文本,应增加罗马字母拼写文本,口语现象在拼音文本中标记。

五、转写符号集 Transcription symbol set

转写符号用于转写话语结构要素、口音现象、非言语人声、背景噪声等现象。

(一)话语结构要素标记符号 Symbols of discourse structural elements

要素转写符号使用说明说话人Lidahai用汉语拼音或罗马字母拼写,开头字母大写。化名~Zhangsan化名前面加波浪号。会话场景Geka在说话人后面用尖括号注明媒介通道。tel通话,tv电视访谈;cc即时情景对话,可自定义。说话人角色Liwei Wang 在说话人后面用双括号注明模仿的人物姓名或化名。几位说话人Liwei+Wangke在说话人姓名之间用+ 号。群众说话人Group用group表示众多说话人。语调单位口语中表达一个完整语气的口语句。每个语调单位转写占1行。句首大写新语调单位开始,句首拼音字母大写。汉字不标记。排序/行号1在每个转写文本行的前面用数字标明序号。时间戳标记该段录音的起始时间,以分:秒.毫秒计数。可省略。话轮Lida 你不去 Liuwei 我去。在每个说话人的轮次前,标明说话人姓名或化名代号。重叠话语Lida 你不去 Liuwei 1我想去 几个人同时说话,重叠部分首尾加方括号,并用数字注明重叠话语的次序。

(二)口音现象标记符号 Symbols of speech phenamena

要素 转写符号 使用说明结尾语调 语调单位结束,用句点。停顿语调 语句未完时的停顿,用逗号。疑问语调 疑问语调单位,用问号。带笑话语 @ <@>话语一个词带笑声,在该词首标记。几个词带笑声,在起始和结束处标记。呛喉或沙哑话语 % <%>话语< %>一个词带沙哑声,在词首标记。几个词带沙哑声,在起始和结束处标记。变声说话话语< vox>语流中偶然改变嗓音说话,在起始和结束处标记。引语仿声引语< qu>模仿他人说话,在模仿的起始和结束处标记。拖长音 在拖长音的字词后面标记。语速变慢< >话语< >在变慢话语两侧标记。语速变快

话语< p>在变快话语的两侧标记。吞音/合并音<*>词语< *>在发生吞音或合并音词语的两侧标记。同化音 * 词语在发生同化的字词前面标记。异读音 x 词语在发生异读音的字词前面标记。习惯发音偏差<++>字词< ++>在发生偏差音的字词两侧标记。临时发音偏差/口误<+>字词< +>在出现偏差音或口误的字词两侧标记。鼻化音<+n>字词< +n>在出现鼻化音的字词两侧标注。无法辨识语音 ### 猜测字词 用#号标记无法猜测的字词;或写出猜测的字词。不确定话语<#>话语< #>在不确定话语的两侧标记。喃喃自语话语< m>能听清的自言自语在两侧标记。外来影响音<语种代码>字词在发生外来音的字词前面注明语种代码。语言转换话语< zh>在发生转换的话语两侧标记语种代码。语言不明的,按不确定话语标记。沉默 在沉默处标记。短停顿 0.5秒以内。停顿(计秒) 1 2s 0.5秒以上注明秒数。口吃话语< kch>在口吃话语的两侧标记。话轮快接==用2个等号在本应停顿而未停顿的话轮转换处标记。片段音半截词字词-丢掉的发音部分用连字符标记。打住话头半截话话头 = 在未说完处标记。被打断语句话语 - 在被打断处标记。无停顿续语他去了=你去用1个等号在本应停顿处标记。重复语是我—我的用长连字符在被重复语和重复语之间标记。更正插语 + 我 + 他要去分别在说错的词语和更正语前面标记。惯用提顿语边际语填充停顿啊啊这个这个根据实际发音拼写或用文字记录。回应插语n,ho根据实际发音拼写或用文字记录。嗓音提高话语< h>在高音话语两侧标记。耳语轻声细语<^>话语< ^>在耳语和轻声细语的两侧标记。众声回应 回应 在回应语的两侧标记。

(三)非言语人声标记符号 Symbols of non-phonological vocals

要素转写符号要素转写符号要素转写符号笑声{@@}叹气声{hi}鼻塞声{nn}哭声{MYMMYM}哈欠声{ah}咳嗽声{kk}呼吸声{hh}打嗝声{ee}口哨声{oo}吸气声{xi}喷嚏声{aq}掌声{pp}吐气声{tu}沙哑声{ss}叩击声{bn}喘气声{ha}吞口水声{gu}脚步声{dd}咂嘴声{bb}哽喉声{ka}其他肢体动作声{!!}啧舌声{zz}清喉咙声{gg}无法辨识的声音{##}

(四)背景声音标记符号 Symbols of background noises

风声{feng}机械声{^^^}雷声{lei}车船飞机声{feiji/chuan/che}雨声{yu}广播电视声{tv}流水声{shui}音乐声{123}鸟叫声{niao}手机电话铃声{tel}虫叫声{chong}其他家电声{jiad}家畜叫声{gou/niu/ji/ya}电流声{~~~}兽叫声{shou}吵闹/喊叫/说话等人为噪声{xxx}爆炸声{bong}其他声音{***}

[责任编辑 闫月珍 责任校对 池雷鸣]

2016-05-10

范俊军(1963—),男,湖南桂阳县人,暨南大学汉语方言研究中心研究员、博士生导师。

国家社科基金重大项目《中国濒危语言数字博物馆建设的理论与实践研究》(批准号:12AYY002)。

H0

A

1000-5072(2016)10-0030-06

* 本规则在“中国濒危语言有声资源采录和立档技术高级讲习班”暨南二期、三期、四期上试用,本次公开发表,希望更广泛征求意见。

猜你喜欢

语调发音话语
画与理
《漫漫圣诞归家路》中的叙述者与叙述话语
雷人话语
谈谈诗歌的语调
雷人话语
Playing with h
朗读基本技能:语调(一)
谈汉语特殊疑问句的语调类型
Playing with /eI/
Playing with u_e