APP下载

采用声调基频特征的民族语声调识别

2021-01-26龙润田

贵州民族研究 2020年11期
关键词:平调基频声调

龙润田

(首都师范大学 文学院,北京100089)

一、引言

普通话、汉语方言及大部分分布在中国南方的少数民族语言均具有声调。这些语言的声调具有很强的别义能力。在语音信号处理中,声调作为语音的重要组成部分,其对于声调的识别及合成研究亦具有重要的意义。

对于声调识别,利用声调与基音频率间的关系实现语音的识别已成为研究者们的共识。常用的语音识别方法包括隐马尔科夫模型(HMM)[1-2],神经网络[3-4],支持向量机(SVM)[5-6]以及特征聚类[7]等。对于HMM、神经网络以及SVM而言,这3类方法均需要在识别前进行声调模型的训练或设计分类器来对未知声调进行识别。对于特征聚类的声调识别,则通过不同声调间参数的区分性,利用声调特征进行聚类分析达到声调识别的目的。除了识别算法外,声调识别特征也是声调识别的重要组成部分,目前的声调识别特征主要包括语音声学特征[1,2,6]、基频特征[5,8]等。常用的特征包括基音频率、短时能量以及基频衍生的几何特征,如基频的长度、斜率、最值等。

对声调的研究,语言学研究者更关注声调的调类归并、划分及其历史演变过程。但从田野调查中获取的语音材料,在未经听辨记音的情况下,往往不可能获知其到底具有几个声调,这时,采用模型训练的方法,并不能够较为迅速准确地获取声调的类别和调值。对于特征聚类的识别方法,在聚类分析前一般需要事先给定聚类类别的数目,在不知道确切的声调类别数目时,将会给聚类识别带来较大的困难。同时,语言田野调查的录音数据,常常不局限于一种语言。采用模型训练、设计分类器的方法,在转化语言后又需要重新训练模型、设计分类器,时效性较差。

针对以上问题,文章从基频曲线的区分特征出发,提出了一种基于基频特征的声调聚类识别方法。根据不同的语言调查情况采用不同的聚类算法对提取的基频特征进行无监督自动分析聚类,以获得声调识别的结果,同时在此方法的基础上建立了少数民族语单音节声调识别系统。相较于针对单一语言的声调识别系统,本系统可适用于绝大多数声调语言的声调识别标注。

二、声调与基频特征

大多数语音的原始数据是难以直接被计算机系统处理分析的,需要提取一些合适的表征特征来表示原始的语音数据。对于语音声波本身包括了许多的干扰因素和冗余信息,例如,噪音干扰、电流干扰等。很多的语音信息蕴含在语音信号中,需要进行处理才能显现。这时直接采用语音信号波形进行语音声调识别分析并不现实。必须对语音信号选取相应特征,剔除语音中不必要信息以提高语音声调识别的准确性。

在声调研究中,不同的研究针对声调描述方法各不相同,王士元根据区别性特征理论使用曲、高、央、中、升、降、凸七类对声调进行描述[9],沈炯和刘俐李采用音区特征和曲拱特征描述声调[10-11],朱晓农提出了分域四度标调法[12-13],金健等则从音高、调形凹凸、平拱时长及斜率的角度描述声调[14]。在声调识别中,彭刚、王士元提取了20种不同的特征来对广东话的声调进行识别[5],宋刚、姚艳红则利用基频曲线的9种不同特征进行普通话的基频拟合与识别[8]。

本文对声调曲线提取了10类不同的特征,分别是:(1) 基频起始点和终止点的幅度差(音高变化),(2) 基频曲线长度(时长),(3) 基频的最大值,(4) 基频最小值,(5) 基频曲线极值点(拐点), (6) 极值点前基频曲线的斜率,(7) 极值点以后基频曲线的斜率,(8) 极值点前段基频曲线的变化幅度,(9) 极值点后段基频曲线的变化幅度,(10) 基频的均值。该10类声调曲线特征基本涵盖了前述研究者所用的区分特征,并能够较为完整合理地描述基频曲线的变化。

三、声调识别系统

一个完整的声调聚类识别系统如图1所示。基于声学特征参数的声调聚类识别标注系统大致可分为参数提取和特征聚类识别两个部分。

图1 基于声学特征参数聚类的声调识别系统

在数据特征参数提取阶段,首先需要对语音信号进行预处理,提取语音中的有声段。由于声调特征主要蕴藏在语音音节的韵母段中,因此在提取语音有声段后,还需要进行声韵的切分工作,而提取韵母段。对于声韵切分而言,其精确程度决定了所提取的声调基频曲线的准确度。在进行声韵切分后,采用STRAIGHT分析算法[15]提取语音的基频曲线。在获得基频曲线后,由于多数声调中均存在弯头降尾,因此还需要对所提取的基频曲线剔除掉弯头降尾的影响。弯头降尾的剔除包括错误基频的处理和弯头降尾的处理两个部分。剔除弯头降尾影响后的声调基频曲线即可看作为声调的调型曲线。对于处理后的基频曲线,采用线性拟合的方法进行规整处理,提取10类基频特征用于声调的特征识别。在本系统中,10类特征均是在拟合曲线上获取的。因此,拟合曲线和原始基频曲线的相似度会对最终的声调识别结果产生很大的影响。

在特征识别阶段,首先需要对每条声调基频曲线所提取的10类特征进行规整处理,将所有的特征放在同一度量下进行识别聚类,以防止奇异特征的参量过大导致声调识别错误。对特征进行规整处理后,即可根据需要对声调数据进行无监督的聚类识别。对于声调的聚类识别可以分为两种,当知道声调的正确分类数目时,采用K-means 聚类对数据进行快速的聚类识别。当不知道声调类别时,则可通过AP聚类算法[16]进行声调的无监督自动聚类识别。对获得的识别结果,则可通过听辨类内的极小部分语音或在声调调域内直接观察即可确定声调调值,据此给语音数据进行声调标注。

四、民族语声调识别测试

少数民族语和汉语方言的声调识别标注测试采用已完成记音标注的语料进行。在声调识别测试中,将所有语料的标注信息去除后进行无监督的语音声调识别,将识别结果与标注信息比较计算识别正确率。

本文采用的语音声调识别语料。由“斐风”田野调查录音软件录制,包括:侗语邦寨话、壮语横县话、粤语广州话、湘语长沙话共4种语言,每种语言包括700~3000个不等的单音节词,覆盖所有声韵及声调类型。其中侗语、壮语、湘语的发音人为男性,广州话的发音人为女性。语料录音的采样频率为44100Hz,16bit量化,单声道波形文件。所有语音全部由专业语言研究者进行听辨校验,保证记音的准确性。

(一) 侗语邦寨话声调识别结果

邦寨侗语共有9个舒声调、6个促声调。其中促声调的8调和9’调、9调和10调的调值相同,6个调类实际归并为4个调值[17]。后文为了叙述简便,我们将8调和9’调全部标记为8调,9调和10调全部标记为9调。邦寨侗语在调型上包含5个平调,3 个升调和1个降调。根据本文所述方法对所有邦寨侗语语料进行已知声调类别的聚类识别。

其声调识别率如表1所示。纵向为聚类所得调类调值,横向为听辨记音的调类调值。大体上,聚类结果与听辨记音结果相类似,错误聚类结果较少,归类错误的声调主要集中在两个声调的交叉重合区域内。识别错误的情况主要存在于两个相似声调的重合区域。例如低平调1’调(调值11)、2 调(调值22) 存在相互识别的情况,同样,高平调3调(调值33)、5调(调值55)、6调(调值44) 以及促声调7’调(调值55) 也存在类似现象。其原因在于相互识别的声调,其调型相同或相似,仅存在音高(基频) 上的差异。

表1 侗语邦寨话声调聚类识别结果表

(二) 壮语横县话声调识别结果

横县壮语中共有10个声调,其中舒声调6个,促声调4个。包含平调6个、降调2个和升调2个。对其进行自动分类的声调识别,系统给出的最终聚类结果为10类,其基频分布也与传统音位学调类相一致。

横县壮语的声调基频的聚类识别率如表2所示:纵向为聚类所得调类,横向为听辨记音的调类。大体上,聚类结果与听辨记音结果相类似,错误聚类结果较少。对于识别错误的情况。发现在横县壮语中,平调的识别率最低,降调的识别率最高。究其原因,主要是在横县壮语的声调系统中,平调的个数占了60%。在平调中,存在3调(调值33)、4调(调值22) 这样的低平调和5调(调值55) 这样的高平调。对于两个低平调,其调型差异较小,特征差异主要来自于声调音高差异(基频值)。类似的,对于1调(调值35) 和2调(调值13) 也有类似的情况,导致其聚类识别率较低。

表2 横县壮语声调聚类识别结果表

(三) 粤语广州话的声调识别结果

广州话有9个声调。在作单字音研究时广州话描写为11个声调。与9调描述相比其阴平调被划分为上阴平和下阴平,同时在入声中增加了一个变入[18]。11调的广州话声调系统中,共有7个舒声调、4 个促声调。从调型上看,有平调3个、升调2 个、降调2个。不考虑入声区别仅从调型上来分,广州话可以分为7类。使用本文所述方法对广州话所有单音节词语料提取相应的特征参数并进行聚类识别。针对于调型的声调识别结果如下:

在采用的广州话语料中,调型为平调的33调、22 调以及23调、21调的识别率较低,其原因在于33调与22调均为平调调型,且其在调域内相对接近,很容易将22调识别为33调判断识别为33调,对于22调和21调以及23调和33调也存在类似的情况。

表3 广州话声调调型聚类识别结果表

(四) 湘语长沙话的声调识别结果

长沙话属于湘语长益片长沙方言,共有6个声调。分别是阴平(调值33)、阳平(调值13)、上声(调值41)、阴去(调值55),阳去(调值11)和入声(调值24)。其中阴去的实际调值为45,阳去的实际调值为21。使用上述方法进行声调自动分类识别分析,最终获得6类分析识别结果,其基频分布也与传统音系学的调类相一致。

在长沙话的声调识别结果中,调型相近或者相似的几个声调的声调识别率较低。在调域中,33 调的调型和调值都与24调13调较为相似,这使得计算机在进行特征分析判断的时候极有可能出现误判。类似的,13调也有很多被误判为33 调。

表4 长沙话声调聚类分析识别结果表

五、结论

本文提出的特征聚类声调识别方法对于声调系统复杂的语言,其声调识别正确率达到75%以上。建立的声调聚类识别系统在语音调查声调自动记音上具有一定的适用性。该方法是对田野调查语料的声调进行自动聚类识别的一次尝试。相对于传统工程领域的声调识别方法,声调特征聚类算法不需要进行声调建模,也没有训练的过程,这使得在处理大量数据时,聚类算法不仅能节约更多的时间,同时获得较高的识别效果。

在识别过程中,调型相似的声调,区分度较差,识别率较低。寻找声调区分特征,提高声调识别效率将是后续的工作方向。

少数民族语类型十分多样。本声调识别系统虽然对少数民族语和汉语方言的多种声调类型进行识别测试,获得了一定效果。但严格地来说,这只是一个小范围内的尝试,语料仅包含了南方少数民族语中常见的平调、升调、降调、曲折调。对于其他一些特殊形式的声调,识别系统还没有进行尝试。

猜你喜欢

平调基频声调
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
非遗传承视角下菏泽大平调传承人才“四位一体”培养研究
声调歌
拼音宝宝扛声调
桥面铺装层对中小跨径桥梁基频影响分析
菏泽大平调的传承及保护策略研究*
坐着轿车学声调
单韵母扛声调
成武大平调概述