基于图像的语音生理研究进展

2018-06-14寇贇

西北民族大学学报（自然科学版） 2018年1期

寇贇

(西北民族大学中国民族语言文字信息技术重点实验室，甘肃兰州 730030)

0 引言

随着计算机科学的不断发展，语音生理研究逐渐成为语音学研究的一个重要方面.因此，语音生理研究及其应用在众多学科中得到了迅速的发展.语音生理研究的方法通常从声音信号、图像信号、生理信号三个方面展开讨论，而图像信号因为计算机控制的数字成像可以达到9000帧/每秒，甚至更高，比如，可以达到反应声带一个开合周期过程所需要的图像帧数，而且图像信号比较直观，特别是对发音生理器官的运动能够用图像处理的方法模拟，从而可以应用到教学等各个方面[1].

语音的产生是肺、声带、声道以及唇四个生理器官协同作用而产生的生理运动[2].肺的发声功能主要是产生压缩气体，通过气管传送到声音生成系统；声带是伸展在喉前、后端的褶肉，通过产生激励来促使音产生；声道是声门至嘴唇的所有发声器官，也是一根具有非均匀截面的声管；嘴唇的生理运动便产生声波[3].语音的形成流程可以概括为：空气通过肺部呼出通过声带产生激励进入声道，由嘴辐射出声波，便产生了语音.本文从发音动力器官、嗓音声源、声道、唇形四个方面来阐述目前国内基于图像信号的语音生理研究的进展.

1 发声动力器官——肺

发声的动力是借用人类的呼吸系统。呼吸原本的功能是维持人类的生命，而不是产生语言.肺像是两个封闭的袋子，左右对称，由肺泡组成.从生理的角度，呼吸系统分为呼吸道、肺、胸腔、腹部肌肉群.

目前，用于呼吸动力研究的设备主要是气流气压计和呼吸带.气流气压计可以测发音时的气流速度、气流量、气压值和声门下压力等.呼吸绑带是采集胸围或腹围的变化来研究语音的韵律特性，可以研究不同的语言和不同文体的呼吸韵律模式.在图像方面，孔江平教授利用MRI拍摄了肺的横切面和剖面的实时发音运动图像，如图1(左)所示，该图为肺部呼吸运动截取的某一帧.该帧利用小波变换对发声动力器官肺部影像做分解重构处理分析预处理，对处理后的图像进行canny算子边缘检测，分析结果如图1(右)所示，产生的动态影像可以清晰观察到肺部器官的运动状态[4-5].对发音动力器官图像的分析研究，可以实现呼吸气动态和发声动力来源的可视化效果.另外，合适的图像处理技术对发音动力器官图像进行处理，使人们可以有效地分辨出人体器官的大小和细节，为后续深入研究学习提供良好的图像素材。

图1 MRI拍摄某一帧(左)图1 canny算子检测结果图(右)

2 嗓音声源

现代语音学将语音的产生分为调音和发声两个部分，隐藏在喉头中的声带是振动器官的核心，上通咽喉下接气管.声带是两片复杂分层结构的振动器官，两片声带之间的通路叫做声门.通过对嗓音声源的研究，可以了解发音时的声带振动情况，从而能够更好地认识语音发声的生理机制、语音发声的微观运动、各种发声类型的特性和语音声学信号的关系.

最新的高速数字成像系统HSP (High-speed photography)可以达到每秒百万帧的速度，采集图像速度比声带振动速度快的多，该设备成像结果如图2所示，可以观察到声带的起止，非周期性振动，非常短的嗓音振动片断和痉挛.孔江平教授在《Laryngeal Dynamics and Physiological Model》中对常见的发声类型和汉语普通话四声的声带振动方式进行了研究，并建立了高速数字成像的分析系统[6].该系统先对声门录像进行图像处理，如图3所示，为了处理的方便，给一帧图像加了一个小窗口用来确定声门的面积，经过调节对比度和抽取声门面积等方法最终得到动态的声门面积.这是最简单的过程，因为实际的高速数字视频会出现光线灰暗、抖动和漂移等现象，都需要进一步处理才能得到较好的动态声门.通过提取出视频信号中声门的面积，根据面积提取有用的语音参数，如，基频、共振峰、开商、速度商、振幅等，然后建立嗓音生理模型，可以合成出不同发声类型的声源.

图2高速数字成像图图3声门录像图像处理结果图

3 声道

声道是语音生理中最重要的发音器官。声道是从声带开始到嘴唇、语音产生传播的管道，由声门、喉管、会厌软骨、咽腔、软腭器官等器官组成，具体结构如图4所示.

声道藏在人体内部，给观测带来了很大的困难.目前有X光、核磁共振技术(MRI)、超声三种主要的声道测量方法被广泛应用.世界上著名的X光数据库有英语、法语、瑞典语和日语数据库.国内国际惟一的汉语普通话的X光录像由中国社会科学院语言研究所和三〇一医院放射科联合录制(一九八五年七月)，后由北京语言学院出版社出版，录像带名称为《普通话发音器官动作特性(The articulatory movements of standard Chinese)》[7].由于 X 光录像对软组织成像不好，声道边缘比较模糊，所以对模糊边缘的提取也是图形图像处理领域的经典问题.通过图像处理技术或者手动标记的方法提取每个语音样本的声道边缘曲线，如图5所示，绘制成连续的线条图，做成可连续播放的视频文件，可以计算出声道面积并合成语音，可应用于汉语普通话语音教学等方面.

图4人体的声道系统结构图(引自Fitch1994)图5 X光标记图

核磁共振成像技术(MRI)能够清晰地看到声道器官的轮廓，并且对人不会产生伤害和不适，因此越来越频繁的应用于语音生成领域.汪高武在《汉语普通话声道调音模型研究》一文中主要采取图像预处理，手工标注与程序结合的方法减少劳动量，并将声道分成几个部位分别处理，该文中将声道划分为上下唇、硬腭、软腭、下颌、舌、咽腔前后壁、喉腔前后壁9个部分，各用一条曲线来标记，如图6所示，每条曲线由若干个关键点经过三次样条函数插值生成，这样可以通过移动关键点来修改整个曲线的形状，使之与声道边缘尽量一致[8].宋婵在《人体发音过程中的三维声道几何建模》一文中从几何的角度去构建三维几何声道模型，使得模型更加适用于对实时性要求较高的应用，文章对中文核磁共振数据库中一个受试者的十个元音数据进行研究，通过图像预处理，并对MRI录像进行数据标记，标记如图7所示，进行三维网格量化，并使用主成分分析法和多元线性回归法对三维数据进行建模分析，得到发音器官的主要控制参数[9].刘杰在《三维几何发音模型的构建与控制》一文中采集了CBCT(锥形束 CT)的数据来补充骨质结构的信息，进行上下颚的填补，通过MRI采集得到的发音器官的数据库，对构建出的声道模型进而分析不同发音带来的声道发音器官形状的变化规律[10].

图6 MRI录像声道边缘的提取图7 MRI录像标记的发音生理器官

另外，王宇光在《基于核磁共振成像的汉语普通话元音/i，(s)i，(sh)i/的研究》一文中利用核磁共振技术分析从声道的形态学和声学的角度全面分析三个元音声道形态的差异和形态差异引起的共振峰差异，及声道分支对于不同元音的声学影响，利用图像处理领域中的区域增长法提取出三个元音的三维声道数据，并对填充好牙齿的声道进行阈值分割提取出声道的形状和声道对应的面积函数，如图8所示，首先手动在声门处选择两点，如图8(a)一条声道线被选中了，图8(b)是利用区域增长法结果图，图8(c)计算出每一层像素点的中点，用一条样条曲线来逼近这些所有被计算出来的中点，则声道中位线被确定下来了，图8(d)在这条中位线上，每隔相同间隔 2 mm，在声道中位线上做一条中心线[11].

图8 声道面积函数提取

超声技术一般使用显示组织特征的方法，测量器官的径线，以判定其大小.言语过程中的各个发音器官的变化，都可以被该技术实时的监测，并以图像的形式展现，这为认知人类发声时声腔、胸腔等器官的运动机制提供了便利.陈彧在《基于超声波检测的汉语普通话基础元音发音的舌体运动研究》中利用超声波检测技术所得到的不同发音下的舌体形态数据，如图9所示，该图为舌头超声成像图，同时结合发音过程的头动、唇形变化数据，对四名发音人汉语普通话七个基本元音/a/、/i/、/u/、//、/y/、//、//发音 S2 至 S4 阶段的舌体形态及运动方式从原始图像观察、数据分析、发音音系学考察和发音生理空间分布等角度进行分析[12].

图9 舌头超声成像图

4 唇形研究

语音产生的声学理论指出，唇型作为声道与外界空气耦合的界面，对语音的产生有着重要的作用，它是惟一视觉上完全可见的发音器官.目前微软、中国科学院自动化所等研究机构研发的Talkinghead、教学软件、动画片等让唇形研究不仅从二维逐渐发展到了三维，而且唇形轮廓提取、唇形建模以及唇读等研究领域在语音生理研究中也具有重要的意义.

图10 avi唇部显示图(左)与唇轮廓图(右)图11基于运动捕捉的三维唇形模型

唇形轮廓的准确提取是唇形合成的基础，潘晓声从多个领域对唇形变化与语音之间的关系作了初步的探索，在《汉语普通话唇形协同发音及可视语音感知研究》一文中利用汉语普通话的二维唇形录像和三维唇形运动捕获数据，分别从言语产生、言语感知和言语工程这三个方面研究唇形变化与语音之间的关系，而且实现了基于Matlab的唇形参数提取平台，如图10所示，图10(左)为唇部显示，图10(右)为唇轮廓图.该平台实现的主要功能包括：文件读取，关键点标记，文件播放及显示，参数提取及数据存储，考虑到边缘检测的局限性，该平台采用手动标记的方法标记关键点，得到了较理想的唇形曲线[13].

嘴部动画是人脸动画中极其重要、不可或缺的一环，只有嘴部动画与语音及其他神态表情要素坐标一致，才能使人脸动画展现出逼真、自然的动画效果.因此，对唇部的建模是最为关键的一个环节.潘晓声利用三维运动捕捉技术和唇形模型建模技术进行的汉语普通话元音三维唇形动态模型的研究，如图11所示，利用运动捕捉技术进行唇形上汉语元音运动数据的采集，并对这些数据进行处理；利用处理后的实时数据进行汉语元音的唇形静态模型的建立；最后用创建好的静态模型导出唇形动态模型.由于实际舌头和嘴唇的颜色较为接近，绝大多数算法无法精确提取出内唇线.因此，如何正确提取唇形的内轮廓是未来该领域要研究的重点.

王安红在《普通话语音视位系统初探》一文中建立一个初步的普通话视位系统，文中基于一个小规模的普通话语音唇型参数数据库.通过一系列统计分析，归纳出一套汉语普通话视位系统[14].刘培桢在《基于发音特征DBN模型的嘴部动画合成》—文中提出了结合发音特征的多流动态贝叶斯网络语音模型(AF_AVDBN)，使得发音特征(如嘴唇、舌体和声门/软腭)之间可以异步，并推导了基于极大似然估计原理的嘴部最优参数学习算法[15].该方法的远远由于传统的方法，能够更好地应用于人机交互等领域.杨宏在《汉语发音的唇形可视化处理方法研究》以唇形为基础，用文本作为驱动源，研究了汉语发咅的唇形可视化处理方法，该文章利用预先录制视频中的视位样本结合光流法实现了二维人脸唇形动画的建模；其次在基于Waters肌肉模型的基础上，提出了一种新的由参数控制的三维唇区肌肉模型，实现了三维人脸唇形动画的建模，针对特定人的唇形动画建模上取得了较好的结果[16].梁晓昀在《语音驱动三维唇形动画算法研究》分析了汉语普通话和英语的发音规律，使用高斯混合模型算法和基于有向无环图的支持向量机多分类算法(DAG-SVM)代替神经网络进行音素分类，并对DAG-SVM进行了改进；最后，利用DirectX中的三维网格渐变动画技术实现了通用性强且具有真实感的三维人脸唇形动画，与分类算法相结合，编写了图形界面[17].

唇读技术拥有重大的研究价值和极为广泛的应用前景.近年来越来越多的唇部定位和唇动识别算法被提出，然而这些算法的研究主要局限在正面理想光照条件下，而实际的唇读识别系统都将工作在光照变化的应用环境中.因此，张宏军在《可变光照下的唇读识别技术研究》一文建立了光照可变的唇读数据库，提出了一种“三段式”唇部定位算法，来增强唇动特征提取算法的鲁棒性[18].

5 结语

本文系统的阐述了目前国内基于图像的语音生理研究进展.语音生理研究在生物机器人、智能型语言、可视化交互教学系统等各个领域具有重要的研究价值.因此，在以下方面需要进一步加强：①在设备方面，比如提高核磁共振成像(MRI)设备的速度等.②在图像处理方面，尝试新算法，引入深度学习新技术，建立新的模型.③开拓视眼，发掘新的有意义的视角，以此来帮助人们对言语产生的深入研究，促进现代语音学的发展和进步，进而推动我国语音学理论和应用研究的发展.

[1] 孔江平，论语言发声[M].中央民族大学出版社，2001.

[2] 王士元，彭刚.语言语音与技术[M].上海：上海教育出版社，2006.

[3] 李永宏，胡阿旭，吕士良.言语产生的生理研究方法[J].西北民族大学学报(自然科学版)，2012，(3).

[4] 孔江平，汪高武，李永宏等.汉语普通话发音教程[M].香港：香港大学教育学院出版社，2014.

[5] 谭晶晶，李永宏，孔江平.汉语普通话不同文体朗读时的呼吸重置特征[J]，清华大学学报，2008，(4).

[6] KongJiangping.Laryngeal Dynamics and Physiological Model[J]，Peking University Press.2007.

[7] Li Yonghong，KongJiangping，WangGaowu，DingLijuan.Based on X-ray Mandarin Speech Physiological-Learning System.2011 International Conference on Computer，Electrical，and Systems Sciences，and Engineering.2011.4，412-415.

[8] 汪高武.汉语普通话声道调音模型研究[D].北京大学，2010.

[9] 宋婵.人体发音过程中的三维声道几何建模[D].天津大学，2013.

[10] 刘杰.三维几何发音模型的构建与控制[D].天津大学，2015.

[11] 王宇光.基于核磁共振成像的汉语普通话元音/i，(s)i，(sh)i/的研究[D].天津大学，2012.

[12] 陈彧.基于超声波检测的汉语普通话基础元音发音的舌体运动研究[D].南开大学，2011.

[13] 潘晓声.汉语普通话唇形协同发音及可视语音感知研究[D].北京大学，2011.

[14] 王安红.普通话语音视位系统初探[D].北京语言大学，2000.

[15] 刘培桢，蒋冬梅，RAVYSE Ilse，等.基于发音特征DBN模型的嘴部动画合成[J].科学技术与工程，2010，10(14)：3335-3339.

[16] 杨宏.汉语发音的唇形可视化处理方法研究[D].湖南师范大学，2013.

[17] 梁晓昀.语音驱动三维唇形动画算法研究[D].北京理工大学，2016.

[18] 张宏军.可变光照下的唇读识别技术研究[D].哈尔滨工业大学，2016.