基于超声影像的舌位参数提取及分析软件研究
2023-10-09李永宏张金溪
李永宏 寇 贇 张金溪 徐 建
1(西北民族大学中国民族语言文字信息技术教育部重点实验室 甘肃 兰州 730030)
2(陕西机电职业技术学院科研信息处 陕西 宝鸡 721001)
3(兰州财经大学商务传媒学院 甘肃 兰州 730020)
0 引 言
超声影像技术为言语发声实践开拓了新思路,目前,该项技术无论是在言语发声还是在临床医学研究中已经成为一项重要的测量工具。国际上在语言学的研究中利用超声影像技术主要体现在以下三个方面[1]:(1) 提取超声成像中的舌位运动轨迹。研究方法包括主动轮廓模型[2]、主动外观模型[3]、基于图形标记方法[4]、基于粒子滤波技术[5]、基于标记模型和局部特征自适应变换的方法[6]、生物力学模型[7]、散斑跟踪方法[8]、深度学习[9]等方法。常见的免费提取舌位轮廓的软件有EdgeTrack和Ultra-CATS两种,如图1(a)所示。EdgeTrack软件利用适合带状边缘跟踪提取的Snakes模型,在此基础上开发了边缘跟踪EdgeTrak[10],该软件已应用于语音研究。EdgeTrack软件使用时需要用户在超声波视频中的每一帧舌体轮廓均匀取100个数据点,之后将该数据点的X、Y坐标点存入到文本文件,方便后续统计分析进行处理。由于超声成像技术在采集数据时,舌位运动轨迹在视频的某一帧采集不到舌位轮廓或舌位轮廓部分消失,便出现错误,则需要手工重新标记,耗时较大;Ultra-CATS软件是以探头为圆心,每隔5度左右做一条射线与舌位轮廓相交于点X、Y,之后将该点存入到文本文件,方便后续处理。如图1(b)所示,该软件提取轮廓的方法是首先读入采集好的超声视频,利用手工标记的方法初始化舌位轮廓作为一个模板,后续的数据利用算法调整每一帧舌位轮廓到最佳状态,但是该软件只适合运行于Windows XP系统,在其他操作系统会出现.dll的配置错误信息,兼容性不够好。(2) 舌体轮廓线和舌位运动的量化分析研究。研究方法包括距离和测量法[11]、舌面的时空可视化分析[12]、平滑样条方差分析[13]、舌曲率测量法[14]、小波函数混合模型[15]、舌体运动速度测量[16]等方法。Parthasarathy等[17]提出一种从轮廓序列中可视化、量化和比较舌面特征的方法,利用克里格(Kriging)法外推从超声图像序列中提取舌面轮廓,由此产生的克里格轮廓被堆叠和可视化为一个时空表面,最后开发了一种结合克里格算法的专用曲面软件工具Surfaces(如图1(c)所示),该工具用于对不同舌形进行平均分析和比较分析。(3)舌体三维建模。Stone等[18]和Lundberg等[19]分别使用60片超声舌位成像数据集和更稀疏的超声舌位成像数据集,定义了静态美式英语语音的三维舌面形状;Yang等[20]提出了一种利用超声成像测量舌面三维运动的新方法,利用8幅超声图像(5幅冠状面和3幅不同扫描角度的矢状面)来重建正常语音发音过程中的三维舌体运动。舌体运动三维建模可以提供更多的视觉信息和对舌头三维运动的定量描述,也可测量舌体体积,能够比较准确地体现发音时的舌位。
(a) Edge Track (b) Ultra-CATS (c) surfaces
目前在国内将超声波技术用于语言学研究慢慢深入,但是通过搭建基于超声影像的数据处理平台,方便对采集的超声图像进行舌位轮廓数据提取、分析与保存操作的工具并没有被开发。为提高处理舌位超声成像数据的效率,本文结合上述前人关于超声影像舌位轮廓提取及参数分析软件的优缺点,开发基于超声影像技术的舌位参数提取及分析软件,该软件可实时提取动态超声视频的舌位轮廓,并对从动态超声波的视频某一帧到全部帧都可计算分析舌位轮廓的相关参数。软件具有便捷、易操作、拓展性强等优点。
1 超声波数据采集及预处理
利用超声成像技术研究舌位发音过程的动态时,需根据研究内容来选取合适的探测部位、实验设备及合理的实验参数,同时由于采集的超声数据具有高噪声等特点,需对其进行降噪、图像增强处理。
1.1 数据采集
本文采用的数据来源中国民族语言文字信息技术教育部重点实验室。实验室超声设备如图2所示,超声设备由显示器和探头两部分组成,为使得实验人员清晰地看到舌位信息,采集数据时需在探头涂抹耦合剂。将探头放置实验者的下巴,稍用力贴合肌肉组织进行发音,超声波透过肌肉反射回来的信息呈现在设备显示屏,则在超声设备显示器可实时看到实验者发音时的舌位信息。实验过程中,为进一步寻找舌位发音时的参照物——上颚,尝试让实验者含水吞咽的过程中可呈现上颚。整个采集数据过程不仅需调节超声仪器参数,也需人为干预辅助获取到更加合理、清晰的超声数据。
图2 超声数据采集仪器
由于探头所处人体部位的特殊性,为消除实验人员头动等因素干扰,本实验采集超声数据使用头部装备来保证数据的合理性;另外,实验过程中,针对不同实验者及同一实验者发不同音时,实验人员需合理调节超声仪器界面参数来获取有效的超声数据。
1.2 视频预处理
本次实验采集的超声波视频数据中的每一帧数据都包含当前超声视频的参数设置信息的显示,并且具有高噪声等特点。
由于本文研究的对象为舌线部分,因此视频预处理的目的为最大程度地降低干扰因素(包括超声视频参数设置信息、舌体影像等)对舌线提取分析的影响。首先,去除超声波工作界面边框,以得到更加精确的舌体运动范围;其次,截取得到舌线部分的扇形区域,即不包含舌体部分的影像;最后,使用数字图像增强方法中的空域锐化增强技术——sobel算子,对舌线影像的轮廓等细节信息进行加强,为舌线的提取提供更多可用的信息。超声图像预处理分析如图3所示。
图3 超声图像预处理分析
2 软件设计与实现
本文基于MATLAB 2016b平台,在Windows 10操作系统下进行开发,经验证在Windows 7版本以上操作系统都可运行。
2.1 结构设计
本文软件的整体可以看作由四部分构成,分别是:文件操作、应用模块、数据存储及图形显示。软件设计结构如图4所示。
图4 软件结构设计
本文软件首先读入要处理的超声视频文件。其次,经过应用模块得到舌位运动曲线和舌位运动曲线的参数数据,进一步使用SPSS软件对得到的舌位运动曲线的相关数据进行分析。
应用模块分别由舌位曲线提取和舌位曲线参数分析两大功能模块构成,舌位曲线提取模块实现了自动拟合舌位曲线及展示其对应的舌位曲线方程的功能;手工标记关键点生成舌位曲线功能是可通过保存关键点来弥补拟合不准确帧的舌位曲线。舌位运动曲线参数分析模块包括计算并保存舌位运动曲线范围、舌位曲线曲率、舌位曲线曲率位置、各帧舌位曲线在X轴、Y轴极值点的数据,并实时计算舌位整体运动的舌位线曲率和曲率位置变化。应用模块中所产生的数据都保存至excel文件中,后续利用SPSS软件进行统计量化分析。
本文软件设计采用模块化编程模式,从而独立于人机交互界面,也便于后续舌位曲线提取方法的改进和拓展。
2.2 功能设计
软件设计界面如图5所示,其分为菜单、视频文件信息、文件操作、应用模块。其中菜单包含:文件:打开文件、保存图像、复制图像、打印图像、退出程序五个功能;设置:恢复默认数据功能;帮助:介绍软件的操作说明。
图5 软件界面
本文软件的核心是应用模块中的舌位运动曲线提取和舌位运动曲线参数分析模块。
(1) 舌位运动曲线提取模块。超声数据采集完成之后,为精准获取舌位运动曲线,首先,本模块对视频预处理后的每一帧影像,使用数字图像处理的方法,得到舌位运动曲线的关键点。其次,采用二次样条曲线拟合方法进行拟合来自动获取舌位曲线,并实时跟踪每一帧的舌位运动曲线方程。人在发音时的舌头非常灵活,无规律可循,因此利用二次样条拟合舌位运动曲线使得部分帧存在误差,为精确提取完整发音时的舌位运动曲线的超声数据,本软件对存在误差的数据进行二次提取舌位曲线。二次舌位运动曲线提取采用手工标记关键点的方法,利用三次样条的方法沿着舌位像素标记的关键点插值生成连续光滑的曲线。同时该模块为避免误标记不符合当前帧的关键点,设计删除关键点功能。插值生成的曲线如不符合当前帧舌位运动曲线,设计删除舌位曲线功能,可重新标记关键点生成新的舌位运动曲线。该模块最核心的部分是保存关键点,手工标记的关键点插值生成舌位运动曲线,利用保存关键点功能,可替换自动拟合生成不准备的舌位曲线,便于后续的数据分析处理。
(2) 舌位运动曲线参数分析模块。此模块包括舌位运动曲线范围、帧距、舌位空间距离、舌位曲线曲率及曲率位置的计算。并可实时显示舌位曲线各项参数变化统计图。为方便计算舌位曲线曲率及曲率位置,如图6所示,为了将舌位轮廓重塑成三角形,建立极坐标系,即以探头为极点,每隔大约5度左右作射线(极径)与舌位曲线相交,相交两端的端点视为三角形两条边的交点,最高点作为三角形的另外一个点。舌位曲线的曲率定义为三角形的高与底之比。以舌位曲线的最高点为顶点,作三角形的高与三角形的底边相交于一点,该点将三角形的底边一分为二,二者之间的比定义为舌位曲线的曲率位置。
图6 舌位曲线曲率及曲率位置的计算方法
3 应用案例分析
为了验证本文软件的有效性,本文采用/a/、/o/、/e/、/i/、/u/五组元音的超声数据作为本文软件的输入数据,从舌位曲线提取功能和参数分析功能两方面进行分析。
3.1 舌位运动曲线提取
传统的发音音系学理论将发音姿势出现至消亡的过程看作一条360度的轨迹,在这条轨迹上有始发、目标、中心、释放和释放达成五个姿势标志点[21]。另外,在实际的舌位超声数据中,存在反映舌位初始状态的发音开始前和发音完成后的数据,这些数据可观察发音时舌体运动的连贯动作。基于以上,本文实验采用的/a/、/o/、/e/、/i/、/u/的舌位超声数据分为三个阶段:发音人的准备阶段、发音阶段和收尾阶段。
案例采用元音/a/、/o/、/e/、/i/、/u/各六组自动拟合的舌位曲线,各两组手工标记关键点插值生成的舌位曲线。自动拟合舌位曲线采用ployfit(x,y,n)函数来进行拟合。其中(x,y)坐标点来源于去除超声图像干扰点后,利用find函数查找所得。另外,经过对多项式的多次考究,将n设为2。/a/、/o/、/e/、/i/、/u/自动舌位曲线拟合结果如图7所示(按行顺序),同时列举了五组元音各两帧的拟合方程系数,见表1。手工标记关键点插值生成舌位曲线的方法采用yi=spline(x,y,xi)函数,该函数根据手动标记的点(x,y),插值生成三次样条曲线,即舌位曲线。图8列出了/a/、/o/、/e/、/i/、/u/各两帧的舌位曲线。其中,第一行是二次项式拟合不准确的舌位曲线;第二行是沿着超声图像像素点为1的点进行手工标记点的图像;第三行是利用三次样条插值生成的舌位曲线。同时根据手工标记关键点的数据(每个关键点的X、Y坐标点),利用SPSS工具对数据点进行了散点图的重叠分析,进一步验证了手工标记关键点生成舌位轮廓的可行性。图9列出了/a/、/o/、/e/、/i/、/u/各两帧的手工标记关键点的散点分析图,数字图像的坐标系与普通二维平面的坐标系存在差别,如本文使用的超声视频中的某帧,坐标原点在左上角,若要使图像中舌位曲线与普通坐标系中的方向一致,则可认为,舌位在普通二维平面的坐标系第四象限活动,因此图9中手工标记关键点的散点分析图的Y轴为负的。
表1 五个元音自动拟合舌位曲线方程系数
图9 手工标记关键点的散点分析图
3.2 舌位运动曲线参数分析
舌头的灵活性和柔软性使得舌位运动复杂多变,无特定运动规律。人在说话时,舌头在口腔内遇到不同程度的阻塞,使其发出各种各样的声音,由此说明舌头在语音产生中的重要性[22]。本文依据元音在发音过程中舌头在口腔中所处位置的不同,选取的/a/、/o/两个前元音和/e/一个后元音作为舌位曲线参数分析的实验对象。元音是由闭着的声带被呼出的气流所冲击,作有周期性的颤动,经过口腔的调节有了共鸣而形成的。研究者用于研究元音的生理参数分析如:舌位的高低、前后,舌的凹凸度等其他发音器官的参数分析。因此找出舌位在发声过程中运动的基本规律和原则就非常重要。上述关于/a/、/o/、/e/三个元音的舌位曲线已提取,本实验对获取到的三个元音的舌位曲线从帧距和舌位空间距离进行参数分析。
帧距是计算相邻两帧舌位运动曲线之间的差值,本文采用均方根平均距离和(RMSSD)来计算舌位运动曲线差值,这样的计算方法可以测量不相同数量点的集合插值而成且长度不同的舌位曲线间的距离,简称帧距[23]。假设两个等高线由u=[u1,u2,…,um]和v=[v1,v2,…,vn]两个不同数量的点的集合插值而成,则这两条等高线之间的RMMSD的定义为:
根据对/a/、/o/、/e/元音的舌位运动轨迹的数据进行保存,并计算各自的帧距,帧距曲线结果如图10所示。
“---”代表元音/a/的帧距曲线:元音/a/发音时舌身压低并后缩,舌尖不抵牙齿。从1~7帧,帧距曲线一直为0,可能出现的原因有:(1) 1~7帧各帧之间舌位轮廓无差异,即RMSSD为0;(2) 1~7帧并无舌位轮廓的数据。人发音的动作以ms来计算,本文所使用的元音超声波数据采集频率40帧/s左右,发音阶段的动作可能会正好处在连续两帧图像之间,为保持获取数据的完整性,本文在处理数据时,不轻易处理感性认识上认为无效的超声视频数据。因此,1~7帧属于发音人的准备阶段,舌位处于初始状态。7~13帧的帧距曲线有突然加速和减速的帧距曲线变化,说明发音人从第7帧开始,舌位开始向下运动,舌位曲线从无到有。帧距曲线从第13帧开始,一直持续到80帧左右,此范围内的帧距曲线变化微小,说明发音人处于正在发音阶段。80帧以后即进入发音收尾阶段,舌位上抬恢复到初始状态,帧距较发音阶段差值较大。同时,发音收尾阶段的帧距曲线也回归到和舌位初始状态的帧距曲线接近的位置。
“┅”代表元音/o/的帧距曲线:元音/o/发音时舌位半高,舌头后缩,舌尖微卷。元音/o/的帧距曲线整体比较稳定,从舌位初始状态慢慢开始抬高舌位,同时伴随舌尖微卷,舌位运动开始加速到稳定,此过程帧距曲线从无到上升,到平稳状态。当发音人进入收尾状态,舌位要前伸,舌位高度下降到原始状态,帧距曲线则再次加速变化过渡到舌位的初始状态。
“...”代表元音/e/的帧距曲线:元音/e/发音时舌前部稍抬起,舌尖抵下齿。元音/e/的帧距从1~27帧左右,舌面靠近口腔上部,舌位从初始状态开始缓慢上升到急速上升,帧距均值也逐渐上升;27帧左右,帧距均值突然加速,舌位运动较快,舌位轮廓变化较大。当发音人处于发音阶段时,帧距均值平稳变化,舌位状态基本稳定,舌位轮廓无显著变化;当发音进入收尾阶段,舌位高度下降,舌尖收回到舌位初始状态,舌位轮廓再次大幅度变化,逐渐回归到舌位的初始状态。
舌位曲线帧距的物理意义是衡量单位时间内舌位运动速度变化的快慢。上述元音的舌位曲线帧距从舌位的初始状态、舌位发音的初始状态到舌位发音的过渡阶段、舌位发音的稳定阶段、舌位发音的收尾阶段及其再次恢复到舌位的初始状态舌位发音的三大阶段深入研究,可描述舌位发音运动中整体舌位轮廓的差值变化,也可直观观察到舌位发音过程中舌位运动速度变化的快慢。
舌位空间距离是衡量舌位发音时在X轴的收缩度和在Y轴的弯曲度,为分析舌位发音运动过程中舌体自身的长度和高度变化提供参考。本文通过计算超声数据每帧图像中舌位轮廓在X轴的最近点、最远点和在Y轴的最高点、最低点来体现舌位空间距离[24]。图11分别绘制了元音/a/、/o/、/e/所对应的舌位空间距离的散点分布图,横轴为X轴,纵轴为Y轴。
图11 元音/a/、/o/、/e/舌位空间距离散点分布图
舌体在Y轴范围内的变化:元音/a/舌体自身在Y轴高度范围在-278~-78;元音/o/舌体自身在Y轴高度范围在-365~-125;元音/e/舌体自身在Y轴高度范围在-358~-78。在舌位元音图中,/a/的舌位处于低位,/o/和/e/元音的舌位处于半高。由于舌头在口腔底部,向下的活动范围有限,因此元音/a/在发音时,舌身向下压低的空间有限,在Y轴活动范围较小。而元音/o/与元音/e/在发音时,舌身向上稍抬,自然状态下舌位以上的口腔空间较大,因此元音/o/与元音/e/的舌体在Y轴的活动范围较元音/a/的舌体活动范围大。
舌体在X轴范围内的变化:元音/a/舌体自身在X轴的收缩范围15~470;元音/o/舌体自身在X轴的收缩范围90~530;元音/e/舌体自身在X轴的收缩范围80~590。三个元音发音时舌位在X轴范围内的舌体可收缩程度基本一致,说明舌位在发不同音时在X轴的收缩度变化细微,基本无差异。各自将最远点集中分布在X轴向右的方向,最近点分布在X轴向左的方向。另外,通过观察舌位空间散点分布图,元音/a/与元音/o/舌位的最近点和最远点的分布范围的差值微小,而元音/e/作为前元音,舌前部要向硬腭抬起,舌尖要抵住下齿,使得其最远点分布范围集中,最近点分布范围较/a/与/o/的范围较大。
综上所述:发音时的舌位空间距离在Y轴范围内活动比较明显,且与舌位元音图的舌位高低所对应;在X轴范围内舌位发音时的舌体收缩度有细微的舌位前后伸缩的变化。同时,各帧元音在X轴的最远点、最近点与Y轴的最高点、最低点的分布各自相对比较集中。
上述通过对后元音/a/、/o/及前元音/e/的舌位曲线的帧距和舌位空间距离两个参数进行分析,帧距可观察单位时间内舌位运动的快慢,可为分析舌位发音阶段提供参考;舌位空间距离可分析舌位曲线在X轴与Y轴范围内的舌位运动情况,可计算分析舌位在发音时的长度和高度。
4 结 语
本文开发了一个便捷操作的基于超声影像的舌位数据提取及分析平台,方便了语言研究者的研究使用。该软件可实时提取舌位曲线并从舌位运动、舌体自身两个角度对提取的舌位曲线进行分析。该软件通过自动拟合舌位曲线与手工标记关键点的方法,避免了Edge Track软件出现每帧都需手工标记点的重复操作,提高了舌位曲线提取的效率与准确度;同时该软件在目前常用的操作系统平台上都可运行,较Ultra-CATS大大提高了软件的兼容性。另外本文软件实现了处理大量的超声数据的功能,便于后续利用SPSS工具进行量化统计分析,为处理更多的舌位曲线数据提供了技术支持。同时,在使用软件的过程当中,由于介入人工标记关键点的因素,对生成的舌位曲线存在些许误差,对后续进行参数分析的数据有影响。后续为提高基于超声影像技术的数据处理平台的工作效率,将研究新的、全自动提取舌位轮廓的方法及更直观、更有益于分析语音规律的参数应用于本文软件。