APP下载

唇读技术在角色动画交互中的研究与应用

2017-04-28朱妹丽罗江林王青青

数据与计算发展前沿 2017年5期
关键词:唇语唇部口型

朱妹丽,罗江林,王青青

1. 吉林动画学院科研与技术创新中心,吉林 长春 130000

2. 吉林动画学院,吉林 长春 130000

3. 长春理工大学 光电信息学院,吉林 长春 130000

前言

在三维角色动画制作中,面部动画最为关键,只有当表情、口型、声音三者一致时,角色动画看起来才会更加真实自然。在欧美的动画中,为了做到表情、口型、声音的对应,传统的方法先请配音演员录音,然后让动画师捕捉配音演员说话时的表情神采与口型,并以此设定角色形象。随着计算机图形图像技术的快速发展,可以通过建立标准口型发音系统的方法能来创作口型动画。而在国内,则基本上采用关键帧制作法,只把台词中夸张的口型部分做出来,其他部分则含糊带过,这使得国内动画中的角色口型与台词的契合度很低,角色面部动画生。

目前,动作捕捉技术日臻成熟,通过 Marker (标记点) 实时捕捉嘴部肌肉的运动轨迹,能够让角色的口型与配音匹配得更加完美。但是,动作捕捉系统[1]的价格通常较为昂贵,并且后续数据的处理与计算繁杂。在本文中,为了能够让动画制作人员快捷、轻松的制作出高品质的口型动画,本文提出了一种基于唇读技术的交互式角色面部动画制作方法的设计方案,借助唇读技术,实现与角色的实时交互,实现口型与配音的一致。

图1 唇读技术与其应用Fig. 1 Application of lip-reading

1 唇读技术

唇读 (lip-reading/speech-reading),是指通过观察说话者的口型变化,“读出”或“部分读出”其所说的内容[2]。唇动作为一种重要的视觉信息通道,可作为语音的理解源,有着人的情感状况和所要表达的意义。随着计算机技术、图像处理技术、模式识别技术的发展,唇读技术已成为学者研究的热点问题,唇读作为新的人体生物特征、新的人机接口、新的编码方式、新的反恐手段,在人们生活中发挥着越来越重要的作用。

1.1 唇读技术的发展

唇读的思想在 1954 年由 Sumby 提出,而第一个唇语系统由美国伊利诺大学的 Petajan 在 1984 年建立。在此后的 80 年代与 90 年代,唇读技术得到发展积累。2000 年,约翰霍普金斯大学举办了第一次代表唇读技术最高水平的学术会议,唇读技术在 21 世纪得到了飞速发展,不仅在理论研究方面成果显著,据 EI 数据库统计,每年唇读技术相关论文多达 300多篇。在实际应用方面也取得了重要突破,唇语识别的软硬件技术发展迅速,逐渐向着实用性阶段推进。2002 年,日本电信通讯公司 (NTT) 旗下的 NTT DoCoMo 开始投入世界上第一款唇语手机的研发。2003 年,英特尔推出了一种能让计算机读唇语的软件 (AVSR)。2013 年,微软计划发行的次世代 Kinect体感控制器能够读懂用户的唇语。2016 年,在牛津大学人工智能实验室、谷歌 DeepMind 团队和加拿大高等研究院联合发布的论文中,利用机器学习实现语句层面的自动唇读技术。在 GRID 语料库上,能够取得 93.4% 的准确度[3]。

1.2 唇读关键技术

唇读技术的研究内容主要包括唇的检测与定位、特征提取、识别理解。

(1) 唇部检测与定位

唇部检测与定位是唇读系统中的首要任务,检测与定位效果直接影响后续环节。唇部检测与定位主要有以下几种方法:

1) 根据人脸的生理结构[4]确定唇部位置

2) 根据灰度信息或者彩色空间变化及肤色模型确定唇部位置[5]

3) 利用运动目标检测唇部[6]

虽然唇部区域检测与定位技术已经比较成熟,但仍存在值得研究的问题,比如,在实际环境下,光线变化影响问题、运动的说话人检测问题、不同角度、不同头部姿态的检测问题、减少冗余信息及提高处理速度等问题。

(2) 唇动特征提取

唇动特征的选取是唇读识别的关键环节。有效、鲁棒的特征值直接影响唇读识别的识别率。目前,唇动特征提取方法大都在传统的视觉特征提取方法基础上发展而来。主要的方法有基于纹理特征[7]、基于形状特征[8]、混合方法[9,10]、基于运动分析[11]等。为了解决大词汇量识别、抗噪音干扰、说话人无关等问题,3D 视觉特征、多姿态等将是唇部特征提取的研究重点。

(3) 唇语识别

唇读识别模型多为借鉴语音识别模型,主要有模板匹配[12]、动态时间规划 (DTW)[13]、隐马尔可夫模型(HMM)[14]、神经网络 (ANN)[15]、支持向量机 (SVM)[16]等。随着机器学习技术的发展,深度神经网络在唇读技术中得到应用,并能够取得较好的识别效果。

2 基于唇读技术的角色动画制作方法

角色面部动画的特殊性,对制作者的专业能力与经验有着苛刻要求,需要制作者具备较强的专业能力与经验。为了能够让动画师从重复的、烦杂的调试工作中解放出来,投入更多的精力到动画作品本身的创意与设计上,简单易操作的动画制作工具成为动画生产的必然需求。在本文中,以唇读技术为基础,提出了一种基于唇读技术的交互式角色面部动画制作方法的设计方案。该方案通过动画师与角色的实时交互,实现角色口型动画的快速制作。动画师通过摄像头实时捕捉视觉信息,利用唇读技术进行唇部定位、特征提取及识别,根据唇语识别解析出的音素结果,从标准口型库中查找出对应的口型,最后使用该口型控制角色模型的口型动画。

基于唇读技术的交互式角色面部动画制作方法的设计方案如图 2 所示。

图2 方法流程设计Fig. 2 Method flow design

基于唇读技术的交互式角色面部动画制作方法如下:

(1) 数据采集

数据采集由普通摄像头拾取视频信息。在动画师制作角色面部口型动画时,面部朝向摄像头,根据剧本,录入要制作的配音口型。

(2) 数据处理

数据处理包括唇语识别、语音识别与语音合成三个部分。其中唇语识别是本方法实现的重点与难点。

1) 唇语识别

在实际的工作中,需要较为安静的环境,因此采用唇读技术,能够有效避免同事之间的相互打扰。通过摄像头获得图像信息,通过唇部定位、特征提取、识别理解后,解读出所说的内容,然后根据内容到口型素材库中查找出发音所对应的口型,以目标口型去控制角色口型的变化,进而达到角色口型与声音相对应的目的。当前人脸检测技术已经相对发展成熟,因此,唇部定位可以借助人脸检测技术,通过人脸检测技术标记出的面部关键点来确定唇部位置。例如ASM (Active Shape Model) 算法,能够确定出面部的68 个关键特征点,如图 3 所示。ASM 算法不但可以实时获取有效的唇部运动参数,而且还可以获取其他面部关键点,以便控制角色面部的整体变化,使得表情、口型、声音三者相一致。

为了准确描述唇部运动,唇动特征值应当包含唇的位置变化信息及动作变化信息,为此,唇动特征通常以视觉特征为基础,选取不同的唇动属性作为特征值。唇动视频序列如图 4 所示。

每一个发音都有对应的标准口型,而发音口型的设置是否标准直接影响口型动画的真实感与流畅性。目前,国外针对英语发音,已经建立了以国际音标的标准的口型发音系统,而对于汉语而言,还缺少标准的中文口型动画素材库,因此,需要根据汉语拼音的发音特点,建立标准口型素材库。此外,可以借助互联网与大数据技术,不断扩充与完善素材库中的口型,进而不断提高唇语识别效率。

从特征描述符到机器学习,再到深度学习,计算机视觉发展迅速,特别是 2014 年,深度学习在很多学术领域中都取得了显著成绩,其中深度卷积神经网络 (DCNN) 在识别技术中应用最为广泛,因此在唇语识别阶段可以采用深度学习方法。卷积神经网络[17]的整体结构包括归一化、滤波器组、非线性计算、池化。经典的 LeNet5 模型如图 5 所示。

图3 面部关键特征点Fig. 3 Facial critical feature points

图4 唇动视频序列Fig. 4 Lip movement sequence

图5 卷积神经网络模型Fig. 5 Convolution neural network model

LeNet5 模型可以简化为单个阶段,第一阶段滤波器组-挤压-最大池化,第二阶段波器组-挤压-最大池化,阶段三标准 2 层 MLP。

2) 语音识别

由于目前唇读技术的识别率不能达到准确无误,特别是对于连续语句,因此,当唇语识别的结果不理想时,可以开启语音识别功能,以提高识别的准确度。

3) 语音合成

当前,语音识别技术与语音合成技术相对成熟,因此,在本方案的设计中,语音识别与语音合成可采用集成方式,而系统的实现则需要注意与动画应用软件的连接问题,例如采用 MAYA 嵌入式语言开发,系统能够具备较高的独立性与可塑性。

3 结论

本文提出了一种基于唇读技术的交互式角色面部动画制作方法的设计方案,在该方案的设计中,借助唇读技术,实现与角色的实时交互,实现口型与配音的一致,此外,唇读识别可通过互联网与大数据不断扩充与完善唇动数据与识别模型,以提高识别效率。在该设计方案中,唇读技术是实现的重点与难点。下一步的研究方向为基于深度学习的识别算法实现。

[1] 美国魔神动捕技术手册[M].美国魔神运动分析技术公司, 2009.

[2] 姚鸿勋, 高文, 王瑞, 等. 视觉语言唇读综述[J] . 电子学报, 20 01 , 2 9( 2) : 239 -246 .

[3] LipNet: End-to-End Sentence-level Lipreading[J]. Yannis M. Assael, Brendan Shillingford, Shimon Whiteson,Nando de Freitas. eprint arXiv:1611.01599.

[4] YaoWenjuan, LiangYaling, DuMinghui. A real-time lip localization and tacking for lipreading[C]Proceedings of the 3rd International Conference on Advanced Computer Theory and Engineering.Chengdu: IEEE,2010:363-366.

[5] Pera V, Sa F, Afonso P, et.al, Audio-visual speech recognition in a Portuguese language based application.Proceedings of IEEE International Conference on Industrial Technology, 2003, Vol.2, Pages: 688-692.

[6] Pao Ts L, Liao W Y, A motion feature approach for audio-visual recognition. Proceedings of 48th Midwest Symposium on Circuits and Systems, 2005, Vol.1,Pages:421-424.

[7] M. Leszczynski, W. Skarbek. Viseme recognition - a comparative study[C]. In AVSS-Advanced Video and Signal Based Surveillance, 2005:287-292.

[8] Xie L.Cai X L.Fu Z H.et a1.Lip temporal pattern analysis for automatic visual speech recognition[C].In:7th International Conference on Signal Processing. Beijing,China, 2004.1:703-706

[9] Matthews I, Cootes T F, Bangham J A, et.al, Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, Vol.24(2): 198-213.

[10] W. Wang, D. Cosker, Y. Hicks, S. Saneit, J. Chambers.Video assisted speech source separation[C]. Acoustics,Speech, and Signal Processing, 2005. Proceedings.(ICASSP '05). IEEE International Conference on,2005:425-428.

[11] Matthews I, Cootes T F, Bangham J A, et.al, Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, Vol.24(2): 198-213.

[12] Tsuyoshi Miyazaki, Toyoshiro Nakashima,Naohiro Ishii.Mouth Shape Detection Based on Template Matching and Optical Flow for Machine Lip Reading[J]. International Journal of Software Innovation, 1(1), 14-25, January-March 2013 15.

[13] Yuhas B P, Goldstein M H, Sejnowski T J, Integration of acoustic and visual speech signals using neural nets. IEEE Communication Magazine, 1989, Vol.27(11): 65-71.

[14] E.D. Petajan,N.M. Brooke, B.J .Bisehoff and D.A.Bodoff. An Improved Automatic Lipreading System to Enhance Speech Rceognition[ J]. E.Soloway, D. Frye,and S.B. Sheppard, editors,Proc. Human Factors in Computing Systems ACM,1988,3(6):19-25

[15] Luettin N.A. Thaeker and S.W. Beet. Visual Speeeh Rceognition Using Active Shape Models and Hidden Markov Models[J]. IEEE International Conference on Acoustics,Speech,and Signal proeessing(ICASSP'96),1996,2(4):817-820.

[16] 何俊. 服务机器人语音唇读人机交互技术研究[D].南昌:南昌大学.

[17] Maimaitiaili Tuerxun,Dai Lirong.Deep neural network based uyghur large vocabulary continuous speech recognition[J].Journal of Data Acquisition and Processing,2015,30(2):365-371.

猜你喜欢

唇语唇部口型
轮胎挤出口型参数化设计与加工
MG动画中制作角色声画同步口型的研究
唇部美人计
冬季护唇小窍门
碰撞:“唇语”应对媒体vs志愿者自责哭泣
唇语
亲情助力,90后“唇语女博士”名震清华
搜狗推出“唇语识别”技术
婴幼儿唇部血管瘤的临床分型和治疗探讨
不一样的/e/和/?/