基于唇重构与三维耦合CNN的多视角音唇一致性判别
2023-06-30朱铮宇罗超贺前华彭炜锋毛志炜张顺四
朱铮宇 罗超 贺前华 彭炜锋† 毛志炜 张顺四
基于唇重构与三维耦合CNN的多视角音唇一致性判别
朱铮宇1,2罗超2贺前华1彭炜锋2†毛志炜2张顺四3
(1. 华南理工大学 音频、语音与视觉处理实验室,广东 广州 510640;2. 广东技术师范大学 网络空间安全学院,广东 广州 510665;3. 广州趣丸网络科技有限公司,广东 广州 510665)
针对传统音唇一致性判别方法主要对正面唇动视频进行处理,未考虑视频采集角度变化对结果的影响,且容易忽略唇动过程中的时空特性等不足,文中以唇部角度变化对一致性判别的影响为研究重心,结合三维卷积神经网络在非线性表示和时空维度特征提取上的优势,提出了基于正面唇重构与三维耦合卷积神经网络的多视角音唇一致性判别方法。该方法先通过在生成器中引入自映射损失来提高正面重建效果,并采用基于自映射监督循环一致性生成对抗网络(SMS-CycleGAN)的唇重构方法对多视角唇图进行角度分类及正面重构;然后设计两个异构三维卷积神经网络,分别用来描述音频和视频信号,并提取包含长时时空关联信息的三维卷积特征;最后引入对比损失函数作为音视频信号匹配的相关度鉴别度量,将音视频网络输出耦合到同一表示空间,并进行一致性判别。实验结果表明,文中方法能重建出更高质量的正面唇图,一致性判别性能优于多种不同类型的比较方法。
一致性判别;生成对抗网络;卷积神经网络;正面重构;多模态
语音唇动一致性判别是通过发音过程中唇部运动与音频变化之间的联系来判断音视频是否同时录制、出自同一人、同一句话,已在多模态信号处理的不同领域有着广泛的应用,如身份认证中的活体检测[1]、多说话人视频中的当前说话人定位或分割[2]、多模态盲信号分离[3]等。目前,主流的一致性判别方法可归纳为4类:互信息法(MI)[4]、多元统计分析(MSA)[5]、相关系数法[6]、双模态稀疏表示(MSR)[7]。近年,随着深度学习在音频和视频信号处理领域中的快速发展,有研究者通过耦合描述音视频信号的两个异构神经网络的输出进行一致性判别或两者间时延的估计[8-9]。
然而,现有的音唇一致性判别方法主要对正面角度采集的唇动视频数据进行处理和分析,实验用的数据库也以正面拍摄的数据集为主,而唇部角度变化对一致性判别的影响却缺乏具体的研究。已有文献通过实验证明,不同拍摄角度获得的唇部图像数据对唇语识别的结果有一定的影响[10-11],虽然也有文献认为侧面角度的唇部数据对唇读识别有补偿作用[12],并有研究者尝试从侧面唇图中提取具姿态鲁棒性的唇部特征,以提高对侧面角度数据的识别率[13],而近年基于深度学习的方法也在一定程度上缓解了角度变化引起的自遮挡等问题对识别结果的影响[14],但单纯通过侧面唇图数据进行识别的准确率仍稍低于正面唇图数据。在一致性判别的实际应用场景中,拍摄环境和角度同样复杂多变,多角度的问题也往往难以避免,因此角度对一致性判别的潜在影响同样值得深入研究。同时,多数一致性判别方法(如MSA、MI等)通过为各视频帧特征及其对应音频帧特征建立统计模型来实现两类信息的融合,以此描述发音过程中两者之间的联系,但两者之间的联系并不全是这类方法所假设的线性关系[15]。文献[8]结合两个模态的卷积神经网络(CNN),通过设计映射网络有效获取音视频之间的非线性关联映射空间。然而,以上方法均未考虑时间维度上多帧间的运动信息,不能有效地反映唇动过程中唇形连续变化的时空特性,虽然有部分方法通过对音视频帧求差分特征进行分析[5],但该动态特征缺乏全局性考虑,难以准确描述发音过程中唇部运动与音频信号在时域上的关系。
针对上述问题,文中着重研究了唇部角度变化对一致性判别的影响,并结合三维卷积神经网络在非线性表示和时空维度特征提取上的优势,提出了一种基于正面唇重构与三维耦合CNN的多视角音唇一致性判别方法。首先针对唇图采集过程中的多角度问题,提出了基于自映射监督循环一致性生成对抗网络(SMS-CycleGAN)的正面唇形重构方法,通过引入自映射损失由不同角度的非正面唇图重建出同身份下高质量的正面唇图;然后设计两个异构三维CNN分别作为音频和视频数据的三维卷积特征提取器;最后引入对比损失函数作为音视频信号匹配的相关度鉴别度量,以此实现对二者耦合过程的优化,把音频与视频耦合连接到同一表示空间上,并分析其一致性。
1 正面唇部重构
1.1 正面唇部重构模型
由于人物头部角度姿态通常未知,因此文中在重构前先对输入图像进行角度分类(文中预设5类角度),再根据预定义的角度选出对应的角度模型作进一步分析。人脸角度分类过程如图1所示,此过程利用Tensorflow中的Keras库调用VGG16模型,引入训练好的卷积基,并运用全局平均池化对卷积基的输出进行降维。提取特征的3层全连接层大小分别为512、512和5,最后由Softmax激活函数输出分类得分。
图1 人脸角度分类框图
文中在CycleGAN[16]的基础上针对唇部重构问题进行改进,在生成器中引入自映射损失,以提高真实目标图像与生成图像之间的相似度,提出了SMS-CycleGAN唇重构模型,解决传统CycleGAN模型缺乏对生成器输出进行自校验的问题,使生成图像能保留更多的个人唇部细节,效果更理想。SMS-CycleGAN模型(单向)如图2所示,其中生成器G的输入为非零角度(非正面)域中的真实唇图,可生成零角度(正面)域中的虚假唇图。为避免G把域中的任意唇图映射到域中相同的唇图上,利用生成器G将唇图复原为域中的唇图,并由cyc损失函数控制和间的误差。判别器D对和域中的真实唇图进行真假判别,以此训练网络,使得G最终具备生成高质量正面唇图的能力。在模型训练中,理想状态为输入G的唇部图像无论是正面或非正面,都能被重构到正面视图域中,因此本研究使用目标域中的真实正面唇图去检验G。输入到G,对应的输出为,为使得无限接近,在两者间添加自映射损失S,以此约束G的输出为正面唇图。
图2 SMS-CycleGAN唇部重构网络模型
生成器网络结构如图3所示。文中采用U-Net架构[17-18],在编、解码器的对称层之间增加跳跃连接,减少原域与映射域之间同特征权值在网络中的叠加传播。网络使用了单卷积的上下采样层,其中上采样7层,下采样6层,上采样前3层中使用Dropout防止网络过拟合。训练过程中利用实例标准化来保持各图像间的独立性,加速模型收敛。判别器为马尔可夫判别器,通过PatchGAN[19]组建全卷积神经网络来实现真假图像判别,其网络结构如图4所示。
图3 生成器网络结构
图4 判别器网络结构
1.2 改进的损失函数
文中提出的SMS-CycleGAN损失函数由对抗损失、重构损失和自映射损失组成。其中对抗损失包含两部分,分别为
式中,data()和data()分别来源于正面与非正面真实分布的数据,[·]表示求期望。式(1)中,G试图生成与正面域中图像相似的图像,而D则旨在区分生成样本G()与正面域中的真实样本。通过训练G来最小化其对抗损失,最终使得D难以区分和G(),式(2)同理。网络中两个GAN共享两个生成器,各有一个判别器,共同组成完整的环形GAN,由循环一致性损失监督训练,即
传统CycleGAN的生成器并未对生成的真实目标域样本进行复验,使得角度增加时生成的正面唇图会带有部分非目标域的唇部,难以有效保留个人的唇动特性。因此,本研究引入自映射检验损失,以2范数约束生成器对目标域中样本的自身检验,利用生成图像与目标图像之间的像素级损失衡量两者的差异,以提高网络的性能,使生成唇图保留与目标唇图相同的个体特性。设目标零度域中某真实灰度唇图样本输入生成器G后输出为G(),重构正唇过程中的自映射检验损失函数为
式中,为唇图像素点总数,为图中像素点序号。S值越小,表明和()越相似,理想状态下S应为0。则SMS-CycleGAN的总自映射检验损失为
自映射检验过程中,生成器G期望输入唇图为时,生成图像仍为。同理,G期望对的输出为。结合式(1)、(2)、(3)、(5),可得重构网络的总损失为
2 三维耦合卷积神经网络
2.1 音视频双模态异构网络
本研究分别采用两个异构的三维卷积神经网络描述音频和唇动视频信号。音视频耦合网络的结构如图5所示,模型分别训练不同权值的音频网络与视频网络,通过这两个异构网络分别将音频特征和视频特征映射到相同的维度空间进行表示,再由耦合对比损失来度量两个异构网络输出的同维度特征间的距离,以此分析音唇是否一致。本研究以每段时长为0.3 s的音视频数据作为音频与视频网络的输入,两个网络中的卷积特征图数量均以16的倍数逐层增加,除最后一层外各层都使用了PReLU函数作为激活函数。
图5 三维耦合卷积神经网络结构
音频网络部分以梅尔频率倒谱系数(MFCC)为输入特征。为保留音频在频率和时间上的局部相关性,文中在MFCC提取音频特征的过程中通过不使用离散余弦变换来消除能量系数之间的相关性[20-21],直接对梅尔频率倒谱系数取对数作为音频特征,特征提取过程如图6所示。音频功率谱通过40个梅尔滤波器组得到梅尔尺度信号,再进行对数变换求得音频静态特征,最后合并一阶、二阶差分动态特征,0.3 s时长的音频信号最终组成20×40×3的音频张量。音频网络包含6层卷积、2层池化和1层全连接,同时为减少三维卷积网络运算的参数量,在网络的前2层卷积操作后使用池化层,池化操作只对频域维度进行,最后将音频特征映射到128维的表示空间。
图6 音频特征提取流程图
对于视频网络,输入为9帧连续视频帧堆叠构成9×128×128的视频张量,并在网络结构中使用三维卷积核使得卷积层中的特征图与上一层中的多个相邻帧连接,从而在时间维度上获得更多唇部连续运动的时变动态信息,而对应池化层和卷积核的移动步幅也均为三维。视频网络包含4层卷积、3层池化和2层全连接。由于视频特征的维度大于音频特征,视频网络的参数量远大于音频网络,因此在视频网络前3层使用池化层以减少网络参数,最后通过三维卷积将高层的时间和空间信息映射到128维的表示空间。
2.2 耦合损失函数
本研究耦合音频和视频两个异构网络的输出,通过联合训练耦合网络对输入的音唇数据进行一致性判别。为分析音频和视频数据对之间的关联程度,引入孪生网络训练中的对比损失来优化耦合分析过程[22],耦合损失函数定义为
为间隔参数,max函数的作用是筛选出欧氏距离大的不一致数据以减少网络的冗余训练。音唇一致时,若W(A,V)变大,则使用距离的平方来惩罚变大的一致数据距离;音唇不一致时,若W(A,V)变小,则使用Hinge损失的平方使此距离越来越远。
3 实验及结果分析
实验所用数据集取自OuluVS2双模态多视角语音数据库,帧率为30 f/s,视频数据由5个不同角度(0°、30°、45°、60°和90°)同时录制,语料包括英文连续数字串、短句和长句3个部分,其中前两部分每人读3次,而长句只读1次。实验所用数据包含不同人、不同角度、不同语料视频的音视频数据,并且各个角度的样本数据占比一致。实验基于TensorFlow深度学习库进行,使用Windows10操作系统,在NVIDIA GTX1080 GPU、I7 7700 CPU、32 GB内存的硬件平台上进行网络训练。
3.1 正面唇部重构实验
文中人脸角度分类模型的训练和测试数据取自不同人、不同角度、不同语料,包含不同唇形的视频帧图像,其中训练集共约20 000 f,测试集共5 000 f,两个数据集在各个角度的样本数据占比一致。文中人脸视图角度分类的准确率为97.8%,能达到准确分类的要求,而大多数分类错误则主要为45°和60°两个类别间的误判。
本实验使用图2所示的网络框架为每个角度创建一个正面重构模型。重构实验采用结构相似性(SSIM)和峰值信噪比(PSNR)对重构的正面唇图进行质量评价,并与传统CycleGAN(CGAN)模型[16]以及主流的View2View(V2V)模型[14]的重构结果进行了比较。
在SMS-CycleGAN(SMS-CGAN)模型的训练过程中,判别器与生成器的损失函数均在对抗学习过程中相互竞争,二者最终趋于平稳时判别器损失值约为0.7,对应的判别概率为0.5,此时表明判别器已难以区分真实唇图和生成唇图。文中SMS-CycleGAN模型的重构效果如图7所示,其中差值图是真实正面唇图与SMS-CycleGAN模型生成的正面唇图之间的差值,白色区域为差异部分,由差值图可知,文中模型生成的正面唇图与真实正面唇图之间的总体差异度较小。文中SMS-CycleGAN模型、传统CycleGAN模型以及主流View2View模型的重构图像质量客观评价结果如表1所示,虽然唇图角度越接近90°时,其PSNR值会越小,但与View2View模型相比,文中SMS-CycleGAN模型生成的重构唇部在不同角度下的PSNR均有明显提升,角度从30°变化到90°时,PSNR分别提高了5.26、4.37、2.17和2.32。SSIM是从亮度、对比度和结构三方面对图像相似度进行评估,文中SMS-CycleGAN模型在4个视角下的SSIM平均值为0.72,相比于View2View平均提高了0.08。从图7也可以看出,文中SMS-CycleGAN模型生成的正面唇图在亮度、形态和局部细节上都有更好的效果。此外,加入自映射检验损失函数后,与加入前相比,PSNR与SSIM分别平均提高了1.39和0.03。
图7 不同视角的唇部正面重构效果
表1 不同模型重构图像质量对比
Table 1 Comparison of image quality reconstructed by different models
角度/(°)PSNRSSIM SMS-CGANCGANV2VSMS-CGANCGANV2V 3029.2928.2324.030.780.770.65 4527.9326.3723.560.730.710.67 6024.7823.5522.610.720.680.62 9019.1217.4316.800.640.610.60
为进一步分析文中SMS-CycleGAN模型的重构唇图和真实唇图之间的相似程度,实验同时利用变分自动编码器网络分别提取两者同维度的特征,并通过皮尔逊相关系数进行分析,结果如图8所示。由图中可知,文中SMS-CycleGAN模型在不同角度下基本上都能产生较高的相关系数,虽然个别维度下的相关系数值会存在波动,在角度越接近90°时,相关系数值会有所减小,但也均在0.58以上,且大多数情况都大于0.7。整个重构实验的总体结果表明,文中SMS-CycleGAN模型生成的正面唇图在多数情形下与真实正面唇图都非常接近,能够在一定程度上弥补角度问题对识别带来的影响,提高了多视角下的算法鲁棒性。
图8 不同特征维度下的皮尔逊相关系数
3.2 多视角一致性判别方法的性能分析
对文中方法与当前不同类型的5种主流方法(BLPM算法[6]、QMI算法[4]、基于多元统计分析的时空融合STF算法[5]、稀疏表示法AV-SISR[7]及深度学习方法AV-SyncNet[8])进行了对比实验。实验测试了各方法在不同角度下唇形重构前后的一致性判别结果,以分析视角问题对一致性判别的影响以及正面唇形重建的作用。实验采用等错误率(EER)及ROC曲线下面积(AUC)作为算法性能评价指标,EER越小、AUC越大,表示识别性能越优。实验数据取自OuluVS2库的短句和数字串语料部分,时长约为3~6 s。实验所用的4类不一致音视频数据对是由数据库中不同句子的音频和视频交叉组合而成(见表2),每类各2 500个样本。数据库中一致音视频数据对分为测试集1 200句和训练集1 500句(包含验证集),训练集主要用于AV-SISR方法的字典、STF方法的映射矩阵以及文中方法网络参数的训练。加入唇形正面重构前6种方法在不同角度下的EER和AUC比较如表3所示。由表中可知:对于正面唇形数据(角度为0°),文中方法对各类不一致数据的总体EER与基于二维卷积的深度学习方法AV-SyncNet相比下降了3.2个百分点,但优于其他比较方法;对于不同角度的数据,STF方法与双模态稀疏表示方法AV-SISR的性能接近,前者融合了时域关联度,所以总体性能稍优于后者。主流方法多以正面唇部数据训练模型,随着头部角度的增加(逐渐偏离正面角度),特别是角度超过30°后,各种方法的性能均出现明显的下降,其中基于双模态字典学习的AV-SISR方法下降最为显著,其生成的字典模板对角度的鲁棒性较差。表3的结果表明,视角问题对一致性判别结果存在较大的影响,当角度越接近90°时,传统的分析方法及模型训练方式已难以实现准确的判别。在加入本研究的唇形重构模块后,6种方法在不同角度输入数据下的总体EER和AUC比较如表4所示。由表中可知,虽然不同方法的总体判别性能仍随着角度的增加而有所下降,但在加入唇形重建后,文中方法在不同角度数据下的总体EER较加入前分别下降了0.4、3.3、7.4和12.7个百分点,而AUC则分别提升了0.5%、2.1%、9.2%和12.8%。其他比较方法在加入正面唇形重构后,在不同角度数据下的EER也均有0.8~17.3个百分点的下降,而AUC则有0.6%~14.5%的提升。综合前面的实验结果可知,整个唇形重构过程虽然会有误差引入,但实验结果表明,加入正面唇形重构确实能在一定程度上弥补角度问题对识别结果带来的影响,提高了多视角下一致性判别算法的整体鲁棒性。
表2 不一致的音视频数据对分类
Table 2 Inconsistent classification of audio and video data pairs
不一致数据种类语音及视频唇动数据来源说明 第一类不同的人且内容亦非同一句话 第二类不同的人但内容为同一句话 第三类同一人但内容非同一句话 第四类同一人且内容为同一句话,但非同一时刻录制
表3 加入正面重构前6种方法在不同角度下的EER和AUC比较
Table 3 Comparison of EER and AUC among six methods under different angles before adding frontal reconstruction
角度/(°)总体EER/%总体AUC 文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM 08.915.714.811.120.819.30.9470.8790.8850.9330.8580.860 3012.320.217.113.223.323.10.9200.8570.8710.9050.8150.819 4517.526.724.218.629.728.80.8680.7680.7970.8630.7350.744 6026.533.531.129.036.634.90.7690.6940.7210.7040.6690.679 9037.147.139.838.346.744.50.6650.5890.6440.6590.5920.613
表4 加入正面重构后6种方法在不同角度下的EER和AUC比较
Table 4 Comparison of EER and AUC among six methods under different angles after adding frontal reconstruction
角度/(°)总体EER/%总体AUC 文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM文中方法AV-SISR(K=175)STFAV-SyncNetQMIBLPM 3011.917.816.312.421.822.10.9250.8660.8760.9170.8440.838 4514.220.918.115.824.723.60.8890.8570.8650.8790.7870.809 6019.123.721.621.726.428.60.8610.8070.8480.8460.7710.747 9024.429.827.428.132.534.30.7930.7340.7590.7510.7040.684
4 结语
针对视频采集角度变化对一致性判别的影响,以及视频特征中唇动时空特性缺失等问题,本研究提出了一种基于正面唇部重构与三维耦合CNN的多视角音唇一致性判别方法。该方法先利用基于SMS-CycleGAN的唇部重构方法对唇图进行角度分类及正面重构,再采用三维耦合CNN模型分析音视频数据的相关度。实验结果表明,本研究方法能重构出高质量的正面唇图,与现有主流的分析方法相比,其判别效果更优。
[1] DEBNATH S,RAMALAKSHMI K,SENBAGAVALLI M.Multimodal authentication system based on audio-visual data:a review[C]∥ Proceedings of 2022 International Conference for Advancement in Technology. Goa:IEEE,2022:1-5.
[2] MIN X,ZHAI G,ZHOU J,et al.A multimodal saliency model for videos with high audio-visual correspondence [J].IEEE Transactions on Image Processing,2020,29:3805-3819.
[3] MICHELSANTI D,TAN Z H,ZHANG S X,et al.An overview of deep-learning-based audio-visual speech enhancement and separation[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2021,29:1368-1396.
[4] SAINUI J,SUGIYAMA M.Minimum dependency key frames selection via quadratic mutual information [C]∥ Proceedings of 2015 the Tenth International Conference on Digital Information Managemen.Jeju:IEEE,2015:148-153.
[5] 朱铮宇,贺前华,奉小慧,等.基于时空相关度融合的语音唇动一致性检测算法[J].电子学报,2014,42(4):779-785.
ZHU Zheng-yu,HE Qian-hua,FENG Xiao-hui,et al.Lip motion and voice consistency algorithm based on fusing spatiotemporal correlation degree [J].Acta Electronica Sinica,2014,42(4):779-785.
[6] KUMAR K,NAVRATIL J,MARCHERET E,et al.Audio-visual speech synchronization detection using a bimodal linear prediction model[C]∥ Proceedings of 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Florida:IEEE,2009:53-59.
[7] 贺前华,朱铮宇,奉小慧.基于平移不变字典的语音唇动一致性判决方法[J].华中科技大学学报(自然科学版),2015,43(10):69-74.
HE Qianhua,ZHU Zhengyu,FENG Xiaohui.Lip motion and voice consistency analysis algorithm based on shift-invariant dictionary[J].Journal of Huazhong University of Science and Technology(Natural Science Edition),2015,43(10):69-74.
[8] CHUNG J S,ZISSERMAN A.Lip reading in profile [C]∥ Proceedings of 2017 British Machine Vision Conference.London:BMVA,2017:36-46.
[9] KIKUCHI T,OZASA Y.Watch,listen once,and sync:audio-visual synchronization with multi-modal regression CNN[C]∥ Proceedings of 2018 IEEE International Conference on Acoustics,Speech and Signal Processing.Calgary:IEEE,2018:3036-3040.
[10] CHENG S,MA P,TZIMIROPOULOS G,et al.Towards pose-invariant lip-reading [C]∥ Proceedings of 2020 IEEE International Conference on Acoustics,Speech and Signal Processing.Barcelona:IEEE,2020:4357-4361.
[11] MAEDA T,TAMURA S.Multi-view convolution for lipreading[C]∥ Proceedings of 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Tokyo:IEEE,2021:1092-1096.
[12] PETRIDIS S,WANG Y,LI Z,et al.End-to-end multi-view lipreading [C]∥ Proceedings of 2017 British Machine Vision Conference.London:BMVA,2017:1-14.
[13] SARI L,SINGH K,ZHOU J,et al.A multi-view approach to audio-visual speaker verification[C]∥ Proceedings of 2021 IEEE International Conference on Acoustics,Speech and Signal Processing.Toronto:IEEE,2021:6194-6198.
[14] KOUMPAROULIS A,POTAMIANOS G.Deep view2view mapping for view-invariant lipreading[C]∥ Proceedings of 2018 IEEE Spoken Language Technology Workshop.Athens:IEEE,2018:588-594.
[15] EL-SALLAM A A,MIAN A S.Correlation based speech-video synchronization [J].Pattern Recognition Letters,2011,32(6):780-786.
[16] ZHU J Y,PARK T,ISOLA P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥ Proceedings of 2017 IEEE International Conference on Computer Vision.Venice:IEEE,2017:2223-2232.
[17] TANG Z,PENG X,LI K,et al.Towards efficient U-Nets:a coupled and quantized approach [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2018-2050.
[18] 张瑞峰,白金桐,关欣,等.结合SE与BiSRU的Unet的音乐源分离方法[J].华南理工大学学报(自然科学版),2021,49(11):106-115,134.
ZHANG Ruifeng,BAI Jintong,GUAN Xin,et al.Music source separation method based on Unet combining SE and BiSRU [J].Journal of South China University of Technology (Natural Science Edition),2021,49(11):106-115,134.
[19] ISOLA P,ZHU J Y,ZHOU T,et al.Image-to-image translation with conditional adversarial networks [C]∥ Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:5967-5976.
[20] HOURRI S,KHARROUBI J.A deep learning approach for speaker recognition [J].International Journal of Speech Technology,2020,23(1):123-131.
[21] MEHROTRA U,GARG S,KRISHNA G,et al.Detecting multiple disfluencies from speech using pre-linguistic automatic syllabification with acoustic and prosody features[C]∥ Proceedings of 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Tokyo:IEEE,2021:761-768.
[22] CHUNG J S,ZISSERMAN A.Out of time:automated lip sync in the wild [C]∥ Proceedings of ACCV 2016 International Workshops.Taipei:Springer,2016:251-263.
Multi-View Lip Motion and Voice Consistency Judgment Based on Lip Reconstruction and Three-Dimensional Coupled CNN
1,221223
(1. Audio,Speech and Vision Processing Laboratory,South China University of Technology,Guangzhou 510640,Guangdong,China;2. School of Cyber Security,Guangdong Polytechnic Normal University,Guangzhou 510665,Guangdong,China;3. Guangzhou Quwan Network Technology Co.,Ltd.,Guangzhou 510665,Guangdong,China)
The traditional consistency judgment methods of lip motion and voice mainly focus on processing the frontal lip motion video,without considering the impact of angle changes on the result during the video acquisition process. In addition, they are prone to ignoring the spatio-temporal characteristics of the lip movement process.Aiming at these problems, this paper focused on the influence of lip angle changes on consistency judgment,combined the advantages of three dimensional convolutional neural networks for non-linear representation and spatio-temporal dimensional feature extraction, and proposed a multi-view lip motion and voice consistency judgment method based on frontal lip reconstruction and three dimensional(3D) coupled convolutional neural network.Firstly,the self-mapping loss was introduced into the generator to improve the effect of frontal reconstruction, and then the lip reconstruction method based on self-mapping supervised cycle-consistent generative adversarial network (SMS-CycleGAN) was used for angle classification and frontal reconstruction of multi-view lip image.Secondly,two heterogeneous three dimensional convolution neural networks were designed to describe the audio and video signals respectively, and then the 3D convolution features containing long-term spatio-temporal correlation information were extracted.Finally, the contrastive loss function was introduced as the correlation discrimination measure of audio and video signal matching, and the output of the audio-video network was coupled into the same representation space for consistency judgment. The experimental results show that the method proposed in this paper can reconstruct frontal lip images of higher quality, and it is better than a variety of comparison methods on the performance of consistency judgment.
consistency judgment;generative adversarial network;convolutional neural network;frontal reconstruction;multi-modal
Supported by the National Natural Science Foundation of China (61672173) and the National Key R&D Program of China (2018YFB1802200)
10.12141/j.issn.1000-565X.220435
2022⁃07⁃08
国家自然科学基金资助项目(61672173);国家重点研发计划项目(2018YFB1802200)
朱铮宇(1984-),男,博士后,讲师,主要从事音视频多模态信号处理研究。E-mail:zhuzhengyu0701@163.com
彭炜锋(1976-),男,博士,讲师,主要从事语音信号处理研究。E-mail:pengweifeng0215@163.com
TP391
1000-565X(2023)05-0070-08