基于AI虚拟数字人技术线上教学的创新与实践

2023-11-21潘梦鹞吕小勇陈少伟王锋郇锐铁

现代职业教育·高职高专 2023年31期

潘梦鹞　吕小勇　陈少伟　王锋　郇锐铁

［摘要］针对教师线上课程建设采用语音、视频录播方式，建设效率低、语音准确性低、录播时间长、录播受情绪和环境影响，导致线上课程建设质量较低等问题，提出应用AI虚拟数字人技术提升高校教师线上教学能力，通过计算机动画建模技术生成虚拟教学主播外观的教学动画，通过语音克隆技术克隆主讲声音进行个性化语音合成，产生出高自然度、高音质、表现力丰富的课件语音输出，通过动画驱动和渲染技术生成虚拟教学主播行为的动画，将音视频合成虚拟教学主播外观、声音、行为的课件，通过人机交互、5G移动通信技术实现辅助教学，为实现AI虚拟数字人教学提供方法和路径。

［关键词］虚擬数字人；线上教学；创新；实践

［中图分类号］ G712 ［文献标志码］ A ［文章编号］ 2096-0603（2023）31-0001-04

一、引言

近年来，元宇宙技术取得了飞速发展，AI虚拟数字人技术为数字经济和社会的发展提供了有力支撑。国家“十四五”规划指出，云计算、大数据、物联网、工业互联网、区块链、人工智能、虚拟现实和增强现实是数字经济的重点产业[1]。国家创新驱动发展战略纲要指出，加强类人智能、自然交互与虚拟现实、微电子与光电子等技术研究[2]。国家五部门在2020年《国家新一代人工智能标准体系建设指南》中指出，人工智能关键领域技术标准包括自然语言处理、智能语音、计算机视觉、生物特征识别、虚拟现实/增强现实、人机交互等[3]。国务院办公厅在2017年《新一代人工智能发展规划》中指出，人工智能的迅速发展将深刻改变人类社会生活、改变世界，语音识别技术初步具备跨越发展的能力[4]。

大部分教师线上课程建设采用语音、视频录播方式，建设效率低、语音准确性低、录播时间长、录播受情绪和环境影响，导致线上课程建设质量较低。元宇宙包括自然人、虚拟数字人、高仿机器人三元主体，虚拟数字人（Virtual digital human）是指通过聚合科技创造存在于虚拟世界、具有类人特质的数字形象，是元宇宙中自然人进行虚拟时空感知的主要载体[5]。虚拟数字人是指通过计算机技术创建的具有人的外貌、行为和思想特征的虚拟实体。它们可以被用于各种应用领域，如游戏开发、虚拟现实、电影制作、人机交互等。形象生成是指通过计算机动画建模技术，根据相应的人物设定要求来对虚拟数字人的外形进行创作，生成动画有人外观；语音合成是将输入的文本类型的信号序列经过适当的韵律处理后，通过特定的合成器，产生出高自然度、高音质、表现力丰富的语音输出，使计算机或相关系统生成动画拥有人的语言；个性化语音合成技术是对不同人的语音特征参数进行分析，提取说话人语音特征参数用于语音合成系统进行个性化语音合成；语音克隆技术是指使用和训练一个新模型来完成对新发音人声音的克隆；动画生成是指将合成的语音驱动对应虚拟形象动画，生成动画拥有人的行为；AI虚拟数字人教学是将虚拟数字人与机器人、虚拟现实、多媒体等技术相结合，由虚拟数字人组织、实施与管理教学，优化主讲教师的教学结构、改进教学策略、实现教学方法。

AI虚拟数字人技术可解放人的智力，可以无限扩大人的智力，使人的智力得到全部解放，未来AI虚拟数字人在研究上朝着人物形象生成、语音生成、动画生成、音视频合成以及交互技术方向发展，在应用上朝着传媒、教育、金融、医疗、体育等行业发展，其中，作为国家未来的教育又是重中之重，AI虚拟数字人技术在教育教学中的应用重点是线上教学及人机交互辅助教学；AI虚拟数字人技术在线上教学的应用将大大提高教师线上课程建设效率效果、降低建设成本，提高线上课程的个性化建设和课程建设质量，全面提升高校教师的线上教学能力，同时，利用5G移动通信技术、云端大数据技术进行5G+AI虚拟数字人教学，在提升高校教师教学的标准化教学水平、解放师资力量等方面发挥重要的作用，5G+AI虚拟数字人教学将为教育教学带来颠覆性变革，对教育教学的影响十分深远，具有广阔市场应用前景。

AI虚拟数字人技术在线上教学的应用研究关系到高校广大教师教学能力的提高及教学方式的变革问题。国内外对虚拟数字人技术的研究主要是围绕语音合成、动画建模、动画驱动、人机交互四个方向开展。

语音合成研究新进展：英国学者Heiga Zen等在21世纪提出基于隐马尔可夫模型语音合成系统，通过调整合成的参数来改变声音特征[6]；哥斯达黎加学者CotoJiménez Marvin在2021年提出基于深度学习后置滤波器用于增强统计参数语音合成，应用后置滤波器与长期短期记忆深度神经网络[7]。

动画建模研究新进展：瑞士学者Yvain Tisserand等在2020年提出一种模拟与自主神经系统（ANS）相关的虚拟人生理面部特征的原理方法，基于ANS两个分支内的典型协同作用，包括副交感神经张力和交感神经色调，以及它们对肤色、瞳孔直径和汗液的影响，展示不同的ANS参数影响面部行为，对比情绪一致与不一致的肌肉骨骼和ANS相关特征[8]；瑞士学者Nadia Magnenat-Thalmann等在2004年提出通过对捕获的和结构注释的数据进行框架化，从而利用统计隐式来合成新的身体形状，生成具有高逼真度的可动画人体模型[9]。

动画驱动研究新进展：大连交通大学纪元元在2018年提出基于虚拟现实技术的数字动画短片创作，通过应用游戏引擎实时渲染技术带给观众沉浸式的观影体验[10]；北京科技大学王晓慧等在2021年提出了一种通用、动态且自学习的虚拟数字人手势生成模型，为实现丰富情感表现的虚拟数字人提供了数据和模型基础[11]；桂林电子科技大学熊伟在2020年提出了一种基于三维动画的虚拟人物表情动作系统，该系统采用拉普拉斯坐标恢复模型来重建人脸表情动作，从而实现对三维动画虚拟人物表情动作的模拟[12]。

人机交互研究新进展：北京师范大学程思琪等在2022年提出虚拟数字人的体验性属性，人际交互机制对人与虚拟数字人交互模式的解释效力[13]；北京师范大学喻国明等在2022年提出VR/AR/MR交互技术持续迭代升级，为元宇宙的世界提供从物理世界到生理世界，从现实空间到虚拟空间的全面无缝连接[14]；西安交通大学彭影彤等在2021年提出元宇宙自然人、虚拟数字人、高仿人机器人构成“三人行”交互格局，人机交互模式有类内交互、类间交互，在数量上有一对一、一对多、多对多交互[15]。

纵观上述国内外研究现状，对虚拟数字人技术的研究现状分析，可以得到以下几个结论：（1）虚拟数字人技术是提升高校教师线上教学能力的有效措施。（2）目前没有对应用虚拟数字人技术在个性化线上课程进行研究，教师线上课程的清晰度、自然度不够。（3）目前没有对虚拟数字人交互在辅助教学进行研究。

针对虚拟数字人技术在教育教学行业应用研究现状所存在的问题，结合虚拟数字人技术向具备人的外观、人的行为、人的思想高度拟人化方向发展特点，提出“基于AI虚拟数字人技术线上教学的创新与实践”项目，研究应用虚拟数字人技术提升教师个性化线上教学能力及使用人机交互进行辅助教学，提高教师线上课程建设效率效果、降低建设成本，提高线上课程的个性化建设和课程建设质量，全面提升高校教师的线上教学能力，打造虚拟数字人“名师课堂”“智慧课堂”，促进AI虚拟数字人教学在高等院校的发展，通过人机交互实现辅助教学，在提升高校教师教学的标准化教学水平、解放师资力量等方面发挥重要的作用，为教育教学带来颠覆性变革。

二、AI虚拟数字人技术线上教学创新方法

（一）AI虚拟数字人技术线上教学创新方法

通过计算机动画建模技术生成具有虚拟教学主播外观的动画，通过语音克隆技术克隆主讲声音进行个性化语音合成，产生出高自然度、高音质、表现力丰富的课件语音输出，通过动画驱动和渲染技术生成虚拟教学主播行为的动画，将音视频合成虛拟教学主播外观、声音、行为的课件，通过人机交互、5G移动通信技术实现辅助教学，为实现AI虚拟数字人教学提供方法和路径。

（二）AI虚拟数字人技术线上创新路线

设计总体研究，制订出项目开发计划和需求分析，将系统功能划分成三个关键技术模块，确定各模块任务，分析模块间关系，实现目标分解，以便项目组更好地、协调地开展工作。

1.建设虚拟教学主播语音合成系统

通过语音克隆技术克隆虚拟教学主播语音，将课件文本经过适当韵律处理，通过虚拟教学主播产生出高自然度、高相似度、表现力丰富的课件语音输出，使虚拟教学主播像“教师本人”一样产生自然流利的语音课件。课件语音合成系统包括前端处理、韵律处理、合成单元。

2.建设虚拟教学主播形象建模系统

通过计算机动画建模技术对主讲教师真人特征进行面部、身体、头发、服装3D建模，生成具有虚拟教学主播外观的动画。虚拟教学主播形象可根据主讲教师的形象定制，拟真度高。

3.建设虚拟教学主播形象驱动系统

通过音素识别器对输入语音信号进行实时识别，结合动态视素生成算法，将识别结果转化为相应的面部动画参数序列。利用该参数序列驱动一个3D头部模型，实现面部动画的同步生成，从而实现对虚拟教学主播行为的动画生成。这一方法能够通过语音或文字内容实时驱动虚拟形象的口唇动作和面部表情，生成逼真的面部动画。

4.建设虚拟教学主播人机交互辅助教学系统

将虚拟教学主播与机器人、5G移动通信技术相结合，具备语音课件讲解、视频播放的辅助教学，虚拟教学主播实时与主讲教师、学生进行语音互动教学，最终替代教师主持教学，提升高校教师教学的标准化教学水平，解放师资力量，提高教学效果和教学质量。系统包括在线语音合成、在线语音识别、交互管理模块（含教学机器人）、5G通信和教学资料库服务器。

三、AI虚拟数字人技术线上教学实践路径

（一）实践研究

AI虚拟数字人技术线上教学系统由虚拟教学主播语音合成系统、虚拟教学主播形象建模系统、虚拟教学主播形象驱动系统、虚拟教学主播人机交互辅助教学系统四个部分组成。

1.制作虚拟数字人头像模型

利用character creator 4的headshot插件，制作头像模型，导出模型到Omniverse。

2.生成语音动画

导入Omniverse Audio 2 face，指定头部基础模型，修改模型轴向，导入音频，匹配头像，输出语音动画。

3.输出动画序列

导入create，设置灯光、摄像机，设置渲染。

4.合成视频

序列帧合成，添加音轨，输出视频。

（二）实践结果与分析

1.实践结果

采用AI虚拟数字人课程建设智能网联汽车技术概论课程，共46段，合计139469字符。

2.实践分析

（1）传统录播方法建设课程

教师准备好所有知识点材料，处理好前期文字，教师朗读录音、录像速度为每秒2.2字符，一分钟为132字符，则教师完成该课程需要朗读、拍摄时间为139469 ÷ 132=1056分钟，假设教师因口误、重拍返工重读率为50%，则教师朗读、拍摄总时间为1056 × （1 + 50%） = 1584分钟，这是教师在录播过程中不间断、不休息、不耽搁情况下的计算时间。

（2）采用AI虚拟数字人技术建设线上课程

AI虚拟数字人合成视频课件，网络正常情况下，3000字符约需要1分钟，AI虚拟数字人制作时间为139469 ÷ 3000 = 46.49分钟，假设AI虚拟数字人系统因网络故障、操作失误重录率为10%，则AI虚拟数字人完成线上课程制作所需要的时间为46.49 × （1 + 10%） = 51.14分钟。

工作效率计算：1056 ÷ 51.14 = 20.64倍，则采用AI虚拟数字人技术方法建设课程的工作效率为传统录播方法建设课程工作效率的20倍，并且在传统录播过程中，教师语音准确性低、录播时间长、录播受情绪和环境影响，经常发生间断、休息、耽搁，因此，实际上采用AI虚拟数字人技术方法建设课程的工作效率，比采用传统录播方法建设课程的工作效率提高应该还要远大于20倍。

四、AI智能语音技术线上教学应用

（一）具有较高的实践指导意义

研究成果为教师线上教学能力和线上课程建设质量的提高提供了实践指导和保障。AI虚拟数字人技术在线上教学的应用将大大提高教师线上课程建设效率、降低建设成本，提高线上课程的个性化建设和课程建设质量，全面提升高校教师的线上教学能力，同时，利用5G移动通信技术、云端大数据技术进行5G + AI虚拟数字人教学，在提升高校教师教学的标准化教学水平、解放师资力量等方面发挥重要的作用。

（二）具有较高的推广应用价值

研究成果在线上教学及人工智能辅助教学方面具有较高的推广应用价值，5G + AI虚拟数字人教学将为教育教学带来颠覆性变革，对教育教学的影响十分深远，具有广阔的市场应用前景。

1.预期在校内进行推广

教学主播课件语音合成系统、课件语音转换系统研究成果预期在校内进行推广。

2.在课题组成员单位进行推广

虚拟教学主播课件语音合成系统、形象建模系统、形象驱动系统研究成果预期在广东工贸职业技术学院、广东机电职业技术学院、广州科技职业技术大学等课题组成员单位进行推广。

3.预期向全省各大高校进行推广

虚拟教学主播课件语音合成系统、形象建模系统、形象驱动系统研究成果预期向全省各大高校进行推广，带动全省、全国各大高校AI虚拟数字人线上教学及AI虚拟数字人辅助教学的发展。

五、结论

1.建设虚拟教学主播课件语音合成系统。通过语音克隆技术克隆虚拟教学主播语音，高效输出教师语音课件，语音准确性高，输出不受情绪和环境影响，节省教师的工作时间，大大提高教师课件制作的工作效率、降低建设成本。

2.建设虚拟教学主播形象建模系统。通过计算机动画建模技术对主讲教师真人特征进行面部、身体、头发、服装3D建模，生成具有虚拟教学主播外观的动画。虚拟教学主播形象可根据主讲教师的形象定制，拟真度高。

3.建设虚拟教学主播形象驱动系统。通过音素识别器对输入的语音信号进行实时识别，结合动态视素生成算法，将识别结果转化为相应的面部动画参数序列。利用该参数序列驱动一个3D头部模型，实现面部动画的同步生成，从而实现对虚拟教学主播行为的动画生成。这一方法能够通过语音或文字内容实时驱动虚拟形象的口唇动作和面部表情，生成逼真的面部动画。

4.建设虚拟教学主播人机交互辅助教学系统。将虚拟数字人与机器人、5G移动通信技术相结合，具备语音课件讲解、视频播放的辅助教学，虚拟教学主播实时与主讲教师、学生进行语音互动教学，最终替代教师主持教学，提升高校教师教学标准化教学水平、解放师资力量，提高教学效果和教学质量。

5.虚拟教学主播大幅提升线上课程制作效率、制作质量，降低制作成本。线上课程制作是重复性、简单化工作，但花费教师大量制作时间，虚拟教学主播解放人的智力，能够快速、高效制作线上课程，弥补传统线上课程制作能力的不足，专注教学创新。

6.虚拟教学主播播报准确率高、亲切自然。教师只需输入文本的系统，就能够将文字内容直接转换为虚拟主播播报课程音视频。该系统在播报过程中能够呈现生动的表情，口型的准确度也非常高。合成声音在音质清晰、音色饱满和自然流畅方面表现出色，进而使播报结果与真人主播可媲美。

7.个性化定制虚拟教学主播，有利于建设虚拟教学主播“名师课堂”。采用主讲教师（外貌、服裝、声音、语言）为原型个性化制作虚拟教学主播的形象和声音，满足各类课程场景需要。虚拟教学主播通过有声有形的交互方式使人感觉亲切、自然，有利于学生对虚拟教学主播身份的认可，有利于建设虚拟教学主播“名师课堂”。

8.有利于建设虚拟教学主播“智慧课堂”。虚拟教学主播可大量生产线上课程，形成核心数字资产。海量、多元化的线上课程是线上“智慧课堂”的必要条件，通过数量庞大的线上课程可吸引到足够数量的用户。

参考文献：

［1］“十四五”数字经济发展规划［EB/OL］.（2022-01-12）［2023-07-12］.https：//www.gov.cn/zhengce/zhengceku/2022-01/12/content_5667817.htm.

［2］国家创新驱动发展战略纲要［EB/OL］.（2016-05-19）［2023-07-15］.https：//www.gov.cn/zhengce/2016-05/19/content_5074812.htm.

［3］数字中国建设整体布局规划［EB/OL］.（2023-02-27）［2023-07-19］.https：//www.gov.cn/zhengce/2023-02/27/con-tent_5743484.htm.

［4］新一代人工智能发展规划［EB/OL］.（2017-07-20）［2023-07-14］.https：//www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.

［5］张杰，杨玉梅，罗丰.元宇宙场域下职业体验模式研究［J］.职业教育研究，2023（1）：12-18.

［6］Heiga Zen，Keiichi Tokuda，Takashi Masuko，et al.Hidden Semi-Markov Model Based Speech Synthesis［A］.Eighth International Conference on Spoken Language Pro-cessing［C］，2004：1-4.

［7］Coto-Jiménez，Marvin.Discriminative multi-stream postfilters based on deep learning for enhancing statistical parametric speech synthesis［J］.Biomimetics，2021，6（1）：1-12.

［8］Yvain Tisserand，Ruth Aylett，Marcello Mortillaro，et al.Real-time simulation of virtual humans’ emotional facial expressions harnessing autonomic physiological and musculoskeletal control［A］.ACM International Conference on Intelligent Virtual Agents［C］，2020：1-8.

［9］Nadia Magnenat-Thalmann，Hyewon Seo. Data-Driven Approaches to Digital Human Modeling［A］.2nd International Symposium on 3D Data Processing，Visuali-zation，and Transmission［C］，2004：6-9.

［10］紀元元.基于虚拟现实技术的数字动画短片创作研究［J］.教育现代化，2018（17）：144-148.

［11］王晓慧，覃京燕.虚拟数字人手势交互设计［J］.包装工程，2021，42（6）：46-52.

［12］熊伟.基于三维动画的虚拟人物表情动作系统设计［J］.现代电子技术，2020，43（20）：97-101.

［13］程思琪，喻国明，杨嘉仪，等.虚拟数字人：一种体验性媒介［J］.传播学研究，2022（7）：12-23.

［14］喻国明，曲慧.VR/AR技术对媒体场景构建的三度拓展［J］.传媒观察，2022（6）：13-16.

［15］彭影彤，高爽，尤可可，等.元宇宙人机融合形态与交互模型分析［J］.西安交通大学学报，2023，43（2）：176-184.

◎编辑马燕萍

①基金项目：2021年广东省高职教育教学改革研究与实践项目“基于AI智能语音技术线上教学的创新与实践”（GDJG2021037）；2021年广东省普通高校创新团队项目“汽车行驶安全性能智能监控新技术创新团队”（2021KCXT076）。

作者简介：潘梦鹞（1970—），男，汉族，广东龙门人，博士研究生，教授级高级工程师，研究方向：教育教学管理与汽车智能技术的研究及应用。