APP下载

虚拟数字人智能语音交互控制技术简述

2023-02-13李雪骜

中国设备工程 2023年23期
关键词:分词词典语义

李雪骜

(中海油信息科技有限公司天津分公司,天津 300450)

1 研究背景及意义

数字化时代下,组织成员的角色和职能已经发生改变。随着数字技术的不断成熟和应用,数字员工逐渐进入了人们的视野,并不断应用于各个领域和行业。未来,人机共生,大量数字员工的应用将成为常态。这也促使组织管理不断进化,员工能力不断跃升。2021 年,虚拟数字技术被纳入“十四五”规划纲要。在数实融合的趋势下,科技企业以技术进步推动应用创新,加速数字人的场景化应用落地。随着NLP、ASR、TTS等技术的高速发展,数字员工技术正是聚合这些技术的典型应用之一,通过AI 技术的赋能,能让数字员工建立与真实世界的感知、连接、交互,真正做到服务型数字劳动生产力,让传统劳动力从烦琐和消耗精力的流程性工作中解放出来,专注创新以及更具价值的活动,这种人类与计算机的交互、融合、共创,可以充分提升人的潜能,创造更大的价值。

2 虚拟数字人技术概述

2.1 虚拟数字人的技术基础

(1)计算机图形学。虚拟数字人需要具有逼真的外观和动作,因此计算机图形学是其技术基础之一。计算机图形学可以通过三维建模、纹理映射等技术,实现虚拟数字人的外观设计和动画效果。通过图像处理和模式识别等方法,实现对虚拟人物的面部表情、动作和姿态等方面的模拟。

(2)语音合成技术。虚拟数字人需要能够发出自然流畅的声音,因此,语音合成技术是其重要组成部分。语音合成技术可以将文本转换为声音信号,使得虚拟数字人能够像真正的人类一样说话。主要分为语言分析部分和声学系统部分,也称为前端部分和后端部分。语言分析部分主要是根据输入的文字进行分析,提取出其中的语法、词汇等信息;而声学系统部分则是将这些信息转换成声音信号。

(3)自然语言处理技术。虚拟数字人需要能够理解人类的语言,并做出相应的回应。自然语言处理技术可以分析人类语言的语义和语法,从而实现虚拟数字人的智能交互。

(4)机器学习和人工智能技术。虚拟数字人需要具备一定的智能和学习能力,以便更好地适应不同的场景和需求。机器学习和人工智能技术可以通过数据训练和模型优化,提高虚拟数字人的智能水平和交互效果。通过对大量数据的学习,让虚拟人物能够自主学习和适应不同的场景。

(5)语音驱动口唇技术。数字人形象依托语音驱动,鉴于语音与口唇动作有强相关性,对此设计语音特征抽取以及口唇系数预测模块。语音特征抽取网络,抽取语音高阶特征,捕说话人的共性信息;基于提取到的高阶语音特征映射到口唇相关系数网络,基于拟合的口唇相关系数,可良好地控制头部运动和嘴型等相关信息。

(6)传感器技术和物联网技术。虚拟数字人可以通过传感器技术和物联网技术获取外部环境的信息,并作出相应的反应和调整。例如,在客户服务领域,虚拟数字人可以通过传感器感知用户的位置和姿态,从而提供更加个性化的服务。

2.2 虚拟数字人的特点和优势

(1)高度可定制化。虚拟数字人可以通过计算机技术和人工智能技术进行个性化定制,从而满足不同用户的需求和喜好。

(2)24 小时不间断服务。虚拟数字人可以全天候、全年无休地提供服务,不会受到时间和空间的限制。

(3)高效便捷。虚拟数字人可以快速响应用户的请求,提高服务效率,减少人力成本和时间成本。

(4)智能交互。虚拟数字人可以通过自然语言处理技术和机器学习技术实现智能交互,能够理解人类的语言和意图,并做出相应的回应。

(5)可扩展性强。虚拟数字人可以通过添加新的组件和技术进行扩展和升级,不断提高其性能和服务水平。

(6)应用场景广泛。虚拟数字人可以应用于多个领域,如客户服务、教育、医疗、娱乐等,具有非常广泛的应用前景和发展空间。

3 智能语音交互

3.1 系统架构

系统由前端、服务端和管理端组成。

(1)前端包括。智能语音辅助客户端和chrome 浏览器插件。采集客户语音输入发送到服务端进行转写和语义解析,同时根据语义解析结果执行指令,控制终端设备显示和语音播报。客户端支持windows 以及Chrome浏览器操作。

(2)服务端提供。语音识别服务、语音合成服务和语义理解服务。支持用户级、终端级智控方案配置,即智控内容和指令配置。系统预置通用方案,用户可按需定制专属智控方案。知识库支持闲聊、知识问答等知识配置。

(3)管理端主要包括演示管理和词库配置功能。演示管理用来设置和演示相关的清单、指令等信息,支持人工演示指令、录音演示指令、扩展指令和播报内容配置;词库配置用来管理专有名词和同义词。

3.2 系统流程

3.2.1 整体流程

客户端采集并识别真人语音输入对终端设备进行操控,并支持播放场景智控录音实现自动解说与终端操控。

3.2.2 语音指令解析流程

语音指令的解析流程是语音智控系统中最重要的流程。为保障系统的智能交互效果,语音智控系统采用了4 种方法支撑智能交互过程。

(1)关键词匹配。分析文本中的关键词及其同义词,从语音智控系统的管理后台的语音指令库中匹配相关的指令。

(2)知识库查询。对接智能知识库(XK 语言模型库),从知识库中匹配知识点,获取答案并返回。

(3)语义解析。集成语义理解引擎,通过语义解析流程获取用户的真实意图,匹配知识点,最终获取答案并返回,支持多轮对话。

(4)AIUI 人工智能服务。对接在线人工智能交互服务接口(即AIUI 服务)。AIUI 提供通用场景下以自然语言理解为核心的全链路人机交互服务,使语音智控系统不需要后台配置即可实现闲聊、查询天气、播放音视频资源等语音交互过程。

3.3 核心技术简述

本系统采用JAVAEE 技术体系进行研发,采用的开发框架为struts2+spring+hibernate。软件基于组件开发,通过相关的类和文件组装成 JavaEE 应用程序,与其他组件相交互,代码重复减少,重用率高。有利于良好的分工与协作,实现并行开发。系统使用三层结构开发,层与数据访问层相互独立,方便扩充表示层,具有良好可扩展性。

JavaEE 的技术结构分为三层,分别是表示层、中间层、数据层。表示层技术是在JSP 页面中用HTML 标签、JavaScript 脚本、Ajax。需要注意的是,Ajax 并不是一种技术,而是几种技术的整合。它采用异步请求的方式,主要功能是向服务器端发送请求,处理数据或者根据返回的数据重新显示页面。中间层技术主要是JSP、Servlet、JSTL、JavaBean、Struts 框架。其中JSP 是显示动态内容的服务器网页,Servlet 是接收客户端的请求并作出响应,JSTL 是帮助JSP 显示动态内容的标准标签库,JavaBean 是JavaEE 的模型组件。数据层技术用的是JDBC、JNDI、Hibernate 框架。其中,JDBC 是传统的数据库连接方式,JNDI 和Hibernate 只是扩展了功能,并没有完全替代了JDBC。现在流行的是关系型的数据库,我们所用的大多数都是,如SQL Server、Oracle、MySQL 等,Hibernate 框架技术是以对象的方式操作关系型的数据库,以减少内存的使用。

本系统主要涉及语音识别、语义理解、语音合成等三项技术。

3.3.1 语音识别技术

系统具备非特定人连续语音识别能力,能够自动识别用户语音并转换为文字或语义。语音识别支持端点检测、智能打断,能够识别带方言口音的普通话,并具备对国内各主要方言的识别能力。标准普通话的语音识别准确率90%以上。

语音识别能力可正确识别客户语音并理解意思,完成人机对话咨询和业务等相关操作,并且是一款与说话人无关的语音识别系统,该产品具备优秀的识别率,产品核心技术上达到了国际领先水平。针对语音识别应用中面临的方言口音、背景噪声等问题,基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据,通过先进的区分性训练方法进行语音建模,使语音识别在复杂应用环境下均有良好的效果表现。

3.3.2 语音合成服务

系统提供语音合成,即能够将任意文字内容实时转换为清晰、流畅、自然的语音。语音合成支持中文普通话,提供符合机器人定位的音色。语音合成自然度4.0 分及以上。

语音合成(Text-To-Speech),又称为文语转化,是将文本信息转化为语音数据的技术,涉及声学、语言学、数字信号处理、多媒体等多种前沿的高新科技,是中文信息处理领域的一项前沿技术。

语音合成系统的合成引擎在完成文本到语音数据的转化过程中可以简单分解为两个步骤的处理。文本先经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。后端在前端分析的结果基础上,经过韵律方面的分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元再经过调整和拼接,就能得到最终的语音数据。

3.3.3 语义理解服务

自然语言理解服务,理解客户说话内容并解析除对应指令,以控制终端设备显示及操作。能理解口语化表达的自然语言话术,能有效地理解查询中的模糊词语、别名、简称、俗称、错别字等。分词和句式识别是自然语言理解的基础,通过将用户完整的表述转换成相应的关键词,并通过语意获取相关的语义,最后通过内容查询到相关答案,影响分词效果的好坏主要在于词典的覆盖程度和分词的方法。

具备完善的通用词典和通信行业应用词典,覆盖到日常生活语言中的99%以上的词条,拥有专业、准确通信行业内容储备。

具有性能优异的快速分词匹配算法,对于中文而言,存在一个分词算法的问题,因为中文在书写的时候并没有像英文那样以空格隔开一个个的词,而且,也没有统一的中文词典。不同的分词词典导致不同的分词结果,而不同的分词结果必然对应不同的搜索关键词候选,对最终搜索性能产生重要的影响。主要具有以下特点。

(1)超大规模的词典。词典规模已经达到:中文24 万、英文12 万。同时,由于互联网时代的到来,各种新词、热词不断涌现,词典还在不断的发展中,主要采用自动统计的方法发现新词、热词,然后人工确认之后才加入到词典中。这样一个超大规模的词典已经能够覆盖到日常生活语言中的99%以上的词条。并且拥有专业、准确的行业内容储备。

(2)性能优异的快速分词匹配算法。对于中文而言,存在一个分词算法的问题,因为中文在书写的时候并没有像英文那样以空格隔开一个个的词,而且,也没有统一的中文词典。如“小花”,既可以是一个词,也可以算是“小”和“花”两个词,类似的还有许多许多,如“囚衣”“千米”等。不同的分词词典导致不同的分词结果,而不同的分词结果必然对应不同的搜索关键词候选,对最终搜索性能产生重要的影响。直观上,采用大的词典使得分词结果具有较大的粒度,因此词语共现次数减少,同时也会使得结果中的每个词具有更明确的语义,也因此可以避免一些无关的共现,起到一定的语义消歧作作用,而采用小的词典则正好相反。

根据在中文语音合成系统研究中分词算法的研究经验,采用了较为常规但相当有效的分词算法,具体算法分为两步。

首先,在给定词典的基础上,分别基于前向和后向最长匹配分词算法构建分词网格,统计说明这样构建的分词网格对正确分词路径的覆盖率达到99.5%以上。

然后,以公式所示的词频连乘积最大为搜索目标,引入Viterbi 算法,从网格中搜索出最佳分词路径输出。

该分词算法能够较好地做到分词正确率和分词效率的平衡,在固定分词词典的情况下,此分词算法能比仅前向或者后向的分词算法有较为明显的提高。

前后向最大匹配算法后,我们做了分词歧义处理来进一步提升分词的精度,采用了规则来处理,规则库中含有数千条不同歧义的规则处理定义。具体来说,分词歧义主要解决“复合肥”“和服务”之类的问题,以提高分词的精度。

4 技术价值

结合NLP、ASR 等技术,通过ASR-NLP-TTS 实现文本驱动,通过预先设置的知识图谱、语言模型、知识问答库等与数字人你对话系统进行对接,从而实现虚拟数字人从感知阶段到表达阶段的闭环驱动。依靠智能语音交互控制技术,与业务系统结合,将系统操作简单化、界面菜单扁平化。

通过创新性的数字员工形象,提供基于语音对话、触控点选为一体的多模态虚拟交互服务,解决了真人服务成本高、效率低等问题,为企业数字化转型提供有力抓手。所以,数字人作为企业的一种数字生产力,是企业降本增效、数智化转型不可或缺的生产工具,是多重技术融合应用创造出的新型技术。利用虚拟形象资产,以应用场景为中心持续创新,进一步巩固企业的数字化业务能力,为企业探索组织发展、创新增效提供了全新的视角。

猜你喜欢

分词词典语义
分词在英语教学中的妙用
语言与语义
米沃什词典
结巴分词在词云中的应用
结巴分词在词云中的应用
评《现代汉语词典》(第6版)
词典例证翻译标准探索
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
《胡言词典》(合集版)刊行