APP下载

核电厂智能语音交互关键技术研究与原型开发

2021-05-28周健文王宇帆王明洋

仪器仪表用户 2021年5期
关键词:引擎关键技术运维

周健文,王宇帆,王明洋

(上海核工程研究设计院有限公司,上海 200233)

0 引言

在核电厂日常运维中,存在画面切换操作繁琐、系统级设备级信息零散,信息爆炸,过多依赖操作人员个人经验等问题。本文从人机交互、智能表达的角度出发,基于深度推理技术,根据电厂所处不同运行模式和应用情景,对人机交互的需求、紧急性、信息量、目的等方面进行分析。应用自然语言识别、语义理解等技术,实现目标画面及信息的快速定位,并通过对交互意图的深度推理。基于原子化的智能知识库提取与目标参数相关的知识体系对信息进行甄选、统计、组织,根据不同情景的需求进行目标参数群组的显示及智能化统计,提供更加友好、便捷的智能人机交互,实时、有效地辅助运维人员进行决策,减少电厂运维中对人员经验的过度依赖,减少因信息不全面、操作不便捷等因素带来的人员误操作,大幅提升电厂运维的效率及可靠性。

本文从核电厂运维画面的需求角度出发,在对智能语音交互的语音识别、自然语言处理、文本转语音等关键技术研究的基础上,以运维画面智能语音交互为例开发了原型系统,验证关键技术的可行性。

图1 智能语音交互系统架构Fig.1 Architecture of intelligent voice interaction system

1 智能语音交互系统整体架构

智能语音交互系统通过有针对性地对语音进行分析和处理,将运维人员关心的信息直观地呈现出来,并将重要信息以语音播报形式进行呈现,为运维人员运行和维护电厂提供参考和支持。智能语音交互系统的架构如图1所示。

智能语音交互系统架构简要描述如下:

1)语音接入:采用标准化接口及开发框架,输出多种产品解决方案。智能语音交互系统软件可应用于移动设备、Web网页端、大屏等画面终端。移动设备主要为现场运维人员提供支持,包括平板、VR眼镜等;Web页面主要针对运维办公室的运维人员和远程技术支持中心;大屏主要面向的是集团应急指挥中心和对外宣传展示。因此,在语音接入端应支持通过移动设备、Web网页端、大屏等进行语音交互,将用户声音采集,记录并发送给智能引擎,智能引擎再根据音源做进一步处理操作。

2)智能引擎:提供面向应用的能力引擎模块化封装。通过移动设备APP、Web网页端、大屏、话筒采集的声音,综合自然语言处理、语音识别、语义分析等多种AI能力,实现对语音数据的分析和处理。智能引擎主要由语音识别引擎(ASR)、自然语言处理引擎(NLP)和文本转语音引擎(TTS)组成。语音识别引擎将自然语言转换成文本信息;自然语言处理引擎通过对语音的上下文理解和关键词识别,生成相应的指令信息;文本转语音引擎能将任意文字信息实时转化为标准流畅的语音朗读出来。

图2 语音识别流程图Fig.2 Flow chart of speech recognition

3)结果输出:提供统一的知识、语义、数据的融合体系,接入的语音通过智能引擎的处理产生结果输出,输出内容包括:文本信息、指令信息、语音播报等。文本信息为用户语音文字化的结果;通过对文本信息的分析处理将得到指令信息,指令信息包括有数据库查询指令、画面导航指令、软控制器操作指令等;语音播报是在文本信息和指令信息的基础上,通过例如数据库查询及数据处理后得到用户所关心的问题,并将问题回答以语音播报的形式与用户进行交互。

输出的结果最终可在运维系统、应急指挥系统等画面中进行呈现,实现与用户的动态交互。

2 智能语音交互系统关键技术研究

智能语音交互系统的关键技术主要包括语音识别、自然语言处理和文本转语音。

2.1 语音识别

语音识别是让机器通过识别和理解过程,把语音信号转变为相应的文本,识别流程如图2所示。

语音识别核心部分是声学模型、语言模型和解码器3部分。声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系;语言模型用来描述不同字词之间的概率搭配关系,使得识别出的句子更像自然文本;解码器负责结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选,最终得到最可能的识别结果。

目前,在语音识别中已经开展了大量的研究,主要算法为基于神经网络算法的各种改良和优化,具体算法比较见表1。

从以上比较中可以看出,LFR-DFSMN是一种新颖的非递归结构的神经网络,可以像RNN一样对信号的长时相关进行建模,同时可以获得更稳定的训练效果和更好的识别准确度。语言模型是在传统N-Gram语言模型基础上,利用神经网络对长序列进行建模,弥补了N元文法对于序列长度建模的不足,同时其各层间的全向连接也保证了建模的平滑,进一步提升模型性能。因此,本文系统方案中采用LFR-DFSMN算法进行语音识别。

2.2 自然语言处理

图3 自然语言处理流程图Fig.3 Flow chart of natural language processing

图4 语音合成流程图Fig.4 Flow chart of speech synthesis

图5 通用导航热点层级结构Fig.5 Hierarchy of general navigation hotspots

自然语言处理(NLP)技术是通过对问句在词法分析、简易句法分析等基础上,根据统计模型来对知识意图进行初步定位,得到候选集。然后,在候选集基础上,根据自主研发的“基于语义表达式和普通问句混合运算”的语义相似度算法来定位最终的知识意图。

大致过程为:词法分析→句法分析→分级搜索→语义运算→语义推理→答案生成。其中,词法分析指分词、词性、词类语义应用等功能;句法分析指核心词判定、权重调整等功能;分级搜索主要是为了确定语义运算的候选集合,缩小语义运算的范围,语义运算是语义表达式与普通问句混合的自主的相似性相关的各种判断方法;语义推理指在前述运算的结果(意图定位)基础上,依据领域库、本体类关系、意图推理配置等,结合预置于引擎的推理机模块算法进行的各种形式的推理(如:多意图推理、上下文推理等);答案生成是指将前述分析得到的语义信息(如:实体信息、slot信息等)结合答案模版得到最终的结果输出。

NLP算法通常采用深度学习算法或机器学习算法。目前,在NLP中有许多现成的处理工具可直接进行使用。本文采用OPENNLP,是一个基于Java的机器学习工具包,可用于处理自然语言文本,支持主流常用的NLP任务,例如:标识化、句子切分、词性标注、名词抽取、组块、解析等。

图6 智能语音交互扁平式导航结构Fig.6 Intelligent voice interactive flat navigation structure

2.3 文本转语音

文本转语音技术能将任意文字信息实时转化为标准流畅的语音朗读出来,语音合成流程如图4所示。

在系统中,语音合成利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成效果,大幅提高合成语音与真人发声的相似度。

3 智能语音交互原型系统

传统的核电厂运维平台画面导航通过显示画面中的通用导航热点或菜单栏/工具栏进行导航。对于运维画面,存在集团/厂址/机组/系统/设备等多个层级的画面,图5描述了运维画面的通用导航,该图中的双向箭头表示双向导航,该图中显示的系统都有多个详细的显示画面。

以运维画面为例,按传统的画面导航方法,从集团总貌出发到具体系统、设备画面需通过多次点击到达目标画面。如果系统规模一旦很庞大,操纵员用于搜索和切换的“接口管理”工作量会急剧上升,导致操纵员执行任务的时间增加,操纵员脑力负荷加重。

智能语音交互技术的使用,可以使画面导航扁平化。通过支持语音感知和语义控制技术在运维平台的应用研究和验证,可部分解决当前数字化仪控系统人机交互的技术短板,最小化接口管理任务。通过语音结合语义技术,可以直接访问关注的过程信息,而不需要层层画面导航或链接。NUREG0700 Rev.2[5]中针对语音交互也给出了相应设计导则建议,也为本次试验的验证和研究工作提供理论依据。智能语音交互技术的成功应用对后续核电厂的人机交互新模式的推广有极大的示范效应和经济价值。图6描述了智能语音交互扁平式导航结构。

经过智能化语音交互方式的改造,打破了原有层级导航的画面结构,所有画面均可通过一次语音导航到达,极大提升了运维人员的画面导航效率。运维人员可直接通过语音指令到达想要操作或关注的画面。

在智能语音交互系统设计中,采用第2节所述关键技术,以运维画面智能语音交互为例,进行原型系统开发,其开发流程如图7所示。

运维平台画面语音导航模式可分为两类:一类为当自然语言处理技术分辨出来具有可选的多幅画面可以导航时,系统可根据画面情况给运维人员进行相应的选择;第二类为当自然语言处理技术分辨出来为仅有一幅画面可以导航时,系统可直接导航至该画面。与用户动态交互模式同样可分为两类:一类为当自然语言处理技术分辨出来与唯一的标准问答对应时,系统直接给出回答;第二类为当自然语言处理技术分辨出来与多个标准问答对应时,系统将匹配的标准问答给运维人员进行相应的选择。当自然语言处理无法识别用户的交互时,应给出提示,并将该问题提交给后台服务,进行不断地机器学习迭代。典型的运维画面智能交互示意图如图8所示。

4 设计创新点

本文在研究了智能语音交互系统的设计方案后,通过对智能语音交互系统的语音识别、自然语言处理、文本转语音等关键技术的研究,对智能语音交互系统的原型进行了初步开发。采用本文设计方法设计的智能语音交互系统的创新点如下:

图8 运维平台画面交互设计示意图Fig.8 Schematic diagram of operation and maintenance platform screen interaction design

图7 智能语音交互原型系统开发流程Fig.7 Development process of intelligent voice interaction prototype system

◇ 目前在国内外核电领域,画面之间的导航、信息查询都需要通过鼠标键盘进行操作,本文创新性地提出了将智能语音交互技术应用于运维平台画面,以减轻操纵员的接口管理和信息查询负荷。

◇ 本文采用扁平化的导航设计理念,即所有画面均处于同一层级,通过语音交互即可实现画面的快速导航,避免传统的层层导航的复杂操作。

◇ 本文设计的智能语音交互技术方案能应用于不同平台的画面中,通过语音/语义识别,模块能直接生成指令信息,只需通过简单的接口修改,即可实现对于不同运行环境画面的智能导航及与用户的动态交互。

◇ 本文所设计的智能语音交互系统具备自我学习的能力,即后续可通过该系统自主进行机器学习、训练。通过训练,可对运维平台画面场景进行优化完善,并能实现新的画面的智能导航和与用户动态交互。

5 总结

本文在研究了智能语音交互系统的关键技术后,对原型系统进行了初步开发,并以运维平台画面为例对本文提出的关键技术进行了验证。结果表明,采用本文提出的关键技术设计的智能语音交互系统具有自主知识产权、可移植性好等特点,后续通过工程样机开发可应用于实际核电厂和技术支持中心,并可扩展至核电厂主控制室画面以及其他工业领域,具有一定的市场前景。

猜你喜欢

引擎关键技术运维
小麦春季化控要掌握关键技术
棉花追肥关键技术
成功育雏的关键技术
老苹果园更新改造的关键技术
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
蓝谷: “涉蓝”新引擎
基于ITIL的运维管理创新实践浅析
无形的引擎