智能旅游咨询员中人机交互的实现

2019-09-10陈梅李振杰

大东方 2019年10期

陈梅李振杰

摘要：济南智能旅游咨询员，把电子科技与旅游业相结合，同时运用3D人物虚拟技术，人机智能交互等技术来完成。通过生动的人物形象、肢体语言，以及智能语音系统，让游客在用文字进行软件使用的同时，增加了语音识别功能，进行语音输入及输出，提高服务质量。文对3D虚拟人物和语音系统的实现技术、方法做了详细的介绍，用此方法最终完成旅游咨询员的各方面功能实现，更好的服务于来济南游玩的游客。

关键词：智能旅游;3D;人机交互;语音识别

人机交互技术，是指通过计算机输入输出设备，以有效的方式实现人与计算机对话的技术。本系统中，人机交互技术主要体现在了智能语音识别技术上，语音识别与三维动画同样是本项目的智能核心所在。将语音技术运用到计算机，便可以使计算机能够识别、接收、处理语言，使计算机技术运用起来更方便，更加易于操作。济南智能旅游咨询员项目，采用语音技术与软件相结合，将人声通过麦克风输入到计算机，然后进行处理，同时，具有文本播报功能，可以将游客查询时所得到的文本答案通过语音播报出来。

1.语音识别

语音识别的目的是让计算机能够听懂人的语言，对于识别结果，包含两种：一是听懂后能够转换成書面文字，二是可以听到后进行理解，做出正确的动作。

在本项目上的语音功能实现技术上，便是采用微软的win7及以上操作系统自带的speech语音识别功能。通过代码将该功能进行引用，简单方便。引用成功后，当开启语音功能识别时，可以调动系统的语音识别功能，人的声音通过麦克风输入到计算机，计算机接收后进行识别理解，然后将识别的结果转换成相应的动作或者命令。

Speech的语音识别有文本识别与命令识别两种方式，区别如下：

微软语音识别中的文本识别与命令识别最大的区别是匹配字典不同。

文本识别是用的通用字典内容多，覆盖的词汇量较大，字典由sdk提供，适用于没有预定目标的随机听写之类的应用。因为没有预定目标，词汇量大，会导致识别时的精确度降低，识别速度慢。

SpeechVoiceSpeakFlags SpFlags = SpeechVoiceSpeakFlags.SVSFlagsAsync;

SpVoice Voice = new SpVoice（）;

上述代码实现后，开启语音识别，使用者利用麦克风，将人声输入到计算机，输入到计算机后，计算机会进行理解、识别，然后将识别的结果转化为相应的动作，省去了人工，解放了双手，使得使用者通过语音便可以达到自己的需求。在此功能的实现上，主要使用了speech.lib和SpShareRecConteatClass两个接口，在项目中先引用speech.lib命名空间，然后在SpShareRecConteatClass对象中构造一个语法器，各语法器加载到识别器中，然后识别器开始舰艇符合该语法的各个语音，当识别出符合的语法时，调用SpShareRecConteatClass时间处理程序。

同时，为了提高语音识别的准确率，增加了关键字查询，实现智能查询功能。在一方面的实现上，添加了speech.xml文件，在该文件夹下会有各个功能的xml文件，添加了关键词，减少了在语音识别时的需要匹配的词汇量，提高了识别速度。

2.语音朗读查询

智能旅游咨询员在人机交互技术的实现上面，除了可以用计算机进行语音识别，让使用者语音对软件进行控制操作外，还可以将游客使用时查询到的答案通过语音播报出来，让游客不仅可以得到查询的文字结果，同时可以语音播放这些文字。实现此功能时，需要在设计的引用时添加speech.lib，通过在每个功能页面编写相应代码，就可以使得文本框里查询到的文字答案通过语音播放出来。

3.智能人物

本系统的3D智能人物，借用下载的人物形象。该虚拟人物利用3DMAX进行保存修改，然后借助Microsoft Expression Blend对模型进行动作设计，再引入到VS环境中。Microsoft Expression Blend是一款功能齐全的专业设计工具，用来针对基于Microsoft Windows 和 Microsoft Silverlight的应用程序制作精美复杂的用户界面。Microsoft Expression Blend主要有以下功能：

（1）易于使用且新颖的可视界面，带有可停靠的面板和面向对象的上下文菜单;

（2）全套矢量绘图工具，包括文本工具和三维（3D）工具;

（3）三维和媒体支持，可增强用户体验;

（4）先进、灵活且可重用的自定义和外观选项，适用于各种常用控件;

（5）实时动画;

（6）实时的设计和标记视图;

（7）强大的数据源和外部资源集成点;

（8）从 Expression Encoder 导入站点的功能;

（9）从 Expression Design导入作品的功能;

（10）可以与 Visual Studio 2012 交互使用，从而帮助设计人员和开发人员更紧密、更有效地进行团队协作。

首先，我们用3DMAX打开下载的三维动画模型，将不匹配的部分进行修改，然后保存为obj格式，在导出对话框选择在下一步需要的颜色、图片等。保存好后，这时候便需要上述提到的Microsoft Expression Blend，打开后新建WPF应用程序，从项目中添加现有项，然后将通过3DMAX保存的包括人物模型、颜色的.mtl和.obj的两个文件添加到项目中，此时便将3D模型导入进了WPF中。

在本项目中，要求在某些功能界面需要3D人物对用户进行一些介绍，因此，要求人物的动作、功能、语音三者之间相互配合，配合默契，才使智能交互表现的更加完美。而且，在进行语音朗读时，3D人物可以表现出相应的动作，正如一个真实导游为游客介绍。

4.结论

本文介绍了智能旅游咨询员系统设计与实现的基本实现过程，系统利用了智能语音识别、语言理解、3D动画人物等技术，基本实现了具有真实感，人性化的3D人物，用户可以通过语言、文本两种方式进行问题查询，得到想要的结果，并通过语音播放，利用3D人物将查询答案朗读出来。加强了文本、图像与声音的处理，提高了人机交互的能力和操作时的人性化。

项目支持：国家级大学生创新创业训练计划项目——智能旅游咨询员（编号：201713324141）

参考文献

[1]佩佐德著，蔡学镛译.Windows Presentation Foundation程序设计指南[M].电子工业，2008

[2]林大为.3D游戏角色制作[M].华东师范大学出版社，2009

（作者单位：山东协和学院）