语音识别技术应用于现有三维绘图软件的探索
2019-07-15邝展鹏
邝展鹏
摘要:随着人工智能技术不断取得突破,人机交互的模式逐渐从传统的鼠标键盘交互和触屏交互向自然交互发展。在这种大环境下,为了提高现有三维绘图软件的工作效率,提出了一种利用开放平台的语音识别技术辅助绘图的方法。在保留三维绘图软件原有的鼠标键盘操作模式下,增加了语音指令辅助设计的方式。
关键词:语音识别;语音绘图;智能语音
中图分类号:TP311 文献标志码:A 文章编号:2095-2945(2019)12-0168-02
1概述
随着语音识别技术和自然语言处理技术的发展,科大讯飞、云知声和百度智能等开放平台日趋成熟,这为当前开发应用级别的语音辅助系统提供了良好的技术支持。无论是在移动智能手机上的语音助手,还是风靡各个家庭的智能音箱,都代表着语言交互这一种我们日常生活中使用最广泛也是最重要的交互方式融入到人机交互中是不可避免的趋势。Solidworks是一款专门用于工程制图的三维绘图软件,在国内广泛应用于机械设计与评估。其内置应用程序编程接口(API),便于开发者进行二次开发。百度智能语音平台为开发者提供的软件开发工具包(SDK)具有强大且完善的功能,包括语音识别、词法分析、语音合成等圈。这两者的结合让语音识别技术应用于现有的三维绘图软件,从而提高设计师的工作效率成为可能。
2语音识别和语义理解
语音识别技术是以人的语音信号为研究对象,能通过模式识别或深度学习的方法将语音信号转换成文字信息。目前国外的开源语音识别引擎(ASR)有CMU Sphinx、HTK、Kaldi等,国内有讯飞语音、百度智能等开放平台提供语音识别服务。其中,国内的大型开放平台在中文语音识别的准确率已经达到了95%以上。然而语音识别技术只能将语音信息转换成文字,进行语音识别后获得的文本信息还需要让计算机理解后才能转化成具体的指令,从而执行相应的任务以满足我们的需要。
语义理解是在自然语言处理(NLP)技术的基础上,针对文本信息中人的意图进行识别并让计算机理解的过程。首先需要使用NLP中的词法分析对文本信息进行处理。词法分析是一种能够对文本信息进行分词、词性识别和专名识别的技术,其处理过程如图1所示。
进行词法分析后,计算机就可以对结果所得的词汇进行检索,并使用匹配模型匹配对应的用户意图。匹配模型包括一個唤醒关键字和数目不等的参数,例如“绘制圆柱”这个意图对应的匹配模型包括了唤醒关键字“绘制”、参数“圆柱”、还有圆柱对应的高度和直径尺寸。计算机只有获取到满足匹配模型的所有参数才能准确按照用户的意图进行操作。语义理解的结构如图2所示。
3SolidWorks动作宏
要实现语音控制绘图软件进行工作,就需要绘图软件能够通过除了鼠标键盘输入指令之外的方式进行绘图。SolidWorks自带宏工具,用户可以通过录制/编辑/执行宏提高工作效率。录制并保存的宏文件可以保存为C#、VB.NE3F等格式。因此,使用动作宏进行绘图是该绘图软件的第三种输入方式。由于宏文件使用了C#、VB.NET等高级语言进行编辑和运行,因此可以通过读取XML等外部文件进行信息传递,从而根据外部指令控制绘图软件进行不同的操作,如图3所示。
Solidworks的动作宏具有强大的功能,例如捕捉绘图空间中的焦点、调用任意绘图工具、移动窗口镜头等,完全能够满足开发者需求。因此宏文件的编写关键是对各个绘图工具的使用进行结构化设计,通过读取外部文件的信息得知满足用户的意图需要调用哪个绘图工具,以及具体的绘制参数是什么。
4系统设计
通过前文对于当前语音识别、语义理解技术的探索以及Solidworks软件本身研究,可知在理论上能够将语音识别技术运用于三维绘图软件的辅助绘制上。整个系统的结果框图如图4所示。
用户可以通过原有的鼠标键盘使用绘图软件进行图形绘制,也可以通过麦克风使用语言进行指令输入。使用语音输入时,语音识别程序先将语音信号转化成计算机指令并保存在信息文件中,用户执行动作宏读取信息文件中的指令并执行,达到语音辅助制图的效果。
5用户与系统的语音交互方式
用户通过语音向系统发出指令以及系统回应用户的交互过程关乎到用户的使用体验。也就是说,系统需要知道用户什么时候开始说话,用户需要知道系统有没有听到自己说话。这样才能让用户更好的说出自己的操作意图,让系统便于分析理解并执行。用户与系统的语音交互方式如图5所示。
在握手阶段内用户通过语音唤醒激活识别系统,系统通过铃声等方式进行回应并开始聆听用户说话。语音唤醒是指系统通过麦克风持续监听周围的声音,当用户说出设定好的词语后就激活系统,而对唤醒词语以外的声音不作任何反应。当前的智能音箱和手机上的语音助手广泛采用这种激活系统的模式。
6结束语
本文通过分析当前基于云端开放平台的智能语音技术以及绘图软件本身所提供的动作宏模块得出了能通过语音识别技术控制绘图软件进行工作的结论。并设计了一种系统结构,可以在保留原有的鼠标键盘输入命令的绘图方式的基础上,增加语音辅助绘图的功能。不仅能减少绘图繁琐的操作步骤,更为用户提供了新的操作体验,具有广泛的应用前景。