APP下载

基于混合现实的人机交互系统设计

2015-12-26丁德菊作者单位西藏广播影视节目传输中心

西部广播电视 2015年18期
关键词:图像识别

丁德菊(作者单位:西藏广播影视节目传输中心)



基于混合现实的人机交互系统设计

丁德菊
(作者单位:西藏广播影视节目传输中心)

摘 要:本项目主要目标是摒弃传统的人机交互模式,在项目中构思了混合现实的人机交互,即用户可以用现实中真实的物理反应与虚拟环境作结合,以便展现出更有趣的互动功能。符合人们使用习惯,更加注重用户体验。该系统以EC5-1719CLDNA嵌入之星为硬件平台,结合使用迷你投影系统及镭射控制系统,在用户输入体验上采用独特的LRMT镭射增强反射非确定表面的Multi-touch技术,在软件上开发了无纸化办公的交互引擎,并充分利用多线程及硬件平台的强大计算性能。

关键词:混合现实;非确定表面Multi-touch;图像识别;交互引擎

“无纸化”办公概念提出至今,已经经历了超过20年的发展,然而,期间国内外普遍研究的重点都放在构建以PC机和网络为平台的一套在企业公司内部使用的办公软和邮件收发系统,因而整套系统存在移动性差、无法满足人们的阅读习惯等缺陷,同时由于打印机等电子产品的普遍使用,使得“无纸化”变成“多纸化”,与最初目标背道而驰。本项目关注用户体验,在无纸环境下为用户提供习惯性的书写功能,让人们逐渐从纸制环境转移到功能及感受较为相似的电子虚拟环境,为用户提供更为丰富的、新的体验感受。

1 系统方案

本系统以EC5-1719CLDNA嵌入之星为硬件平台,结合使用迷你投影系统及镭射控制系统,在用户输入体验上采用独特的LRMT镭射增强反射非确定表面的Multi-touch技术,取代了传统的鼠标和触摸屏部件,在不需要任何标准配件的辅助下,在任何环境下,轻松实现家庭娱乐办公的人机交互(图1)。软件交互系统采用JAVA语言实现,保证了整个软件系统的可移植性,同时独特的软件架构设计,保证了功能的扩展性,在已完成的功能中,可以实现图片浏览、记事办公、多用户参与、家居设计和多界面模式等功能。在未来版本中,将完成用户与用户间文件传输及共享等功能。

图1 混合现实的人机交互系统

2 功能与指标

现实中,人们通常使用办公桌进行书写、编辑、演算和绘图的工作。要想用计算机系统替代人们对于这些工作内容的传统办公模式,除了要在软件系统上实现这些办公功能以及提供良好的用户界面外(表1),更应该考虑保留人们在水平桌面上办公、讨论的习惯,而不是构建一个垂直显示的液晶屏幕或投影幕布来进行交互,想想人们围绕在一张办公桌上探讨问题,那是多么高效而又惬意的一件事!

2.1 非确定表面的Multi-touch技术

为了实现用户通过双手及任意笔对虚拟对象的交互操作,特别设计了用户输入技术。2006年Siggraph的Emerging Technology单元上展出的Multi Touch技术记忆犹新。目前现有的Multi-touch技术都是基于物理硬件触摸装置实现,例如,LucidTouch技术,多点输入触摸屏-FTIR-受抑全内反射(Frustrated Total Internal Reflection)技术等,但这些技术都需要借助一个的固定物理触摸装置,携带及安装不便。

创新特色技术—称之为LRMT镭射增强反射(Laser Reflection Multi-touch)的非确定表面的Multi-touch技术,即用户可以在现实中任意的表面上进行多点触摸(如桌面、地面、墙面等),触摸范围可以任意调节。

表1 基本的桌面交互功能

2.2 用户体验交互的界面

交互引擎:负责对虚拟对象的建立、显示、特效渲染,用户输入反馈到可视区域,保证用户所见即可操作,所点即所要。完成用户所有的交互反馈操作及处理。同时引擎对交互的虚拟对象进行多线程的优化。

软件功能:(1)照片的浏览,照片放大、缩小、旋转、折叠(可以在背面留下一些信息,可以是手写体也可以是打印体);(2)A4纸及便筏条,任意书写,通过虚拟键盘可以录入标准字体等,纸的反面有功能菜单,可以实现清除、销毁等操作;(3)虚拟键盘;(4)地图浏览;(5)碎纸插槽。

2.3 软件部分功能介绍

纸和便签功能(图2):用户可以如同真实的感觉实用纸张一样,可以用笔也可以用手来进行书写、折叠、旋转、缩放等功能。

照片以及平面材料的浏览(图3):用户可以像真实的纸质材料那样处理它们,可以散开或合拢,放大缩小等,甚至折叠照片在反面记录信息等。

板书书写功能(图4):用笔在投射虚拟界面中进行书写,让任何物体表面上都能进行书写。

2.4 硬件架构(Hardware Architecture)

如图5所示,硬件上特别选用基于OLED技术的Toshiba产的DLP迷你投影仪,设备尺寸很小,大概只有一个巴掌大小,携带方便,亮度达到了400流明,也是本项目的首选。LRMT技术则需要依赖于镭射控制系统、镭射模组以及CMOS摄像头,镭射控制系统是由核心是AVR单片机控制,同时通过RS232与上位机通讯,并连接镭射模组进行镭射信号发送。

图2 纸和便签功能

图3 照片以及平面材料的浏览

图4 板书书写功能

3 实现原理

3.1 LRMT镭射增强反射(Laser Reflection Multi-touch)技术原理

LRMT是一整套多点虚拟触摸的方案,由镭射控制、镭射发射装置、图像捕捉识别系统3个部分组成。

3.1.1 镭射系统

镭射模组发射出一字线650nm光谱的红色激光(图6),光线平面水平与触摸表面。镭射模组发射的激光具有一定角度,采用120°的镭射镜头。镭射模组摆放位置到具体探测表面的计算方式有:设L为探测表面的最大宽度,一般根据投影系统投射出的屏幕宽度来定,即L=Lp,Lp为投射区域最大宽度。镭射摆放位置距离投射区域的距离为D=L/2·tg (FanAngle/2)(见图7)

图6 红色激光

图5 硬件架构图

图7 镭射摆放示意图

镭射系统控制是由AVR MEGA8535单片机+镭射专用控制芯片EG-NMLCd组成,控制镭射发射器。同时通过RS232接口和Intel嵌入之星通讯。

3.1.2 图像捕捉及识别

鉴于嵌入式之星强大的处理能力,CMOS摄像头捕捉的图交给嵌入之星处理。图8中显示了整个图像识别的流程,在下面会详细介绍图像识别流程各个过程的技术细节。

3.2 虚拟交互软件UMOT

用户体验是通过LRMT技术方式输入,对交互界面呈现的虚拟对象进行操作,然后实时地将处理过程反馈到用户的眼前,从而达到与真实一致的互动性。交互界面的核心是由一套完整的交互引擎在后台提供各种算法级服务。此引擎提供了完整的虚拟对象的呈现,虚拟对象各种反应处理机制,交互图形表达方式等。引擎的图形渲染采用了GDI+与openGL技术相结合,让虚拟对象的表达更接近与真实。所有的软件功能都是基于引擎提供的API处理函数来实现的。引擎的代码量在2万行左右。此引擎代号为UMOT-ultra mobile office tabletop。

3.2.1 软件架构

为了在嵌入之星上实现技术方案,在软件上我们必须考虑程序以及算法的可行性,是否可以在设备稳定的运行。在整个项目的开展中我们确实遇到了很多困难,并且提出了自己的解决方案。我们充分考虑到Intel双核多线程的处理效能,多虚拟对象的处理都是完全依赖多线程的处理。

由于大部分应用都需要基于软件算法的支持,这里给出了软件的基本架构(见图9),软件分成了两个部分,一个是UMOT client部分,它运行在嵌入之星上中,另一个则是服务器端的软件程序。

3.2.2 引擎类结构的关系

整个UMOT引擎中大概封装了大约有60个Class,其中虚基类和interface

图8 LMRT技术的图像识别流程

图9 软件基本架构

(下转第240页)

class有20个,分别定义了引擎的基本框架及实现接口。其余的类是真正的实现代码部分。

引擎的最底层的图形效果是在DsjoglTabletoppane、DsTabletop和JDestopPane中实现,实现了旋转、放大、缩小、阴影和折叠等渲染效果。在DsEngine的子类中实现了引擎中支持的桌面的各种效果,如四方桌模式、圆桌模式等。DSimage和DsFrame是中实现了对象的界面显示效果,由于系统本身并不支持旋转的窗体等对象,项目中几乎要重写窗体实现效果以及内部的处理消息。

4 系统测试

在系统实现过程中,由于整个系统分成镭射增强反射子系统及人机交互软件子系统并行开发,因而在每个模块完成后,都编写了相应的测试程序对其进行测试,各个模块都取得了较好的效果。当所有模块编写完毕后,对两个子系统分别进行了集成测试,子系统都能够完成项目规划所要求的功能。随后,完整地搭建整个系统,并针对各项功能进行了最后的系统的测试,评定整个系统是否满足各个功能性能及指标。测试表格及结果如表2。

表2 系统各项功能测试结果

5 总结

本系统以一种全新的设计理念去诠释人机交互概念,颠覆传统的单人、借助标准输入设备、垂直性的人机交互模式,以一种更适合人们书写、阅读、办公习惯的方式让用户获得高效、亲切的用户体验。系统在识别的准确性、交互的实时性、软件功能的扩展性和界面交互的友好性方面都体现了较高的应用前景。

参考文献:

[1]SD Scott, KD Grant, RL Mandryk. System Guidelines for Co-located, Collaborative Work on a Tabletop Display[A]//Proc. European Conf. Computer-Supported Cooperative Work (ECSCW)[C].2003.

[2]R Kruger, S Carpendale, SD Scott, et al. Roles of Orientation in Tabletop Collaboration: Comprehension, Coordination and Communication[J] Computer Supported Cooperative Work,2004(5-6).

[3]DWigdor, RBalakrishnan. Empirical Investigation into the Effect of Orientation on Text Readability in Tabletop Displays[A]//Proc. 9th Euro. Conf. Computer-Supported Cooperative Work (ECSCW)[C].2005.

猜你喜欢

图像识别
支持向量机的舰船图像识别与分类技术
浅谈图像识别技术在打击绿通假证逃费中的应用
基于计算机视觉的图像识别技术研究
无人驾驶技术中红外图像识别准确率的实验研究
一种基于多传感器融合辅助的AlexNet模型图像识别算法
基于图像识别和多感知融合的列车自动防护方案
基于Resnet-50的猫狗图像识别
人工智能背景下图像识别技术浅析
高速公路图像识别技术应用探讨
图像识别在物联网上的应用