APP下载

投影——摄像人机柔性互动技术的分析与探讨

2013-02-13李文杰吴黎明邓耀华

电视技术 2013年17期
关键词:手势投影系统

李文杰,吴黎明,邓耀华

(广东工业大学 信息工程学院,广东 广州510006)

责任编辑:魏雨博

互动投影系统是一种新型的多媒体展示平台,采用先进的投影显示、计算机视觉、模式识别、人工智能技术来营造一种奇幻动感的交互体验。与传统的触摸屏不同,互动投影系统在显示方面可以以微小的体积提供数十倍尺寸大小的缩放,实现更高的分辨率和更好的动态响应效果。在此之外,与传感器件的结合,可以实现不需要其他介质,利用磁性跟踪[1]、惯性跟踪[2]、声波跟踪[3]以及视觉跟踪[4]等技术,用户既可以直接使用语音进行交互,也可以使用自然手势与投影区域上的虚拟场景进行无线交互。目前互动投影系统的主流研究存在两个发展方向:计算机视觉互动、力学感应互动[5]。以力学感应技术为主的投影互动系统是在人们身体的交互部位上附带力学传感器用于采集交互人不同交互手势下的肌肉与神经信息,该技术可识别多种交互手势,且识别率高,但传感设备费用昂贵,携带不方便,灵活性差。以背投方式的投影——摄像互动系统[6]因其投影和屏幕连为一体,需要红外对管等传感设备等原因,同时占用空间较大,限制了应用设备的使用环境。而正投方式的投影——摄像互动系统是采用计算机视觉技术互动的典型应用,因其投影仪和摄像设备嵌为一体的设计理念,具有易携带和易转移的特性,且具有可应用于任意环境的多种投影界面等优势,满足了人们应用灵活性方面的需求。

1 正投式投影——摄像交互的优势

据调研报告分析,现如今大部分投影交互系统的市场份额由正投式投影交互系统占领,主要以电子白板为主,但随着人们对人机交互过程中的舒适感和界面友好性的追求和重视,电子白板市场份额呈下降趋势,以激光笔为交互辅助设备的交互技术[7-8]因其无法满足准确度和灵活性要求的原因无法被大规模推广应用,而无辅助设备的人机交互技术的研究成为主流。目前比较成熟并获得推广的应用有背投触摸[9]、虚拟翻书[10]、全息互动[11]、地面互动等。这些以背投式交互技术为基础的应用充分考虑人机交互的舒适感,具有友好的人机互动界面,且交互干扰小、定位识别精确、实时性高。但在这些应用中,投影仪与投影屏幕合为一体,投影仪与投影面位置相对固定,同时采用背投的方式进行投影,投影系统占用空间较大,难以摆放,大大限制了应用设备的使用环境,设备安装固定无法满足随时随地转移使用,情况如图1所示。

以力学感应技术为主的投影互动系统[12]主要是在人们身体的交互部位上附带力学传感器用于采集交互人不同交互手势下的手部肌肉和神经反应信息,该技术可识别多种交互手势,且识别率高,但传感设备费用昂贵,携带不方便,灵活性差,早期和目前的力学传感交互如图2、图3所示。

图1 背投触摸

而满足任意环境下应用的正投式的投影——摄像互动系统[13],因其投影仪和视觉设备嵌为一体的设计理念,具有易携带和易转移特性,可用于多种投影界面下,满足了人们应用灵活性方面的需求。同时交互方式无需携带特定的电子设备,具有良好的人机交互特性,满足人们交互的舒适感和方便性需求。故针对任意环境下的正投式投影——摄像系统的手势识别技术的研究是未来该领域取得技术突破的关键。

2 国内外研究现状

目前国内外学者对在无辅助设备,正投环境下的投影——摄像系统的手势识别技术进行了艰苦的探索和研究。因其在识别过程中具有复杂动态背景和投影光线等干扰因素,故与传统的手势识别技术相比具有更高的挑战性。意大利学者Hiroki Goto[14]等人提出利用手势肤色在改进的HSV颜色空间和YCbCr两种颜色空间下具有颜色聚类特性对交互手势与背景进行分割,并采用帧差法消除背景,设计阈值减除与交互手势运动频率不一致的干扰源,并采用模板匹配的方式识别指尖。该研究相对于利用单一颜色空间提取肤色要精确,根据交互手势运动频率的先验知识去除背景干扰也是一大创新,且模板匹配方法对指尖识别率较高。从外界环境出发,该方法的识别策略与传统手势识别类似,只适用于投影内容单一、投影光线未对手势皮肤的颜色采集造成噪声以及投影背景未出现类交互手势的情况。从手势本身分析,手势为非刚性物体,具有空间上的多种变形,模板匹配的方法容易造成指尖的误检。系统检测结果如图4所示。

瑞士研究人员Huan Du[15]提出了一种虚拟键盘交互系统,使用投影仪在桌面上投射出与真实尺寸大小相同的的虚拟键盘,利用3D摄像头捕获敲击键盘的手的深度信息,判断手指的位置和敲击动作,如图5所示。该研究采用帧差法定位手指区域,结合指尖具有特殊夹角的特征定位手指,最后利用构建类双目的结构获取手指的深度以捕捉手指敲击虚拟键盘的动作。该应用系统较为新颖,但在复杂背景和投影光线双重干扰的情况下,基于双目的手势识别算法运算量大,文中叙述的系统只能针对静态背景(固定的投影虚拟键盘)下的手势进行识别,对于动态的复杂背景没有进行讨论,实际应用范围小。

2011年,美国苹果公司[16]提出把包括一个全息成像和一个类似Kinect的3D空间手势识别系统申请为专利,系统能在用户前方生成一个不可视的3D空间,在这个空间里面用户能对全息投影进行操作,或者将用户的手投影到屏幕上以操作虚拟部件,如投影键盘等,如图6所示。但截至到目前,苹果公司并未投产该款电子设备。

图6 苹果投影互动专利

国内方面,2008年6月浙江大学的陈成钱[17]采用红外摄像技术解决投影光线对手势肤色的干扰问题,利用肤色模型和自然手势的轮廓、手指长宽比、以及指尖夹角等人体固有特征,将二维轮廓转化为一维波形求极值,并结合采用神经网络的方法识别手指。该方法使用红外灯源正面照射触摸界面,对触摸界面的材质、灯源位置、光强要求太高,且未考虑手势是非刚性的物体,只能识别手指,无法解决多样性的非刚性手势问题。

2010年10月张正友、高睿[18]等人实现了一种针对移动电子设备基于投影仪摄像的人机交互系统,可实现三维交互投影面的随时变换,系统如图7所示。该系统可以在单摄像头激光投影系统中完成3D的自然交互。该系统利用激光投影仪可以对投影空间进行逐行投射扫描的优势,利用平行投射光反射回来的信息使用高速摄像机记录下场景中物体的深度信息,精确度高达1~2 cm。不过该系统对设备的要求极高,不管是精确投射平行光线且具有反射特性稳定的激光投影机,还是高采集速度的摄像设备,都需要投入较高的成本。

图7 移动三维交互场

2011年5月中国科学技术大学的朱中的[19]首次考虑到了动态背景中出现类似于交互手势对识别的干扰问题,从光度学反射角度出发,根据人手皮肤的血红素和黑血素本身对不同波段光具有不同反射强度的特点区别于投影屏幕具有统一反射特性来定位和分割手势,最后通过径向对称变换算法定位指尖。该方法新颖独特,但受投影环境光照影响较大,且只能识别指尖,未涉及复杂手势的识别,应用范围有限。

2012年笔者结合利用交互手势被投影光线遮挡在投影屏幕上产生的背影作为交互指令[20]。该方法新颖独特,利用阴影的颜色特性进行手势分割相对于肤色更加简单,且交互范围更大。同时采用高斯模型跟踪交互手指,最后结合径向对称变换算法和指尖具有一定角度的特性定位指尖。相对于之前的算法,该方法运算量小、定位精准,但对于投影内容出现类手势阴影容易出现误判。

3 技术研究难点

综上所述,国内外研究学者对正投式投影——摄像互动系统的研究给予了极大的关注,然而目前还存在一些技术难题:

1)正投式投影交互过程中,存在交互人阻挡投影光线而形成的投影背影、投影内容存在与交互手势相同或类似的投影物、多操作目标和多操作交互人之间等干扰影响因素;

2)大多研究工作都集中于手势识别算法的优化上,而未把交互手势作为系统整体的一部分进行考虑,正如触摸笔操作触摸屏一样,忽略交互人的感知机制和感知能力,从而系统无法理解人的交互操作意图;

3)从机器视觉的角度出发,为了将手势从动态的背景中提取分割出来,对变化背景适应性差,要求用户携带具有特殊颜色的物体以利于标定或采用特殊黑光源的方式[21];

4)数据量的处理十分庞大,处理算法复杂,传统的软硬件设备难以满足复杂背景下多维和多交互人手势识别运算的实时性要求。

这些技术难题对交互手势的识别率以及拒识率有很大程度的影响,因此在交互过程中容易出现交互不友好,使人们产生交互的顿挫感。

故如何根据人类的交互习惯等先验知识,简化识别算法,提高运行效率,并建立交互手势与正投式投影——摄像系统的一体化模型,增强人机虚实互动的感知体验是未来该领域技术研究的突破方向。

4 研究解决思路

针对正投环境复杂背景下的投影——摄像多点触摸多方式柔性互动建模方法的技术难点,研究建立纯手势与投影屏幕交互的智能感知机制[22],建立任意投影面下的多方式交互判别策略,构建满足实时性、鲁棒性要求的投影——摄像交互系统是该领域技术研究的目标。主要方向着重研究基于正投式复杂背景下对干扰因素进行分析并约简,并在该基础上,针对多交互人、多维、多方式的交互情况构建通用语义表达模型,根据特定的模型识别算法,利用硬件高速运行效率开发专用的IP核以及构建多核并行协同处理策略,以期满足系统的实时性需求。具体可分解为以下问题的研究:

1)投影摄像复杂背景下人机交互增强现实建模

正投式投影摄像系统在交互过程中,存在交互人阻挡投影光线而形成的投影背影、投影背景存在与交互手势相同的内容、多操作目标和多操作交互人之间等干扰影响因素。通过视觉的方式获取和判别交互人真正的操作指令是交互的最终目的,而对这些干扰影响因素进行客观分析是获取操作指令的前提。且交互人在操作交互指令的过程中,包涵着本人强烈的行为意识,存在丰富的已知信息,如何设计试验分析方法对互动控制影响因素进行约简是解决难点的重要步骤;为了实现多点触摸等真实的交互体验,实现多交互目标与投影屏幕的无缝融合满足交互人的真实感知体验是难点的重要关键问题。而虚拟目标和真实交互动作的无缝实时融合是增强现实研究领域中所要实现的具体目标。先根据场景几何特征确定投影屏幕目标与交互手势之间的关系,然后通过投影补偿的方法将虚拟交互手势投影至屏幕,与交互目标形成特定的空间位置关系。精确、快速的几何配准方法是手势与投影屏幕虚实融合和增强现实体验的关键技术之一,例如解决图8中手势交互中与屏幕的融入问题。

图8 手势融入和手势假融入

2)投影摄像复杂背景下多方式柔性互动建模方法研究

在投影——摄像人机交互技术研究中,研究人员的焦点大多集中于传统手势单一交互方式的研究,如手势的平面拉伸、缩放、旋转等。而随着增强现实技术的应用和推广以及人们对真实体验需求的上升,不仅存在简单的平面交互的情况,虚拟物体的三维操作,而且多交互人的协同操作等交互方式也将成为未来研究的必然趋势。故在投影摄像复杂背景下对交互目标平面多点的特征提取,三维平面的多点特征提取,多目标特征提取等基础上,分析各种方式特征的统一特性,构建多方式柔性互动控制通用语义表达模型,实现通用的操作指令是另一关键性问题。双手实时交互的多维方式的实时交互[23]的实现不但需要实时地正确识别动态复杂手势,而且需要通过提取各种方式的交互特征,辨别同种手势不同平面、不同维度的交互动作,并需要建立双手多方式运动的语义模型(类似中国科学院马义勇博士构建的手语模型[24]),对双手行为的显式或隐喻语义进行正确的判断。故如何设计快速匹配算法识别静态手势,并在该基础上针对动态手势涉及到时间及空间上下文问题,不同的手势具有不同的轨迹轴及时间轴与空间轴的复合处理因素设计具有时序建模能力的动态识别算法是另一技术解决思路。

3)投影摄像复杂背景下柔性互动控制多核协同计算研究

投影摄像复杂背景下多方式柔性互动系统涉及到背景噪声的约简、多目标的识别、目标行为的分析以及视觉触控命令的执行等一系列较为复杂的过程,系统运算复杂度极大,传统的软硬件处理方式无法满足系统的实时性要求。故可从多核协同计算的方向寻求突破,针对各种交互方式特定的特征提取识别算法,采用硬件代替软件的优化方式,封装专用的IP处理核提高系统的运行效率。然后,在此基础上,采用软硬件协同设计模式,从多个硬件IP核的功能依赖关系和数据依赖关系、分立目标的移动与多目标的行为目的之间的联系等方面着手分析,制定可提高系统的实时性的多核协同调度策略。故如何针对各种交互方式特定的特征提取识别算法并设计封装专用的IP处理核提高系统的运行效率。在此基础上,根据系统各算法处理顺序制定可提高系统的实时性的多核协同调度策略是实现该技术的实时性和可靠性方面的解决思路。

5 小结

近年来,随着基于机器视觉的手势识别技术的发展和应用,人们对虚拟投影交互应用的需求日渐增加,其中包括企事业单位的会议交流、军事模拟布局、餐饮服务业的点餐服务、手机投影互动等领域。而目前该技术的研究遇到了发展瓶颈,本文从正投式投影——摄像交互技术的优势和国内外研究现状出发,理清目前技术的发展情况和技术难点,通过对投影互动案例进行归纳,总结各方案的优缺点,对各技术难题从交互流程顺序上进行结构性分解:首先从人机交互感知体验出发提出人机交互增强现实建模思路,从而以便仿真和评价用户体验虚实融合的真实感知,实现人机交互无缝虚实融合。然后从人机交互的多维多方式的交互出发提出提取多维多方式的交互特征构建通用语义互动模型实现柔性互动思路。最后针对系统的实时性问题,提出采用多核协同计算的方式等构建正投式投影——摄像交互系统思路,以期为研究人员后续开发提供解决思路。

[1]林里平,吴平东,黄节,等.电磁跟踪器在立体投影虚拟环境中的注册[J].北京理工大学学报,2009,29(1):23-27.

[2]周谊成,尤树华,王辉.基于三维加速度的连续手势识别[J].计算机与数字工程,2012,40(10):133-136.

[3]李文娟.基于声音识别的声乐教学多媒体交互系统[D].上海:上海大学,2009.

[4]张玉祥,李华,马柳艺.基于MEMS器件的交互笔运动跟踪研究[J].仪器仪表学报,2011,32(6):379-382.

[5]程序贤,康波.一种基于视觉跟踪的新型交互设备及其在3D游戏中的应用[C].第四届全国数字娱乐与艺术会议(DEA’2009)论文集.苏州:中国系统仿真学会,2009:102-105.

[6]于少华,伍冠健,吴黎明,等.Multi-Touch智能红外交互投影系统[J].自动化与信息工程,2011,32(5):26-30.

[7]SUN Zhenying.Research on human-computer interaction with laserpen in projection display[C]//Proc.International Conference on Communication Technology,ICCT.[S.l.]:IEEE Press,2008:620-622.

[8]KIRSTEIN C,MULLER H.Interaction with a projection screen using a camera-tracked laser pointer[J].Multimedia Modeling,1998(10):191-192.

[9]吴祺.基于视觉技术的陈展交互设计与实现[D].浙江:浙江大学,2010.

[10]李炜,李志,郭星,等.基于图像识别的虚拟翻书系统[J].微型与应用,2010,29(5):12-17.

[11]于瀛洁,李雨浪,郑华东.一种基于视觉的手指与全息影像交互研究[J].激光与红外,2010,40(4):447-452.

[12]田艺.基于数据手套的双手手势交互[D].浙江:浙江大学,2006.

[13]王鼎元.基于摄像与投影的人机交互系统设计[D].西安:电子科技大学,2010.

[14]GOTO H,KAWASAKI Y,NAKAMURA A.Development of an information projection interface using a projector-camera system[J].IEEE Trans.Electronics,Information and Systems,2012(4):561-569.

[15]HUAN D,THIERRY O.FELIX L,et al.A virtual keyboard based on True-3D optical ranging[EB/OL].[2013-03-02].http://wenku.baidu.com/view/7f0cb320aaea998fcc220ed7.html.

[16]3D全息显示和手势识别的时代来临[EB/OL].[2013-03-02].http://www.sup22.com/article-2693.html.

[17]Mobile Surface[EB/OL].[2013-03-02].http://research.microsoft.com/en-us/projects/mobilesurface/default.aspx.

[18]陈成钱.基于投影仪-红外摄像机的多点触控系统[D].浙江:浙江大学,2008.

[19]朱中的.基于投影仪摄像机系统的人机交互关键技术研究[D].合肥:中国科技大学,2011.

[20]LI Wenjie,WU Liming.Research of hand gesture recognition in multitouch projector-camera system[J].Advanced Materials Research,2012,588-589(11):1184-1187.

[21]HYOSUN K,DIETER W.Interaction with hand gesture for a back-projection wall[C]//Proc.Computer Graphics International,2004.[S.l.]:IEEE Press,2004:395-402.

[22]沈坚立.基于投影显示的增强现实人机交互技术[D].上海:上海交通大学,2008.

[23]巩应奎,梅中应,范玉青,等.基于手势输入构造三维概念模型的研究发展[J].计算机辅助设计与图形学学报,2005,17(7):1389-1393.

[24]马继勇.手语理解的统计模型研究[D].北京:中国科学院研究生院,2001.

猜你喜欢

手势投影系统
Smartflower POP 一体式光伏系统
解变分不等式的一种二次投影算法
WJ-700无人机系统
基于最大相关熵的簇稀疏仿射投影算法
基于PowerPC+FPGA显示系统
挑战!神秘手势
找投影
找投影
V字手势的由来
连通与提升系统的最后一块拼图 Audiolab 傲立 M-DAC mini