沉浸式虚拟现实语境下肢体交互模式实现探析
2018-02-28赵锟
赵锟
(中国传媒大学 动画与数字艺术学院,北京 100024)
沉浸式虚拟现实是与桌面式虚拟现实相对的概念,主要是指通过佩戴头戴式虚拟现实眼镜进行内容体验的系统设备,产品和分类包括以HTC vive等为代表的外接式设备①,以及以三星GearVR为代表的移动端设备和以Hololens为代表的一体式设备②3种。其普遍性优势是将屏幕拉近至观众眼前,体验者以第一视角欣赏体验画面内容。同样,共同的不足之处是在交互模式上,仍无法摆脱手柄作为交互工具的模式。
当体验者佩戴VR眼镜体验时,交互的抽象程度直接决定了其身份认同度和沉浸感。尽管人体能够通过大脑对游戏中的拓展身体进行关联学习,但由体验感受肢体的直接交互才是最自然、最符合人体行为的交互模式。
1 局部精确式输入
在进行交互设计的过程中,手部的交互往往是最集中也是最容易实现的,因此,可以将手部动作直接输入设备作为一种交互方式。常见的实现方式有2种,一种是计算机视觉,另一种是惯性传感器运动捕捉。深度捕捉技术的常用工具是Leap Motion,基本原理是通过红外 LED和摄像头,以不同位置和角度记录目标轨迹信息并传回计算机进行计算后来完成对手指的追踪。
Leap Motion是一款面向PC和Mac的体感控制器,其识别范围为上方25~600 mm的锥形区域,识别对象仅限手部动作,能够识别手部所有骨骼的运动。为了方便开发者使用,Leap官方发布了Unity和Unreal引擎的SDK,由于需要配合PC平台使用,需选取PC外接式VR设备,比如HTC vive或Oculus rift等。为了方便与VR眼镜组装,在接入方面,Leap公司发售了VR眼镜黏帖式接入卡槽,如图1所示。体验者在佩戴组装VR头盔后,能在虚拟空间中观察到自己的双手并同步动作,利用交互设备实现抓握、点击、推拉和击打等一系列动作,相比通过手柄等设备实现的关联学习,体验的真实性和沉浸感得到很大提升。这种配备Leap Motion的VR头显设备弊端也很明显,即虚拟空间中只能出现手部模型,需忽略体验者除头部和手部其他所有身体部分的感知,且在使用时手部如果离开摄像头检测范围或遇到遮挡,数据传输会中断或出错。
图1 使用专用卡槽组装VR眼镜与Leap Motion
惯性传感器技术在局部肢体输入模式中常用的设备是数据手套。数据手套是一种虚拟现实仿真交互硬件,研究开始于20世纪70年代,配有多种传感器装置的特制手套可将手部动作数据输入虚拟空间中。其实现的基本原理是,通过模/数转换器将分布在数据手套上的传感器模拟量转换为数字量,并传送到计算机I/O接口。技术关键在于手掌各有效部位的弯曲测量和姿态反演。目前,市场上比较成熟的数据手套有Gloveone、Senso、Control VR等,如图2所示,它们均能与主流PC外接式VR头盔兼容,比如HTC vive、Oculus rift等,且配有Unity、Unreal引擎的SDK开发工具包。数据手套依托稳定的物理介质,配合VR眼镜使用时最大优势是稳定、准确,不易受外部环境的干扰。但其本身没有定位功能,位置数据获取还需要借助外接时VR眼镜自带的空间定位技术。另外,其不足之处是用户体验成本比较高,既表现在设备穿戴上,在VR眼镜之余身体还需要负担更多设备,也表现在数据手套的造价比较高上,因此,它目前仅在科研和教育领域使用得比较多。
图2 VR眼镜与数据手套的穿戴效果
2 单向式整体输入
单向式整体输入,是指通过1台体感设备输入体验者的整个肢体活动信息的交互手段,比如微软Kinect、Intel公司RealSense等产品。这实质上是一种无标记点的光学运动捕捉技术,其基本原理是:通过配备3个摄像头即红外线投射摄像头(IR,lnfrared Ray)、红外线接收摄像头(单色CMOS摄像头)和普通的RGB摄像头获取空间的深度图像,计算出三维物理空间中所捕捉到各个点的三维坐标位置,并将这些位置的空间变化数据传输到计算机中计算后进而控制虚拟空间中三维模型的空间位移。
Kinect摄像头是微软公司2010年推出的一款体感外设,其配备的RGB摄像头分辨率可以达到640×480;IR摄像头负责记录空间中经物体反射回来的红外线散斑,再透过晶片计算成具有3D深度的图像,其分辨率可以达到320×2 400.微软公司推出了2种Kinect产品,一种专门适配Xbox游戏主机使用;另一种即“Kinect for Windows”,配有Windows SDK,可将Kinect作为PC外接式VR眼镜的输入设备。作为微软的同类竞品,Intel推出的RealSense是使用相同原理开发的体感设备,相对于Kinect体积更小,捕捉精准度更高。相比局部肢体输入交互模式,单向整体输入的优势在于体验者可以使用整个身体进行交互,体验时大脑进行的关联性学习成本被大大降低,沉浸感和对虚拟身份的认同感将会极大提升。在VR设备中,使用单向式整体输入时也同样存在问题,即光学捕捉的不稳定性,受体验环境的影响比较大,遮挡会影响数据传入,比如背向摄像头时,手臂的动作无法被接收到,这点是单向摄像头设备的通病。
3 多向式整体输入
多向式整体输入模式,是指体验者的运动数据传入不受方向的影响,可在某个固定空间内自由活动,虚拟空间中的肢体运动与物理空间保持一致。实现多向肢体运动输入,主要基于专业运动捕捉系统的人体运动实时输入和计算。
这里涉及到VR设备的空间定位技术问题。根据目前市场上主流设备的数据,VR眼镜的空间定位技术主要包括以下几种:①激光定位。例如,HTC vive的Lighhouse技术,依靠激光和光敏传感器确定物体位置,激光发射灯塔每秒分别发射6次激光,利用其内置双扫描模块对水平和垂直方向进行坐标定位,头显和手柄有70余个光敏传感器来确定其准确位置。这种技术的优势是可获得较大捕捉范围,可同时支持多目标定位。但是,激光扫描设备容易发生机械性磨损,进而导致定位失灵。②红外线定位。例如,Oculus rift设备使用的九轴定位系统,使用红外发射摄像头对空间进行扫描,在Touch手柄和头盔上安装多红外发射光点,经多次反射返回的红外光可经运算计算出被定为物体的位置。同时,对于其内置的九州传感器,当红外线被遮挡或模糊时,可通过计算获得相应的数据。这种技术设备的使用寿命比HTC的激光发射器要更长,但其局限性也很明显,即捕捉空间比较小,大致在1.5 m×1.5 m内,且很难支持多物体定位。③可见光定位。可见光定位的技术原理与红外线定位技术相似,被追踪的物体上安装了不同颜色的发光灯,摄像头捕捉这些颜色信息以确定其位置,产品代表为索尼的Playstation VR。
基于VR设备的空间定位技术实现多向式无死角的立体式输入,可采用运动捕捉技术与VR技术相结合的方式,即设置Maker点,经过特殊处理分布于身体重要关节,比如肘、手腕、膝关节、腰部、脚部等,如图3(左)所示。除了光学捕捉,另一种是惯性传感器运动捕捉。惯性捕捉技术我们在第一部分中已经提到,数据手套即其中局部输入的一种,需要穿戴全身设备捕捉整体动作,如图3(右)所示,其不足之处是体验者负重比较大,使用成本过高。
图3 光学动捕设备与惯性动捕设备
结合已有的PC外接式VR设备,HTC vive的激光塔配合背包式PC主机应用VR无线传输技术再加之可穿戴Maker标志,可实现体验者在一个相对自由的空间内身体运动的完整输入和自由移动,达到对虚拟世界的最大程度认同,从根本上克服交互体验的窄带性。目前,市场上已有的商业级产品,比如Zero Latency和国内的StepVR等公司已将其应用到大型VR体验场馆中。
4 结束语
从肢体输入技术与VR设备的结合来看,目前主要集中于外接式VR眼镜,而移动端VR却缺少成熟的产品和技术。出现这种情况的主要原因是,移动设备的处理能力依然有限,运动捕捉、VR无线传输都对CPU和GPU提出了较高的要求,即使在PC端仍捉襟见肘,造价和穿戴成本令很多玩家望而却步。但从商业价值和实用性上来看,无标记点光学捕捉技术应用于移动端的可行性更高。
总体来说,实现沉浸式虚拟现实语境下肢体输入的技术手段有光学技术和物理感应技术2大类,在此技术基础上,各功能类型产品又可根据交互方式和输入特点分为局部输入、整体单向输入和整体多向输入3种模式。这3种模式之间没有优劣之分,只是需要根据设计需求选择输入方式才能将沉浸式交互的魅力发挥到最大。
注释:①Hololens作为MR产品,从功能上无法实现完全虚拟空间的肢体输入。因此,本文讨论的沉浸式VR语境中仅包含前两者。②外接式设备包括PC外接式VR眼镜,比如如HTC vive和视频游戏主机外接设备,比如PlayStation VR等。
[1]王国强.基于深度图像的人体部位识别及动作识别[D].广州:华南理工大学,2014.
[2]渡边修司,中村彰宪.游戏性是什么:如何更好地创作与体验游戏[M].北京:人民邮电出版社,2015:76.
[3]杨林.基于Kinect的人体目标检测与跟踪[D].大连:大连海事大学,2013.
[4]刘杨.基于Unity和Leapmotion的国家动漫园虚拟漫游的研究与实现[J].天津科技,2015,42(3):38.
[5]潘尚仕.虚拟现实(VR)情境下的界面设计模式解析[J].艺术科技,2015(12):261.
[6]黄俊,景红.基于Leap Motion的手势控制技术初探[J].计算机系统应用.2015,24(10):259.