3D成像技术在智能手机交互设计中的应用研究

2018-11-09

佳木斯大学学报（自然科学版） 2018年5期

(1.浙江大学控制科学与工程学院浙江杭州 310000；2淮北职业技术学院计算机科学与技术系，安徽淮北 235000)

0 引言

在移动互联网时代，智能终端光学技术及人工智能的发展一直以来都是科学技术创新的亮点，其中应用最为广泛的应该就是智能手机摄像头像素的不断倍增及屏幕的触摸人机交互技术。摄像头实现了大量的内容输入，是一种重要的人机交互媒体；触摸屏操作方便，相比键盘鼠标更自然流畅。但是，摄像头和触摸屏都属于2D交互方式，现有的摄像头大部分只能实现二维图像的静态拍摄，无法无法实现三维图像的交互；触摸屏上实现的也只是平面感应和触摸，即使出现了近年较为流行的3D Touch等新的触控方式，人机交互依然局限于一个平面。但随着3D成像技术的不断发展，智能手机对真实环境信息的采集逐渐由传统的二维向三维转换，有望推动人工智能识别及光学创新革命。

1 3D成像技术将带动新一轮智能手机人机交互设计新浪潮

回看人机交互的历史，早期钻孔指令带、DOS系统+键盘形成的一维人机交互；Windows+鼠标的二维交互方式推动了人类获取信息方式的提高并开启了互联网/ PC时代；触摸屏和摄像头开启了移动互联网和智能手机时代；而到了以AR为代表的下一代云计算平台则迫切需要人机能够实现全方位立体对话，这是由AR设备的定义所决定的：AR技术指的是利用计算机视觉技术和人工智能技术来制造不存在于物理世界中的虚拟物体，并将虚拟物体准确地放置在现实世界中，通过更自然的交互，让用户将获得一个更具感知效果的新环境。由于实际环境是3D的，所以AR也需要生成三维虚拟对象，并把3D的虚拟对象叠加显示在现实的物理环境中，这就要求AR设备必须实现3D的输入和输出。而且，AR需要大量信息数据的导入，智能终端的人机交互方式也要向更加高效、更低学习成本、更加自然的方向发展。所以，有理由相信在不久的将来实时3D交互设计会在人类生活中被广泛应用：精确的人脸识别可以用于解锁支付，精确的手势和动作识别可用于家庭游戏娱乐，精确的建模可以使网上购物更有效率。

2 主流3D成像技术原理及实现

2.1 智能手机传统光学升级局限性分析

拍照一直以来都是智能手机的重要卖点，可以说像素和拍照性能是衡量手机功能的重要指标。以大家熟悉的IPhone苹果手机为例，无论前置、后置摄像头的性能指标都远远超过其他配件。但是，虽然手机光学部件性能有了很大提高，采用的依然是传统的二维成像原理：即把真实三维世界的图像信息映射到CMOS光敏元件来实现成像，手机摄像头内部模组构成见图1。

图1 手机摄像头模组组成

2.2 主流3D成像技术分类

2.2.1 结构光(Structure Light)技术

结构光是将特定光投射到物体表面，然后由摄像头进行数据信息采集，依据物体反射引起的光信号变化，计算出现实物体的位置、深度等信息，从而复原重建整个三维空间[5]。结构光三维成像实际上就是利用特定光源照射被检测物体，进而获取物体三维空间信息的技术。其主要技术方案是在物体表面映射载频条纹，成像装置从另外一个视角记录被成像物体表面经过高度调制并反射的可变形条纹图像，接收的图案必定会因物体表面的空间形状而发生变形，这样就可以得到物体的表面形状和深度等信息，最终从获取的变形条纹图中进行数模转换和重建被测物体真实的三维图像，图2为真实空间中利用结构光在人手模型上形成的散斑效果。

图2 结构光效果图

结构光深度计算的方式也有很多种，最具代表性的是Light Coding方案。Light Coding的光源被称为“激光散斑”，由红外激光发生器输出激光束，通过衍射光学元件DOE(Diffractive Optical Elements)进行衍射，进而得到所需的散斑图案。Light Coding透过Diffuser(光栅、扩散片)发射940nm波长的近红外激光，并均匀地分布在测量空间(测量空间在测量前已被划分为若干个标记参考面)，然后通过红外摄像机对参考面上的每一个散斑图案进行记录，从而形成基线校准。在获得以上原始数据后，IR利用传感技术对被测物体调制后的激光散斑pattern进行信息捕捉，由此分析计算已知pattern与接收pattern在空间(x，y，z)上的偏移量，从而计算出物体的位置和深度等信息，复原整个三维空间。

2.2.2 TOF(Time Of Flight)技术

TOF是利用专用传感器判断物体的空间、距离等三维立体信息，该传感器可以捕捉并获取从发射端到接收端的近红外光的飞行时间。TOF是一种主动式深度传感技术，其工作过程就是将红外测量光连续调制到目标场景，当发射光束到达目标时，一些反射光将返回到原始路径并被仪器检测器接收，根据光的飞行时间和光的速度，可以计算光源与被测物体之间的距离[8]。如图3所示，假设Δφ为发射信号与测量返回信号的相位差，f为发射脉冲波形的频率，c为光速，则TOF摄像机与目标物体之间的距离计算公式为：

图3 TOF原理

2.2.3 双目测距技术

双目测距与人眼成像的原理相似，由两个摄像头在真实的自然光中进行图像拍摄，并根据三角形原理计算获取被测物体深度信息，具体工作原理见图4。双目测距过程通常包括双目标定、图像校正、立体匹配、三维测量。当双目摄像机获取左右图像时，由于镜头安装和制作工艺等因素的影响，成像结果会发生畸变。因此,对摄像机参数进行立体标定是很有必要的，通过双目标定得到摄像机的内外参数，能够精确调整图像失真及进行其它图像校正操作，并且通过对摄像机焦距和基线参数进行标定完成实际距离的计算[9]。

图4 双目测距原理

3 智能终端三维交互设计案例分析

3.1 体感识别游戏终端Kinect

Kinect采用PrimeSense结构光方法，硬件上主要是通过三个镜头相互组合而成。置于中间的是RGB彩色摄像机，用于拍摄、记录真实世界中的对象模型；位于镜头两侧的是由红外CMOS相机及红外激光发射器组成的三维结构深度传感器，用于收集深度数据，硬件布局见图5。同时，Kinect也与聚焦技术相融合匹配，当进行聚焦移动时基本电机也将随之移动。Kinect还装配了由四个麦克风控制组成的阵列麦克风，通过声音数据的分析采集实现声源的定位和语音的识别，并相互之间进行比对去除噪声[10]。

图5 Kinect 1.0镜头硬件组成

PrimeSense的结构光方案是通过Infrared Projector发射一副具有三维深度的“立体”编码近红外激光(光源通过准直镜头和DOE器件形成衍射光斑)，再通过接收端的Infrared camera收集经人体反射回来的红外光线。这种光斑的分布具有高度的随机性，而且形成的图案随着距离的不同会出现变化。也就是说，在同一空间内任意两个位置所形成的散斑图案不尽相同。在物体进行三维重建时，先在空间中打入以上所述的结构光，并对被照射到的空间进行标记，然后当把物体放置在这个空间中，物体的具体位置就可以通过物体上的散斑图案的变化而获取。当然，保存空间的背景校准数据是第一要素，假设Kinect定义的空间是距显示设备14m的距离范围，且每隔10cm作为一个参考平面，这样就可以得到30个标记保存的散斑图像。测量时先选定拍摄一副可作为基准参考对象的散斑图像，然后将标记过的整幅图象与基准数据对象进行运算，就可以获得30幅相关度图像，而空间场景中目标物体真实存在的地理位置信息会显示在相关图像的峰值上，对这些峰值进行相互叠加及插值运算，就可以还原整个场景的三维形状。

3.2 AR智能手机Google Project Tango

Project Tango原型机包含4颗后置摄像头，分别是普通400万像素RGB摄像头，用于3D成像的红外发射器和红外接收器，以及一颗鱼眼镜头用于动作捕捉。Tango主要利用传感器和摄像头进行三维实时建模，具备广泛的应用场景，包括绘制3D地图，3D实景成像，在家庭环境中进行拟真3D游戏等，图6 为Tango进行实时室内建筑3D成像的效果图。

图6 Tango室内实时三维成像效果图

PrimeSense被苹果收购后，Google在Tango商用机上改用TOF进行3D 成像：最上方是三星RGB CMOS摄像头，用于常规拍照；最下方是OV鱼眼镜头，用于动作捕捉；两者之间则是采用TOF系统构成的摄像头。为了提供三维场景，三种摄像头各司其职，并与其它传感器“合作”，以实现下列功能：

1)运动跟踪(运动跟踪)：通过装有多种传感器的移动设备，在不跟踪外部信号的情况下，实时地获取设备的位置和姿态，并对其在三维空间中的运动轨迹进行追踪。Tango创新性地采用了摄像头与惯性测量单元(IMU)相结合的方法来实现精确的运动跟踪。

2)区域学习：利用人类感知信息记录和索引周围环境，对空间环境的构建和运动跟踪中累积的错误进行自动纠正，并能够合并重复的环境。该功能特性描述起来虽然简单，但是真正实施起来确是很复杂的一个过程：首先感应设备会提取所拍摄的每幅照片的特征，然后使用一些有效的存储和搜索算法来确定新帧是否与先前拍摄的环境相似，如果匹配是准确的，设备可以立即使用先前收集的环境信息。

3)深度知觉(Depth Perception)：利用三维飞行时间摄像头实现对外部空间环境的不间断扫描，以扫描的数据信息为基础建立三维模型，然后跟踪运动轨迹，确定空间内设备的位置和周围障碍物的距离。

4 结语

3D成像是一种借助光学、传感设备、人工智能等多种学科相互融合渗透而发展起来的一门综合三维成像技术，随着移动互联网、物联网及大数据技术的创新应用和发展，3D成像在智能终端特别是移动终端的人机对话设计中正引发链式突破创新，确立了真实与虚拟世界之间的相互联系，为感知数据采集、大数据应用、人机协同增强智能等提供了真实的三维数据源，很大程度上提高了3D成像在AI和AR等前言技术的应用效果。