车载多媒体系统中的手势识别技术综述

2020-10-21冯琳

汽车实用技术 2020年12期

冯琳

摘要：文章对车载多媒体手势识别系统中的手势设计和手势识别技术两个方面进行了讨论和研究。手势的设计是建立系统的前提，关系着用户体验、驾驶安全和系统后续开发等问题。手势识别技术是获取手势图像的关键技术，获取图像的好坏对后续图像处理处理工作有很大影响，要能够很好的适应车内环境，获取高质量图像。

关键词：手势设计;手势识别技术;图像处理

Abstract： This paper discusses and studies the gesture design and gesture recognition technology in vehicle-mounted multimedia gesture recognition system. The design of gesture is the premise of establishing the system， which is related to user experience， driving safety and subsequent development of the system. Gesture recognition technology is the key technology to acquire gesture images. The quality of acquired images has a great impact on subsequent image processing. Therefore， it is necessary to be able to adapt to the in-car environment and acquire high-quality images.

Keywords： Gesture design; Gesture recognition technology; The image processing

前言

在目前車载多媒体系统中，使用了手势识别技术并实现量产的车型，有宝马、君马等，很多车企也逐步推出新车型试图使用手势识别技术。加入了手势识别的车载多媒体系统提升了驾驶的安全性和用户的操作乐趣等，多种交互方式融合的车载多媒体系统成为了未来发展的方向。但是手势识别在使用中也存在着一些问题，识别精度低，交互感受差，甚至可能影响驾驶的安全等。下面就手势设计和手势识别技术两个大方面进行了讨论和研究。

1 手势设计

根据操作时手的运动状态，手势交互方式可分为静态和动态两种。而要想实现更加人性、智能、趣味的指令手势，动态手势的识别是主要的研究方向。动态手势交互需要通过在识别范围内建立手势与指令之间的映射，达到正确完成操作的目的。在目前车载多媒体系统中采用手势识别技术的控制手势不超过十种，在手势设计的过程中需要考虑很多的问题，并不是简单的将生活中的手势一一照搬。在手势设计时首先要考虑的是手势的通用性，一方面要符合绝大多数人的认知规律，手势和功能的对应关系要通俗易懂，避免使用者的过度学习和习惯性的误操作，牵扯过多的精力，影响正常的驾驶;另一方面，相同的手势在多媒体系统的不同模块或功能下都可以使用，比如菜单中的上下选择和音乐播放的音量调节可以使用同一套手势，这需要系统先判断当前的工作状态。这样可以缩小系统的手势集，使用者学习难度降低，识别系统的复杂程度也会降低。其次，尽量采用容差性较强的手势捕捉方案，以实现手势的大范围模糊操作，降低错误率，减少驾驶中的分心，手势应具有较好的抗干扰的能力。最后，手势的设计要寻求技术和用户的平衡，应用到市场上得到越多用户的认可越好，但也不能盲目满足用户需求而不计成本，产品发展的过程还是需要企业和用户之间的磨合。

2 手势识别技术

手部动作可以是静态的，也可以是动态的。有些动作还兼具有静态和动态元素，如手语。自然连续动作的自动识别需要将它们进行时间分割，通常需要指定动作的起始点和结束点，构建在时间和空间上的运动框架。为了确定所有这些方面，需要感知手的位置、结构（角度、旋转等）和运动（速度、轨迹等）。这可以通过使用感测设备传递给用户，可以是磁场跟踪器，仪器（数据）手套，或通过使用相机和计算机视觉技术。

早期的手势识别主要是利用机器设备对人手的直接检测，获取人手以及手部关节的空间变换信息，再对信息进行分析，从而达到识别手势的目的，其典型代表设备有数据手套等。每种传感技术都会在几个方面发生变化，包括精度、分辨率、延迟、运动范围、用户舒适度和成本。基于手套的手势识别通常需要用户佩戴笨重的设备，并携带大量连接设备与计算机的电缆，这妨碍了用户与计算机交互的方便性和自然性，显然不适合在车内使用，会给驾驶员、乘客、车辆造成不必要的负担。

基于视觉的技术克服了这一问题，但同时需要应对遮挡、复杂背景等其他问题。基于视觉的技术也可以在以下方面有所不同：使用的相机数量;它们的速度和延迟;环境的结构（例如照明或移动速度的限制）;所使用的低级特征（边缘、区域、轮廓、矩、直方图）;使用的是2D表示还是3D表示;是否表示时间等。跟踪器还需要处理不断变化的形状和大小的手势生成对象（不同的个体），其他移动对象的背景和噪音。

视觉技术的发展历经了从黑白到彩色，从模拟到数字，从静态到动态，从2D到3D。目前的3D视觉技术还处于初期发展阶段，较多处于实验室阶段，较早出现在工业应用中，其中在汽车上的应用也将是重要的应用场景，但暂时没有完全落地和普及。真正开始进入到人们的生活中是2017年苹果在iPhone中使用了3D结构光摄像头。而随着具有3D感知能力的硬件设备逐渐普及，3D人脸重建与识别、3D虚拟世界重建、机器人与工业自动化、3D物体识别和体感游戏与动作交互等应用都获得飞速的发展[1]。常见的3D感知技术有三种：TOF、结构光和RGB双目成像。

TOF（Time of flight），飞行时间法3D成像，通过给目标连续发送光脉冲，再用传感器接收从物体返回的光，通过探测光脉冲的飞行（往返）时间来得到目标物距离。属于主动测距传感器，激光光源呈均匀面，所以不依赖环境的光照和纹理，计算量较小，对基线无要求，但量程越远其精度越低。

结构光，是一组由投影仪和摄像头组成的系统结构。用投影仪投射特定的光信息到物体表面后及背景后，由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息，进而复原整个三维空间。属于主动测距传感器，激光光源是上万个散斑，所以不依赖环境的光照和纹理，但不适用强光照，所以比较适合在室内环境中使用;计算量适中，但量程和识别精度受基线大小的影響。

双目立体视觉（Binocular Stereo Vision），是机器视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。存在的问题是：对环境光照的依赖较大，不适合较暗的环境，同时要求环境纹理清晰;系统计算量非常大;量程和识别精度受基线大小的影响。

关于三种技术的其他特点见下表1。

综合上述三种技术的特点，最适合车内环境采用的是结构光，其精度高，成本低，开发难度较低等。结构光目前较成熟的产品是微软开发的Kinect，应用于Xbox 360和Xbox One，也陆续有研究人员在其基础上开发，应用不同的算法实现手势识别、人体姿态识别等。

3 结束语

车载多媒体系统中的手势识别系统是一个综合而复杂的系统：系统前端包括了红外传感器、红外激光光源、光学组件、光学镜头、图像传感器等，中端包括了传感器模组、摄像头模组、光源检测、图像算法等，最后才是终端厂商以及应用。所以想要达到用户良好的体验感受，每个环节都不容忽视。

参考文献

[1] 中国手机联盟.光鉴科技汪博：不止于ToF，再造新视界的3D感知技术[EB/OL].https：//www.sohu.com/a/393752415_166680， 2020 -05-08/2020-05-24.

[2] GeekCar.手势识别：车内交互方式的新宠？[EB/OL].https：//chejia hao.autohome.com.cn/info/3291266#pvareaid=28086821202，2019-01-29/2020-05-22.

[3] 景春晖，张晶，邓椿山.汽车手势交互设计研究[J].包装工程，2018，39 （8）：74-79.

[4] 刘春荣，朱旭.基于手势交互的车载信息娱乐系统设计综述[J].个案点击，2016，（277）：100-102.

[5] LOEHMANN S， KNOBEL M， LAMARA M， et al. Culturally Inde -pendent Gestures for In-Car Interactions[C]. Human-Computer Interaction-INTERACT 2013， 2013.

[6] WAHL H，GROH R.User Interface and Interaction Design in Future Auto-Mobility[M].Springer International Publishing， 2016.

[7] TANJA D，KERN D，MARSHALL P，et al.Gestural Interaction on the Steering Wheel：Reducing the Visual Demand[C].International Con -ference on Human Factors in Computing Systems，CHI 2011， 2011.

[8] SHNEIDERMAN B.Designing the User Interface：Strategies for Effective Human-computer Interaction[M]. Pearson Education India， 2010.

[9] HEYDEKORN J， FRISCH M， DACHSELT R. Prospects of User Elicited Gestural Interaction Techniques[C]. CHI 2010 Workshop on Natural User Interfaces： the Prospect and Challenge of Touch and Gestural Computing， 2010.