车载多媒体系统中的手势识别应用

2021-04-20王云鹤

电子技术与软件工程 2021年2期

王云鹤

（电装天研究开发（天津）有限公司天津市 300457）

现阶段公众对汽车的要求在不断提高，除了正常的车辆性能外，对于车辆附加的一些硬件、软件设施也有了较高的要求。车辆多媒体手势识别技术是实现人车交互的重要技术，所谓手势识别技术是通过在车辆车顶或者中控台等不同位置安装3D 传感器，通过传感器识别驾驶员手势，具有控制车辆导航、信息娱乐等作用[1]。车载多媒体经历了机械按键控制、旋转控制、触摸屏触控，如今已经实现了语音控制、手势控制。手势识别技术是手势控制的基础，也是新时代对车载多媒体提出的新要求，目前宝马、君马等相关车型上已经拥有了手势识别技术，对用户而言，手势识别可显示出汽车的“高大上”，也是车载多媒体未来重要发展方向。鉴于手势识别技术在车载多媒体中的应用尚处于探索阶段，目前存在一定的不足之处。本文将对车载多媒体系统中的手势识别应用技术予以分析，旨在为车载多媒体系统中手势识别技术的应用提供参考。

1 车载多媒体技术

早期用户购买汽车后车辆内仅能收听广播，而随着车载多媒体技术的不断发展，通过车载多媒体除了可以收听广播，还能够用于听音乐、观看MV、接听或者拨打电话、提供导航服务等等。尤其是在21世纪初期，高分辨率“彩屏”在高端车型中得到应用，通过增加不同按钮实现相关多媒体功能；触摸屏技术的发展使得触摸屏代替了早期的“彩屏”，用户可直接通过触摸实现对车载多媒体的相关操作。车载多媒体系统的发展使得车辆功能更加丰富多样。比如英菲蒂尼、雅阁等轿车采用了双屏幕设计，增加车辆本身的科技感，随着技术的更新换代，触摸屏的灵敏度在不断提高，用户体验感更好。

移动互联网技术、云服务等技术的发展与应用，人与车辆之间的交互更加便捷，车辆中融入了更多的智能化设备，如语音识别技术在车载多媒体中的应用，用户可直接通过语言或者方言等说出指令，如“去最近的公园”、“搜索附近的酒店”等，便捷了用户，凸显出现代汽车的人性化。当然语音识别技术的准确率并不能达到10.00%，如声音大小、环境中的噪音等。手势识别技术是基于现代计算机视觉处理技术，其体现出的科技感更强，对用户的吸引力更大，同时也符合未来车载多媒体技术发展方向[2]。

2 手势识别技术在车载多媒体中的应用

目前部分车企已经看到手势识别技术在车载多媒体方面的应用价值，相关机构已经从不同角度开展手势识别技术的应用。手势分割、手势特征提取、静态手势识别、动态手势识别均是手势识别技术的主要组成，通过不同技术的综合，发挥手势识别与控制作用。

宝马7 系上有手势识别技术的应用，具体为第六代iDrive，该系统通过预设多种手势，用户根据不同预设手势作出相应的手势可以实现手势识别、手势控制。识别技术的实现依赖于中控台上方的3D 传感区，这一区域主要用来检测用户做出的手势。如暂停或播放音乐可作出双指不动向前指的手势，接听电话或确认时可采取单指前后移动的手势；想要增大音量或放大地图可作出单指顺时针画圈的手势。不同手势更好的实现车辆多媒体操控。2021年量产的BME iNEXT 车型上运用的BMW 交互系统同时涵盖了语音识别技术、手势识别技术、眼神识别技术等，这些技术的综合应用提升了车载多媒体系统的智能化，不仅反应速度更快，而且能够应对更加复杂的环境[3]。

君宝SEEK5 汽车中也有手势识别技术的应用，该车辆在中控台出风口位置下方设置识别与感应区域，用户在该区域内做出相关手势，可通过手势实现手势识别与手势控制。整个手势识别区域识别距离在15-35cm，包含了7 种手势控制命令，比如增加多媒体音量可作出手心上抬的动作，反之手心向下压则为减少多媒体音量；播放或者暂停音乐，此时可通过“V”字手势向前指。依靠多种手势实现对车载多媒体的控制。

拜腾汽车中也有手势识别技术的应用，其采用的是“三维手势控制”，车载多媒体系统中包括语言识别、触摸识别与手势识别控制，采取三种人车交互方式，用户可结合自身实际情况合理选择。手势控制技术中采取78 寸大屏幕，头顶有摄像头用于对手势的识别。整个车载多媒体系统中包括6 个识别手势，如确定时采取单手指点击手势，调节音量时可采取单手指移动，实现对音量的放大或者减小。

上述车载多媒体手势识别技术的应用证实了该技术的实际应用可行性，随着车辆更新换代，越来越多的车辆会加入多媒体手势识别技术，体现出现代汽车的科技感与时尚感。

3 车载多媒体手势设计问题

车载多媒体在手势设计过程中，可以采取静态手势，也可以采取动态手势，当然动态手势更加符合用户的心理需求，因为动态手势兼具趣味性、智能化以及人性化。用户与车载多媒体在手势识别与交互过程中，需要确定出识别范围，识别范围内需要建立不同手势动作与控制指令的映射关系，这样才能够保证手势识别的准确性。根据上面对宝马、君宝、拜腾手势识别应用分析，其所对应的手势均不超过10 种。当然手势设计需要考虑方方面面的问题，主要包括以下几点：

（1）手势的通用性，即所设计的手势需要考虑实际生活，同时还需要符合大众的生活习惯、认知规律。就如同“剪刀手”拍照一样，提到拍照，好多人会想到做出个“剪刀手”的手势。同样的在汽车手势设计中也需要符合绝大多数用户的习惯，如果手势设计的与绝大多数人认知等存在不同，自然会影响用户的使用体验，而且还可能需要花费一定的时间专门学习手势[4]；

（2）多媒体因为涉及到较多内容，比如听音乐需要调节音量、开导航也需要调节音量、停车休息观看MV 或者使用电话等期间都需要调节音量，此时设置的手势需要能够同时实现对多媒体车载系统不同功能部分的识别与控制。系统能够结合多媒体所处状态有效识别，此外，部分不同功能也可选择相同的手势，根据具体使用场景不同智能识别。如多媒体工作情况下，上下滑动手势可用于调节音量，而没有多媒体工作时则可作为菜单上下部分的翻页操作，毕竟手势越多，用户需要记住的手势越多，对用户而言增加了难度；

（3）手势设计中可选择容差性较强的手势，这样可模糊进行大范围的手势识别，能够快速做出反应，过于精细化的手势会影响用户在驾驶中的注意力，不利于安全驾驶，与标准的手势相比，模糊手势更具优势。图1所示为可参照的手势使用范例；

图1：手势使用范例

（4）手势识别技术设计与使用的经济性，手势识别技术应用与设计可增加汽车的使用感受，但是如果设计中应用技术较多，成本较大，则无形中会增加用户的购车费用，当车载多媒体手术识别技术增加成本超过用户心理期望值，此时可能用户会选择放弃拥有手势识别技术的车辆。

4 手势识别技术分析

手势识别在车载多媒体应用中对手势识别技术有较大的依赖性，面对复杂的环境，手势识别技术需要对静脉手势、动态手势、静态与动态同时存在的手势予以识别。部分手势还存在连贯性，这些都增加了手势识别的难度。对手势的识别需要借助感测设备，比如摄像头、仪器手套、磁场跟踪器等。

手势识别技术也经过了技术的更新与发展，手术识别技术中需要传感器，传感器应考虑到识别精度、延迟、识别分辨率、手势识别范围、用户手势舒适度、技术成本等。早期可通过机器设备直接对手进行识别，根据人手的位置信息变动与信息分析，能够识别简单的手势，其中以数据手套为代表。以数据手套为基础的手势识别，其在应用中要求驾驶员有对应的设备，并佩戴在身上，也需要有连接的电源线等，这种手势识别技术显然不符合车载多媒体的手势识别要求，如果驾驶员佩戴相关设备，会影响安全驾驶[5]。

视觉手势识别技术虽然不需要佩戴相关设备，但是车辆在行驶中周边环境处于变化中，背景是处于变化中，而且存在遮挡的可能。视觉识别技术也包含了不同方案，比如识别区域内的相机数量与位置，不同相机的识别速度与延迟情况；考虑车辆在不同光照条件或者移动速度情况下对手势的识别；2D 或者3D 都是需要考虑的内容，低级特征方面如识别的边缘、识别区域、不同手势的轮廓等；使用的是2D 表示还是3D 表示；跟踪器能够对手势中不断变化的情况加以识别，环境中的噪音干扰等。

视觉技术早期为黑白，后期已经逐步发展为彩色，同时实现了从模拟信号到数字信号的转变，图像也从静态识别发展到动态识别，视频技术也从平面2D 向立体3D 发展，2D 视频技术发展相对成熟，而3D 视觉技术仍然处于不断研究中。3D 结构光摄像头在iPhone手机中的应用推动了3D 视觉技术的发展，3D 感知相关的硬件设备逐渐得到应用，比如3D 物体识别、3D 人脸重建与识别、3D 虚拟世界重建等，这些都为人机交互在不同领域的使用奠定了基础。目前结构光、RGB 双目成像、TOF 等3D 感知技术应用较多。

从不同视觉技术的测距范围、测距精度、硬件成本、算法开发难度、分辨率、功耗、测距逻辑等方面比较，结构光在车载多媒体手势识别技术应用方面有较多优势，具有成本低、精度高、开发难度低等优势。结构光系统组成包括投影仪和摄像头，投影仪可在物体表面、物体背后投射特定的光信息，摄像头负责采集信息。物体变化会影响光信号的变化，摄像头采集的光信号也会发生变化，进而了解物体的立体位置，结构光是主动测距传感器，上万个散斑形成激光光源，因而对环境的光照没有依赖性，不过强光照会影响信息采集，一定遮挡条件下的室内应用更有优势，这也符合汽车车载多媒体手势识别的日常使用环境，当然基线大小会影响识别的精度以及量程。

手势识别设计以及手势识别技术选择仅仅只是手势识别在车载多媒体系统中应用的一个方面，系统前端、系统中端、终端的联合才能够最终应用到车载多媒体中。