数控装备虚拟维修的多模态人机交互机制研究现状分析*

2015-01-27梁若愚

组合机床与自动化加工技术 2015年11期

关键词：模态装备人体

赵　楠，梁若愚

(1.天津职业技术师范大学机械工程学院，天津　300222；2.天津大学机械工程学院，天津　300000)

数控装备虚拟维修的多模态人机交互机制研究现状分析*

赵楠1，梁若愚2

(1.天津职业技术师范大学机械工程学院，天津300222；2.天津大学机械工程学院，天津300000)

文章讨论了维修过程、知识推送以及维修成本、维修环境等方面分析装备维修存在的瓶颈问题，针对高档数控装备虚拟维修过程中的人机交互技术发展及应用状况进行综述与分析，最后提出多模态交互模型、维修动作分解以及维修知识推送等装备虚拟维修多模态人机交互机制中亟待解决的关键问题与发展方向。

数控装备；虚拟维修；多模态人机交互

0　引言

高档数控装备是一类结构复杂，集成度高，技术密集的大型复杂基础制造装备，引领高新技术的发展，处于价值链高端和产业链的关键环节。现今高档数控装备的发展呈现出高速、高精度、高效率、高可靠性和集成化、智能化的趋势，装备设计制造的多领域耦合集成日益深化，大量嵌入式系统、智能元器件等制造物联技术以及高速高精结构部件的应用一方面逐步提高了装备状态在线监测和自主诊断能力以及加工环境的自适应性；另一方面伴随装备高端化发展，其复杂性日益提升：光机电液系统的融合、零部件数量的攀升、海量信息的采集处理以及新技术、新材料、新工艺的大量投入，装备的复杂化使得使用过程得到极大的简化，另一方面导致高档数控装备的设计制造乃至维修阶段的难度和复杂性大幅提升。

1　数控装备维修的瓶颈问题

目前，我国数控装备使用率已高达60%，高档数控装备拥有量占世界总量的近30%。从产品可靠性、精度保持性等角度看，大批数控装备进入浴盆曲线后期，停机维修的时间比例增高，对数控设备的维修需求量持续增大。根据文献[1]对苏州地区数控机床调试与维修人员需求的调研，当前专业的数控维修技师缺口巨大，无法满足企业的需求。由于高端数控装备的复杂性，其保养维护和维修过程对人员素质和工具设备的要求都较高。维修操作的完成本身要依赖维修人员与装备之间视觉、听觉、触觉等多模态交互，对大脑产生极大的认知负荷。目前，纸质或电子手册是高端数控装备的主要辅助维修及培训工具，但这种方式效率低下，且由于维修人员需要不断切换关注对象而导致注意力分散，易发生操作失误，并产生疲劳。高档数控装备的维修的过程是一个人机密切交互的过程，因此维修人员的专业能力素质与工作状态直接决定了维修护作业能否顺利进行。据统计，有超过50%的机械装备在维修之后过早失效，造成这种现象的主要原因就是维修方式不当[2]。当前高档数控装备维修操作面临的困难，主要是以下几方面：

(1)维修过程方面：高档数控设备的维修过程繁杂。在故障自主诊断的基础上，维修人员需要快速定位到故障源，在复杂的逻辑判别和多种工具的辅助的基础上，通过观察、换件、修复、清洗等一系列复杂操作完成维修动作，最终通过设备状态检测验证维修的有效性。按照故障类型，数控装备的故障又可分为机械故障和电气控制故障，机械故障又可分为传动故障、运动干涉、零部件损坏等。要准确地确定故障源，制定维修方案并完成维修工作所耗费的时间和精力都非常大。

(2)维修知识方面：故障判别及维修工作的展开很大程度上要依赖于维修人员的经验，当前用于指导维修操作的手册和辅助工具尚不健全，只能用于常见问题的解决。使得维修工作对专业人员依赖大，维修周期长，缺少统一规范，可靠性难以保障。如何将维修人员在工作中形成的隐形知识转化成可重用的显性知识，建立产品维修知识库，有效地提高维修的效率，提升维修工作的标准化程度是亟需解决的问题。

(3)维修环境方面：高档数控装备的维修工作由于工况复杂、涉及的工具种类繁多，需要较为完备的专业化维修环境。而当前的现状是维修人员严重不足且能力参差不齐，培养高水平的专业人员时间长、成本高，辅助维修工具少，造成高档数控设备的可用率不高，产生大量资源和资金浪费。

(4)维修成本方面：我国高档数控装备超过90%都是从国外进口，而国产化的机床核心部件也依赖于进口，维修时往往要从国外购置配件或派遣维修人员。维修成本极其高，周期长，对购买者来说是一笔不小的负担。

高档数控装备维修的复杂性和当前维修能力不足的现状催生了对维修操作行为辅助诱导技术的强烈需求。以高档数控机床为研究对象，针对维修过程的复杂性，系统研究虚拟维修过程中的人机交互机制与维修操作行为诱导技术具有极强的现实意义。通过对多模态人机交互技术的总结和研究，构建多模态人机交互理论模型，利用工效学实验完善理论模型并将其拓展到维修诱导情境当中。基于增强现实技术，构建用于高档数控机床维修操作诱导的交互系统。在维修诱导系统的辅助下，一般水平的维修人员即可完成高档数控装备的维修工作，提高维修效率，降低成本。

2　装备虚拟维修技术研究现状分析

近年来，为提高装备虚拟维修的技术水平，国内外学者围绕动作行为识别、多模态人机交互、增强现实技术进行了较多的研究，主要成果如下。

2.1人体动作行为识别技术研究

人体行为识别是虚拟维修中要解决的关键技术，其中涉及传感器技术、图像处理、模式识别和人工智能等多个学科。人体行为识别依据应用场景不同研究重点也不同，内容丰富，既有动作识别、表情分析等局部特征的提取，也有针对完整个体行为进行的识别，以及群体间的交互行为识别等。通常依据数据采集方式将人体行为识别分为基于视觉的方式和基于非视觉的方式。基于非视觉的方式是将传感器放置在人体上[3]或者人的活动范围内[4]，以捕捉人体运动参数，这种方式能够精确地获得运动参数，却往往给使用者造成不便。而基于视觉的方式能够捕捉到更为丰富的行为信息，是目前进行人体行为识别研究的主流方法。

虽然人体行为分析方式多样，但基本原理大致相近，且在行为识别方法的设计上相互之间也具有可借鉴性。人体行为识别包括行为表示方法和行为分析算法。

(1)行为表示方法研究

行为表示是对原始数据进行加工处理以获得行为描述特征量的过程。早期的行为理解研究中通常采用佩戴式传感器[5-6]，该方法可以获取头部、四肢或者躯干等身体部位的运动信息如旋转角、空间运动轨迹等，可见基于佩戴式传感器的研究方式重在恢复人体的三维运动信息。

目前对基于视觉的人体行为表示方法研究较为深入，归纳起来主要是采用人体形状特征的行为表示方法、采用三维信息的行为表示方法和依据运动特征的行为表示方法等。利用人体形状特征的行为表示方法构造简单且易于实现，常用的模型主要包括棍棒模型、椭圆模型等[7]。Park等人[8]在进行驾驶员行为分析研究中采用椭圆结构模型表示人体头部、躯干和四肢。Alexei[9]用13个特征点来表示人体结构,通过分析特征点的运动轨迹进行人体动作识别。人体轮廓等外观特征也可以用来进行动作描述，Liu等人[10]使用人体头部、上肢和下肢等身体主要部位的比例关系来表示人体姿态；Liu等人[11]通过计算目标像素距离投影的高斯分布来描述坐、站和躺下等基本动作；Wang等人[12]对人体区域进行R变换以研究办公室环境下的人体异常行为。利用三维视觉技术表示人体行为虽然具有视角不变性，但是其计算量较大且对系统性能要求较高，故并不常用。基于运动特征的行为表示是目前较为常用的方法，如Zhu等人[13]采用光流法研究网球运动中的击球动作，此外利用时空特征点表示行为也是一种常用的方法。

(2)行为识别算法研究

行为识别算法研究属于模式识别和人工智能的范畴。根据算法特点可以分为模板匹配法和状态空间法。模板匹配法是指将提取的行为表示特征序列与参考模板进行逐一匹配，依据匹配的相似度判别行为。最经典的是Bobick与Davis[14]过计算运动能量图像 MEX(Motion Energy Images)和运动历史图像 MHI (Motion History Images)分析人体行为，以及Veeraraghavan等人[15]使用动态时间规整算法(Dynamic Time Warping, DTW)匹配动作序列。模板匹配方法的优点是无需大量的样本，计算量小，但是对行为持续时间和噪声敏感性高。

与模板匹配法不同，状态空间法将每种静态姿势都视为状态空间中的一个节点，节点之间依据概率关联起来，运动序列则可以看作是不同节点间的一次遍历过程[16]。目前状态空间法己经广泛应用于运动序列的检测和分析中，常用的方法有隐马尔科夫模型(HMM)、动态贝叶斯网络(DBN)、神经网络等。如Zhang等人使用两层HMM模型研究会议过程中个体间的交互行为[17]，Luo采用动态贝叶斯网络进行人体行为识别研究并与HMM方法进行了比较[18], Buccolieri通过祌经网络分析人体轮廓特征来识别姿态[19]。状态空间法虽然克服了模板匹配的不足,但是往往需要大量的迭代运算,因此应根据实际情况选择合适的研究方法。

2.2多模态人机交互研究

多模态交互是指基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术，允许用户利用自身的内在感觉和认知技能，使用多个交互通道，以并行、非精确方式与计算机系统进行交互，旨在提高人机交互的自然性和高效性。

Richard Bolt的“Put That There”系统是公认第一个展示了多模态交互的价值和机会的系统[20]。在此之后出现了许多多模态人机交互系统，但早期的系统普遍都追求将各方面的语音和动作集成到某一应用领域，主要集中在空间任务和基于地图的应用方面[21]。上世纪90年代末期，逐渐发展出了新的交互形式如触觉和后来的移动计算环境。这时期多模态人机交互关注的焦点是替代计算环境[22]。感知用户界面(Perceptual user interfaces，PUIs)在这一时期发展出来，将感知能力集成到了人机交互界面。

相比于单模态的交互方法，多模态交互具备更好的灵活性和可靠性，在使用模式和参数上能更好地迎合不同使用者的需求。概括起来，多模态人机交互的优势主要有以下几方面[23]：允许灵活的输入模式；支持提高效率；支持简短的语言表达方式；支持高精度的空间信息；提供增强的容错技术；能够适应连续变换的环境等。

当前多模态交互技术的研究热点是输入信息的识别，聚焦在如何正确地识别出语音、姿势、触感等信息并做出相应的反应。智能设备的发展和应用加速了多模态交互技术的发展，Microsoft Kinect 和Leap Motion Controller就是其中的典型代表，多模态人机交互技术正越来越成熟。

2.3增强现实技术交互与应用研究

增强现实(Augmented Reality，AR)[24]是在虚拟现实(Virtual Reality，VR)技术的基础上发展起来的新技术，是一种虚实融合和混合现实(Mixed Reality，简称MR)的技术。在虚拟现实中用户只能看到虚拟世界，而在增强现实中，用户不仅可以看到真实世界，还可以看到叠加或组合在真实世界中的虚拟物体[25]。增强现实技术可分为基于标识(Marker-based)和基于自然场景(Marker less-based)两种[26]。前者多为早期的增强现实系统所采用，且多用在户内。后者通过识别场景中的一些自然特征(如局部特征点)来得到摄像机方位。

随着研究的深入，增强现实技术在各领域的应用越来越多，在维修作业中也得到了实践。Rose[27]开发的汽车引擎标注系统可以标注零件的名称并解释其功能，它用简单的 3D 模型进行驱动，当标记笔指向某个视场内可见零件时，关于该零件的注解则自动叠加到用户视野中；同期加州大学开发了用于建筑行业的增强现实系统，当用户佩戴上跟踪式 HMD 时即可用可视化的方式检查建筑的基本结构[28]；在航空维修和航空制造领域，AR 系统同样有着出色的表现。除波音公司率先将 AR 技术用于机舱布线外，2003 年德国Starmate系统[29]和稍后的Arvika[30]系统的研制成功，表明 AR 技术在复杂机电系统装配、维修中的应用潜力巨大。将 AR 用于项目培训同样吸引着研究者的目光，最著名的案例应该算Bodanger[31]所开发的修理通讯开关的维修培训系统，在该系统中，用户毫无分别地操纵真实或虚拟部件以练习如何维修集成电路板。相对于传统的培训方法，AR的优点在于它能够为所创建培训环境提供额外的信息，且不需要对原有的人机界面做大量的修改，甚至没有必要拥有昂贵的设备。

3　有待解决的关键问题

当前对于人体行为识别、多模态交互及增强现实技术的研究已经取得了较为丰富的成果，有一些系统已在各领域得到的应用，促进了虚拟维修技术的发展。但是，面向高档数控装备，实现基于虚拟维修的多模态维修诱导技术，还需要解决一些关键问题：

一是多模态信息的交互模型。对于人体动作的采集与识别，当前的主流方法是基于视觉信息进行图像识别而获取动作信息，但是在复杂的维修操作中，仅靠视觉信息难以分辨维修动作，需要采集视觉、语音、运动参数、触觉等多种信息并进行多模态交互。如何基于认知心理学理论构建视觉、听觉、触觉等多模态信息传递方式的最佳匹配模型，从而提高维修人员的操作和交互效率是需要进行深入研究的问题。

二是维修动作中的专用和通用动作分解。维修过程中某些动作是必须的而且要规范进行才能达到维修标准；而某些动作是通用的甚至是可省略的，其规范性对维修效果的影响不大。怎样依据多模态信息对专用动作和通用动作进行区分和动素分解优化，创建出一套维修动作标准是维修诱导技术必须要解决的问题之一。

三是维修知识推送与重用。如何依据维修情境下人机交互的多模态模型，选取效率最高且信息表达明确的传递组合方式将知识推送给维修人员，设计合理的信息显示方案和预警方案，让维修人员能够准确无误地执行操作也是未来本领域有待解决的关键问题。

面向高端数控装备的自然人机交互式维修诱导技术研究，以多模态人机交互理论(MMI)作为指导，对高档数控装备虚拟维修当中的人机交互机制与行为诱导技术进行系统研究。本研究领域涉及多模态信息传递的人机交互关系、用户隐性知识挖掘、动作的识别与采集、基于增强现实技术的信息推送、知识库的构建、维修方案的组织和演化等方面研究内容，主要采用动作识别、增强现实、多模态信息传递等技术作为支撑。研究成果最终将实现的维修诱导系统可直接应用于高档数控装备的维修与装配，也可以推广应用于汽车、工程机械等其他机电系统，具有较高的工程价值和应用前景。

[1] Dunn A S, 李晶晶. 对设备维修中人为失误的控制[J]. 中国设备工程, 2010(6): 65-67.

[2] 董晓岚. 苏州地区数控机床调试与维修人才需求调研分析[J]. 职业技术教育, 2011, 32(32): 57-60.

[3] Nasoz F, Alvarez K, Lisetti C L, et al. Emotion recognition from physiological signals using wireless sensors for presence technologies[J]. Cognition, Technology & Work, 2004, 6(1): 4-14.

[4] Hara K, Omori T, Ueno R. Detection of unusual human behavior in intelligent house[C]//Neural Networks for Signal Processing, 2002. Proceedings of the 2002 12th IEEE Workshop on. IEEE, 2002: 697-706.

[5] Ward J A, Lukowicz P, Troster G, et al. Activity recognition of assembly tasks using body-worn microphones and accelerometers[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2006, 28(10): 1553-1567.

[6] Yin J, Yang Q, Pan J J. Sensor-based abnormal human-activity detection[J]. Knowledge and Data Engineering, IEEE Transactions on, 2008, 20(8): 1082-1090.

[7] 韩旭. 应用 Kinect 的人体行为识别方法研究与系统设计[D].济南:山东大学, 2013.

[8] Park S, Trivedi M. Driver activity analysis for intelligent vehicles: issues and development framework[C]//Intelligent Vehicles Symposium, 2005. Proceedings. IEEE. IEEE, 2005: 644-649.

[9] Gritai A, Sheikh Y, Shah M. On the use of anthropometry in the invariant analysis of human actions[C]//Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on. IEEE, 2004, 2: 923-926.

[10] Li C C,Chen Y Y.Human posture recognition by simple rules[C]//Systems,Man and Cybernetics,2006.SMC'06.IEEE International Conference on.IEEE,2006,4:3237-3240.

[11] Liu C D, Chung P C, Chung Y N. Human home behavior interpretation from video streams[C]//Networking, Sensing and Control, 2004 IEEE International Conference on. IEEE, 2004, 1: 192-197.

[12] Wang Y, Huang K, Tan T. Abnormal activity recognition in office based on R transforms[C]//Image Processing, 2007. ICIP 2007. IEEE International Conference on. IEEE, 2007, 1: 341-344.

[13] Zhu G, Xu C, Huang Q, et al. Action recognition in broadcast tennis video[C]//Pattern Recognition, 2006. ICPR 2006. 18th International Conference on. IEEE, 2006, 1: 251-254.

[14] Bobick A, Davis J. Real-time recognition of activity using temporal templates[C]//Applications of Computer Vision, 1996. WACV’96. Proceedings 3rd IEEE Workshop on. IEEE, 1996: 39-42.

[15] Veeraraghavan A, Roy-Chowdhury A K, Chellappa R. Matching shape sequences in video with applications in human movement analysis [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2005, 27(12): 1896-1909.

[16] 李瑞峰, 王亮亮, 王珂. 人体动作行为识别研究综述[J]. 模式识别与人工智能, 2013, 27(1): 35-48.

[17] Zhang D, Gatica-Perez D, Bengio S, et al. Modeling individual and group actions in meetings with layered HMMs [J]. Multimedia, IEEE Transactions on, 2006, 8(3): 509-520.

[18] Luo Y, Wu T D, Hwang J N. Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks [J]. Computer Vision and Image Understanding, 2003, 92(2): 196-216.

[19] Buccolieri F, Distante C, Leone A. Human posture recognition using active contours and radial basis function neural network[C]//Advanced Video and Signal Based Surveillance, 2005. AVSS 2005. IEEE Conference on. IEEE, 2005: 213-218.

[20] Bolt R A. “Put-that-there”: Voice and gesture at the graphics interface [M]. ACM, 1980.

[21] Turk M. Multimodal interaction: A review [J]. Pattern Recognition Letters，2014，36 :189-195.

[22] Van Dam, A., 1997. Post-WIMP user interfaces[J]. Commun. ACM 40 (2), 63-67.

[23] Oviatt S, Cohen P. Perceptual user interfaces: multimodal interfaces that process what comes naturally [J]. Communications of the ACM, 2000, 43(3): 45-53.

[24] CHI research group and TIMC laboratory. Augmented Reality: Which Augmentation for Which Reality? [C]//ACM, 2000:165-166.

[25] 郑华斌. 基于增强现实的交互式应用系统[D]. 杭州:浙江大学, 2013.

[26] 陈靖, 王聪. 增强现实研究进展与核心技术 (上)[J]. 信息技术与标准化, 2012 (6): 35-37.

[27] Rose E, Breen D, Ahlers K H, et al. Annotating real-world objects using augmented reality[C]//Computer Graphics: Developments in Virtual Environments (Proceedings of CG International’95 Conference). 1995: 357-370.

[28] A Webster, S Feiner, B Maclntyre,et al. Augmented reality in Architectural Construction, Inspection and Renovation[C]. ASCE Third Congress on Computing in Civil Engineering, Anaheim, CA, 1996.

[29] Schwald B, De Laval B. An augmented reality system for training and assistance to maintenance in the industrial context[J]. Journal of WSCG, 2003, 11(1):53-62.

[30] Friedrich W, Jahn D, Schmidt L. ARVIKA-Augmented Reality for Development, Production and Service[C]//ISMAR. 2002, 2002: 3-4.

[31] Boulanger P. Application of augmented reality to industrial tele-training[C]//Computer and Robot Vision, 2004. Proceedings. First Canadian Conference on. IEEE, 2004: 320-328.

(编辑李秀敏)

Analysis of the Present Situation of Research on Multimodal Human-computer Interaction Mechanism of Virtual CNC Equipment Repairing

ZHAO Nan1，LIANG Ruo-yu2

(1.College of Mechanical Engineering, Tianjin University of Technology and Education, Tianjin 300222, China; 2.College of Mechanical Engineering, Tianjin University, Tianjin 300000, China)

This paperdiscussed the maintenance process, the knowledge push and the cost of maintenance, maintenance and other aspects of environmental bottleneck problems existing equipment maintenance,aimed at the high-end CNC equipment virtual repair process,the technology of human-computer interaction development and application make review and analysis,Finally proposes the key issues to be solved and the development direction of multimodal interaction model, maintenance action decomposition and maintenance knowledge push equipment virtual maintenance multimodal human-computer interaction mechanism.

CNC equipment; virtual maintenance; multimodal human-computer interaction

1001-2265(2015)11-0001-04DOI:10.13462/j.cnki.mmtamt.2015.11.001

2015-01-20；

2015-03-04

国家科技支撑计划课题滨海新区高端制造数字化集成技术攻关应用 (2012BAF02B05)

赵楠(1982—)，男，天津人，博士，天津职业技术师范大学讲师，研究方向为制造服务，知识工程，(E-mail)nanzhao1982@163.com。

TH166；TG502.7