视频场景中人体行为语义计算关键技术综述
2018-03-29邱楷洋李敏
邱楷洋 李敏
[摘要]视频场景中运动人体行为语義计算是一个多学科交叉的研究课题,具有广泛的应用前景。其关键技术包括:场景语义提取和场景分类,场景空间关系以及运动人体行为的自然语言描述与推理。论文对这三个关键技术近10年的主要研究成果进行了分别介绍,在对这些方法的优缺点总结的基础上,预测了这三种关键技术的发展方向。
[关键词]行为语义计算 场景语义提取 自然语言描述方法 场景空间关系描述
一、引言
视觉是人类最重要的感觉器官,视觉信息是人类最主要的信息来源。机器视觉是一种典型的仿生学,是人工智能的主要研究内容,有着重要的研究价值。而基于机器视觉信息对运动人体的行为识别和理解,是一个多学科交叉,并充满挑战的科学领域。该领域的典型的应用有:智能机器人、智能监控、人机交互技术、运动分析、虚拟现实技术等。运动人体行为识别研究主要分为三个层次:底层研究,中层研究和高层研究。底层是指信息采集、关键帧提取以及信号去噪等环节;中层是指运动人体检测与跟踪、行为识别与理解、异常行为判定与处理、运动轨迹分析、手势识别与理解等。高层研究则是指对运动人体的行为进行建模,根据场景敏感度对人体行为进行语义描述与推理。对于底层研究和中层研究,相关的技术已经发展了数十年,各类研究成果已经相当丰富,典型的技术手段有:模版匹配法和状态空间法,与之相关的各种文章也出现了很多。人类的自然语言产生和文字的出现是人类文明发展的里程碑式的标志。自然语言记录了人类的文明成果,实现了人类文明成果的交流和分享。运动人体行为识别的高层次研究就是研究如何实现运动人体行为的自然语言描述和计算推理及语义计算。
语义是概念与其在概念中的表达关系以及不同概念在时间,空间及因果上的联系。计算是指寻找语义的方法。此项技术是在底层研究和中层研究的基础上发展起来的,是近几年才兴起的,已经越来越受到各国研究机构和学者的关注。运动人体行为语义计算技术目前已经有了一个相对明确的技术框架,如图1所示。
由图1可以按看出,运动人体行为语义计算涉及场景的语义,场景空间位置关系,运动人体本身语义三个方面的技术。本文将关注运动人体行为语义识别研究,从运动人体的场景分类识别,空间位置关系描述,运动人体行为语义识别三个方面进行归纳和总结,分类介绍现有的科研成果,并对该领域研究将来的发展方向进行展望。
二、场景语义提取与场景分类
场景信息直接影响着运动人体的行为,并且相同的行为在不同的场景会有不同的理解。所以场景的情景语义和场景识别是运动人体行为语义识别的关键技术之一。对于场景的识别,目前有两大主流技术:①基于数学模型的方法;②基于语义模型的方法,文章将分别介绍这两种方法的发展现状。
(一)基于数学模型的场景识别
这类方法都是采用了人工智能领域的典型数学成果,包括(隐马尔科夫)ttMM,神经网络,贝叶斯网(BN)等。何彦斌等人提出了一种基于HMM模型的场景识别方法,指定相关情境信息,以隐含场景集和观察情境集作为参数,利用HMM对隐含场景关系进行建模而设计了相应的算法。一种基于部分连接神经网络的场景识别方法被提出来。该方法不依赖图像特征值的选取和图像特征数目的精简,将每个像素都作为神经网络的输入。还有学者将贝叶斯网和HMM结合起来实现对上下文场景的识别。支持向量机(supportvector machine)SVM是近些年发展很活跃的一种分类方法,LuMing Zhang在其论文中重点考虑了场景的几何特性、空间特性(拓扑、方位等),采用了SVM实现了空间图像场景的分类。在一些特定的应用中,室内场景的识别也显得很有价值。比如在看护机器人的应用中,有学者用室内的普通物体作为中间描述向量,并用这些向量生成统计空间模型,实现了室内场景的分类和识别。无论是HMM,SVM,BN还是其他数学统计模型都是在特定的使用条件下有着优异的表现,但这些模型离识别系统的可持续性和普适性还有一定距离。