基于视频文字识别的跑步成绩自动测量系统研究*
2018-12-06朱桂斌钟刘翔
朱桂斌,钟刘翔
基于视频文字识别的跑步成绩自动测量系统研究*
朱桂斌,钟刘翔
(陆军工程大学通信士官学校,重庆 400035)
目前,对于体育考核中跑步成绩的测量仍采用人工计时的方法,其结果不够客观、准确。针对这些问题,以机器视觉分析技术为核心,通过采集现场的视频,实时识别参考人员的号牌,自动记录参考人员的圈数、用时和最终成绩,以提高考核手段的科学性和客观性。
自然场景;文字检测;文字识别;背景检测
随着配备数码相机的移动电话终端的广泛使用,视频和图像的采集更加方便。目前,网络上有大量的视频素材都是用消费级终端在没有严格光照、拍摄角度等条件拍摄的。这些视频中的文字为后续的视频分析和数据挖掘提供了可靠的信息来源。从自然场景中提取并识别文字在行人再识别、盲人辅助系统以及视频字幕提取等领域应用广泛,成为计算机视觉领域的一个研究热点[1-8]。
在体育比赛或体能考核中经常需要对人员进行自动识别,这是一个典型的行人再识别问题[1]。对运动员进行识别有2种方法,即人脸识别或号码识别。在拍摄场地,通常人员较多,采用人脸识别需要检测和跟踪识别的对象较多,对运算能力的要求较高。号码识别相对人脸识别运算复杂度较低,便于在低成本的终端上实现。以此为基础实现的运动成绩自动测量系统相对于人脸识别来说精度更高。
基于传统OCR技术的文字检测与识别效果已基本满足要求,但是自然场景文字检测与识别仍然有许多问题,特别是对运动目标的文字识别尤其突出。主要原因有:①自然场景中通常含有许多干扰图案,比如树干、栅栏和标志等;②自然场景图像中文字的大小、方向、颜色各不相同;③拍摄的图像会因运动员的快速运动或聚焦位置固定而变模糊,尤其是在拍摄分辨率较低时更加严重;④人员跑动时身体姿势和方向的变化甚至手臂的遮挡,将导致号码区域的正确检测和识别困难[1]。
自然场景文字识别包含2个过程,即文字检测和文字识别。文字检测的作用是从图像中检测文字的存在与否,并确定文字区域的边框。文字识别可完成图像信息到文字信息的映射。文本检测和文本定位从本质上来说都属于有监督的分类问题,区别在于类别的数量不同。分类问题通常由2个步骤组成,即特征提取和识别。常用特征包括边缘特征、笔画特征、结构特征等,特征通常由人工设计。常用的分类器包括随机森林、SVM和ANN等。近年来,随着深度学习技术的发展,有许多基于深度网络的研究工作获得了较大的进步[6,8]。基于深度网络的文本定位和识别技术通过对样本的学习,自动完成特征的提取和识别工作,性能较好。尤其是近年来由统一的深度网络框架完成定位和识别2个任务,性能得到进一步提高。
传统的人工特征提取方法计算量一般较小,但性能有待提高;基于深度网络的文本识别技术性能较好,但计算量较大,一般不容易在便携式终端上实现。本文研究的内容结合了两者的优点,传统的方法完成文本的粗定位,保证系统有高的召回率(Recall);用CNN实现定位后文本的识别,确保系统有较高的准确率(Precision)。
1 系统方案
本文研究内容总体方案包含文本区域检测和号码识别两大部分,各部分又各自包括3个模块。
1.1 文本区域检测
文本检测方案包括的文本区域定位、SVM训练和文本区域定位判断3个部分,具体内容如图1所示。
文字区域定位的主要作用是尽可能可靠地检测出文字所在的区域。该系统设计有2个功能:①在构造训练数据集时,可以辅助人工实现文字区域的预选;②在实际检测时可以为后续的识别模块提供处理对象。
通过文字区域定位可以获得大量图像块,对这些图像块进行人工判别与标注,可以作为训练集的一部分。用这些训练集中的数据对SVM模型进行训练,可以得到SVM模型。本文研究内容经过实际调试后,选用高斯核函数的SVM。对于实际的文本检测任务,用变尺度的滑动窗口遍历所有可能的位置,并对窗口内图像经特征提取后送入训练好的SVM模型判断,得到大部分可能是文字区域的图像块。为了确保系统有较高的召回率,检测的图像块中可能包含非文字区域,该部分区域通过后续的文字识别模块识别并剔除。
1.2 文字识别
文字识别部分包括字符分割、ANN训练和字符识别3个部分,具体如图2所示。
图2 号码识别方案
在文字识别过程中,首先对文字区域检测获得的图像块进行二值化,分割出文字前景和背景部分,然后经过方向投影极值检测的方法获得只包含1个字符的图像块,对这些图像块进行人工判别与标注,可作为训练集的一部分。用这些训练数据对深度神经网络进行训练,可以得到用于文字识别的DNN模型。在最终的文字识别中,可以将得到的字符图像块输入训练好的DNN,就可以得到每个图像中的具体字符,如图2中输出了的“33”。以上是本文研究的整体方案,在实现过程中还有许多具体方法,以下介绍其中的关键技术。
2 系统关键技术
2.1 视频超分辨技术
实际拍摄的图像有时会因运动员的快速运动或聚焦位置固定而变模糊,尤其是在拍摄分辨率较低时情况更严重。另外,运动员跑动时身体姿势和方向的变化甚至手臂的遮挡都会对拍摄图像质量造成很大的影响。为提高后续文本区域检测和识别的准确率,必须对视频图像进行预处理,提高视频图像的质量。本文采用文献[10]的方法改善拍摄视频质量。
2.2 背景检测和文字分割
由于现场有许多干扰图像,比如标语、彩旗等常含有文字,为了提高运动员号码牌识别的准确性,必须将这些包含干扰文字的区域滤除。本文采用结合运动估计的模糊最大类间方差的图像分割算法[11]分割前景和背景,过滤干扰区域。同时,采用此方法对文字的前景和背景进行分割,以供后续的识别任务。
2.3 系统实时性
系统实时性问题的解决可从3个方面实现:①用文献[12]的方法对视频中已经识别的号码进行跟踪,对新出现的号码进行识别,降低了系统的计算复杂度;②对SVM和ANN的网络结构进行优化,减少其中冗余的层次和节点;③具体实现上,尽可能利用多核CPU的并行能力,利用多线程技术,实现流水线操作。
2.4 模型训练
复杂背景下的文s本检测和文字识别技术是本文研究的主要内容,其核心内容是SVM模型和ANN模型的结构以及训练。目前,深度神经网络进展迅速,其典型的网络结构和预先训练模型均已开源。本文模型训练时在此基础上,利用迁移学习方法进一步对网络结构和参数进行调优。
网络训练的另一大问题就是数据集。本文的训练数据集一部分来自于本校体能训练和考核的现场录像;另一部分来自于各类运动竞赛视频,可以满足模型的训练要求。测试数据集全部来自于本校体能考核视频。
3 结束语
本文提出了利用机器视觉和深度学习的技术实现跑步成绩自动测量系统。系统利用运动信息进行图像融合,实现号码图像的增强与重构,提高了图像的分辨率、号码分割效果、识别率。通过SVM实现复杂背景下文本区域检测,利用深度网络实现变形字符识别,并实现了在低运算能力终端上的实时识别。
本项目的硬件成本较低,目前,全国中小学的体能考核甚至运动会还没有采用这一方案实现成绩的自动测量。全国中学有60 000多所,普通高校有2 000多所,而体能考核的自动化是一个大的趋势,本项目有广阔的市场和较高的推广价值。
[1]赵丽科,郑顺义,马浩,等.田径运动员号码牌图像的号码识别[J].华东师范大学学报(自然科学版),2017(03):64-77,86.
[2]哈恩楠,吉立新,高超.基于对象建议算法的自然场景文本检测[J].计算机应用研究,2018(02):624-627,636.
[3]唐有宝,卜巍,邬向前.多层次MSER自然场景文本检测[J].浙江大学学报(工学版),2016(06):1134-1140.
[4]易尧华,申春辉,刘菊华,等.结合MSCRs与MSERs的自然场景文本检测[J].中国图象图形学报,2017(02):154-160.
[5]王梦迪,张友梅,常发亮.基于边缘检测和特征融合的自然场景文本定位[J].计算机科学,2017(09):300-303,314.
[6]Xinyu. Zhou,Cong Yao,He Wen,et al.“EAST:An Efficient and Accurate Scene Text Detector”[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Honolulu,Hawaii,USA,2017:2642-2651.
[7]S. Lee,C. Koch,J. Lee,et al. Yuille,“AdaBoost for Text Detection in Natural Scene”[C]//2011 International Conference on Document Analysis and Recognition(ICDAR),Beijing,China,2011:429-434.
[8]王林,张晓锋.卷积深度置信网络的场景文本检测[J].计算机系统应用,2018(06):231-235.
[9]张日升,朱桂斌,张燕琴.基于卷积神经网络的卫星遥感图像区域识别[J].信息技术,2017(11):83-86.
[10]戚曹,朱桂斌,阳溢,等.基于局部自相似性的视频图像超分辨率算法[J].重庆邮电大学学报(自然科学版),2015,(05):692-699.
[11]曾伟,袁宝峰,朱桂斌.基于模糊最大类间方差的图像分割算法[J].实验科学与技术,2008(06):22-24,31.
[12]曾伟,朱桂斌,李瑶.基于Kalman点匹配估计的运动目标跟踪[J].计算机应用,2009(06):1677-1682.
TH744.5
A
10.15913/j.cnki.kjycx.2018.22.045
2095-6835(2018)22-0045-03
本文获陆军工程大学通信士官学校科研项目(编号:TZ-CQTY-Y-C-2017-035),重庆市社会事业与民生保障科技创新专项(cstc2017shmsA00003)资助
朱桂斌(1972—),男,河北涿鹿人,教授,2004年毕业于重庆大学(博士),主要从事图像分析和识别方面的研究。
〔编辑:张思楠〕