足球赛事实时智能分析系统的研究
2020-01-20潘文宇邢青
潘文宇 邢青
摘要:精彩的足球赛事给大众文娱生活带来很多乐趣,针对直播赛事中无法实时识别出精彩的点球、任意球、球员个人信息等问题,本文利用深度学习视频识别处理技术,提出一种智能的赛事分析方案,探讨了足球直播赛事智能分析的可行性,研究了智能分析方案的具体技术实现。
关键词:智能视频分析技术;实时分析;足球比赛
随着人工智能技术的发展,基于深度学习的视频流分析模型在识别、监测领域得到了广泛应用。在体育赛事直播中,尤其是足球比赛中,观众一般只能通过足球解说人员获取球员的个人介绍,包括对球员的球技、球员的任意球、点球等进行分析解说,因此观众获得的仅仅是听觉信息。提高观众的现场体验感,将此类信息可视化是一个可行的方法。基于深度学习视频处理技术可以识别和播报赛事中发生的行为事件(比如点球、任意球等);识别场上的行为发生的球员,将球员的历史数据与比赛进行中的事件进行关联,智能化地对一场足球赛进行集锦剪辑等,做到关键信息的可视化、实时解说、实时展示。因此,本文提出一种足球赛事实时智能分析系统。
1 技术背景
首先,大数据是深度学習成功的重要路基。在如今的互联网时代,数据量的累积是爆炸式的,越来越多的领域正持续积累着日趋丰富的应用数据,这对深度学习的进一步发展和应用至关重要。不过大数据收集是有成本的,并且标注成本已经开始水涨船高,样本的好坏直接决定了模型的精确度,所以只有拥有一定技术实力的公司才能持续投入研究。在安防领域,像海康威视等有自主研发实力且在安防行业深耕多年的公司,运用大量真实视频监控场景的视频、图片数据作为训练样本库,数据量大且质量较好,通过超过百人团队的数据组,对视频图像打标签,积累了千万级别的样本数据,在使用这些数据量大且质量良好的样本不断训练下,对安防监控场景下的人、车、物进行模式识别的模型也会越来越精确。
其次,高性能硬件平台计算是引擎助力。深度学习模型需要大量的样本,这就避免不了大量的计算,而以前的硬件设备不足以训练出复杂的上百层的深度学习模型。2011年谷歌DeepMind用了1000台机器、16000个CPU处理的深度模型大概有10亿个神经元,而现在,只要用几个GPU,我们就可以完成同样的计算,并且迭代速度更快。因此,GPU、超级计算机、云计算等高性能硬件平台的迅猛发展让深度学习成为可能,强大的计算能力有助于深度学习算法快速实现验证,并积累更多经验进行模型修正,进一步提高模型精度。
2 总体设计
总体架构是以海量图像和视频、文本、音频等多源异构数据存储为基础,引入先进的人工智能技术,容器技术、分布式计算、高性能存储以及机器学习引擎为支撑,搭建的一套面向媒体行业的智能分析人工平台。其主要包括基础平台层、学习引擎层和业务应用层,如图所示:
总体架构图
其基础平台层包括分布式存储平台、分布式计算平台、容器编排系统、数据库系统、计算引擎系统、服务管理发放、日志系统;学习引擎层包括视频识别引擎、语音识别引擎;业务应用层包括球员识别、类型球识别、智能剪辑、信息可视化。
3 技术原理
3.1 基础平台层
(1)分布式存储[1]平台通过构建大规模弹性存储系统,保证可靠性、可用性和性能的前提下,达到业务的快速拓展。分布式存储通过缓存达到加速的目的,通过热点数据的识别达到性能的高性价比。分布式计算平台调度分布式系统的计算资源,包括普通的CPU和GPU资源。设定资源的算力能力和最优计算场景、调度优先级。比如推理时先选择GPU,当GPU资源不满足时选择CPU以达到最大利用率地使用计算资源。当任务计算节点出现故障时,发送任务到其他节点继续运算。
(2)容器编排系统支持多层安全防护、准入机制、多租户应用支撑、透明的服务注册、服务发现、内建负载均衡、强大的故障发现和自我修复机制、服务滚动升级和在线扩容、可扩展的资源自动调度机制、多粒度的资源配额管理能力。
(3)数据库系统满足元数据存储,知识存储,关系存储以及不同维度的搜索需要。
(4)计算引擎系统包括离线批处理平台和实时处理平台。离线批处理平台建立在公有云环境上,计算引擎采用Apache Spark 2.0,支持分布式弹性数据集的快速计算和缓存。在计算引擎基础上部署了Spark Job Server,最大化地利用了集群的计算资源,简化了任务提交方法,提升了任务提交响应,可通过Restful接口提交和管理离线批处理任务。平台定期对Spark Job Server和计算引擎进行心跳、任务数、任务运行情况的测量和监控,确保发生系统故障或系统过载时能及时处理。
(5)实时处理平台从数据管道实时订阅数据流,并进行分布式实时处理,采用的核心技术主要包括Apache Storm及Apache Spark Streaming。
(6)服务管理发放主要针对计算资源、存储资源进行管理。对于离线批处理平台、实时处理平台,需对计算资源进行集中整合,并且具备计算资源的按需伸缩能力。
(7)日志系统提供针对日志类数据的存储、检索与分析服务,用户无须开发就能快捷完成数据定制化分词、存储、检索、分析功能,帮助提升运维、运营效率,快速查找和定位问题,高效索引和搜索海量数据,建立海量索引处理能力。
3.2 学习引擎层
(1)原始的视频图像实际上是一种非结构化的数据,它不能直接被计算机读取和识别,为了让视频图像在足球赛事中更好地应用,使用视频识别引擎对视频图像进行结构化处理。将视频内容(人、物、活动目标)特征属性自动提取技术,对视频内容按照语义关系,采用目标分割、时序分析、对象识别、深度学习等处理手段,分析和识别目标信息,组织成可供计算机和人理解的文本信息的技术。主要包括以下内容:
①事件拆条:通过智能化技术将已播出的节目拆条成一条条独立的条目,然后用于丰富和完善新闻资讯节目数据的信息通道,提高节目内容的生产效率以及拆条后的视频质量。
②字幕提取:制定食品文件,对指定区域的字幕进行识别,识别出文字;支持中文、英文的字幕识别[3]。节目画面中往往已经有编辑好的标题,可以直接用于拆条后素材片段的标题。使用字幕识别技术,拆条系统只需要框选需要识别的标题画面,系统会自动将画面识别成标题文字,简单快捷。
③结构化标准:事件元数据管理[4],所属频道、节目、播出时间;按日期、时间段分段管理,某日期/时间内拆条事件;事件预览,时间视频、内容、文本、标题等匹配预览。
(2)语音识别引擎将音频文件识别成文字[4],以文本形式输出,支持声纹识别,并支持语音断点识别。语音识别模块通过对指定音频通道的音频基带信号进行解析,按照语音断句记录每个识别语句的起始时码、结束时码和识别的文本,识别结果会在物理素材的同目录下生成一个和物理素材同txt文档。拆条系统将此识别结果封装成字幕文件,并和素材的其他数据信息一同存入数据库的素材信息表中。
利用视频识别及语音识别服务,智能判定直播开始与结束。利用语音识别技术,识别不同人物语音,并据此对直播进行打点,实现快速拆条。
3.3 业务应用层
包括球员识别、类型球识别、智能剪辑、信息可视化。利用学习引擎层训练提取的模型参数,对输入的直播视频流进行目标监测、图像分割,获取的信息通过大数据技术构建可视化模型[5],直观地展示處理结果。
4 结语
通过三层架构的视频处理模型,对直播的足球比赛进行实时处理,以识别和播报赛事中发生的行为事件(比如点球、任意球等);识别场上的行为发生的球员,将球员的历史数据与比赛进行中的事件进行关联,智能化地对一场足球赛进行集锦剪辑等,做到关键信息的可视化、实时解说、实时展示。日后的业务中会有更多的需求将被实现,利用智能视频处理分析技术将极大地提高体育赛事的节目效果,同时节省了人力物力,将会取得良好的经济效益和社会效益。
参考文献:
[1]谢冲.海量矢量数据的分布式存储及时空查询[D].湖北:武汉大学,2019.
[2]张钰,基于云架构的音频采录拆条系统的设计与实现[J].电声技术,2017,41(2):4853.
[3]王智慧,李佳桐,谢斯言,等.两阶段的视频字幕检测和提取算法[J].计算机科学,2018,45(8):5053,62.
[4]张末.新一代硬盘播出系统的设计与实现[D].辽宁:东北大学,2012.
[5]胡立如,陈高伟.可视化学习分析:审视可视化技术的作用和价值[J].开放教育研究,2020,26(2):6374.