足球赛事实时智能分析系统的研究

2020-01-20潘文宇邢青

科技风 2020年22期

潘文宇邢青

摘要：精彩的足球赛事给大众文娱生活带来很多乐趣，针对直播赛事中无法实时识别出精彩的点球、任意球、球员个人信息等问题，本文利用深度学习视频识别处理技术，提出一种智能的赛事分析方案，探讨了足球直播赛事智能分析的可行性，研究了智能分析方案的具体技术实现。

关键词：智能视频分析技术;实时分析;足球比赛

随着人工智能技术的发展，基于深度学习的视频流分析模型在识别、监测领域得到了广泛应用。在体育赛事直播中，尤其是足球比赛中，观众一般只能通过足球解说人员获取球员的个人介绍，包括对球员的球技、球员的任意球、点球等进行分析解说，因此观众获得的仅仅是听觉信息。提高观众的现场体验感，将此类信息可视化是一个可行的方法。基于深度学习视频处理技术可以识别和播报赛事中发生的行为事件（比如点球、任意球等）;识别场上的行为发生的球员，将球员的历史数据与比赛进行中的事件进行关联，智能化地对一场足球赛进行集锦剪辑等，做到关键信息的可视化、实时解说、实时展示。因此，本文提出一种足球赛事实时智能分析系统。

1 技术背景

首先，大数据是深度学習成功的重要路基。在如今的互联网时代，数据量的累积是爆炸式的，越来越多的领域正持续积累着日趋丰富的应用数据，这对深度学习的进一步发展和应用至关重要。不过大数据收集是有成本的，并且标注成本已经开始水涨船高，样本的好坏直接决定了模型的精确度，所以只有拥有一定技术实力的公司才能持续投入研究。在安防领域，像海康威视等有自主研发实力且在安防行业深耕多年的公司，运用大量真实视频监控场景的视频、图片数据作为训练样本库，数据量大且质量较好，通过超过百人团队的数据组，对视频图像打标签，积累了千万级别的样本数据，在使用这些数据量大且质量良好的样本不断训练下，对安防监控场景下的人、车、物进行模式识别的模型也会越来越精确。

其次，高性能硬件平台计算是引擎助力。深度学习模型需要大量的样本，这就避免不了大量的计算，而以前的硬件设备不足以训练出复杂的上百层的深度学习模型。2011年谷歌DeepMind用了1000台机器、16000个CPU处理的深度模型大概有10亿个神经元，而现在，只要用几个GPU，我们就可以完成同样的计算，并且迭代速度更快。因此，GPU、超级计算机、云计算等高性能硬件平台的迅猛发展让深度学习成为可能，强大的计算能力有助于深度学习算法快速实现验证，并积累更多经验进行模型修正，进一步提高模型精度。

2 总体设计

总体架构是以海量图像和视频、文本、音频等多源异构数据存储为基础，引入先进的人工智能技术，容器技术、分布式计算、高性能存储以及机器学习引擎为支撑，搭建的一套面向媒体行业的智能分析人工平台。其主要包括基础平台层、学习引擎层和业务应用层，如图所示：

总体架构图

其基础平台层包括分布式存储平台、分布式计算平台、容器编排系统、数据库系统、计算引擎系统、服务管理发放、日志系统;学习引擎层包括视频识别引擎、语音识别引擎;业务应用层包括球员识别、类型球识别、智能剪辑、信息可视化。

3 技术原理

3.1 基础平台层

（1）分布式存储[1]平台通过构建大规模弹性存储系统，保证可靠性、可用性和性能的前提下，达到业务的快速拓展。分布式存储通过缓存达到加速的目的，通过热点数据的识别达到性能的高性价比。分布式计算平台调度分布式系统的计算资源，包括普通的CPU和GPU资源。设定资源的算力能力和最优计算场景、调度优先级。比如推理时先选择GPU，当GPU资源不满足时选择CPU以达到最大利用率地使用计算资源。当任务计算节点出现故障时，发送任务到其他节点继续运算。

（2）容器编排系统支持多层安全防护、准入机制、多租户应用支撑、透明的服务注册、服务发现、内建负载均衡、强大的故障发现和自我修复机制、服务滚动升级和在线扩容、可扩展的资源自动调度机制、多粒度的资源配额管理能力。

（3）数据库系统满足元数据存储，知识存储，关系存储以及不同维度的搜索需要。

（4）计算引擎系统包括离线批处理平台和实时处理平台。离线批处理平台建立在公有云环境上，计算引擎采用Apache Spark 2.0，支持分布式弹性数据集的快速计算和缓存。在计算引擎基础上部署了Spark Job Server，最大化地利用了集群的计算资源，简化了任务提交方法，提升了任务提交响应，可通过Restful接口提交和管理离线批处理任务。平台定期对Spark Job Server和计算引擎进行心跳、任务数、任务运行情况的测量和监控，确保发生系统故障或系统过载时能及时处理。

（5）实时处理平台从数据管道实时订阅数据流，并进行分布式实时处理，采用的核心技术主要包括Apache Storm及Apache Spark Streaming。

（6）服务管理发放主要针对计算资源、存储资源进行管理。对于离线批处理平台、实时处理平台，需对计算资源进行集中整合，并且具备计算资源的按需伸缩能力。

（7）日志系统提供针对日志类数据的存储、检索与分析服务，用户无须开发就能快捷完成数据定制化分词、存储、检索、分析功能，帮助提升运维、运营效率，快速查找和定位问题，高效索引和搜索海量数据，建立海量索引处理能力。

3.2 学习引擎层

（1）原始的视频图像实际上是一种非结构化的数据，它不能直接被计算机读取和识别，为了让视频图像在足球赛事中更好地应用，使用视频识别引擎对视频图像进行结构化处理。将视频内容（人、物、活动目标）特征属性自动提取技术，对视频内容按照语义关系，采用目标分割、时序分析、对象识别、深度学习等处理手段，分析和识别目标信息，组织成可供计算机和人理解的文本信息的技术。主要包括以下内容：

①事件拆条：通过智能化技术将已播出的节目拆条成一条条独立的条目，然后用于丰富和完善新闻资讯节目数据的信息通道，提高节目内容的生产效率以及拆条后的视频质量。

②字幕提取：制定食品文件，对指定区域的字幕进行识别，识别出文字;支持中文、英文的字幕识别[3]。节目画面中往往已经有编辑好的标题，可以直接用于拆条后素材片段的标题。使用字幕识别技术，拆条系统只需要框选需要识别的标题画面，系统会自动将画面识别成标题文字，简单快捷。

③结构化标准：事件元数据管理[4]，所属频道、节目、播出时间;按日期、时间段分段管理，某日期/时间内拆条事件;事件预览，时间视频、内容、文本、标题等匹配预览。

（2）语音识别引擎将音频文件识别成文字[4]，以文本形式输出，支持声纹识别，并支持语音断点识别。语音识别模块通过对指定音频通道的音频基带信号进行解析，按照语音断句记录每个识别语句的起始时码、结束时码和识别的文本，识别结果会在物理素材的同目录下生成一个和物理素材同txt文档。拆条系统将此识别结果封装成字幕文件，并和素材的其他数据信息一同存入数据库的素材信息表中。

利用视频识别及语音识别服务，智能判定直播开始与结束。利用语音识别技术，识别不同人物语音，并据此对直播进行打点，实现快速拆条。

3.3 业务应用层

包括球员识别、类型球识别、智能剪辑、信息可视化。利用学习引擎层训练提取的模型参数，对输入的直播视频流进行目标监测、图像分割，获取的信息通过大数据技术构建可视化模型[5]，直观地展示處理结果。

4 结语

通过三层架构的视频处理模型，对直播的足球比赛进行实时处理，以识别和播报赛事中发生的行为事件（比如点球、任意球等）;识别场上的行为发生的球员，将球员的历史数据与比赛进行中的事件进行关联，智能化地对一场足球赛进行集锦剪辑等，做到关键信息的可视化、实时解说、实时展示。日后的业务中会有更多的需求将被实现，利用智能视频处理分析技术将极大地提高体育赛事的节目效果，同时节省了人力物力，将会取得良好的经济效益和社会效益。

参考文献：

[1]谢冲.海量矢量数据的分布式存储及时空查询[D].湖北：武汉大学，2019.

[2]张钰，基于云架构的音频采录拆条系统的设计与实现[J].电声技术，2017，41（2）：4853.

[3]王智慧，李佳桐，谢斯言，等.两阶段的视频字幕检测和提取算法[J].计算机科学，2018，45（8）：5053，62.

[4]张末.新一代硬盘播出系统的设计与实现[D].辽宁：东北大学，2012.

[5]胡立如，陈高伟.可视化学习分析：审视可视化技术的作用和价值[J].开放教育研究，2020，26（2）：6374.