大数据应用于高水平足球比赛战术分析的研究
2021-04-10昝登良
昝登良
广东工程职业技术学院公共课教学部,广东 广州 510520
1 足球比赛战术的概念及内涵
根据牛津词典,“战术”指为达到特定目的而精心策划的行动或策略。关于竞技足球,活动的目的自然是赢得比赛,因此选择合适的战术对于赛前准备至关重要。按照经典实践者的方法,战术规定了集体运动如何控制空间、时间和个人行为而赢得比赛。
例如在球场上,某个特定的动作发生或球队在进攻和防守时要占据一定的区域。相比之下,时间可以对一些变量进行描述,比如进攻的频率和持续时间(控球)或者动作的启动速度。可以按照参赛球员的数量进一步分为个人战术、小组战术、集体运动战术和比赛战术,这也是足球运动员通常采取的战术方案。个人战术是指在进攻和防守中,有球队员和无球队员的一对一较量。例如,防守队员接近带球人的方式可以被视为个人战术的一部分。又如,防守队员可以立即进攻带球人并给他施加压力,或者防守队员可以集中精力阻挡在通道上传递的球。小组战术描述了一个集体运动中各小组之间的配合,例如越位区域中的防守拦网。集体运动战术描述了首选的进攻和防守集体运动队形,以及队形在球场上的位置。比赛战术描述了球队的比赛理念,如反攻或控球。最近的一项研究调查了德国德甲的控球恢复情况,结果表明,成功的球队在失去控球后恢复控球的速度更快。
综上所述,足球战术描述了球员在球场上的微观和宏观的组织原则,包括从个人到集体的决策过程。为了确保在所有战术层面上的成功行动,教练必须考虑球队的状态、对手的状态,以及外部因素。因此,在策略中,既涉及先验决策,也涉及比赛中的实时适应。集体运动战术是由一个相互依赖的参数网络形成的复杂控制过程,尽管上述方案遵循分层模式,但实际中的信息流确实是双向的。因此,战术可以解释为一个复杂的结构组成了一个新的相互交织的依赖关系。
2 足球比赛战术分析的数字模型发展
在进行控球类型的比赛时,Rampinini等[1]调查了不同跑步速度类别(站立到短跑)的总跑步距离和时间。结果显示,对手的水平和比赛位置对比赛有显著影响。因此,目前还不清楚如何将来自训练和比赛的球员生理信息与集体运动战术结合起来,个人技术表现与集体运动战术之间还没有联系。传统意义上,战术分析依赖于基于平均统计和计数的符号分析方法。例如,指标包括传球变量、控球、获球或打法。传统符号方法的主要局限性在于几乎所有的相关信息都被丢失,供专业人员采纳的信息有限。为了避免这样的问题,越来越多的多变量方法被用来保留相关信息。
Almeida等[2]研究了不同得分模式对青少年球员获球类型和位置、打法结构和防守状态的影响。结果表明,当使用中锋进球时,球的回球率较高,且大多数回球率是在防守三分之一的场地内定位球的结果。年轻球员在比赛方向上也产生了更多拉长的形状,而年长球队在垂直于比赛方向的方向上产生了更扁平的形状。结果表明,当进攻队控球时间较长时,得分方控球的优势比增加,他们从比赛最后三分之一开始进攻,或者用穿透性传球来平衡防守。
Frencken等[3]使用19个绩效指标来识别不同的进攻风格。结果表明,控球、侧身传球以及从防守三分位到进攻三分位的传球相关的控球直接性等因素对确定比赛风格非常重要。
2.1 用于研究集体运动战术的方法——集体运动重心法
球队的行为重心即球队中所有球员位置的几何中心,被用来分析整个球队的行为。该研究的结果表明,在比赛过程中,集体运动质心之间存在强耦合,质心间距发生变化和关键比赛事件(如射门)伴随集体运动间耦合可变性而增加。通过计算近似熵,一种非线性时间序列测量技术进一步扩展了质心行为的研究,以量化时间序列数据的规律性,使用近似熵分析的结果表明,新球员在战术训练后,其质心行为规律性增加。
Goncalves等[4]使用近似熵调查了防守队员、中场队员和进攻队员小组之间和内部的11人制比赛协调情况。结果表明,在专业球员组中,随着对手数量的增加,集体运动行为相对于对手的规律性增加。虽然近似熵的应用越来越突出,但它所代表的集体运动中心的规则行为本身就是对集体运动行为的高度抽象的描述。然而,近年来,集体运动中心测度越来越多地被用来捕捉集体运动行为,并有许多有价值的应用被文献报道。
2.2 用于集体运动战术的方法——空间控制法
空间控制法主要是利用集体运动所有球员的凸壳计算出集体运动的表面积。这一研究的结果表明,与防守队相比,进攻队覆盖了更大的表面积。与经验不足的球员相比,经验丰富的球员也覆盖了更大的区域。
Fradua等[5]通过计算包围所有场内球员的最大矩形除以球员人数,调查了11人制比赛中的单个球员所占面积。结果表明,当球进入中央球场区域时,个人比赛区域变小。此外,还可以使用Voronoi图来研究空间控制,使用位置和单个球员之间的距离来确定控制空间,使用Voronoi图的结果与集体运动表面积法的结果相似。
2.3 基于确定特定比赛区域的数值优势法
空间控制是足球战术的一个核心方面,并进一步突出了足球比赛的动态性。新兴研究集体运动战术的分析方法是使用网络方法研究集体运动传球行为。这种方法的基本原理是将一个集体运动的球员建模为节点,并将他们之间的传球作为加权顶点,其中两个球员之间的传球次数决定了权重。根据集体运动传球行为的这种表现,能够很容易地识别集体运动中的关键球员,因为他们与其他顶点的连接更多,同时顶点权重更大。
最近的网络分析包括旁边的球员信息及位置传递信息,能够预测比赛结果和最终排名。将贝叶斯潜在模型方法应用于西班牙第一局(2013—2014年)241场比赛的传球网络和传球位置信息,所获得的模型能够自动识别不同集体运动的不同战术模式。通过将获得的战术信息与进攻结合,能够说明哪些特定的战术模式在各队中更有效。这些结果表明,通过传球行为与空间信息相结合的球员动态,为分析优秀足球运动员的战术行为提供了一种有价值的新方法,与传统的符号分析方法相比提供了更多的信息。
2.4 基于比赛位置数据的机器学习算法
机器学习算法允许通过从数据中构建一个先验未知模型来识别大型数据集中的特定数据模式。虽然这种方法已经在体育研究中讨论了一段时间,直到最近成功的使用才使其变得更加普遍。例如,利用整个英超赛季的位置数据应用期望最大化算法,可以自动识别球队队形。结果进一步显示,球队在客场比赛中使用了更多的防守阵型。使用两步算法,只有在每个球员被分配了一个特定的角色之后才能确定阵型,排除了简单地使用每个球员的ID来识别集体运动队形的可能性。
Knauf等[6]使用时空核算法对轨迹进行聚类,允许从位置数据自动区分比赛启动和得分机会,并利用一个特定的度量来比较进攻过程中轨迹之间的成对相似性,然后使用聚类算法将轨迹分组。同样,研究者使用的算法的一个基本特征是轨迹之间的比较对参与者之间的排列是不变的。Kim等[7]利用空间跟踪数据,应用时间核方法预测球在球场上的位置。通过球员的跑动方向计算流场,研究者能够确定流场的收敛点,从而预测球的未来位置,具有很好的一致性。Hinton等[8]使用多尺度比较技术,结合事件数据类型和事件位置数据,自动识别导致目标的重复攻击次序,多尺度比较技术允许相互比较不同长度的事件次序。Fernandez-navarro等[9]通过对比赛序列的聚类分析,能够区分不同球队的进攻打法。Montoliu等[10]应用了一种词语袋算法对足球比赛视频片段进行编码,然后使用随机森林分类器识别比赛模式,并将球场划分为10个区域,计算了从2个完整足球比赛录像中提取的短视频序列中代表球员运动方向的光流。Grunz等[11]使用了分层动态控制的网络特征图,以自动识别集体运动构成。
综上所述,大量的机器学习研究已经使用足球数据来研究战术决策,但是目前尚不清楚小组队形如何与球员的个人技战术技能相互作用。很明显,一支球队中不同的战术位置有不同的生理需求,因此没有研究表明如何将这些信息与进攻和防守球队使用的战术队形相结合。
在动态系统理论方法中,相空间是一个关键概念,它描述了从数学上描述系统所在空间的理论抽象,并能够以有价值的方式捕捉系统的动态。目前关于集体运动比赛中适当相空间变量的建议差异很大。一种常见的方法是使用相对相位作为衡量指标来捕捉参与者之间的协调现象。高水平足球战术比赛分析的挑战之一是建立一个解释性的理论模型,该模型能够整合来自各个领域的信息,包括战术、生理学和运动技能。人工智能研究的新方法可能为发展高水平足球战术决策的理论模型提供了途径。特别是深度学习网络,在以前认为难以计算的建模领域正变得越来越强大。然而,这些方法依赖于大型训练数据集来确定网络参数,目前还没有用于足球战术分析。最近使用神经网络的机器学习模型得到了扩展,允许在模型中加入先验信息,这对于开发集体运动战术行为建模的新方法非常重要。例如,从以上总结的研究中获得的见解可用于约束网络建模工作,同时允许生理、战术和技能相关信息之间的联系。因此,来自人工智能的现代算法可能被证明对高水平足球的战术分析非常有用。
3 大数据应用于足球战术分析的可行性分析
关于模型构建和各种数据源组合的潜在解决方案可能会因大数据技术的兴起而呈现出来,这些技术已经被认为能够创建高水平足球比赛战术分析的特性。由于大数据现象相对较新,文章首先将对相关概念进行定义。目前还没有普遍认同的大数据定义,大数据更多的是通过其特征来描述的。大数据的三个主要特征表现在体积、多样性和速度三个方面。体积表示数据的大小,多样性表示数据的异质性,速度表示数据生产率。关于足球战术分析,这些概念可以通过以下方式映射。
(1)体积是指足球中数据集的大小。例如,通常使用可扩展标记语言编码的位置数据集的范围在86~300MB。一个完整的德甲赛季中占据位置、比赛和视频数据将产生400GB的跟踪数据。因此,数据量随着包括例如生理或比赛数据的其他资源的增加而增加。使用Excel表格的常见解决方案不能很好地缩放这些数据,相比之下,大数据技术为存储此类数据集提供了特定的解决方案,并通过特定的用户界面和应用程序编程接口实现对这些数据集的访问。
(2)多样性是指不同的数据格式和数据源。多样性可以进一步区分为结构化数据、半结构化数据和非结构化数据。结构化数据有一个明确预定义的模式来描述数据,结构化数据允许在数据中进行简单的导航和搜索,其中关系数据库系统就是典型的例子。相比之下,非结构化数据缺乏明确的模式,视频数据和文本信息就是典型的例子。半结构化数据介于这两个极端之间,由缺少预定义结构但可能具有可变模式的数据组成,该模式通常是数据本身的一部分,目前用于跟踪数据的XML数据类型就是这方面的例子。因此,在足球比赛数据中,多样性指的是位置、视频、体能、训练、技能表现,以及运动员健康记录和人群数据附带的符号元数据。由于数据访问和数据处理模式因数据类型而异,大数据技术提供了特定的解决方案,以整合分布在这些数据中的信息。
(3)速度描述生成新数据的速度。在足球运动中,在训练和比赛过程中,从生理和位置数据到符号分析的延迟数据的实时流之间的速度变化很大,而大数据技术可专门处理和存储高速数据。
4 结束语
总而言之,将大数据技术应用于足球比赛战术分析研究可能会为一些关键问题提供解决方案。通过提供新的数据分析方法和更为全面的理论模型,可以更好地理解高水平足球队的战术表现。然而,这意味着未来的足球研究将不得不采用更强有力的多学科方法。性能分析员、运动科学家、生物学家及专业人员必须共同努力,才能理解这些复杂的数据集。正如已经指出的,未来计算机和体育科学家之间的合作可能是以更相关的方式应用这些复杂方法的关键。反过来,越来越多地依赖更复杂的数据分析技术也将给未来的体育科学家带来新的挑战。