数据挖掘在大型体育场馆管理的应用
2021-03-08刘迅雷葛金琰
刘迅雷 葛金琰
(西安交通大学体育中心 陕西 西安 710049)
1、大型体育场馆运营管理的困难与数据挖掘解决方案
大型体育场馆高额的建设成本及运行成本,对国家和地方财政造成巨大压力,加之大多数大型体育场馆管理体制落后,运行机制滞后,更加加剧了场馆经营困难的局面。同时,大型体育场馆面向社会运营管理问题也是摆在各级政府面前的难题,由于我国大型体育场馆特殊的社会属性和运营中存在的诸多问题,对大型体育场馆运营管理的研究一直是学者们研究的重点。大型体育场馆的运营客流量大,涉及的服务管理面广,同时管理者的主观判断又非常依赖管理者的经验和能力水平,面对每天产生的巨量管理数据,管理者很难做出有效的分析与整理,这在很大程度上影响了管理的经营预测与决策,这也是单纯人为管理的局限性;不同于简单的统计、计算、抽样等数据分析方法,数据挖掘采用机器学习或者深度学习的方法帮助计算机学习蕴含在海量数据间的深层次知识(比如属性之间的规律性,或者某些属性的特征表征方式)。简单来说,数据分析是把数据变成信息的工具,而数据挖掘是把信息变成认知的工具,可以将数据分析得出的信息转化为有效的预测和决策。因此,本文希望通过数据挖掘的方法,充分利用起体育场馆中获得的海量数据,将其转换成我们之前没有发现的规律或者信息,辅助大型体育场馆的管理与发展。
2、数据挖掘的含义
数据挖掘,就是从海量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据采集/获取和存储得到的海量数据通过数据挖掘的方式转换成有用的信息和知识,并进行广泛的使用,涵盖了商务管理、生产控制、市场分析、科学探索等多个领域。人们事先不知道、但又是潜在有用的信息和知识,这句话比较抽象。啤酒尿布的数据挖掘中应用最早且最经典的例子:沃尔玛公司发现了一个非常有趣的现象,就是把尿布和啤酒这两种毫不相关的商品摆在一起,能够大幅度增加两者的销量。原因在于:美国的妇女通常在家照顾孩子,所以常常会嘱咐丈夫在下班后为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。沃尔玛公司正是从数据积累中挖掘出这种隐含的关联性,因此将两种商品并置,从而大大提高了关联销量,这就是数据挖掘的功劳。
3、数据挖掘实施的步骤
(1)定义问题。在开始知识发现之前最先的也是最重要的就是定义业务需求。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,要发现体育场馆客流量的变化规律;发现顾客的满意度和体育场馆的哪些方面有关;
(2)数据清洗。数据的采集/获取和存储获得的数据还无法达到分析的阶段。因为其中包含了许多错误以及噪声数据,如,体育场馆中由于某一天没有营业,或者前台工作人员的疏忽,对当天的盈利或者客流量的数据记录出现错误等情况,必须通过数据清洗滤掉无用数据,保证数据分析的准确性;
(3)建立模型。根据数据类型、分析方法以及问题定义的不同,选择不同的模型对数据进行分析,不同的模型对不同场景的适用性是不同的。选择最符合问题的模型,是这一步的关键;
(4)评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。由于我们采集的数据不能代表所有情况,希望模型可以应用于真实场景下,需要先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广;
(5)实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到真实场景中。
4、数据挖掘技术在大型体育场馆管理的应用
4.1、数据采集和存储
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。而随着科技的发展,数据采集的技术呈现多样化的发展趋势,在大型体育场馆的管理中表现为,如,通过摄像头采集的视频数据(出入口以及场馆内等)、工作人员操作电脑采集的每天售票量(客流量)的数据、客人意见簿采集到的评价文本数据等等。
数据存储,是数据以某种格式记录在计算机内部或外部存储介质上。随着硬件技术以及云技术的发展,海量数据的存储变得简单,不仅包括了传统的硬件存储方式(NAS、NDS等),还涵盖了云存储这种网上在线存储方式。这两类技术的发展,加之数据生成与传播的便捷性,致使体育场馆的数据爆炸性增长,为数据挖掘提供了数据基础以及发展前提。
4.2、数据挖掘的方法
(1)分类:将数据库中的数据项映射到某个给定的类别。判断体育场馆今天的客流量是多—中等—少三种情况中的哪一类;
(2)回归:发现某两个要素间的关联关系,用函数的形式表达出来。如,判断体育场馆的顾客满意度和体育场馆大小、服务态度、设备种类、环境卫生几个要素间的关系,用函数满意度=f(场馆大小、服务态度、设备种类、卫生环境)表示;
(3)聚类:与分类问题类似,把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
4.3、数据挖掘的应用实例
(1)空闲场馆检测。
应用场馆:篮球、羽毛球、乒乓球场馆等分场地的场馆。
应用背景:篮球场馆除了场地预约情况外,进入场馆的人可以自由选择在哪一片场地运动,有的喜欢单独在一片空场地,有的喜欢和其他人一起运动。因此,实时监控篮球场内各个场馆的活动密集度(活动人数)以及空闲场地数目非常重要。
应用意义:帮助管理者了解场馆内各个场地的密集度,调整管理策略,控制客流量;也帮助运动者在进入场馆后了解空闲场地的情况,提高场地的利用效率。
应用技术:计算机视觉领域——是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。在体育场馆中,摄像头收集的视频数据为CV的研究提供了视频数据的支持,通过CV技术发现图像或者视频中的规律,在发现自动发现违规行为、危险发现、客流量统计、密集度预测的方面有重要作用。
功能:实时显示如场地密集程度及场地的空闲程度,便于管理者适时调配,提高场地的利用效率。
(2)客人意见智能反馈。
应用场馆:所有提供意见簿或者客人意见反馈的场馆。
应用背景:现在许多场馆会提供客人意见反馈的功能,顾客可以通过网络或者记事本的形式表达自己对该场馆的建议,这些建议对场馆的建设和后续管理方面有着重要作用。
应用意义:帮助场馆了解顾客的建议和反馈,致力于为顾客提供更好的场馆服务。
应用技术:自然语言处理——用计算机来处理、理解以及运用人类语言的过程。体育场馆中关于语言数据的收集并不常见,如,顾客的意见和留言,但是这些语言数据是反映顾客满意度以及建议的重要表现形式。合理分析语言数据,发现顾客满意度的内在规律性,对体育场馆提高管理质量、吸引客流量等方面有重要意义。
4.4、预测体育场馆未来的客流量、盈利及管理费用
(1)应用场馆:所有参与运营的体育场馆;
(2)应用背景:体育场馆收集的数据很大一部分带有时序性,如每天的客流量,每天的盈利,每天的管理费用等等。发现蕴含与时序数据中的规律性;
(3)应用意义:通过对时序数据的研究,找出体育场馆随时序性变化而产生的规律,合理安排用工,提高管理效率;
(4)应用技术:时序数据分析——时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象。体育场馆收集的数据很大一部分带有时序性,如,每天的客流量,每天的盈利,每天的管理费用等等。发现蕴含与时序数据中的规律性,如客流量的时序变化,周一可能比较少,周末可能比较多;
(5)功能:借助对体育场馆中的时序数据的收集与分析,对体育场馆的未来运营风险及时发现并提出警报,有利与提前制定预案。
5、结束语
当前随着存储设备的性能提升、云时代的到来,大数据也吸引了越来越多的关注,大数据的分析也呈现火热的发展趋势,如支持向量机(SVM)、决策树等。而如今,基于深度学习的方法成为大数据分析的主流方法,如卷积神经网络(CNN)、长短期记忆网络(LSTM)。其中长短期记忆网络主要解决具有显著时间序列特征的数据,在预测、分类任务上取得了很好的成果。本文的主要任务是通过对数据挖掘技术的定义方法及分类提出了体育场馆管理的数据解决方案,并就计算机视觉、自然语言处理、时序数据研究的应用进行了相关的分析与阐述,但这只是大数据背景下技术运用的很小一部分,未来随着数字技术的发展与进步,必将有更加强大的数字处理工具应用于大型体育场馆的管理当中,提高管理效率,降低管理成本,更好的服务于大众健康事业。