数据挖掘在体育信息化中应用与支持
2013-05-31胡继明滨州医学院体育教研室山东滨州256603
胡继明(滨州医学院体育教研室 山东滨州 256603)
数据挖掘在体育信息化中应用与支持
胡继明(滨州医学院体育教研室 山东滨州 256603)
在现代计算机科学技术飞速发展的今天,体育行业的信息化产生了大量数据,在对这些数据的分析和处理过程中,数据挖掘技术开始扮演越来越重要的角色。数据挖掘技术在运动训练、实时决策、电子政务方面都有应用的潜力和研究价值。
体育信息化 数据挖掘 体育运动 支持决策 电子政务 训练
随着信息技术的不断发展,体育行业的信息化成为一种新的需求。在西方各国,采用信息技术对体育全行业改造,取得竞赛成绩和经济效益的明显提高。自1992年以来,科技奥运的概念己渐入人心。在我国,国家体育总局作为实施信息化建设较早的部门之一,在20世纪80年代中期,己开始把计算机技术应用于文字处理、文件管理等,办公自动化从无到有,开始起步。20世纪90年代初陆续建设了办公局域网,完成了政府上网工程,实现了网上公文追踪、公文流转。进入新世纪,总局成立了体育信息化领导小组,加强了对体育信息化的领导,加大了信息化建设的投入,体育信息化建设取得了长足的发展。然而,对于体育信息化过程中产生的大量数据,现有的系统和研究方法无法充分利用这些信息,使这些数据变成“死数据”,无法发挥IT技术的真正作用。在国外,在对这种大量数据的分析和处理过程中,数据挖掘技术开始扮演越来越重要的角色。
1 数据挖掘简述
1.1 概念
数据挖掘(Data Mining),也被作是数据库中知识发现(Knowledge Discovery from Database,简称KDD),数据挖掘是一个非常复杂的过程,主要指的是从繁多的数据中,有价值的、未知的模式或者规律等知识得到抽取和挖掘。
1.2 组成
以下是一个典型的数据挖掘系统包括的主要部件。
(1)数据仓库(Data Warehouse)、数据库(Database)以及其它信息库:它表明一个(或组)数据表单、数据仓库、数据库、其它信息数据库组成了数据挖掘对象,初步处理这些数据对象,常常采用数据清洗和数据集成操作的方法。
(2)数据仓库、数据库服务器:它的责任是由用户提出的数据挖掘的要求,来读取有关数据的。
(3)知识库:数据挖掘时所需的领域知识存放在此,指导数据挖掘搜索的过程以及对挖掘结果的评估都会用到这些知识。最简单的领域知识有挖掘算法中所使用的用户定义的阈值。
(4)数据挖掘引擎:它是数据挖掘系统的最基本部件,具有一组挖掘功能模块,用于定性归纳、偏差分析、分类归纳、关联分析、进化计算等挖掘功能的完成。
(5)模式评估模块:这个模块能根据趣味标准(Interestingness Measures),来协助数据挖掘模块使得聚焦挖掘更具意义的模式知识。要想使数据挖掘的时间和空间复杂度降低,可以使知识评估方法和数据挖掘算法进行有机结合。
(6)可视化模块:是一个供用户与数据挖掘系统交流的界面。一方面用户自己的要求和任务通过它提交给系统;另一方面系统向用户通过它展示、解释数据挖掘的结果,通过很多形式展示挖掘出的模式知识。
2 体育信息化中的数据挖掘
2.1 运动训练中应用
由于现代计算机科学技术发展,在体育运动训练方面采用电子技术对运动员训练状况进行检测成为可能,而面对各种检测设备产生的大量数据,要将转化成其迅速、明确、基于事实的,可以指导教练员对训练进行决策的信息,可以基于数据可视化技术以及数据挖掘技术开发运动训练计算机辅助系统。
为了客观地控制运动训练过程,了解训练效果和运动员当前状态,必须对运动员身体机能状况进行评定。在有先进电子检测设备的情况下,对运动员状态数据的处理和分析成为一个重要问题。由于在实际训练中的某些情况下,教练员需要迅速、直观了解训练状态或与运动员过往数据进行对比,这里就要求帮助教练员创建数据挖掘模型,并利用模型发现各种状态数据中存在的模式,从而对教练员进行决策支持,并且能够指导研究人员对运动科学进行创新性研究。
在这里可以以前苏联《田径运动》曾经介绍的PWC170预测竞走比赛成绩的方法作为例子说明这种应用:在50公里竞走项目中,为了根据运动员赛前状态制定比赛战术,常常需要对运动员的比赛成绩进行预测。而根据PWC(Physical Working Capacity身体工作能力)的V值通过一定模式大致推出比赛的可能成绩:
其中K值和这个模式(规律)本身是来自于以往的训练数据和教练员的经验总结。这里可以看到,训练数据中能够发现有作用有意义的模式和知识。而这些规律的发现,需要大量的实验和数据统计分析。在这种情况下采用数据挖掘技术可帮助我们快速发现类似的新的未知知识,以促进训练效果的进一步提高。
2.2 体育产业信息管理与电子政务
根据国家体育总局办公厅副主任王路生同志在全国体育信息工作会议上的所作的《夯实基础、注重实效、不断推进体育政务信息化》讲话上提出的发展目标和计划。要求在体育产业的信息管理系统开发要在基于流程和数据挖掘技术为核心的b/s构架基础上进行,界面友好,功能强大,能够提高办公效率。
在体育产业信息化的过程中,由于异构系统和未知需求等等问题的出现,要求信息的提供要支持简单数据挖掘的OLAP(在线数据分析)或OLTP(在线事务处理)技术。面对实现互联互通,资源共享要求,为了消除信息孤岛现象,不仅要建立覆盖全国的体育信息渠道,还需要开发知识提取的通用模块,对数据进行通用的逻辑处理,方便系统整合,提高各部门办事效率和参与的积极性,从而有效掌握和利用各类信息为体育事业服务。
对于业务信息的挖掘,更对体育产业的有着重要意义。采用D M技术的决策支持系统,能够应用各种数学和知识模型对数据进行结构化或半结构化分析。为有关管理人员的提供联机状况查询、趋势分析、异常报告等服务,并通过抽取、筛选和跟踪广泛范围内的内部信息和外部信息提供执行管理和决策支持。
2.3 数据挖掘与竞赛当中的实时决策
采用信息技术进行信息处理的特点之一是响应速度快,能够快速得到结果,以致于可以利用于竞赛时的实时数据的处理,为运动员或教练员的作出迅速而正确的技战术决策提供帮助。在国内外也陆续出现了利用数据挖掘技术开发有类似功能的软件。中国此类软件的代表是上海瑞烨信息技术有限公司自主开发的RichTech SIS_TM(Soccer Information System)和RichTech MAS TM(MultiMedia System)可实时进行足球比赛的分析,分析数据可实时间提供给球队,以便教练作出最准确和及时的判断。
但是由于竞技比赛项目差异,大部分项目都没有这一类的辅助软件。而且这类软件还可以为电视转播提供比赛分析服务,并可以应用于奥运会的组织筹备工作当中,由此我们可以看到数据挖掘技术的广阔的市场前景和深远的社会意义。
3 数据挖掘的分析方法
3.1 概念描述
概念描述指的就是概述性的总结具有大量数据的数据集合,并由此得到准确的、简明的描述。以下两种主要就是得到概念描述的方法。
(1)对所分析数据利用更为广义的属性进行概要总结,这当中被称为目标数据集就是被分析的数据。
(2)对比两类所分析的数据特点,并采用概要性总结的方式来对比结果,而这当中被称为目标数据集和对比数据集的就是两类被分析的数据集。
数据概要总结指的是归纳和描述利用数据描述属性中更广义的(属性)内容。通过简单的数据库查询来获得这当中被分析的数据。如:概要总结运动员的体质情况(给出概念描述)。数据概要总结通常都用更广义的关系表或特征描述规则来加以输出表示。
通过这种分析,可以总结处理训练数据,一般常用对比概念总结与横向比较对手情况,更容易发现关键问题的所在。帮助教练员对当时训练情况有清晰的认识。
3.2 关联分析
关联分析指的是从给定的数据集中获取频繁出现的项集模式知识(又称为关联规则)的这个过程。
通常关联规则:X=Y形式,即“A1∧A2∧...∧Am∧→B1∧...∧Bn”;其 中Ai(i∈{1,...,m})和 Bj(j∈ {1,...,n})均 为 属 性 -值(属性=值)形式。关联规则X=Y表明“数据库中z的满足Y中条件的记录(tuple),也一定会满足X中的条件”。
在国外,通过采用这种关联分析算法的数据挖掘软件得到类似这样的结果:当XX运动员在40%的篮球比赛中每场得到10分以上,在这40%中的80%的比赛本队将会获胜。这种结果看似没有因果联系,实际上这种分析对球队的战术安排有着很重要的指导意义。
上面例子的模式以公式表示以下形式:
3.3 分类预测
分类指的是获得一组可以描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别的过程。这种方法在体育方面较少应用,不再累叙。
3.4 聚类分析
聚类分析所分析处理的数据均是无类别归属的。聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大化;而各聚集对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集,又可以通过分类学习获得相应的分类预测模型(规则),从而得到知识的过程。此外通过反复不断地对所获得的聚类组进行聚类分析,还可获得初始数据集合的一个层次结构模型。
此外数据挖掘还有异类分析、演化分析等等,具体算法请参考有关专业资料。
4 结语
数据挖掘是一个交叉的多学科领域,如:机器学习、数据库系统、可视化、统计学、信息科学都是这类交叉科学。此外由于因数据挖掘任务不同,数据挖掘系统是可能采用一些其它学科的技术方法的,例如:模糊逻辑、神经网络、粗糙集、知识表示、高性能计算、推理逻辑编程等。有由于所挖掘的数据和挖掘应用背景,数据挖掘系统也可以集成其它领域的一些技术方法,这当中包含:信息检索、空间数据分析、模式识别、互联网技术、信号处理、图象分析、计算机图形学等。正因为数据挖掘技术方法的多样性,也就导致了数据挖掘系统的多样性。根据这种多样性的特点,在体育科学的方面采用数据挖掘技术进行研究在理论上是可行的。
在IT技术不断发展的今天,我国体育事业正面临着前所未有的发展机遇。为了充分开发利用信息资源,推进体育信息化的快速发展,在体育行业进行数据挖掘技术的研究可以成为一个新的课题。这种已经被大量商业应用证明了的IT技术,在体育产业方面也会将会产生重要的科研价值和社会意义。本文在这里提出了一种新的工作和研究的方向,希望通过这次讨论,引起体育工作者对数据挖掘技术的注意,在国内广泛开展这个方面的研究,为实现体育的现代化建设作出贡献。
[1]George M,Marakas.21世纪的决策支持系统[M].朱岩,译.机械工业出版社,2003.
[2]高洪深.决策支持系统DSS:理论、方法、案例[M].2版.电子工业出版社,1999.
[3]Michelin Kamber.数据挖掘概念与技术[M].机械工业出版社,2001.
[4]David Hand.Principles of Data(数据挖掘原理英文版)Mining[M].机械工业出版社,2002.
G642
A
2095-2813(2013)04(a)-0147-02