网球基础训练数据的粒计算方法研究
2013-08-15巫文佳李云鹏
巫文佳,李云鹏 ,阎 钲,赵 红
网球运动是一项把竞争性、文化性、观赏性和参与性有机融合在一起的体育项目[1]。随着我国社会政治、经济、文化的不断发展,特别是李娜法网夺冠后,国内掀起了一股网球运动热潮。在网球运动不断创新和改革的大潮下,网球基础训练除了要研究国外优秀选手的动作技术及相关的文化外,更要研究如何采取先进的训练方法、手段及其科学的训练内容,满足人们参与网球运动的需求。训练方法要符合他们的实际情况,使他们的网球技能在短时间内得到提高。我国学者田麦久[2]认为,基础训练是全程系统性多年训练过程的第一个环节,是指运动员在进行专项训练之前,先进行一段时间系统、全面的身体训练和体力训练,同时结合基本技术、心理和智能训练,使他们既能健康成长,又能具备基础的体能和技能,为将来攀登运动成绩高峰打下坚实基础的教育训练过程。在进行专项训练之前,应安排一段时间的基础训练,并且要根据专项需要原则进行身体训练。
近些年来,我国网球项目研究集中在网球项目的现状与发展趋势、网球运动员竞技能力与专项素质、训练方法和训练理论、运动损伤和疲劳、专项训练和技术训练等方面。由于我国网球运动开展得较晚,从事网球项目科学研究的人员较少,目前和网球项目基础训练密切相关的研究并不多。如何使网球基础训练更加科学合理,是网球基础训练面临的新课题。
本文将数据挖掘方法[6],特别是粒计算方法[5]运用到网球基础训练的数据分析中。数据挖掘[6]能从数据中提取出隐含的过去未知的有价值的潜在信息。而粒计算方法[5]能自动地在不同粒度层次之间进行跳转,并发现有意义的规律。近年来,基于粗糙集[3-4]的粒计算理论[5]在许多学科和工程应用领域都取得了广泛的应用。将这些新方法用于网球基础训练研究,是体育项目研究的一种有意义的尝试。在网球基础训练过程中进行有针对性的数据采集与挖掘,运用粒计算方法统计分析,制定量化标准评价指标,掌握并合理运用网球基础训练规律。通过对网球基础训练内容体系进行深入的研究,解决网球基础训练问题,制定网球基础训练量化评价标准。这些都为今后我国从事相关研究与实践提供了理论参考,有望促进我国网球基础训练水平的提高。
1 网球基础训练数据采集
网球数据挖掘研究工作的基础是网球基础训练中的数据。因此,我们的首要工作就是采集网球基础训练中的各项数据。首先要做的是明确需要采集的数据指标。其次要设计合理的数据采集方案,以确保采集数据的真实性和正确性,进而保证粒计算方法研究的科学性。
1.1 数据采集指标
根据网球基础训练过程目标的需要,我们主动进行有针对性的网球基础训练数据挖掘与采集,制定数据采集量表,以期获得我们想要的数据指标。例如针对球拍选择、运动选材、训练方式,设计了三个指标采集数据集,分别为不同人群、不同打法类型选择的球拍统计量表、身体素质与运动成绩统计量表、不同训练方式统计量表。身体素质所采用数据指标能够代表人体在网球运动中所表现的力量、速度、耐力、柔韧及灵敏身体机能,运用粒计算方法统计分析,挖掘他们之间的关联。球拍选择所采用数据指标能够反映出不同人、不同打法类型的人选择何种球拍的量化指标,运用粒计算方法统计分析,从而挖掘其中的关联。不同训练方式与训练成效的量化指标,运用粒计算方法统计分析,挖掘其中的关联。网球基础训练数据指标的测量与评价包括:测量可靠性、有效性及客观性检验、项目分析如指标的难易度与区分度检验,成套测验的组内相关分析、测量尺度、评分评价表的制定与评价。
1.2 数据采集的实施
只有进行合理的需求分析,制定合适的数据格式,并采取合适的数据采集方法,才能获得有意义的数据,并从中挖掘出规律。由于相关数据的规模比较小,因此在小样本上进行学习,使决策支持软件与教练员进行良好交互,是相当困难的工作。
网球基础训练数据采集包含一次性采集和累积采集。如球拍选择量表数据采用一次性问卷采集,身体素质与网球运动成绩量表数据中身体素质数据采用一次性的测量,运动成绩数据采用一次性考核或在比赛进行中采集,不同训练方式量表数据采取累积测量与评价。
1.3 带回馈机制的数据采集方法
所谓带回馈机制的数据就是通过对上次数据采集分析,发现有冗余及未被采集的关联数据时,要对采集数据指标进行调整。如在对网球基础训练身体素质数据采集分析中,有些数据通过统计分析不具有相关性就需要删除,有些关联数据指标没有被纳入需要采集的范围中就需要补充进来,从而建立一个主动的、带上下反馈机制的数据采集方法。
建立回馈机制的主动数据指标采集机制。采用《人体测量与评价》[7]等相关资料,确定采集数据指标,制定科学采集方法。在进行下一轮的数据采集过程前,先对上一轮的数据指标进行统计分析,对冗余指标予以删除,对有用却没有被采集到的指标进行补充,以期使采集到的指标科学化[8]。
2 网球基础训练数据的粒计算方法研究
我们运用粒计算方法来挖掘网球基础训练中的数据。数据挖掘的粒计算方法包括分类[9-10]、粒关联规则[11-13]、属性选择[14]以及代价敏感[15]等。这些研究所得出的结论可以用于指导我们的网球基础训练和选拔运动员等非常有意义的工作。
2.1 分类方法研究
通过数据挖掘中的分类方法[16]找出网球基础训练数据之间的各种关系。例如,我们可以研究球员的各项指标对其成绩的影响。具体地说,是找出哪些指标对球员成绩有比较大的影响,哪些指标影响较小甚至可以忽略不计。其意义在于指导网球教学和训练工作。在此研究中,自变量,即条件属性,是球员各项技术指标(例如:灵敏性、速度、耐力等);因变量,即决策属性,是球员的成绩,在进行分类前需要对其进行离散化(例如:优秀、良好、一般等)。还可以找出其它各种关系,比如训练方法对成绩提高的影响,球员属性对球拍选择的影响。
针对网球基础训练数据特性的分类方法所得出的结论可以被用来指导我们的网球教学和训练工作。例如,我们通过分类方法得出,球员的灵活性是影响球员成绩至关重要的因素,那么,我们在网球训练时就增加对球员灵活性方面的训练。假设我们得出,球员握拍方式对球员成绩没有显著影响,那么,我们在教学中就可以忽略对这个因素的考虑。这样的好处是可以集中教学资源,重点训练对球员成绩有较大影响的技术指标。同理,使用分类方法所得出的规则来作为选拔运动员的依据。例如,我们从实验数据中求得规则<灵活性=好,耐力=好>=><运动员成绩=高>。那么,我们在选拔运动时,就会优先选择灵活性好和耐力好的球员。经典的分类方法有很多,我们主要采用高效的决策树[17-19]来进行分类。
2.2 粒关联规则方法研究
粒关联规则用于从数据库多对多关系中挖掘有用的关联,它比在单个表中进行挖掘更有挑战性。同时,复杂的数据类型及关联的多变性带来一系列的科学问题,例如,评分机制使得基础数据不能以多对多关系来存储于数据库。由于粒关联规则的复杂性,需要从简单的情况开始考虑,包括基本的二元关系、名词型数据等,然后逐步考虑评分值、数值型值、邻域、区间值等一般情况。从数据模型出发,逐渐考虑计算模型以及不同的规则形式,使得每种规则适用于一定的范围,循序渐进地建立良好的系统。
粒关联规则可以显露出在关系表中隐含的、有用的、尚未发现的多值关系。给定两个信息表和一个关系表,粒关联规则发现的问题就是源覆盖、目标覆盖、源置信度、目标置信度分别大于等于我们设定的4个指标阀值,即最小源覆盖(ms)、最小目标覆盖值(mt)、最小源置信度值(mc)、最小目标置信度值(tc)。问题的解决就是先产生大于等于4个指标阀值的频繁项目集,然后通过频繁项目集产生规则,最后从产生的规则中确定出有价值的规则。规则中的项目数据类型可以是数值型或符号型的。对于数值型数据,我们先将其离散化成符号型数据,再继续进行规则挖掘。例如根据所采集到的网球基础训练数据,分别包括球员信息表、球拍信息表和球员对球拍的评分关系表,我们运用粒关联规则挖掘方法,通过所设置的4个指标阈值,挖掘出有价值的规则。通过这些规则的研究,我们可以得到不同身体素质和打法的球员更愿意选择的球拍,从而为以后球员对球拍的选择提供科学的参考。
2.3 代价敏感学习方法研究
获得球员技术指标中对球员成绩最有影响效度的属性。例如,我们测试一个球员,需要测量其很多技术指标,包括身高、体重、击球习惯和所用球拍等。但并不是所有这些属性都对球员的成绩有至关重要的影响。在本研究中,我们利用粒计算(主要是粗糙集)方法从中选择出一部分属性(属性子集即属性约简)作为所有这些指标的代表。这样,在实际中,我们就可以只测量这些关键指标而不需要测量所有指标。
找出一种合适的网球基础训练方案,能使我们获得最小化训练代价。例如,这里有两种训练方案,一是先训练正手后训练反手,另一是先训练反手后训练正手。我们通过数据发现,方案二比方案一在训练球员达到相同的成绩的条件下,所需要的时间少,那么我们会选择方案二。因为时间也是一种代价。
代价敏感学习[20-21]是数据挖掘中的挑战性问题之一。网球训练数据的获取需要一定的测试代价,如测试球员的1000米成绩需要花费相应时间,测试灯光环境下的各项技术需要耗费电能。训练中进行各种分类会涉及误分类代价,如将优秀球员划分为一般球员,可能会阻碍其进一步发展。如何依据网球基础训练的实际情况来合理考虑这些代价,并且考虑这些代价之间的权衡是我们必须应对的问题。
用统计方法确定各类测试代价,用调查问卷方式确定基础的误分类代价,并采用动态调整的方法逐步获得更合理的设置。利用已有的粒计算、粗糙集、决策树等理论和方法,设计新的代价敏感学习算法,并根据其效果进行参数的学习。
3 结语
运用粒计算进行网球训练数据采集与挖掘具有重要的理论和现实意义。一方面,在网球基础训练过程中进行有针对性的数据采集与挖掘,运用粒计算进行统计分析,制定各种问题分类的评价量化标准,为网球基础训练提供科学的理论依据,推动网球基础训练方法研究;另一方面,通过粒计算方法对网球基础训练针对性采集的数据进行科学定量分析,制定网球基础训练各阶段的考核评价标准,教练员可以对不同阶段的运动员的训练水平进行评价和监督,指导基础训练阶段的训练工作。
[1]李兴昌.快易网球在高校网球教学中的应用研究[J].体育科技,2011,32(2):135-138.
[2]田麦久.运动训练学词解[M].北京:北京体育大学出版社,2002:27-28.
[3]Z.Pawlak,Rough sets[J].International Journal of Computer and Information Sciences,1982,11:341-356.
[4]W.Zhu and F.Wang, Reduction and axiomization of covering generalized rough sets[J].Information Sciences, 2003, 152(1):217-230.
[5]T.Y.Lin, Granular computing on binary relations: data mining and neighborhood systems, II: rough set representations and belief functions, in: RSKD, 1998, 107-140.
[6]J.W.Han and M.Kamber,Data mining:concepts and techniques,Elsevier,1996.
[7]人体测量与评价编写组.人体测量与评价[M].北京:高等教育出版社,1999,97-161.
[8]曹洁.青少年网球运动员基础训练调查研究[J].湖北体育科技,2011,30(1):77-79.
[9]D.Nejman.A rough set based method of handwritten numbers classification.Institute of Computer Science Reports [R].Warsaw:Warsaw University o f Technology, 1994.
[10]P.D.Turney.Cost-sensitive classification: empirical evaluation of a hybrid genetic decision tree induction algorithm[J].Journal of Artificial Intelligence Research, 1995, 2:369-409.
[11]F.Min, Q.H.Hu, W.Zhu, Granular association rules with four subtypes, in: Proceedings of the 2011 IEEE International Conference on Granular Computing, 2012.
[12]F.Min,Q.H.Hu,W.Zhu,Granular association rules on two universes with four measures,arXiv:1209.5598.
[13]X.He, F.Min, W.Zhu, A comparative study of discretization approaches for granular association rule mining, arXiv: 1212.0190.
[14]C.Cornelisa, R.Jensen.G.Hurtado and D.Slezak, Attribute selection with fuzzy decision reducts, Information Sciences, 2010, 180(2): 209-224.
[15]F.Min, H.P.He, Y.H.Qian, and W.Zhu, Test-cost-sensitive attribute reduction, Information Sciences, 2011, 181: 4928-4942.
[16]S.Ji, L.Carin.Cost-sensitive feature acquisition and classification, Pattern Recognition, 2007, 40, 1474-1485.
[17]J.Quinlan,Induction of decision trees,Machine learning,1986:81-106.
[18]C.X.Ling, V.S.Sheng, Q.Yang.Test strategies for cost-sensitive decision trees, IEEE Transactions on Knowledge and Data Engineering, 2006, 18(8):1055-1067.
[19]J.Du, Z.Cai, C.X.Ling.Cost-sensitive decision trees with pre-pruning, in Canadian AI’07, 2007, 171-179.
[20]P.D.Turney, Types of cost in inductive concept learning, in: Proceedings of the Workshop on Cost-Sensitive Learning at the 17th ICML, 2000:1-7.
[21]M.Tan,Cost-sensitive learning of classification knowledge and its applications in robotics,Machine Learning1993,13(1):7-33.