大数据视角下中国田径竞赛数据采集方法研究
2018-06-11魏鑫
魏鑫
摘 要:当今时代,数据已成为国家基础性战略资源,党中央、国务院高度重视大数据发展及创新应用。不过,目前在体育中特别是田径领域中大数据还未展现出其應有的战略价值。其主要原因在于缺乏反映田径本质的大规模基础数据。我国现有的田径信息数据均不能满足大数据的相关要求。因此,建立符合大数据时代田径信息采集数据库事关重要。其实在田径领域中存在一个天然数据库:成绩册与秩序册。本研究将立足于大数据时代对数据采集的相关要求,构建一套基于竞赛端的以竞赛成绩信息为目标数据的采集方法体系。
关键词:大数据 竞赛 数据采集
中图分类号:G806 文献标识码:A 文章编号:2095-2813(2018)08(b)-0206-03
当今时代,数据已成为国家基础性战略资源,大数据正对全球经济运行机制、社会生活方式和国家管理能力产生重要影响。党中央、国务院高度重视大数据发展及创新应用,十八届五中全会明确提出实施国家大数据战略。国务院印发的《促进大数据发展行动纲要》指出,大数据已成为“提升政府管理能力的新途径”。这就要求各级管理部门树立大数据思维,借助大数据手段推动政府管理理念和社会治理模式进步。然而,当天的大数据仍属于新兴事物,在体育中的运用也仅仅在足球、网球、高尔夫、棒球等项目中,且主要进行技术选材训练等方面应用。针对更为宏观的竞技相关管理运用尚未展开,其主要原因在于缺乏大规模竞赛数据的获取方法。因此,本研究将在大数据视角下,以田径项目为例探究竞赛数据信息的全样本采集方法。
1 目前我国体育数据库现状
高德纳咨询公司对大数据的定义是:大数据是全样本、大容量、高速度和形式多样的信息资产,它需要低成本的、形式创新的信息处理,以增强洞察力和辅助决策。但是,目前我国体育数据库主要存在以下几个问题。
1.1 国家竞技体育信息数据库信息全面多样但覆盖面狭窄
国家竞技体育信息数据库主要包括运动成绩库、实时数据库、奥运实力分析库三个部分,收集参加全国以上级别比赛的运动员信息。尽管其内容齐全,但其对全体运动员覆盖比例估算约在2.7%。
1.2 全国运动员注册信息数据库信息单一、覆盖面小、数据割裂
国家于2003年制定了《全国运动员注册与交流管理办法》,以杜绝和减少比赛中假年龄假资格等不良现象。但由于行政体制及重视程度的问题,经过14年发展当前我国的青少年运动员注册仅在省级以上比赛执行。且由于管理体质问题各省、教育部、国家体育总局数据相互分割,并且相当多的注册信息与成绩信息互相割裂,大大限制其作用价值。此外,由于其只涵盖参加省级以上比赛的运动员,仅占参加市级比赛总人数的23.8%,仍有近8成基层运动员并未统计。
1.3 《体育事业统计年鉴》统计范围狭窄、无个人信息、信度较低
该信息采集是由低级训练单位一层层上报而来,由于现在运动员的多元化培养,培养单位由体育系统扩展到包括体育系统、教育系统、社会系统以及家庭系统的多种培养形式。以前的训练单位已经远远不能涵盖新增的后备运动员。此外,由于上报数据牵扯到经费发放,该数据公信力存疑,且无法锁定个人运动员与竞赛成绩。
综上所述,这些信息库均无法满足当前对大数据的定义要求,即无法做到全样本、高效快速的信息收集,对数据的采集处理需要消耗大量的人力物力与时间,且对于运动员微观数据的人群覆盖极为狭小。由于数据结果的时间延迟、覆盖面狭窄、缺乏精度,其辅助决策效果大打折扣。
2 当前田径竞赛数据收集存在问题
我国竞技体育数据库有关田径项目(不仅仅是田径项目)的数据信息主要针对于顶层运动员,即能参加高级别比赛的运动员信息才会得到录入。这会导致几个问题:无法对全国整个田径训练情况进行把握,如有多少运动员,多少教练员等;无法对优秀运动员整个运动生涯进行时间序列的研究,录入的仅是其成绩达到一定水平后的信息;无法对全国青少年运动员状况进行把握;无法对基层教练员情况进行了解;整体数据以横截面为主,对大部分优秀运动员个体的记录无连续性,进而导致信息利用率较低,无法在相关预测方面进行深入分析。目前我国的竞技体育数据库包含的信息仅仅是一个金字塔的顶端,而支持金字塔矗立的基础,我们尚未掌握。当然,这是由于当时信息技术的限制,收集全国性的信息成本巨大,在当时进行全国性的信息采集是不现实的。但是,大数据时代的到来,使得进行全国性的信息采集成为可能。
为了解决我国竞技体育数据信息纪录过于狭窄的问题,将信息纪录对象向基础延伸是必须的。当前,随着体育信息化的发展,很多团队开发类似于“竞技体育数据管理平台”的软件,下放到各个训练单位进行信息收集,也就是将运动员、教练员信息收集放在训练单位端进行。使用上述方法进行全国性的信息采集会产生如下问题:(1)当前的信息平台除了进行运动员、教练员信息收集外,还设计了训练过程、办公自动化等一些列功能,整体软件是一个运动员管理训练的辅助软件,软件操控有一定难度性,需要经过一定培训才能顺利应用;(2)需要专职人员进行软件的管理与信息输入,一旦出现人员变动就可能产生软件停用的情况,无法保证信息收集的连续性;(3)许多中西部地区基础训练单位的硬件设施与人员配置达不到相应的要求;(4)全国性的运动训练单位向市区级别下分,数量庞大。除此之外,这种信息的采集时效性差,在实践中很多数据的录入都是在年终统一进行,从而使信息的价值大大降低。另外,人工录入难免犯错,又缺乏有效的监督,数据的准确性略低。最重要的一点,即使这种信息采集分布到全国各个运动训练单位,并且能够全部及时的进行数据收集,也会遗漏相当比例的田径运动员,因为,很多的田径运动员是学校内的。上述问题极大的阻碍了这种采集方式的迅速推广。
因此,需要找到一种采集方法,这种方法须符合以下要求:能够获得数据的总体;数据具有较高的精确性;数据的更新及时;采集成本低;采集方法简单易于推广;硬件设备与人员操作要求相对较低;无需额外工作(如专门录入人员)。
3 田径项目大数据采集方法构建
针对在单位端进行数据采集的弊端,不应将训练单位端作为大数据收集的平台,而应当从比赛端进行大数据收集。从比赛端进行大数据收集,就是对国家体育总局信息数据库,在田径国家级比赛信息收集方式上,向下级比赛的延伸。为了更好的对田径项目中大数据采集方法的理解,这里结合一个比喻说明。
假如一个池塘里面有很多鱼,其中有大鱼也有小鱼。之前我们使用大网眼的渔网进行捕鱼,则很多体积小于网眼的鱼就无法捕捉到。为了捕捉到更多的鱼,最好的办法就是把网眼缩小。当网眼缩到足够小的时候就可以捕捉到所有进入网的鱼,当我们把这张网做的面积做的足够大,就能一次捕捉到池塘里所有的鱼。我们用这种方法在这个池塘里捕一次鱼,我们可以知道池塘里有多少鱼,不同大小的鱼分别有多少。当我们每隔一定时间(一年)捕一次鱼并对这些鱼进行标记,就可以知道每条鱼的成长速度是多少。当我们把这些鱼和与之饲养的渔民建立起来联系,就能知道哪些渔民养鱼的水平高一些,最终我们需要选出那些好的鱼苗和优秀的渔民。鱼:运动员。鱼的大小:运动员竞技成绩。渔民:教练员。网眼大小:比赛级别网的面积:举行比赛范围。
从上面的比喻可以很好的理解田径项目中大数据采集方法的基本原理,就是通过比赛这个平台,对全国的田径运动员和教练员信息进行收集。关于田径大数据信息采集的实施。
大数据评价对田径相关信息采集的具体方式,如图1所示。根据田径比赛层级及可行性可对于田径竞赛数据采集应分三步进行。
第一步:采集并汇总全国各级别田径运动会的成绩册与报名信息(主要包括:比赛举行时间、运动员身份证号、比赛项目与成绩)。各级别田径比赛包括全国性的田径相关比赛、省市级的(以湖北省为例,省级田径高水平运动员比赛(4次/年)、湖北省大学生田径运动会、湖北省中小学生田径运动会(2次/年)、各地市州中小学生田径运动会)。每年参加这些比赛的运动员可以涵盖拥有系统训练经历的田径运动员,之后每年进行相同的信息采集,可以形成时间序列的相关信息,并发布相关信息年报。
第二步:使用田径运动会编排系统软件,对全国各级别田径运动会进行联网(直接采用网上报名),集中设立一个服务器,进而使田径比赛信息及时传递到田管中心数据库,在报名系统中增添教练员相关信息必选项目(身份证号、性别、年龄),以增加对教练员信息的采集。
第三步:将该编排系统向大学、中学校内田径运动会进行深入,以更广泛的进行信息采集。
这里强调:使用同一软件是一个理想化的状态,可以根据不同的比赛级别使用不同的软件,只要信息可以同时上传同一服务器即可,如国家级比赛一套系统,省市级一套,学校使用一套。此外,第一步与第二步应同时进行,慢慢从第一步完全过渡到第二步。
该采集方法拥有以下优点:(1)研发成本低:现有软件已可以胜任当前的要求。(2)信息采集效率高:同一级别赛事,组织方数量要远少于参赛方,通过一场比赛可以采集几十个参赛单位的信息。(3)硬件设施及人员要求低:当前田径运动会的组织方都拥有和会使用电脑。(4)准确性高:很多大型田径运动会的成绩输入是电脑电子计时自动进行,人工输入的情况下由于牵扯到比赛名次,成绩输入的准确率也会很高。(5)易于大规模推广:田径运动会的开展十分广泛,此外进行网上报名与电脑成绩录入,可以推動全国田径运动会组织编排的科技含量,大大提高工作效率,方便基层运动会的开展。
4 结语
当前我国竞技田径数据信息采集主要方法有三种,但均存在一些问题:(1)国家竞技体育信息数据库信息全面多样但覆盖面狭窄;(2)全国运动员注册信息数据库信息单一、覆盖面小、数据割裂;(3)《体育事业统计年鉴》统计范围狭窄、无个人信息、信度较低。
针对目前关于田径大数据信息采集,不应将训练单位端作为信息收集平台,而应当从比赛端进行大数据收集。也就是对现有国家体育总局信息数据库在田径国家级比赛信息收集方式上,向下级比赛延伸。
目前关于田径竞赛大数据采集方法应当分三步进行:首先,采集并汇总全国各级别田径运动会的成绩册与报名信息。其次,使用田径运动会编排系统软件,对全国各级别田径运动会进行联网。最后,该编排系统向大学、中学校内田径运动会进行深入,以更广泛的进行信息采集。
参考文献
[1] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012,27(6):647-657.
[3] 王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):1741-1752.
[4] 方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报:自然科学版,2014,6(5):405-417.