以数据挖掘为导向的应用型统计人才培养的思考
2019-11-13刘惠赵海清
刘惠 赵海清
【摘 要】大数据时代下,如何培养应用型统计人才是高校思考的问题之一。通过论述应用型统计专业人才需具备的能力,认为“泰迪杯”数据挖掘挑战赛能为应用型统计人才的培养提供一定的引导。以数据挖掘为导向调整教学内容,借助校企合作利用实际数据引入案例教学,通过项目驱动式教学来提高统计学专业学生的实践能力和创新能力,从而达到应用型统计人才培养的目的。
【关键词】统计学专业;人才培养;数据挖掘;应用型人才
中图分类号: C829 文献标识码: A 文章编号: 2095-2457(2019)30-0127-002
DOI:10.19694/j.cnki.issn2095-2457.2019.30.064
Reflections on the Training of Applied Statistical Talents Oriented by Data Mining
LIU Hui ZHAO Hai-qing
(School of mathematics and statistics, lingnan normal university, Zhanjiang Guangdong 524048, China)
【Abstract】In the era of big data, how to train application-oriented statistical talents is one of the problems that colleges and universities consider. By discussing the abilities of applied statistics professionals, it is concluded that the “Tipdm Cup” data mining challenge can provide some guidance for the training of applied statistics professionals. Adjusting teaching content based on data mining, using the actual data to introduce case teaching with the help of school-enterprise cooperation and using the project-driven teaching to improve the practical ability and innovation ability of statistics students, so as to achieve the purpose of cultivating application-oriented statistics talents.
【Key words】Statistics; Talent training; Data mining; Applied talents
0 引言
当前,交叉学科和技术群迸发的新一轮科技革命正在孕育,世界科学中心面临转移,第四次工业革命随步而至,数字化链接和人工智能正在深刻影响各个行业、领域及学科的发展[1]。数据显示,2018年的大数据产业市场规模约为5300亿元,同比增长15%。2019年我国大数据产业市场规模将达到6300亿元,而未来五年年均复合增长率约为15.47%[2]。正如马云所说,我们已经进入数据技术时代。
大数据与人工智能的发展直接影响人才需求和培养方式。统计学是一门与数据紧密联系的学科,大数据不仅推动了数据科学领域交叉科学的研究,也对统计学的发展有着深远影响[3]。这促使更多的高校将数据科学课程与传统统计学课程相结合,为学生更多更新的学习项目,以便他们能在今后从容面对不断变化的现实挑战。
对于应用型统计学人才的培养,加强统计实践环节教学是解决这一问题的主要途径。2014年11月,《光明日报》刊文“高校怎么向应用型人才培养转型”,文中提出“高校要根据社会需求培养多种多样的专业型、复合型应用人才”[4]。2015年11月,教育部等三部委联合发文《教育部、国家發展改革委、财政部关于引导部分地方普通本科高校向应用型转变的指导意见》,文中提到要紧紧围绕“互联网+”等国家重大战略推动高校转型发展。这为普通高校统计专业的人才的培养指明了发展方向[5]。2016年,薛靖峰指出要培养学生结合统计方法独立解决实际问题的能力,必须增强学生的实践能力和动手能力[6]。2017年,任重指出要加强社会实践,让学生能够正式地参与到统计工作中去,将学校中学到的统计学知识和专业技能更好的融会贯通[7]。2018年,欧立松指出应用统计专业学生实践能力缺乏, 应该优化课程体系, 建立完整和相对独立的实践教学体系和模式, 这对于大学生择业、就业和创业具有重要意义[8]。但对于如何加强统计实践环节的教学,受限于数据资源和实验条件的限制,不同的高校有不同的方式方法。近年来,笔者所在学校通过组织统计专业学生参加“泰迪杯”全国大学生数据挖掘挑战赛,以赛促教、以赛代练,借助于校企合作强化实践教学环节的教学质量,显著提升了学生的数据分析水平和创新能力。
1 应用型统计人才需具备的能力
大数据的发展使得统计研究的对象不仅仅局限于数值型的数据,还包括文本型数据,以及声音、图片等多媒体数据。获取数据的方式也多种多样,有的可以从相关网站下载,有些需要从网页上爬取,对于特定研究目的数据还需要设计问卷从调查中得到。所以,大数据背景下,对于应用型统计人才的数据搜集、处理和分析能力也提出了更高的要求。通过参赛实践证明,教师可从数据收集、数据的预处理、数据可视化、数据挖掘等多方面加大教学力度和实践环节,指导学生提高处理海量数据、提炼数据价值的能力。所以,本文提出应用型统计人才可能应具备的能力如下:
(1)熟练使用数据分析工具python或者R语言对数据进行处理;
(2)了解大数据分析的流程:即分析的目的、数据的准备、挖掘模式的建立以及结果解释与评估;
(3)认识数据的类型:大数据背景下处理的数据主要包括数值型数据、字符与字符串、布尔值、时间性数据、空间数据、文本数据以及多媒体数据。掌握不同数据类型的处理方式。
(4)数据的探索性分析方法:获取数据之后,可以对数据进行探索性分析以了解数据集的结构、规律及性能。可通过检验数据的数据质量、绘制图表、计算某些特征量等手段对数据进行探索。利用數据探索性技术可帮助我们选择合适的数据预处理和建模方法[9]。
(5)数据的预处理方法:海量数据中可能存在噪声数据、空缺数据和不一致数据等不合理的数据问题。所以,为了得到较为准确的分析结果,在挖掘之前须对这些不合理的数据进行预处理。方法主要包括数据清理、数据集成和变换、数据归纳等几个方面。
(6)数据的可视化:将数据分析得出的结论以图形的形式展现,让用户清晰直观的感受其中蕴含的知识[10]。
(7)数据挖掘方法:主要的数据挖掘方法有属性筛选、分类预测、回归预测、聚类分析、关联分析和时间序列分析。学会基于挖掘目的,利用合适的挖掘技术对数据进行建模分析,并对模型作出评估和优化。
(8)掌握了编程技术以及数据挖掘的理论知识之后,还需增强处理具体行业实际问题的实践能力和应用能力,具备一定的商业思维。
2 应用型统计人才培养的契机
在应用型统计人才的培养过程中可能会遇到各种各样的问题,如师资力量薄弱,实验条件和实训平台缺乏,难以确定合适的教学内容以及相应的考核标准等。应用型统计人才是为应用而生,因此,这些问题的解决方案可以在挑战赛等实训项目的参与中进行探索。
“泰迪杯”数据挖掘挑战赛是为强化高校数据挖掘实践教学,培养学生数据挖掘的应用和创新能力的比赛。每年挑战赛的三道赛题均来源于企业或社会的实际需求,所提供的数据量大且真实。参赛者需要对数据进行挖掘并建模分析,并提交测试结果。通过参赛和赛后的案例教学分析,能够加深学生对统计知识的理解,显著提升学生的编程能力和数据分析能力。
3 应用型统计人才培养的几点意见
3.1 明确教学目标
应用型统计人才需具有坚实的应用统计学理论知识和数据分析能力,能够为实际问题的解决提供方法和思路,最终目标就是利用统计学的理论知识解决实际问题。依托数据挖掘挑战赛,将赛题看成是专业领域的小项目,以赛题待解决的问题作为数据挖掘的目标,以运用统计学理论知识解决实际问题为导向,从应用的角度掌握数据分析技术的应用场景和所能得出的结论,帮助师生调整应用型统计人才的学习目标。
3.2 调整教学内容
以大赛要求学生具备的技能对教学内容和课时安排进行调整。既注重数据收集、数据预处理、数据可视化、数据探索性分析、数据挖掘等理论知识的掌握,培养数据分析的思维方式;又强调学生对分析工具如python或者R语言的熟练使用;更强调实践能力和创新能力的培养,善于利用数据分析工具实现数据分析思维,并以实际例子加大对各种分析方法在实际应用方面的讲解。
3.3 引入案例教学
案例教学是连接理论与实践的桥梁,既能让学生快速理解各种方法的应用场景,又能让课堂生动有趣,增加学生学习的兴趣。
教师可选择与即将讲授的知识点相关的趣味小例子作为课程引入,引发学生学习兴趣。同时让学生带着相应的任务边思考边学习,一方面增加学生学习的主动性,另一方面让学生自主探索知识点的应用和应用中需注意的问题,提高教学参与度。
通过泰迪杯数据挖掘挑战赛,教师可以获得较为丰富的教学资源。因此教学中可借助大赛历届优秀作品,然后依据教学目的进行适当调整形成较为有趣的案例作为课程案例贯穿一系列知识点的教学,让学生直观地了解所学习的统计知识如何解决实际问题。学生还可自主动手实践,利用别人的思路或者尝试自己的思路去解决相关问题,从而加深对统计知识的理解和统计方法的应用。
3.4 利用教学工具
首先,充分利用互联网资源,如在线课程网站(慕课、泰迪云课堂)、博客、空间、微信等多种教学手段增加教学的信息量,扩大学生的视野。注重技能点的养成如:网络爬虫、数据可视化、非结构化数据(图像、视频、文本等)的基本处理等等。
此外,在没有编程基础的情况下,可借助泰迪公司自主研发的数据挖掘建模平台,以拖拉拽的方式。将数据分析的各个环节通过流程化的方式进行连接,就可实现数据分析和挖掘的目的。教师使用这个平台来教学不仅可以清楚地讲解数据挖掘的流程以及相关算法的原理,还可以借助于平台的示例模板个学生展示算法的应用场景以及一个完整案例的挖掘过程,并查看各步骤源代码。对学生而言,平台能在帮助他们更容易理解和接受数据挖掘,让学生对知识点有了更感性的认识,从而激发学生的学习兴趣。
3.5 校企合作的项目驱动式教学
高校培养的应用型统计人才需具有大数据统计分析、人口与社会统计、金融统计等相关领域工作的创新能力和实践能力。与泰迪公司建立校企合作平台,进行项目驱动式教学,有效促进理论与实践紧密融合,激发学生学习热情与主动性,培养学生综合实践能力,实现实践能力与社会发展需求接轨。
通过整合理论知识点以及专业需求,教师可以企业实际项目为依托,逐步引导学生分析和解决实际项目问题。一方面锻炼学生解决实际问题的能力,另一方面学生可以学习新兴的行业技术和应用方向来弥补课堂学习的不足,增加实习和就业的机会,补足实践能力和应用能力的短板,让学生从书本理论走向岗位实践,实现应用型人才培养与产业需求联动发展。
4 结语
大数据背景下,尽管应用型统计专业的人才培养工作会遇到了诸多问题,但是教师可以在挑战赛的引导下,探索培养社会需要的应用型统计专业人才的新思路和新方法,可尝试调整教学内容进行针对性教学,引入案例教学增加学习兴趣的同时加深对统计知识的理解和统计方法的应用,利用先进的教学工具扩大学生视野,了解前沿的理论和应用,增强校企合作促进理论与实践紧密融合,这不仅有助于培养适应社会发展需要的统计应用人才,还能提高统计专业就业率。
【参考文献】
[1]洪志生,秦佩恒,周城雄.第四次工业革命背景下科技强国建设人才需求分析[J].中国科学院院刊,2019,34(5):522-531.
[2]前瞻产业研究院.大数据产业发展前景与投资战略规划分析报告[R].北京:前瞻产业研究院,2018.
[3]金超.浅议大数据时代的统计课程设置及教学改革[J].科技经济市场,2015(04):234-235.
[4]叶飞帆.高校怎么向应用型人才培养转型[N].光明日报,2014-11-25(13).
[5]教育部,国家发展改革委,财政部.关于引导部分地方普通本科高校向应用型转变的指导意见(教发[2015]7号)[Z].2015-10-21.
[6]薛靖峰,张春梅.大数据时代下经济统计专业应用型人才培养模式研究[J].教育现代化,2016,3(22):7-8+11.
[7]任重.统计类专业应用型人才培养的教学模式改革与实践[J].现代经济信息,2017(08):429.
[8]欧利松.“互联网+”大赛视角下对应用统计专业人才培养的思考[J].才智,2018(32):153-154.
[9]张良均,云伟标,王路,刘晓勇.R语言数据分析与挖掘实战[M].北京:机械工业出版社,2015:20-40.
[10]尹勤,黄宝凤.大数据时代应用统计人才能力需求与教改探索[J].大学教育,2019(06):157-159.