APP下载

大数据时代数据挖掘与分析课程教学改革探究

2021-10-08杨秀璋武帅夏换周既松于小民范郁锋

计算机时代 2021年9期
关键词:知识图谱数据分析数据挖掘

杨秀璋 武帅 夏换 周既松 于小民 范郁锋

摘  要: 从理论知识、编程实践、工程实战三个方面对数据挖掘与分析课程进行教学改革。课程采用Python编程语言,围绕贵州省经济文化特色及大数据发展战略,充分运用大数据、数据挖掘、知识图谱等新兴技术来分析贵州省各领域现状,挖掘其内在价值。近三年的教学实践证明了该教学改革的创新性和有效性,培养了学生的大数据思维,为贵州省聚焦大数据战略行动贡献力量。

关键词: 数据挖掘; 数据分析; 教学改革; 大数据; 知识图谱

中图分类号:G420          文献标识码:A     文章编号:1006-8228(2021)09-107-05

Abstract: The teaching reform for data mining and analysis course is carried out on the theoretical knowledge, programming practice and engineering practice. Adopting Python programming language, focusing on the economic and cultural characteristics and big data development strategy of Guizhou Province, the emerging technologies such as big data, data mining and knowledge graph are made full use of to analyze the current situation of various fields in Guizhou Province and tap their internal value. The teaching practice in recent three years has proved the innovation and effectiveness of the teaching reform, and cultivated students' big data thinking, which makes contributions to the strategic action of focusing on big data in Guizhou Province.

Key words: data mining; data analysis; teaching reform; big data; knowledge graph

0 引言

如今大數据和人工智能技术飞速发展,人们在利用互联网快速自由地获取信息的同时,也面临着如何利用大数据技术解决实际问题,以及从海量数据中快速精准地获取用户所需信息的难题。因此,培养具有数据科学思维、实战能力较强的人才变得尤为重要。数据挖掘与分析、大数据技术及应用相关课程需要进一步改革,改革应更加注重理论知识、编程实践、工程实战三方面的结合,围绕地方经济文化特色及大数据发展战略展开。

当前,国内外高校对于大数据相关课程的改革有很多。张世杰[1]等针对园林专业研究改革的措施。高星[2]等运用行动导向教学方法对现有的高校计算机专业人才培养进行探讨。陈虹[3]、朱路红[4]、李永军[5]、林德丽[6]、刘群群[7]、蒋卫祥[8]、吴琼[9]、杨洋[10]分别从教学方法、教学理念、教学格局、创新思维等方面分析研究了相关课程改革。

现阶段大数据分析课程及数据挖掘依旧以理论传授方法为主,在校学生在完成数据挖掘理论课程之后,未能有效进行完整、系统的数据挖掘实战。针对这些问题,本次课程的教学改革提出了一种融合理论知识、编程实践、工程实战三块知识点的方法,结合贵州省大数据战略行动,围绕高校办学定位、本科人才培养模式,充分利用Python大数据分析、数据挖掘、可视化分析等技术,研究全国特别是贵州省各行各业实际需求,挖掘其数据的内在价值,从而提升学生的编程实战及大数据分析能力。

1 数据挖掘与分析教学改革框架

本次教学改革的课程为数据挖掘与分析、大数据技术及应用等相关课程,本课程的定位是大数据技术和数据挖掘入门课程,为学生搭建通向“大数据知识空间”的桥梁和纽带。整个实验教学框架如图1所示,包括四大模块。

⑴ 前期调研及分析。围绕理论知识、编程实践、工程实战三方面展开,结合贵州省地方经济、文化特色开展各领域、各行业的调研,结合数据挖掘算法知识和实际应用场景设计相关的分析方案。

⑵ 数据爬取和预处理。针对某领域或某行业的数据进行采集,调用Python爬虫模块采集相关数据信息。接着对存储的数值数据和文本数据进行数据预处理,主要包括数据清洗、异常值处理、中分分词、残缺值填补以及数值统计等。

⑶ 数据挖掘与分析。作为该类课程的重点部分,运用合理的数据挖掘或机器学习算法对行业数据进行有效的大数据分析。

⑷ 可视化分析及总结。为了更直观地体现数据挖掘和数据分析结果,通过调用Python语言的可视化模块或利用可视化工具进行分析。通过对各领域、各行业的实际分析结果的可视化呈现,进行对比实验和图表展示,最终给出相关的改进建议。

2 课程教学改革思路及创新

本课程主要基于数据挖掘与分析、大数据技术及应用讲解,其教学目的和任务是让学生掌握基本的数据挖掘方法,培养学生数据科学思维,并能应用数据挖掘与数据分析技术独立研究某个领域或行业的问题。整个课程围绕理论知识、编程实践和工程实战三方面展开,紧跟贵州省大数据战略行动,其教学改革思路及创新如图2所示。

2.1 理论知识与编程实践融合

通过理论知识与编程实践相融合来促进学生的编程兴趣,同时兼顾数据挖掘理论知识和编程实践能力。教学中强调以书本知识及实践案例操作为主,引导学生发散思维。一方面增强了学生的编码能力和大数据分析能力,另一方面课程通过设计大量有趣的案例實验。

本课程的教学内容如表1所示,共计16周的教学内容和大量的课后实验。包括大数据及数据挖掘基础普及、Python大数据分析简介及案例、Python基础语法及编程实践、Python可视化分析及编程实践、分类分析基础及编程实践等。综上,理论知识与编程实践的融合具有良好的创新性和实践性。

2.2 理论知识与工程实战促进

通过理论知识和工程实战(实验)相促进来培养学生的数据科学思维。整个实验考核围绕贵州省大数据战略行动,以分析全国或贵州省某领域或某行业数据为主,课程包括五次课程实验(学生独立完成)和一次期末大数据分析实战训练(小组协作完成)。

2.2.1 实验的基本目的

⑴ 紧扣大数据战略行动。让学生理解并掌握大数据分析方法的基本流程,涉及数据爬取、数据预处理、数据挖掘与分析、可视化分析等。

⑵ 搭建大数据桥梁纽带。应用“Python+数据挖掘+大数据+可视化技术”实现贵州省某领域的大数据分析实验,挖掘相关价值。

⑶ 创新大数据思维模式。结合“产、学、研”布置大数据分析实验,提高学生“四高四强”能力,为学生在大数据领域发展奠定基础及指明方向。

整个实验内容紧跟数据挖掘与分析理论知识,一方面提升学生的编程能力,另一方面让学生真正学会如何完成一个数据分析的产品,并应用到毕业设计、工作实践中,同时培养团队协作能力,获得属于计算机科学或数据挖掘领域的自豪。

2.2.2 核心知识

⑴ 数据挖掘知识。涉及聚类数据分析(K-Means、BIRCH)、分类数据分析(决策树、SVM、KNN、随机森林)、回归数据分析(逻辑回归、多线性回归)、LDA主题挖掘等知识。

⑵ 可视化技术。涉及WordCloud词云分析、PyEcharts可视化分析、Matplotlib绘图分析、Seaborn绘图分析、知识图谱及Gephi工具分析等。

⑶ 网络爬虫知识。通过调用Python网络爬虫包(Urllib、 BeautifulSoup、Selenium)抓取指定数据,并进行后续大数据分析实验,涉及数据采集、数据清洗、数据存储等知识。

2.3 工程实战与编程实践提升

通过工程实战与编程实践相互融合来提升学生独立运用大数据技术解决实际问题和深入领域知识挖掘的能力。整个实验包括5次课程实验和1次期末大数据分析实战训练。其中,大数据分析实战要求各小组结合Python数据挖掘与分析课程知识,立足全国或贵州省某行业的问题进行大数据分析与预测,内容包括需求分析、数据爬取、数据挖掘、大数据分析、实验对比和总结建议等,并且需要完成一次PPT分享和详细的课程报告。

整个分析的主题需学生自拟,近三年优秀的主题和实验包括:“贵州省大学生招聘就业信息分析与推荐”“贵州省农产品价格预测及特色产品推荐”“贵州省社交论坛数据实时抓取及舆情预警分析”“贵州省各市县区知识图谱构建及复杂网络分析”“贵州省黄果树瀑布景区数据分析”“贵州省少数民族文献知识挖掘与探究”“我国网络小说市场数据分析及可视化展示”“中国流行歌曲音乐数据分析及市场建议”等。

3 教学改革效果展示

该教学改革已执行于贵州财经大学信息学院计算机科学与技术、信息管理与信息系统、电子商务、软件工程等专业,涉及数据挖掘与分析、大数据技术及应用、Python数据挖掘等课程,并参加学校的教学范式改革和精品实验教学获优秀。教学改革大大调动学生的学习兴趣,同时与学生兴趣爱好相结合,进一步调动学生积极性。整体的教学和实验改革效果良好,一方面学生了解到贵州省大数据相关的技术及前沿动态,另一方面结合Python大数据分析编程实现了贵州省某领域或某行业的知识挖掘,有效推动了贵州财经大学本科教学聚焦大数据战略行动。

近三年来,同学们围绕数据挖掘和分析课程教学改革,采用Python和大数据分析技术对全国或贵州省某领域、某行进行了不同主题的挖掘,下面简叙其中三组学生实验成果。

3.1 贵州省校园招聘数据分析

该小组实验概述了大数据对大学生就业形势的作用,通过调用Urllib库爬取了贵州省校园招聘信息,设计并实现了词云技术、K-Means聚类、时间序列和回归算法对所爬取的信息进行分析,预测贵州省目前的就业形势,并通过可视化技术展现。图3展示了贵州省校园招聘的热门主题,可以直观地反映出贵州省校园招聘的热点主题词为“销售经理”“五险一金”“销售主管”等。

接着针对贵州省各地区的校园招聘分布情况,发现贵阳市招聘信息最多,约占据69.2%,其次是遵义市,约占据7.03%。针对采集的薪资数据进行时间序列和线性回归分析,并对最终结果进行了预测,绘制出图4所示时间和薪资分析图。

3.2 贵州省农产品主题挖掘与价格预测

该小组针对贵州省农产品价格和主题进行Python大数据分析,并实现农产品价格的可视化,简要分析其内在特点。首先对爬取的数据调用WordCloud绘制图5所示贵州农产品词云图。

词云图可以清晰看出贵州农产品中“南瓜”“大白菜”“香菇”为该段时间内的特色产品,并对采集的“白萝卜”价格数据进行可视化分析绘制出图6所示结果。大致看出,2018年近三个月最价格为1.6元,均价为1.22元。接着,针对三、四、五这三个月的“白萝卜”价格预测“白萝卜”价格平均增长率为58.73%。通过进一步分析预测贵州省最便宜的农贸市场及购买时间,并给出相关推荐。

3.3 全国民谣歌曲大数据分析实验

在新媒体的涌现下,歌曲传播方式发生变化,当下音乐曲种多种多样,民谣歌曲虽作为小众歌曲,却同样得到广大听众的喜爱。该小组针对这一现象采用Python数据挖掘方法对网易云音乐的民谣歌单进行分析,挖掘现阶段我国民谣发展现状、主流民谣情感趋向以及主题特征。

首先对民谣创作歌手的创作歌曲进行统计分析,绘制出图7所示民谣歌手Top20统计图。其中,评论数最多的三位作者是赵雷、陈粒和李志,并且赵雷的评论数量最多,占13.59%,共计1435701条,可大致看作最热门歌手,喜欢民谣的听众可优先选择他的歌曲进行试听。接着调用PyEcharts模块绘制民谣歌曲地区GIS热点地图,可直观看出民谣歌曲所描述的城市主要为北京、上海、丽江以及成都等。可大致推测民谣歌曲创作者热衷于以经济发展中心以及旅游城市进行相关歌曲创作。

再对采集的评论文本数据进行Jiebe分词,并结合LDA主题模型对出现的词语进行有关时光主题词进行统计分析,绘制图8所示漏斗图。可直观看出,民谣在创作过程中热衷于“明天”的描述,共计占据48.24%,可以大致看出民谣创作歌手对未来还是充满希望的,寄托着创作者对未来的情感,同时也表达了对未来的期待,是一种积极的讯号。该小组通过可视化技术和文本挖掘算法详细分析中国民谣歌曲,具有一定的应用价值和创新意义。

4 结论

本次面向理论知识、编程实践、工程实战的数据挖掘与分析课程教学改革探索,通过采用多种教学方式融合,让学生能够深入了解数据挖掘、大数据分析、Python编程知识,并完成相关实验案例,让同学们深入体会到使用机器学习算法进行数据分析的现实意义,从而提高學生实际动手操作能力,培养数据科学思维。通过展示三组学生作品,可以看出课程教学改革效果显著,学生能够应用课程知识对某领域或某行业进行系统的数据挖掘与分析实践,从而挖掘出数据潜在的联系和价值。

本次实验教学改革,紧扣贵州大数据战略行动,让学生理解并掌握大数据分析方法的基本流程。同时应用“Python+数据挖掘+大数据+可视化”技术实现贵州省某领域或行业的大数据分析实验,挖掘相关价值,进一步搭建大数据桥梁纽带。通过结合“产、学、研”大数据分析实验,提高学生的“四高四强”能力,为学生在大数据领域“深耕细作”奠定基础和指明方向。总而言之,这是一种创新大数据思维的培养模式。

然而,由于本次实验教学改革主要以青年教师为主,可能会存在一定程度上的经验不足。该课程教学改革成员在后期需要多跟教学经验丰富的教师进行学习交流,从而提升教师自身的教学能力。

参考文献(References):

[1] 张世杰,刘沛.基于3D打印、VR虚拟现实技术应用的《园林计算机辅助设计》教改探讨[J].教育教学论坛,2019.49:92-94

[2] 高星,曹丽君,耿清甲.高校计算机教改中行动导向教学法的运用探析[J].创新创业理论研究与实践,2020.3(3):67-68

[3] 陈虹.混合式教学法在计算机教改中的具体应用[J].计算机产品与流通,2020.9:249

[4] 朱路红.信息化背景下的高校计算机教改初探[J].中阿科技论坛,2020.5:194-195

[5] 李永军.大数据背景下计算机应用基础教改思考[J].湖北开放职业学院学报,2019.32(13):141-142

[6] 林德丽,白二净.计算机科学与技术专业教改的研究[J].智库时代,2019.37:277,280

[7] 刘群群.基于应用能力的高职计算机网络技术教改分析[J].南国博览,2019.3:91

[8] 蒋卫祥.基于创新能力培养的计算机网络课程教改研究[J].青年与社会,2018.36:111

[9] 吴琼.基于编程能力提高的计算机教改实践[J].电脑知识与技术,2018.14(29):137-138

[10] 杨洋.信息化背景下的高校计算机教改探究[J].科技资讯,2018.16(20):190-191

猜你喜欢

知识图谱数据分析数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究