以小见大,挖掘数据价值
——《网络购物平台客户行为数据分析》项目学习案例
2022-10-27宋佳音卜彩丽河南师范大学
宋佳音 卜彩丽 河南师范大学
在信息化时代的今天,大数据不仅用于数据分析,还应用在教育领域中的精准教学。随着“核心素养”时代的到来,“以德为先,全面发展,因材施教,综合评价”的教育理念逐步深入人心。大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。利用大数据,对教育领域内的信息进行挖掘,通过对这些数据的针对性挖掘与分析,构建起学生生涯发展规划平台,着眼于学生的主体性作用,能充分发挥学生的主动性,更有效地帮助学生进行升学规划,提高考生升学优质率。因此,笔者以“网络购物平台客户行为数据分析”为项目主题,以项目学习活动为途径,开展自主、协作、探究学习,让学生了解数据采集、分析和可视化表达的基本方法,理解随着社会数据量和个人数据量的增大,选用恰当的软件工具或平台处理数据、发现信息,已逐步成为人们解决问题的一种重要方式。笔者还通过对数据和大数据进行采集、存储、处理,以及从中发掘有价值的信息等过程,让学生全面了解数据与计算的重要意义,从而提升学生的信息素养。
● 项目简介
情境:目前我国网购商品规模不断扩大,由此产生大量的网购商品数据。这些数据存在一些规律,通过对这些数据的采集、分析,就可以找到数据之间的内在联系。在商业活动中,这些数据可以为商业决策提供数据支持,由此产生更大的经济效益,所以网络购物平台的商品销售数据是一个巨大的商业宝藏。
项目主题:网络购物平台客户行为数据分析。
目标分析:通过“网络购物平台客户行为数据分析”项目,组织学生进行自主、协作、探究学习,让学生认识大数据及其特征,理解数据对日常生活的影响,了解数据采集的基本方法及其对数据保护的意义,能够在杂乱无章的数据中,运用数字化的工具和技术分析数据,并学会选用恰当的工具实现数据的可视化表达,以便更好地理解数据。学习过程将知识建构、技能培养与思维发展融入运用数字化工具解决问题和完成任务的过程中,促进本章对应课标的学科核心素养水平的达成,完成项目学习目标。
项目目标:通过项目的完成,认识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采集、分析和可视化表达的基本方法;学会选用恰当的软件工具或平台处理数据,完成分析报告;理解对数据进行保护的意义,从而实现项目学习的目标。
工具和方法:利用思维导图工具和“头脑风暴”的方法组建团队、明确任务;采用Python语言和数据分析方法等实施探究。
● 项目活动设计
活动1:认识大数据
通过查找资料、学习和交流,了解大数据的概念,理解大数据的特征,明晰传统数据与大数据的区别,知道大数据对日常生活的影响。
任务一:什么是大数据?大数据的特征有哪些?传统数据与大数据有何区别?数据可视化的定义是什么?数据可视化的特征有哪些?
给学生5分钟的时间完成任务一,通过查阅教材和小组内交流明确大数据、大数据的特征、传统数据和大数据的区别、数据可视化的定义和数据可视化的优势。每个问题选择一个小组进行提问,根据提问的结果进行适当的解释和补充说明:①大数据的概念及其特征;②数据可视化及基本特征。
任务二:数据可视化的目标和作用有哪些?数据可视化呈现的类型有哪些?你能从网上找出一些数据可视化图片或视频吗?说一说它们属于哪一种类型?
给学生3分钟的时间完成任务二,通过查阅教材、互联网搜索、小组内交流等形式让学生理解数据可视化的类型,并能从互联网上找到数据可视化的图片并进行分类。教师提问2~3组,并根据回答情况进行补充说明。
(1)数据可视化的目标和作用。数据可视化与传统计算机图形学、计算机视觉等学科方向既有相通之处,也有较大的不同。数据可视化主要是通过计算机图形图像等技术展现数据的基本特征和隐含规律,辅助人们认识和理解数据,进而支持从数据中获得需要的信息和知识。数据可视化的作用主要包括数据表达、数据操作和数据分析三个方面,这三个方面即以可视化技术支持计算机辅助数据认识的三个基本阶段。
(2)数据可视化呈现的类型。大数据可视化可以让人们快速抓住要点信息,让关键的数据点从人们的眼睛快速通往心灵深处。从常用和实用的维度来看,大数据可视化的呈现类型主要分为探索和解释两种不同的类型。探索类型帮助人们发现数据背后的价值,而解释类型则把数据简单明了地解释给人们。处理数据类型不同,可视化呈现的主要方式也不一样,具体如图1所示。
图1
(3)数据可视化流程。数据可视化是对数据的综合运用,包括数据采集、数据处理、可视化模式和可视化应用四个步骤。
活动2:确定项目数据需求
通过查找资料、学习和交流,了解数据采集的基本方法和常用工具。根据选定的项目主题,确定项目的数据需求,列出数据采集清单和内容大纲。
教师提供采集上网行为管理系统数据基本操作指引微课。引导学生了解数据采集的基本方法和常用工具;以项目范例为例,引导学生对项目问题进行抽象与建模,确定项目需要利用爬虫程序从淘宝网—实惠热卖—零食类别中采集一份包括商品名称、店铺名称、商品价格、商品销量的数据(taobao.xls),需要利用爬虫程序从淘宝网—实惠热卖—零食类别中采集一份包括商品价格、商品销量、商品评论的数据(sale_sample.csv),需要从店铺后台或手工采集一份店铺销售订单数据(orders.xls,包括每个订单卖出商品的名称),为本项目的数据采集具体实施做好准备。
学生通过学习和交流,借助学习资源,了解系统日志采集法及其它数据采集法,并对小组项目问题进行抽象与建模,小组结合本组选题,分析和确定本组项目的数据内容需求、数据来源、采集方法和工具以及数据保存形式。
数据采集的基本方法包括日志采集法、网络数据采集法和其他数据采集方法。
活动3:采集数据
通过学习、交流、探究和实践,结合本小组选题,了解Python第三方库的安装及使用,了解搭建本地服务器,体验爬虫程序,使用爬虫程序采集网络数据。
教师提供项目范例中的Python程序代码,提供有关第三方库模块安装与使用、Xampp搭建本地服务器、爬虫程序采集网络数据的基本操作指引(或微课)。指导学生安装Python第三方库、运行正弦函数程序,了解第三方库的使用方法;指导学生安装、运行Xampp,启动本地Web服务;指导学生安装chrome浏览器,体验采集本地Web服务器数据,使用爬虫程序从淘宝网—实惠热卖—零食类别中采集一份包括商品标题、店铺名称、商品价格、商品销量的数据,保存文件为taobao.xls,为本项目的数据分析做好准备。
学生通过学习、交流、探究和实践,借助学习资源,体验安装第三方库、利用第三方库绘制正弦函数,体验搭建本地Web服务器,运行爬虫程序采集本地服务器数据,修改爬虫程序代码采集网络数据。程序和绘制结果如图2、图3所示。
图2
图3
活动4:数据的存储和保护
通过查找资料、学习和交流,了解数据存储的方式、数据保护的方法和意义。
教师提供数据的存储和保护基本操作微课,引导学生了解数据存储的方式、数据保护的方法和意义。
学生通过学习、交流、探究和实践,借助学习资源,结合本组选题,创建数据库,利用程序发现和处理缺失值、处理异常数据、绘制直方图,观察数据的分布特征。
活动5:词云图
介绍本课使用的在线词云图绘制的网站“易词云”(https://www.yciyun.com/)的功能,详细展示词云图制作的步骤(选择模板、导入数据、选择字体、调整背景、生成词云等),学生动手操作。
活动6:Python语言生成词云图
讲解Python语言生成词云图的方法和具体步骤,并对代码部分进行详细分析。通过Python词云图代码,演示Python编程的编辑和运行过程,让学生上机操作,利用Python语言生成词云图。
● 总结与反思
本文通过项目式学习让学生了解了数据的处理和可视化表达,利用书本上的例子,逐一进行探究。由于对Python编程不熟练,教学中出现了一些问题,如过程不是很连贯、项目的实施不是很充分、最后对项目缺乏有效的评价等。学生对Python编程学习还是有难度的,仅仅利用上课时间来学习是不够的,在以后的教学中,教师应该进一步深化对项目式学习的理解和探究,多积累项目式学习的实践经验。