大数据背景下用户行为数据分析课程教学改革研究
2022-03-05李忠霖
李忠霖
(武昌工学院,湖北 武汉 430065)
1 引言
基于大数据技术的用户行为数据分析,通常涉及网络数据信息收集、机器学习分析、数据可视化等的执行流程,要求学生具有软件编程基础,且能够熟练使用Python爬取软件工具、R统计应用软件。这一情况下,对于数据分析课程的教学改革与创新,也要引入有关大数据技术、Python用户数据抓取工具,进行现有课程教学情境、教学理论与实践内容、交互实践教学流程的革新,带领学生深入到某一用户行为文本挖掘、数据分析、可视化呈现的学习之中,进而提高学生的数据爬取、分析与展示呈现能力。
2 网络用户行为的表现形式及数据类型
2.1 用户行为表现形式
大数据、云计算、互联网通信技术的迅猛发展,使得网络内部出现多种多样的用户行为数据信息,也为不同类型用户数据的深度挖掘、价值利用带来巨大机遇。当前对于用户行为数据的采集、整合与分析,通常围绕着与用户相关的网络平台展开,对电子商务、门户网站、社交媒介的用户行为数据,进行某一类别用户数据的爬取、筛选、整合与存储[1]。
从多源化用户行为数据爬取的角度来看,用户对网络数据资源的获取、查询、交流、传播、加工和利用等行为,通常有两种表现形式:一是对网络资源的检索、查询、浏览行为,即用户根据自身的业务、服务需求,作为游客或登录至网络平台,在不同功能模块开展信息浏览、查找等操作行为;二是对网络平台资源的复制、粘贴、修改、下载行为,在外部用户获得访问或管理权限后,可下载自身需要的数据信息,或对网络平台的数据信息、功能服务资源,作出复制、粘贴、修改等操作行为。
2.2 网络用户行为数据类型
基于Python语言编写的Scrapy网页应用程序框架,通常包括爬虫(Spiders)、爬虫引擎(Scrapy Engine)、调度器(Scheduler)、下载器(Downloader)等组成结构,可针对海量化的网页数据、用户行为信息,进行用户任务请求处理、关键数据信息爬取[2]。
在Scrapy框架、Redis数据库工具支持下,可在同一时间段内抓取任务请求数据,统计与提取丰富的数据类型,包括list、hash、string、sets、sorted sets等数据类型,支持不同数据集合或列表的交集、并集操作。当前对于网络用户行为的不同数据类型搜集与分析,存在着任务请求响应、数据流资源处理、网页或网址爬取、数据信息抓取、数据存储等执行流程。
3 当下网络用户行为数据分析课程教学存在的问题
3.1 缺乏以用户行为数据融合与利用为主的教学理念
由于数据分析课程在整个专业教学中所占的比例较小,教师通常并未建构起系统化的数据分析教学理念,会忽视对用户行为数据的采集、融合与利用教学[3]。如以校内图书馆用户行为的数据分析教学为例,在对学生用户行为的数据信息采集、整合与分析过程中,由于不同学生的数据访问、操作行为具有分散性、实时性的特征,使得数据分析课程教学只是针对某一个或一类的用户行为数据,进行行为数据类型、数据内容、数据特征的分析教学,而缺乏对多源用户行为数据的融合、利用教学,致使大量“高价值”的数据信息难以得到充分应用。
3.2 数据分析课程缺少以学生为中心的教学情境创设
现阶段数据分析专业课程的组织设置,通常缺少以学生为中心的教育理念,也很少设置出某一类用户行为数据分析的教学情境。首先在课前阶段,高校教师极少关注不同学生的自主学习情况,包括很少解学生对网络用户数据爬取、分析与存储的技能掌握情况,只是依据课程教材大纲、单元知识内容的设置要求,进行课程教学资源整合、用户行为数据分析的“讲授”教育。
之后对于数据分析课程的教学情境创设,也很少引入课外电子商务、门户网站、社交媒介等渠道的用户行为数据,建立以数据爬取、分析为主的教学情境,使得数据分析课程教学的形式化严重、实践应用性不足。
3.3 用户行为数据分析课程内容、教学方式单一陈旧
在数据分析课程的组织与教学实施中,应围绕X、Y等多个主成分变量,进行用户行为数据信息的采集、整合与分析。但当下用户行为数据分析的课程教学活动,通常只针对Python语言、R语言的网页应用程序汇编语言,向学生讲解网页数据信息的爬取、检索与整合分析流程,而缺少用户行为原变量数据X、主成分数据Y的教学资源引入,很少进行系统化的Eviews或STATA软件应用、主成分数据分析教学。
另一方面,从数据分析课程的教学方式来看,其很少结合用户的实际生活、工作行为数据,采取分类问题分析法、聚类分析法,使用SPSS统计与分析软件、Matlab仿真软件,对不同时间段、不同类型的用户行为数据进行分析教学,导致数据分析课程的系统化、层次化不强,不能保证学生对用户行为数据的自主搜集、处理与分类分析。
3.4 数据分析课程缺乏交互实践教学、客观教学评价
用户行为数据分析作为多元统计课程的组成内容之一,既要求学生利用Spiders、Scrapy Engine等数据资源爬取工具,进行用户数据的搜集与挖掘,还要求学生使用SPSS、STATA、Matlab等软件工具,进行用户行为数据的分析、结果呈现,但部分高校缺乏数据分析课程的交互实践教学安排、教学流程设置[4]。
当前多数高校数据分析课程的教学,仍旧采取用户数据搜集原理分析、教材实例解析的“讲授式”教学方式,对学生进行用户行为数据分析的教学,却很少设置校内实训室、校外实践应用基地,教师也并未针对具体问题进行一对一、一对多的交互指导。
此外,在数据分析课程教学评价方面,过于注重教学任务、应试考试成绩等的结果性评价,忽视对教师课堂教学情境创设、演示与实践教学的过程性评价,以及学生项目案例讨论、数据挖掘与分析技能、分工协调能力的评价,不能反映出教师实践教学、学生专业技能学习的真实情况。
4 大数据背景下用户行为数据分析课程教学改革的创新策略研究
4.1 建构数据分析课程“课岗对接”项目式教学理念
随着大数据、云计算技术的迅速发展,对高校内部业务、社会企业生产经营中的用户行为数据分析,成为高校服务体系建设、企业产业发展关注的重要问题。“课岗对接”是指根据数据分析专业学生就业岗位需求,构建服务于融岗位工作要求、行业要求及学生职业发展于一体的课程内容体系。在这一人才培养理念的指导下,教师对学生的用户行为数据分析课程教学,要遵循课岗对接化、项目化教学原则,设置初级、中级、高级的模块化课程教学知识体系[5]。
其中,初级模块围绕SPSS、STATA、Matlab等软件,以及Spiders、Scrapy Engine等数据资源爬取组件工具的安装与运行,讲解软件的安装、存储及管理的操作方式,以及讲授用户行为任务请求管理、数据资源爬取、数据类型统计、carbon缓存存储的执行流程。中级模块主要针对用户行为数据的变量信息,设置有关X(Y)的主成分变量、假设检验、回归分析、方差分析内容,讲解具体项目案例的数据分析方法。高级模块则包括分类问题分析、聚类分析、因子分析等教学内容,讲解金融或贸易交易、电子商务、社交媒介中存在的用户行为数据变化情况,包括输入/输出的数据变动、资源浏览与调用情况,可充分保证“课岗对接”的项目式教学效果。
4.2 创设以学生为中心的数据分析课程教学情境
网络用户行为数据的爬取、分析与存储教学,通常涉及数据自动化采集、读取与清洗的爬取流程,因而可根据数据爬取与分析的业务,创设符合学生认知的问题导向式、交互式教学情境。
如针对分布式网络用户行为抓取系统的建构,教师可设置问题导向为主的教学情境:“ScrapyTwisted、Scrapy-Redis、Graphite等组件,在Scrapy网络爬虫框架系统中起到什么作用?”“用户行为数据爬取的采集,处理、储存流程是如何实现的?”在此基础上,引导学生参与到网络新闻的用户评论、转发、收藏行为爬取中,使其学习数据字段爬取、字符转码、清洗、分类、分割、对象添加、存储的操作流程,完成不同类别用户行为数据的爬取、分析与存储工作。
4.3 创新用户行为数据分析教学内容、教学方式
在“课岗对接”人才培养目标的指导下,对于数据分析课程的教学内容组织设置,以及学生自主探究、教师演示与实践教学方式的创新,成为提高数据分析质量、对接企业数据分析与管理需求的重中之重。[6]因此,要以用户行为数据分析的项目案例为主,创新与完善现有的课程教学内容、教学引导和指导方式。
首先根据不同网站、社交媒介的业务及服务需求,以项目服务为导向搜集相关的用户行为数据信息,按照数据分析的教学与技能要求,设置出系统化的课程教学内容,具体如表1所示。其次,对于用户行为数据分析的教学方式创新,依托于慕课、微课、翻转课堂等网络线上平台,加强在线演示、项目交互实践的引导教学,一是设定课程实践案例的思维导图,按照思维导图完成不同场景下的分析流程构建,如“电子商务用户行为数据分析”的课堂教学中,设定“Navicat可视化软件安装——用户行为数据.csv文件导入——新建数据字段表——数据清洗与筛选——行为数据比较、用户商品偏好和交易流程分析”的思维导图,辅助线上课程教学;二是采取分类问题分析、聚类分析、因子分析等方式,使用具有相关性的公共因子,描述多个随机变量之间的关系,实现对多种用户行为数据的统计、比较分析。
表1 用户行为数据分析的系统化课程教学内容设置
4.4 注重课程中师生交互实践、科学客观教学评价
用户行为数据分析课程教学质量的好坏,在于教师是否根据学生学习情况、企业实际需求,设置出一系列典型的用户行为数据分析项目。在这一实践应用人才培养要求下,教师可针对具体的用户行为数据分析项目,设置数据特征分类、整理、分析、共享与存储的教学模块,不同模块使用相对应的软件或组件工具,对学生进行用户行为数据的采集、筛选、分析、存储管理教育。如在Web网页的用户行为数据爬取教学中,教师可先向学生提出“网页链接域名解析、网页数据下载、消息列表数据提取、url去重过滤、网页链接数据下载、爬虫继续抓取”等的用户行为抓取流程。
然后提出问题:“如何使用URL下载特定的网页,抓取网页的用户行为内容?”随后引导学生利用数据特征分类、整理、分析、共享与存储等的教学模块,完成“种子URL抓取——将已下载URL放进抓取URL队列——抽取新的URL放入待抓取URL队列——读取URL DNS并解析网页用户行为信息——存储数据信息至网页库”。教师指导学生绘制用户行为抓取的工作流程,解答学生的疑惑问题,并要求其将软件抓取的数据信息,存放至数据库共享模块。
同时在用户行为数据分析课程教学评价上,应结合教师情境创设、演示实践教学活动,以及学生数据分析实践、作业测验情况,作出课前、课堂与课后的全流程教学(学习)评价,包括学生SPSS、STATA、Matlab的软件使用技能评价,不同项目数据类型统计与提取、Python用户数据抓取、用户行为数据比较的业务执行评价,设定A级(优秀)、B级(良好)、C级(一般)、D级(较差)、E级(极差)五个等级,完成对不同课堂环节的评价打分,进而保证用户行为数据分析与课程教学目标、企业信息需求之间的对接。
5 结语
数据分析课程属于计算机科学与技术专业的主要课程之一,往往针对特定学生的专业要求、数据分析需求,由教师组织相关的课程教学知识体系,开展用户行为数据分析的系统化课程教学。大数据环境下用户行为数据分析课程教学,需要依托于慕课(MOOC)、微课、翻转课堂的网络在线平台,根据不同学生的思维认知、数据分析学习状况,设置出符合学生认知的问题导向式、启发引导式教学情境,创新课程教学内容、交互实践教学方式,引导学生进行数据字段爬取、字符转码、清洗、分类、分割、对象添加、存储的不同环节的操作实践,可达成用户行为数据分析的项目实践、问题交互指导教学目标。