基于关联分析算法的高校学风建设模型研究
2021-01-14杨子天温上海
杨子天 温上海
摘 要:学生在校期间产生的数据,可用以分析和挖掘与学风建设有关的因素,并有针对性地对学生加以引导,从而提升高校在学风建设和管理方面的成效。在高校智慧校园建设的基础上,通过基于关联分析模型的数据挖掘方法,对高校一卡通、教务信息系统、学生工作数据等多个源渠道的数据信息进行分析,为高校的学风建设提供精准的技术支撑和决策辅助。
关键词:数据挖掘;关联分析;学风建设
中图分类号:TP311.13 文献标识码:A文章编号:2096-4706(2021)14-0127-03
Abstract: The data generated by students in school can be used to analyze and mine the factors related to the construction of study style, and give targeted guidance to students, so as to improve the effectiveness of the construction of study style and management in colleges and universities. Based on the construction of wisdom campus in Colleges and universities, through the data mining method based on association analysis model, this paper analyzes the data information of multiple source channels such as college all-in-one card, educational administration information system and student work data, so as to provide accurate technical support and decision-making assistance for the construction of study style in colleges and universities.
Keywords: data mining; association analysis; the construction of study style
0 引 言
高校學风建设是高校办学目标中的重要内容之一,是体现高校办学质量的重要所在。大数据技术的快速发展,使得高校各项工作都得到很大提升。高校学风建设可以借助信息技术发展的红利,改变以往通过学生学习成绩和课堂上的表现来制定学风建设方案的模式,提升对学生、学院、学校学习风气的把握,针对性地制定学风建设方案,使高校办学质量进一步精进。传统模式下,高校在制定学风建设方案时往往借助以往经验和学生成绩,这种方式会忽略一些很难直观发现的问题和影响学风的因素,也会忽略高校所产生的大量有价值的信息,如一卡通、教务、学工等各业务系统产生的数据。
为了准确掌握学校学风情况和针对性调整学风建设方案,各高校都在研究如何使用大数据技术和挖掘技术来解决学风相关信息获取和决策的制定问题,如使用Apriori关联规则算法、BP神经网络算法、贝叶斯分类算法、K-Means聚类算法、SVM(支持向量机)等算法模型获取影响学风建设的因素和学风建设效果。本文采用Apriori关联规则算法获取影响学风建设的因素。Apriori是挖掘频繁项集中最常用、最经典的算法,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。在一个数据集中找出项之间的关系,比如学风优良的学生中有40%的学生可能每周去图书馆两次及以上。
1 基于Apriori关联规则算法的关联模型
Apriori算法是经典的用于关联规则和挖掘频繁项集的挖掘算法,也是最经典的数据挖掘算法。Apriori算法利用逐层搜索的方式找出数据项集中的项集关系,形成规则,主要方式包括连接操作和剪枝操作。关联规则的挖掘主要分为两个过程:找出所有的频繁项集(支持度大于最小支持度的项集,即频繁项集),由频繁项集产生关联规则(规则必须满足最小支持度和最小可信度)。
在挖掘频繁项集的过程中,关联规则必须满足最小支持度(min_sup)和最小可信度(min_conf)即S(A→B)>min_sup且C(A→B)>min_conf支持度和可信度的计算公式为和。
1.1 学风建设相关因素特征的选择和提取
学风建设是高校发展的重要因素之一,根据本校学风建设情况,课题组构建了科学、全面的关联模型,遵循客观、科学、全面、可行的原则,确定了模型所需的各项指标数据,如表1所示,其中包括学生基本信息、课堂考勤、消费数据、上网统计数据、图书馆数据等。
本次采集的数据来自于2019级大二某专业学生共71人(已去除留级、休学、入伍等情况导致数据不全的学生),截至2021年7月,学校已完成成绩登记和统计工作,所以以2019级该专业大二学生整学年的数据作为数据挖掘的数据集。由于本次关联分析的因素大部分为分类变量,所以本次数据预处理时需要进行大量的统计以及将数值数据合理转化为分类数据的计算。如图书馆借书量,大部分学生都少于五本,所以将0本到3本分为A到D档,4本及以上为E档。在计算周消费金额时,采用Min-max Scaling方法,公式为,其中X为各分类变量值,Xmax为变量值中的最大值,Xmin为最小值,这样所有的变量值都分布在0和1之间,然后均匀地将区间分为5份,对应于A到E。原始数据如图1所示,数据中有些学生某一项数据为空,则用0或者对应等级代替。
1.2 算法计算与分析
通过数据挖掘软件,引入Generate Transaction Data部件、apriori部件、Create Association Rules部件,模型如图2所示,按照实际需求调整参数进行挖掘。根据数据特点和挖掘内容对min number of itemsets频繁项集的最小个数、max number of retiries最大尝试次数进行设定。
通过apriori算法对某一专业学生的基本信息和行为数据进行关联挖掘,得到与学生学业成绩相关的部分因素,如表2所示(因挖掘二元频繁项集过多,根据实际需求进行了删减)。
从挖掘结果和因素表中可以发现,绩点高学生(N=A)的成绩与很多因素有关。例如地区为中东部、民族为汉族学生绩点高的概率更大,主要是因为中东部地区教育更发达,且该专业中汉族人数众多,所占比例高达97.2%。除一些根据常识即可获取的知识外,挖掘中还有跟想象中不同的额外知识,可供学校用来把握学风建设,引导学风风向。如第四条,成绩优秀的学生,日均上网量属于第二档,平均每天上网时间在三个小时以上。
1.3 算法应用与拓展
在大数据时代背景下,通过数据挖掘技术挖掘学风建设相关信息促进学校学风建设,引导学生养成良好的学习习惯获取想要得到的知识,但却无法形成长效机制。通过学风建设平台提供学生学习和行为数据的可视化与挖掘分析,可为教师在引导和教育学生上提供所需数据和决策依据,建立起长效机制。平台作用的发挥来自于学生校园行为大数据,而数据的采集则来自于软硬件的结合。图3为学风建设管理平台,当前显示页面为学业特征。
首先,根据不同数据源提供的数据格式,采用不同的采集方式。对于定时抽取的且数据库开放的批量数据源,采用ETL进行数据的初始化,通过脚本调度+ETL组合的方式,采集定期批量更新的增量数据;对于实时流式数据,定义源数据通讯的数据报文格式,采用kafka+zookeeper+MQ组合技术,采集实时的流式数据,以消息服务方式传输至中心;对于网页数据,则采用网络爬虫技术,定期抓取目标网址的文字和图片等内容;对于电子类数据(如文档、图片等),采用socket接口分类定义不同的模板,获取电子化数据。其次,数据采集服务以集群方式部署,采用keeplived+LVS技术,支持多任务并发,自动负载均衡,支持大数据量的抽取转换处理。
通过数据可视化、图形化的方式呈现学业行为数据和预测结果,为学校对学生进行学风把握以及进行精准化的学风管理与引导提供重要依据。平台展示如图3所示,通过汇聚海量行为和学业数据,对其数据进行多维度建模(认知模型、加权模型、一分四率模型、离均值模型、进步率模型、偏科模型等)和跟踪,以图形可视化方式呈现教学和学业数据的分析结果,为教师发现问题、肯定优势、改进教学以及为学生的学习指明了方向;为校长及时发现问题,掌握动态教育发展规律、推动教育改革,实现素质教育管理与决策提供量化数据依据。
2 模型应用与效果
本次关联分析模型,采取学生基本信息、一卡通数据、上网时长统计数据和教务成绩数据,通过数据清洗和预处理,从数据中提取20个特征点,通过传统和主成分分析等方法,采用其中14个主要特征点,将数据引入关联分析模型中,得到与绩点相关的频繁项集并从中获取知识,符合对该模型的预期。通过该模型,可以对学生的学业等相关数据进行汇总,分类展示,获取成绩对比、排名、选课统计等直观数据可视化,挖掘分析知识形成互补,方便学校从学生、班级、专业、学院等角度做出学风建设相关决策。
3 结 论
引入新兴技术包括大数据和信息技术,打造智慧校园框架体系,辅助高校学生管理。在高校智慧校园建设的基础上,综合利用高校一卡通、教务信息系统、学生工作数据等多个源渠道,基于数据挖掘方法,为高校在学风建设上提供精准管理的技术支撑和决策辅助。通过完善学风建设平台的建设,其提供的精准化管理、精准化服务,并不是针对个人而设计,而是对不同场景、不同群体,包括毕业生群体,大一新生群体等提供分类精准化服务。根据普适性学风建设平台和大数据挖掘技术,可以准确把握高校学风状态,及时对学生予以教育和引导。
参考文献:
[1] 白娟.基于大数据分析的学风建设以及学生管理工作探析 [J].无线互联科技,2020,17(9):74-76.
[2] 曹阳,张小恒.数据挖掘在学风量化评价中的应用 [J].科學咨询(科技·管理),2018(8):85.
[3] 王宁,孟倩玉.基于学风数据分析的高校学生学风建设对策研究 [J].同行,2016(5):136.
[4] SRIDHAR R S,PRASAD M V N K,BALAKRISHNAN R. Spatio-Temporal association rule based deep annotation-free clustering(STAR-DAC)for unsupervised person re-identification [J].Pattern Recognition,2021,122:1082-1087.
[5] 王晓翠,高雅奇,苏亚萍.大数据助力高校学风建设研究——以北京第二外国语学院为例 [J].信息技术与信息化,2021(2):205-207+212.
作者简介:杨子天(1984.07—),男,汉族,江苏连云港人,实验师,硕士,研究方向:计算机技术、信息系统;温上海(1991.02—),男,汉族,江苏徐州人,工程师,硕士,研究方向:数据挖掘、信息系统。