数据挖掘技术在中职学生信息系统中的研究与实践
2022-07-26冯爱平
◆冯爱平
数据挖掘技术在中职学生信息系统中的研究与实践
◆冯爱平
(甘肃省定西市渭源县职业中等专业学校 甘肃 748200)
计算机网络技术、数据库的发展,都较好地适应了人们数据采集的客观需求。海量数据中的知识、规律等,成为了指导生产生活的重要潜在资源,推动了数据挖掘技术的产生。数据挖掘技术与中职学生信息系统的结合,成为学校争取高质量生源、维护学校发展的重要手段,为教育主管部门制定决策的重要参考依据。本文主要分析了数据挖掘概况、中职学生特点、挖掘学生信息的积极作用、数据挖掘学生信息方法,希望能够为相关工作提供借鉴。
数据挖掘技术;中职学生;信息系统;研究;实践
1 数据挖掘概况
1.1 含义
数据挖掘,是集中人工智能、数据库、统计学、机器学习等学科的专业优势后,发展成的新型技术,数据采掘、数据发掘都代表了相同的技术;同时存在数据分析、模式分析、决策支持、知识抽取等相近术语。数据挖掘,是以数据仓库、数据库、各类信息库为基础,充分挖掘大量数据中的有趣知识的这一具体过程。数据挖掘从狭义上,只代表了KDD中的基本步骤;而广义上,数据挖掘即揭示数据库信息全过程,隐含的、未知的、潜在的信息内容都包含在内。
1.2 过程
数据挖掘具体分为确定对象和目的、准备数据、挖掘数据、分析结果四个环节,其中数据挖掘的对象、目的是关键性环节,尽管存在挖掘结果的未知性,但是需要首先明确挖掘对象和目的。准备数据包含三大过程,数据选择、预处理、转换。数据选择,是筛选挖掘对象中的数据信息,从中找出关系到挖掘目标的数据集。数据预处理,就是筛查数据挖掘的全过程。数据转换,是针对数据集处理后的数据集,经过挖掘算法转换后,出现的可识别数据格式。数据挖掘,是以挖掘算法为对象,深入剖析已有数据,任务类型确定、选定算法、数据运算属于基本环节。结果分析,即分析、诠释数据挖掘结果,以适应用户的理解、应用需求。
1.3 常用技术
决策树、遗传算法、人工神经网络,都是数据挖掘技术现阶段的主要类别。一是决策树,即具备判定作用的算法构成的树形结构,ID3、C4.5、CART属于几种常用算法。
一般情况下,树的生成、剪枝是决策树的两个具体表现。决策树的生成,是“if…then”分类规则、归纳循环两种方法的应用过程,通过划分内部节点属性,在左子树中依次体现属性值,其中左子树归纳有需要属性,右子树为其他。决策树以根结点为基础循环,以左子树不再增加叶结点而结束;而剪枝就是减除噪声数据。
遗传算法基于达尔文进化论,以交叉、变异、复制为手段,对求解算法进行优化,具有强大搜索力、最优解能力,问题最优解已经无关于初始条件。
人工神经网络,基于生物神经元特点,以人类思维为参照,在分析、归纳、推理过程中,构建并行处理网络。数据处理,是以内部神经元为基础,完成计算和调整。人工神经网络,在容错、分布存储、自学习、并行处理方面具有一定的独立性。
C4.5算法是以信息增益率为标准确定分支属性,需要以属性增益率的计算结果为基础来比较分析,其中的最大属性,成为分支决策属性,通过合理取值来构建节点。信息增益率,是有分支下有用信息的实际占比,在增益率值增大时,表示分支中包含更多的有用信息。信息增益率优于信息增益,已经得到实践证明,能够在ID3算法应用过程中,测试属性即其中的值多属性。
C4.5算法属于递归过程,以新节点不再出现为结束,能够较好地处理连接数值属性,也能够分裂定性属性,在定量属性发生多次分裂后,如果发生数据缺失问题,缺失值产生。而节点测试,需要对节点中所含多余参数提前删减。C4.5算法具有明显的简单、高效、可靠性优势。
2 中职学生特点
中职学生的实际状况直接关系到教育效果。中职学生的成长过程易受到以下因素的影响。一是家庭结构的健全程度,直接关系到学生身心健康状况,单亲家庭下子女缺失父爱或母爱,易形成孤僻、暴躁的性格,渴望建立良好的同学、师生、朋友关系,但又怀有怀疑的态度。二是家庭教育。留守儿童处于隔代教育之下,教育效果远不及父母教育,存在明显缺失。三是家庭经济条件,会直接影响到学生自信心,贫困学生很难建立起较强的自信息,容易自卑、敏感、情绪低落。四是家长文化,决定了家长的教育方式,能够在知识认知方面直接影响到孩子。文化程度低、家庭富裕子女,易产生知识无用论,过分看重社会关系。五是性格因素。性格开朗时,朋友多、善于沟通;性格内向时,好静、自觉性强、不善沟通、易被忽视。六是学校教育。基于中职学生中等偏下的初中学历,很难达到重点高中录取线,初中阶段的学习过程往往不受重视,受教育程度偏低。七是社会偏见。中职生只能担任简单、复杂工种的普遍认知,导致亲戚朋友、周边的人轻视职业学校,严重影响到学生自信心的建立和积极生活态度的养成。八是学生的心理健康状态,与他们对周边人和事所有的态度息息相关,进而影响到学生的受欢迎度和价值观念的形成。
影响中职生成长的因素,会产生不同程度的作用,必须经过综合分析。心理健康、性格属于固态因素,可在青少年阶段进行塑造,能够以发展的观念作为数据分析学生现状的基本原则,体现出教育决策过程中的前瞻性与实时性。综合分析,可以教育效果的相关联系,确定数据挖掘变量因子,例如性格、家长文化程度、家庭教育等。
3 挖掘学生信息对教育有效性的积极作用
海量学生数据,必然蕴含大量的学生教育信息,数据挖掘技术能够从中提取有用信息,同时结合教育学、心理学,合理制定相应的教育策略,以便于采取合理的海量数据处理方法,多维度、多角度地分析数据关系和内在规律,全面提升大量信息的有效利用率,以此转化海量数据为信息资源,以便于在决策过程中提供数据支撑。
4 数据挖掘学生信息的方法
中职学生的现状分析,要求以收集新生入学信息为首要环节,信息登记表、性格测试表等都可作为重要参考资源;以数据挖掘目标为基础,筛选、变换原始数据,根据其与教育效果的关联性,合力构建学生现状分析数据库;数据库分析过程,需要以数据挖掘软件为工具;最后以分析结果为基础,确定中职学生的特点、规律,以此采取相应的教育策略。
4.1 学生信息数据挖掘原理与结果
本次以2018年重庆市轻工业学校1000名新生入学时的登记表作为数据挖掘对象,经过SPSS数据挖掘软件后,聚类分析学生信息。
聚类分析,是“物以类聚,人以群分”理念应用于数据挖掘的一种方法,是在相似性原则之下,得出样本的具体间距。如果间距数值较小,可以直接归于同类,或是一簇。划分算法,属于聚类分析,需要首先完成k个划分的创建,k表示划分个数;循环定位技术,是一个划分向另一划分转移过程中,可借助的质量划分改善方法;质量或准则函数,能够在求解优劣方面发挥作用。准则函数的应用,能够在聚类结果中获取最优解。
平方误差较为常用,可用于质点距离的平方和计算。
解的较多数量,可能会有组合爆炸的产生,能够借助简单方法检验含k个簇的所有集合,S(n,k)次检验后得出结果;
在n各对象、元组数据库确定后,需要通过划分算法,得出数据划分的具体数值k,以簇表示每一个划分,k≤k。
挖掘工具能够在相似性原则之下划分1000名新生的现状为四类,如表1。
依据挖掘结果,可以得出第一类学生的占比数为54.7%,即超过半数的学生住在偏远地区、父母文化程度低且外出打工,以留守子女状态形成内向的性格,但心理健康、缺失家庭教育,是教育决策的重点考虑对象。第二类学生的占比数为15.3%,以家庭结构完整、条件良好、近郊居住、父母文化程度高且严格要求子女的基本情况,形成学生开朗的性格,心理健康。第三类学生的占比数为10.2%,是在不佳的家庭环境、父母一般的文化程度和严格教育下,形成开朗的性格。第四类学生以20%的较大比重,近郊区县、父母离异且外出打工,导致学生的安全感丧失,容易自卑,需要教育工作者重点关注。总之,偏远地区的打工子女占到所有中职生的大部分,父母离异数量较高,普遍存在隔代教育,文化程度低,家庭贫困,家庭教育相对缺失。这种情况下,中职生不能建立起自信心,内向安静。
5 结束语
数据挖掘技术是现代科技进步的大环境下出现的新兴技术,具有一定的应用条件,适应了大数据时代海量信息的应用、分析和管理。而中职学生信息系统与数据挖掘的结合,能够以分析对象、合理算法为基础,依据影响中职生教育效果的具体因素,将数据挖掘得出的数据结果应用于教育领域发挥,以其明显的功能优势,顺应了现阶段的客观形势,以便在中职学校教育决策过程中提供重要的信息数据,提高每一项决策内容的科学、合理性。
[1]王军,何旭.基于数据挖掘的高职学生行为分析模型构建与研究[J].现代信息科技,2020,4(18):119-121.
[2]邓连瑾.基于数据挖掘技术的高职信息资源获取研究[J].天津职业院校联合学报,2019,18(4):99-105.
[3]陆涛.数据挖掘技术在高职学生信息系统中的研究与实践[J].信息系统工程,2018(5):149.
[4]陈燕纯.数据挖掘技术在高职院校就业信息分析的应用研究[J].科技展望,2017(11):24-25.
[5]李亚东.数据挖掘技术在高职院校学生就业指导中的应用研究[J].创新创业理论研究与实践,2019,2(17):149-150.
[6]张佳.探析关联规则数据挖掘在学生信息管理中的应用[J].电脑编程技巧与维护,2018(8):89-90,102.