基于数据挖掘的高校学生培养及就业指导初探

2019-12-20王亚娜

山西青年 2019年24期

王亚娜

(南京审计大学金审学院，江苏南京 210000)

在高校学生培养及就业指导工作中，学生的成绩数据、选课数据、就业数据可为工作的开展提供充足依据，通过针对性开展数据挖掘，即可有效提升工作质量。数据挖掘本质上属于一种工具，为保证其能够较好用于高校学生培养及就业指导，必须结合高校实际针对性设计数据挖掘模型，这一模型的设计正是本文研究的重点所在。

一、基于数据挖掘的高校学生培养及就业指导思路

(一)准确监控就业市场

在数据挖掘技术支持下，通过收集高校各专业历年来的就业数据，如毕业生就业地域分布比例、行业分布比例、升学率、就业率，并基于历史数据开展纵向比较，即可实现对就业市场的准确监控。通过针对性的数据挖掘，即可明确专业在不同地区的受欢迎程度，用人单位门槛和需求也能够由此得以明确，由此深入了解行业现状及就业前景，即可为学生培养和就业指导指明方向。此外，还应围绕毕业生背景信息开展的深入的数据挖掘，通过围绕毕业生个人信息、就业基本意象、特长、专业等因素开展深入挖掘，即可通过针对性的划分提高就业指导效率和针对性。结合行业数据开展宏观比较，高校可最终总结出各层次同学的就业标准、待遇级别的差异、不同(专业、成绩)人才的签约单位，并通过图表直观向毕业生传递相关信息，信息闭塞对大学生就业带来的困扰可由此得以有效消除，很多大学生存在的盲目求职问题也能够有效规避[1]。

(二)推进专业教学改革

数据挖掘技术也能够较好服务于高校学生的培养，这一培养主要通过结合数据挖掘成果的教学改革实现。在高校教学改革过程中，必须设法实现社会需求与专业设置的统一、岗位针对性与社会适应性的统一、社会实践与专业学习的统一、适度灵活性与专业稳定性的统一，配合完善的专业预警机制，即可为专业教学改革提供充足动力。在具体实践中，可采用数据挖掘技术全面分析高校各学科门类就业状况，并关注不同地区存在的人才培养要求特殊性，贯彻“以市场为导向”原则。高校可结合各类招聘会成果状况，汇总合作频率较高企业的资料，以此加强彼此合作，通过校企办学互动，即可推进大学生的综合发展，人才对口培养模式的应用价值也需要得到重视。此外，专业就业前景分析、专业的社会需求变化同样需要得到重视，通过大力补修前沿学科、坚持就业导向原则、明确专业社会需求“警戒线”、推进专业细分、拓展式培养社会需求度高的专业能力、强化教学实践、探索新型校企合作模式，专业教学改革的推进、数据挖掘技术价值的发挥、高校学生培养水平的提升均可由此实现[2]。

(三)针对性的就业指导

在应用数据挖掘技术的高校学生就业指导中，可灵活采用自主式与广播式的就业指导模式，自主式就业指导模式要求学生基于数据挖掘因子自主检索就业信息，并辅助解决学生很容易出现的就业内容掌握不清问题，以此提高学生求职积极性。广播式就业指导模式需得到高效就业指导数据库的支持，该数据库不同于大学生就业指导系统数据库，这是由于传统的就业指导系统数据库往往无法真正体现就业指导的价值，相关人员也无法准确了解大学生就业需求，大学生的积极性往往会因此受到打击。因此高校可针对性升级大学生就业指导系统数据库，通过引入数据挖掘技术，定期展示数据挖掘成果，就业指导即可在数据支持下更为针对性，大学生也能够由此更好找到自己心仪的工作。

二、基于数据挖掘的高校学生培养及就业指导实现路径

(一)挖掘对象

为保证数据挖掘技术更好服务于高校学生培养及就业指导，首先需明确挖掘对象，结合相关研究及实践，本文选择学生基本情况信息、学生学籍和成绩情况、学生就业信息作为挖掘对象，主要包括学号、专业、姓名、性别、班级、政治面貌、获奖情况、实践能力、学习成绩、外语水平、本人联系方式、签约单位、就业状态、经济情况、生源地。

(二)挖掘数据库

确立挖掘对象后，即可针对性建设挖掘数据库，设计采用Windows系统、B/S架构、SQL Server2012，开发语言选择C#。在数据库的建立过程中，需将收集到的包含学生基本情况信息、学生学籍和成绩情况、学生就业信息的3张表格内容导入数据库，生成一张新的就业数据表格，由此数据采样即可满足挖掘数据仓库建设需要。

(三)数据预处理

数据预处理包含数据清理、数据集成、属性规约三部分内容，以此避免数据空缺、不一致、存在噪声等问题影响数据挖掘效果，而通过数据预处理提高数据“质量”，即可更好满足数据挖掘需要。数据清理环节主要负责数据补缺、平滑噪声、不一致错误纠正、孤立点发现，以此提高数据质量，数据挖掘的精度和性能也能够由此得到保障。考虑到空缺值属于学生信息等数据的主要问题，因此需针对性采用忽略元组、人工填写空缺值、用属性平均值填充空缺值、用相临近值代替等空缺值处理方法；在数据集成环节，考虑到收集到的数据总量将较大，且会存在较大的重复量，因此必须进行针对性的提取与加工。

考虑到数据分析的对象中可能含有没有关联或关联不明显的属性，或存在冗余数据，因此需开展针对性的属性规约，决策树的有效构建可由此获得支持。因此，采用维度归约、数值规约的方式，由此排除对大学生就业影响较小的因素，包括本人联系方式、签约单位、姓名、班级、学号，同时还需要通过“较小的”表示形式表达数据，由此研究得出了学生就业信息训练样本集。通过预处理，最终得到900条有效记录，采用其中的600条构建决策树模型，300条用于后期测试。

(四)数据填充

数据采集需得到专业算法的支持，如K平均聚类算法、决策树，本文采用贝叶斯网络进行数据填充，这是由于贝叶斯网络具备可发现数据间潜在关系，且能够表达随机变量间存在复杂关系概率的能力。结合贝叶斯网络有机融合概率理论与有向无环图、较好表示随机变量的联合概率的特性，即采用该算法进行数据的空属性填充。在贝叶斯理论方法的具体应用中，需首先建立数据完整记录子集与缺失数据子集，通过扫描，可发现64条存在数据不完整情况的记录，由此按顺序提取记录，并分别计算属性类先验概率，即可快速明确缺失值，配合预测数据的方法，即可顺利完成缺失值补齐[3]。

(五)挖掘模型

采用“学习成绩”作为类别的表示属性，将政治面貌、专业、实践能力、生源地、外语水平等作为决策依据，即可构建图1所示的毕业生就业情况决策树。基于图1，计算分类属性信息量，依据每个测试属性的信息量、信息熵、信息增益量、信息增益率，并选择最大信息增益率的测试属性作为根节点，依次逐步完成分支划分。基于“未签约比例小于15%，即判定叶子节点‘未签约’”与“生源地中西部比例在20%以上，即判定叶子节点为‘中西部’”规则，即可最终得到就业信息决策树模型。为满足分类规则的应用需要，需在设计过程中保证界面直观、简单、易于操作，且能够同时选取多个规则进行提取。为更好满足学生培养与就业指导需要，设计采用C#建立决策树工作流程，可简单概括为：“输入样本数据→确定根节点并进行划分→判断是否存在新划分→不存在/存在→生成决策树/重新选取属性”。

主要算法步骤如下：

输入：A=(X1,X2，…,Xi),X1,X2,…,Xi为原始属性集，分类属性为B={B1,B2,…,Bj}，含有缺失值的训练集样本表示为C。

输出：一棵决策树

1.划分C为两部分，即C1与C2，分别用于记录数据完全记录与有缺失值记录。

2.按顺序从C2中选择1条记录，对C1进行基于贝叶斯模型的计算，得出Bj，以此填充缺失内容。

3.完成填充后开展针对性整理，合并C1与C2，重新得到C。

4.设置新的节点Y，开展针对性预测判断，Y用于标记C中存在同一个属性类别的记录，如C为空，则需要在Y处标记“空”，并输出决策树。在判断C时，如存在空的属性值，叶节点需设置于Y处，并记录最多的训练集中类。

5.分别计算和预测每个候选属性，标记存在最高增益率的属性，并参考增益率进行训练集划分，设置训练样本和样本条件分支的集合，如样本集不为空，需返回上一个叶结点，否则需新设叶节点。

6.重复上述两步骤，完成决策树生成。

(六)挖掘结果应用

以某高校为例，通过上文涉及的设计，可确定学习成绩优秀、实践能力强、外语水平高的毕业生在就业领域表现优秀，实践能力差、学习成绩差、未获过相关奖项的毕业生就业困难，且中西部生源地毕业生的就业率相对较低。由此即可挖掘结果，即可开展针对性的学生培养与就业指导，如加强学生的英语能力和实践能力培养，关注学生的学习成绩提升，就业指导也能够由此获得针对性方向。

三、结论

综上所述，基于数据挖掘的高校学生培养及就业指导具备较高实用性。在此基础上，本文涉及的挖掘对象、挖掘数据库、数据预处理、数据填充、挖掘模型、挖掘结果应用等内容，则提供了可行性较高的数据挖掘技术应用路径。为更好满足高校学生培养与就业指导需要，招聘双方就业行为的全程监督、基于统计数据的就业指导均需要得到重视。