什么影响学生就业:大数据模型告诉你
2016-09-14韩霖金健宇方丹丹
文/韩霖 金健宇 方丹丹
什么影响学生就业:大数据模型告诉你
文/韩霖 金健宇 方丹丹
随着计算机技术和信息技术的发展,高校各业务管理系统经过多年的运行和使用积累了大量数据,包括大学生在校期间学习生活等各方面的详细数据,其中部分因素对就业有着或多或少的影响。可以利用对大数据的挖掘和处理得到海量数据里面蕴含的有价值的数据。
基于以上背景,本文针对大学生就业过程中亟需提高就业服务质量,提升就业数据的信息价值问题,以及大学生就业之前的求学过程中有利于就业的个性化发展问题,建立影响因素的数学模型,并用于就业工作的改进,包括就业时根据个人情况的就业方向和就业单位的个性化建议以及求学过程中根据个人就业意愿对个人发展的建议等。
数据收集
1.数据的收集范围
本文以大学生就业为研究对象,最终要根据建立的数学模型对学校就业政策提出建议,对大学生就业和就业前的发展提出建议,所有与之相关的所有数据都在收集的范围之内。收集的数据经过处理之后,其中影响比较大的因素作为主要研究对象。另外,在此过程长期的运行中,各因素的影响程度会有所变化,建议也要随着实际情况而动态变化。
各相关数据存在于学校不同部门的业务系统中。其中招聘信息和学生就业信息在学生就业系统中,学生基本信息、成绩等信息在学工和教务系统中,校园卡消费信息在财务系统中,图书借阅信息在图书馆系统中,学生日常上网信息在网络计费系统中,学生科研信息在科研信息系统中。
2.数据的收集和存储
由于各个业务系统都是相对独立的,所以数据不仅是分散的,其记录方式和格式也都各不相同,为了解决这个问题,先建立数据中心,再将数据中心的数据库与各个业务系统的数据库对接,实现数据的同步,将分散的数据复制到数据中心统一存储,并在同步的过程中建立好对应关系,在数据中心的数据库中按照便于处理的形式进行存储,例如:同一字段在不同的业务系统中其存储格式是不同的,那么数据中心会指定一种标准的存储格式,并在数据库同步的过程中将不符合标准的数据进行对应的格式转换。
数据处理
搜集的数据将作为数学模型的输入和输出进行运算,数据的质量好坏在一定程度上影响了数学模型能够优化到的程度的高低,所以在进行计算之前,要对数据进行质量的优化即数据清洗和数据规范化。
1. 数据清洗
核心企业的地位重要,存在没有及时回款的情况,产生应收账款。下游经销商需要大量存货,需要付出预付款,导致存货成本。上下游企业的信用较低,难以获得相应的贷款,阻碍了发展。降低成本、信用传递、背书分享,在这样的背景下产生了供应链金融。
数据清洗就是把“脏”的部分数据“洗掉”,发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来并包含历史数据,有的数据是错误数据、有的数据相互之间有冲突,此类错误的或有冲突的数据称为“脏数据”。需要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
表1 数据数值化
2. 数据规范化
数据规范化包括数据数值化和标准化两步,先对非数值部分的数据进行数值化处理,然后再对所有数据进行标准化处理,得到的数据作为数学模型的数据基础。
3. 数据数值化
数据数值化顾名思义是针对那些不是以数值来存储的数据,要将其以一定的规则转换成数值,方可作为数学模型的数据基础,便于进行计算。例如就业结果数据的数值化过程见表1,对于不同的指标分别将其非数值的数据按照统一的标准一一对应成为数值,数值并不代表何种实际意义,只是为了便于运算。
4. 数据标准化
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。
例如某门课程的成绩t1取值范围是从0至100,另外一门课程成绩t2的取值范围是从0至150,在直接使用数据进行运算时会造成权重的不均衡,所以按公式1进行处理得到t1'和t2',其取值范围都是0 至1且代表某成绩样本在取值范围中所处位置高低的百分比。
应用公式: t'=t/(tmax-tmin)
就业影响因素数学模型
1. 机器学习
机器学习是人工智能的核心,是使计算机具有智能的根本途径,它研究了计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。在本文中,机器学习利用了计算机的高性能和大数据处理的优势,模拟人类对指标的评判,经过不断的优化和迭代从而建立指标体系,并据此进行智能推荐。
2.遗传算法优化的人工神经网络
人工神经网络是对人类大脑的一种物理结构上的模拟,即以计算机仿真的方法,从物理结构上模拟人脑,以使系统具有人脑的某些智能。
遗传算法以生物进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。它克服了传统优化方法的缺点,是一种全局优化算法。
基于遗传算法的人工神经网络的基本原理是用遗传算法对神经网络的连接权值进行优化学习,利用遗传算法的寻优能力来获取最佳权值。由于遗传算法具有鲁棒性强、随机性、全局性以及适于并行处理的优点,所以被广泛应用于神经网络中。
对于本文研究的大学生就业影响因素的指标体系,为基于遗传算法的神经网络模型准备数据基础,首先要明确政策可控类数据和个人可控类数据以及学生就业结果数据。其中,政策可控类数据是指政策的制定和管理者可以进行调控的数据类别,个人可控类数据是指个人在发展和规划中可以进行改进和控制的数据类别,学生就业结果数据是指不可直接进行改变的学生就业结果类数据。本文建立数学模型并研究大学生就业因素,最终目的在于利用对可控类数据的调控和改进,对不可直接改变的就业结果类数据进行间接的影响,帮助广大学生实现更好的就业目标。
图1 数学模型
3.数据模型的建立和优化
数学模型的建立如图1所示,对政策可控类数据、个人可控类数据以及学生就业结果数据分别进行数据清洗和数据规范化处理,得到的结果数据分别作为核心算法的输入和输出,其中数据清洗的目的是为了将异常数据过滤掉以提高整个系统的运算准确率;数据规范化则包括非数值数据数值化、数据标准化等过程,规范化得到的数据作为核心算法的输入,规范化做得越好则核心算法的效率和准确度也会更高;核心算法是由遗传算法优化的神经网络模型。
核心算法数学模型的建立和优化是以这三类大数据为基础的,利用大量的数据样本作为输入和输出来进行训练得到相对比较成熟的数学模型,利用该模型可以在输入新样本时得到非常接近实际数据的输出结果。为了保证核心算法数据模型的高准确性,随着时间的流逝和大量新数据的获取,需要不断地用新样本数据去继续训练以得到更加优化的数据模型并达到更高的准确率。
其次,基于理论研究和实践经验,根据学生就业方向和个人要求的不同,确立学生就业结果数据中的若干种标杆数据,标杆数据的确定并不是选取某个样本,而是综合考虑每项数据指标得到的理想的学生就业结果数据,同样经过数据清洗和数据规范化得到核心算法的若干标杆输出数据。
再次,对于某个样本,在将其各项指标数据输入核心算法后得到的输出数据一般是偏离标杆输出数据的,通过对样本输入的多个数据进行变化试验,得到如何改变输入才能更加接近目标的标杆输出数据,在此过程中,通过单个指标数据变化而保持其他指标数据不变的试验可以用来判定哪些指标更能影响输出结果,以此为依据选取用于向用户建议的指标项。
最后,通过数据规范化的逆运算得到输入数据所对应的两类可控数据的变化建议,再提供给被建议者。
在实际的应用当中,模型在不断的迭代和优化,在其中某一时间被选取的个人可控类数据可能包括:每月图书借阅数、每周到食堂早餐次数、每月逃课次数、每学期各科成绩以及参加课外活动的次数及类型等数据,选取的政策可控类数据可能包括每年举办就业创业培训讲座的次数、对逃课行为的处理严重程度、对成绩提高的学生设置奖励的情况等数据。为了更好地利用机器学习运算客观准确的优势,将人为主观判断造成的不准确影响降到最低,在选取影响因素的过程中也要先考虑尽量多的因素,然后根据机器学习的运算结果来筛选,而不是按个人的印象来决定选取哪些不选取哪些,如此整个系统就能更加高效准确地运行起来并不断地自我优化,同时提供越来越符合实际且效果好的建议。
(作者单位为对外经济贸易大学)