大数据技术在高校毕业生就业质量评价体系中的应用研究
2017-06-05高秀艳郝艳荣
高秀艳+郝艳荣
摘 要 在互联网与云计算高速发展的今天,大数据技术正以其在数据收集与处理上的优越性引领着新一轮的信息变革。在高校毕业生就业情况调查中,采用就业质量系数作为评价标准,使用大数据的数据挖掘等技术,从海量调查样本中获取有效数据,建立模型并对数据进行分析处理,从而得到合理的就业效果反馈。
关键词 大数据;高校毕业生;就业质量系数
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2017)184-0065-02
1 大数据技术
1.1 大数据的概念与特点
“大数据”(big data)的概念始于20世纪80年代,如今已被人熟知并成为一项热门技术而深得学术界、IT行业以及政府的重视。目前对于“大数据”,普遍认可的是维基百科给出的如下概念:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯[1-2]。
通常,大数据具有“4V”特征,即:规模大(volume)、种类多(variety)、流动速度快(velocity)、价值密度低(value)。基于大数据的以上特点,其核心的操作在于如何从海量数据中提取有价值的部分,通过特定的数据处理算法,建立符合实际要求的数据模型,进而通过模型对数据样本进行分析处理得到有实际使用价值的结论。
1.2 大数据的相关处理技术
在信息爆炸的自媒体时代,数据来源广,数量多,这就导致了大数据的绝对数据与有用信息量不成比例增长,因此在实际使用互联网大数据时,对数据的处理才是关键。当今大数据的主要处理技术主要有以下几种[ 3 ]。
1.2.1 数据挖掘
数据挖掘技术旨在对数据进行有效处理,目的是从海量数据中通过去噪、转换、净化、挖掘提取等过程筛选出有价值的部分。在处理过程中经常借助多处理阶段模型、机器学习、支持向量机等算法。
1.2.2 遗传算法
遗传算法是借鉴了达尔文生物进化论的一种获得最优解的算法。其基本思想是从给定的候选解中,使用根据适应条件计算出的适应度对其进行递归淘汰,直至得到最优解。遗传算法是对大量数据进行筛选提取有用信息的重要手段。
1.2.3 神經网络
神经网络是源自于生物神经结构及运作方式的数据处理模型。在神经网络的工具中,较为常用的是NeuroSolutions,其良好的网络设计界面,先进的学习程序以及优化的遗传算法,在快捷、有效地实现信息获取方面发挥了重要作用。
2 大数据技术在就业质量评价体系中的应用
2.1 就业质量评价标准建立
目前,各教育相关机构及高校在就业质量评价方面都已做出了大量研究,并建立了自己的就业质量评价体系,这些评价体系所依据的数据往往是调查所得到的绝对数据,因此所得到的评价体系其应用的可拓展性受到限制。就业质量系数的计算解决了不同区域、不同等级、不同专业、不同年份调查结果的差异带来的评价体系不准确的问题。通过分析毕业生就业岗位与专业的关联程度、就业区域、就业薪资、以及薪资与当地平均工资的关系,并根据以上数据计算出的就业质量系数可以更全面的反应毕业生就业情况,从而使就业评价更准确。毕业生的就业质量系数的计算基于以下元素。
2.1.1 岗位专业相关度(Z)
对于毕业生调查反馈中的专业相关度,根据非常相关、一般相关、不相关确定Z的值。
2.1.2 就业区域系数(D)
根据毕业生工作所在地为一线城市、二线城市、三线城市、四线城市或其他,确定其就业区域系数D的取值。
2.1.3 薪资系数(S)
由于毕业生所在地域经济条件差距较大,且不同年份的经济水平也不一致,因此单纯的比较其毕业薪资并不具备良好的说服力。参考毕业生所在城市的区域系数D,用毕业生薪资St与该等级区域当年的平均工资Sa的比值作为薪资系数S,即S=St/Sa。
2.1.4 就业质量系数(J)
根据评价目的和学校及专业实际情况,确定以上各元素在就业质量系数中所占的比重权值,计算最终的就业质量系数如下:
J=Z*Wz+S*Ws
2.2 使用大数据技术对就业反馈数据进行有效处理
在得到的毕业生就业反馈信息中,首要的是筛选出有效数据,尽可能减少冗余数据的干扰,从而使分析结果更准确。采用数据挖掘中的多处理阶段模型可以实现信息的初步处理[ 4 ]。处理过程如图1所示。
在对数据的处理过程中,正确的模型选取对结果有着重要的作用,因此,在对模型的训练过程中应确保训练数据的科学性及有效性。同时,对于不同的系数,可以选取不同的训练样本及不同的训练模型。
3 大数据处理过程中的挑战与困难
大数据及相关技术为当前的各项工作带来了方便,也提高了信息的传播与利用效率,但在使用过程中仍然面临着各种挑战与困难,具体表现在以下方面。
1)对硬件设备的挑战:由于大数据的信息量大,其对硬件设备尤其是存储设备提出了更高的要求,其存储容量及读取速度都对大数据的应用效果有着至关重要的影响。
2)对软件的挑战:鉴于庞大的信息量,在信息处理过程中,数据算法的选取、模型的构建以及数据处理软件的速度都是影响计算结果的关键因素。
3)数据安全的挑战:由于大数据广泛存在于云存储设备上,信息传播快,另一方面,数据价值密度低导致大量数据被随意丢弃,这都对数据安全造成了潜在的危险。因此,如何在充分利用大数据的同时保证数据的安全也是对大数据应用的挑战。
4 结论
在高校教育工作中,有效的就业调查反馈及对反馈数据的合理、准确分析,并使用大数据及相关算法,采取适合评价目标的算法模型,基于此获得有参考价值的就业质量评价系数,不仅能对高校的就业工作起到有效的指导作用,还可对高校的专业设置、课程开设、教学质量及就业服务等方面做出合理正确的反馈,从而促使高校针对问题采取策略,不断提高办学水平。
参考文献
[1]甘晓,李国杰.大数据成为信息科技新关注点[N].中国科学报,2012-06-27.
[2]李国杰.大数据研究的科学价值[J].中国计算机学会通信,2012,8(9):8-15.
[3]尚光龙,张泽锋.大数据技术在信息管理中的应用[J].河北北方学院学报,2016,5(5):30-34.
[4]张敏.云计算环境下的并行数据挖掘策略研究[D].南京:南京邮电大学,2011.