APP下载

基于人工智能与数据信息分析的就业质量评估方法研究

2022-01-06刘红红

电子设计工程 2021年24期
关键词:编码器权值神经网络

刘红红

(西安航空职业技术学院,陕西西安 710089)

就业质量评估对于学校和个体均是一项重要的任务,通常经过计算就业质量指数来评估相关专业的综合就业情况。常见的就业质量指数通常将薪资、专业匹配度、职业期待度、工作发展前途、职业发展、就业率、离职率等多个指标通过简单线性拟合来表达[1]。

由于这种就业质量指数本质上就是对清洗后的统计数据,根据给定的权重进行简单的线性拟合从而得到评估结果。因此,其作为最终就业质量的评估标准具有如下两个问题[2]:

1)过于简单。由于就业质量指数依赖于多个影响因素,将其简单地计算为影响因素的线性和过于粗糙。多种因素对于最终指标的计算,其内部不是简单的线性关系,存在更为复杂的依赖关系,因此不宜粗浅地进行线性拟合[3];

2)权值的确定过于依赖经验。在常见的就业质量指标计算中,其中每个影响因素的权值均是人为经验性确定的[4]。因此就业质量指数实际的计算结果在较大程度上会受到评估人的影响,从而得不到尽可能客观的评价结果。

为了解决上述问题,该文引入人工神经网络[5],将多种考察指标综合,通过训练得到一个非线性映射结果,对于不同专业均能得到不同的权值分布和相对客观的就业质量指数。

1 神经网络与反向传播

就业质量指数的计算可由式(1)进行描述:

其中,I表示综合的就业质量指数,xi表示经过标准化处理后的第i个指标的具体数据,wi表示对于第i个数据最终所确定的权值。

从本质上看,就业质量指数用数学可表达为影响因子通过拟合函数f得到的映射结果。在一般算法中,拟合函数是简单的线性求和。因此,为了拓展拟合函数,该文引入深度神经网络模型。

一般的神经网络由三层细分结构组成,如图1所示。

图1 神经网络结构示意图

1)输入层[6]:输入层是接收输入向量的最浅层。绝大多数情况下,输入层就是数据本身。在这一层,数据呈现其原始样貌,输入层通过权值连接到后端神经元。经过计算后,将映射结果传递到后端的深层神经元上。

2)隐藏层[7]:隐藏层是位于输入层之后、输出层之前的网络层。隐藏层可深可浅,其主要功能是对前端输入信号进行迭代映射,从而得到非线性的表达结果。从信号处理的角度而言,整个过程使低维信号不断稀疏化,从而得到在高维空间可分的输出标签。

3)输出层[8]:输出层是整个网络的目标空间。当原始信号经过足够多的网络层后,其已表现得足够稀疏化。最终通过Softmax 函数将输出层的向量映射到含有对应标签的概率空间中,得到分类结果。

每一层网络又可以细化成两个组件[9],如图2所示。

图2 激活函数构造图

由图2 可知,网络中的每个神经元由相应的权值和激活函数构成。权值将前一层的输入首先进行线性求和,然后再用激活函数对求和结果进行映射。而激活函数通常是非线性的[10],因此对于每一层网络而言,其输入X={x1,x2,x3,…}和输出Y可表示为:

其中,σ为非线性激活函数[11],较为常用的激活函数有tanh 函数、ReLU 函数及Sigmoid 函数等,如图3 所示。

图3 两种激活函数示意图

可以观察到,Sigmoid 函数将定义域为(-∞,+∞)的输入信号映射到(0,1)的输出信号空间。而ReLU函数在(-∞,0)的区间内将输入映射为0,在[0,+∞)的区间内对输入进行线性映射。两者整体上均实现了输入信号与输出信号的非线性映射关系。若干个网络层叠加在一块即可实现复杂的映射关系,通过训练便可得到期望的模型。

神经网络是一种数据驱动的模型,为了得到适应于训练集的特定权值,神经网络必须要进行训练,最经典的训练算法是反向传播(Backpropagation)算法[12]。该方法的主要思想是将输出结果和期望结果的差值从后向前传播,使得网络中的权值能在每一训练回合中不断更新,直到通过网络得到的输出与期望输出一致或差值小于一定阈值时结束更新。反向传播示意图如图4 所示。

图4 反向传播示意图

根据图4,有如下关系式[13]:

对于给定的网络,可以通过计算得到相应的前向传播和反向传播结果。而整个网络是基于期望输出和真实输出的差值进行反向传播,从而更新权值使得网络能够在不同的数据集上得到不同的期望输出。

2 就业质量评估算法设计

神经网络虽然已在各种应用背景下得到了成功应用,但在该任务中,影响因素可能过多。因此需要加入降维模块,让后续的神经网络着重学习主要影响因素。

在算法设计流程中,该文加入了一种无监督的学习方式:自编码器[14](AutoEncoder)。给定输入空间X和期望的特征空间Y,编码器需要求得两个映射h、g,这两个映射要使特征的重建误差达到最小[15]:

将自编码器应用于不含标签的原始数据集,使其自动提取出主要影响因素。根据提取出的标签构造训练集,再用构造的数据集训练神经网络,得到相应的就业质量指数映射关系。

该文提出的整体算法流程如图5 所示。

图5 算法流程图

第一部分,对原始数据进行预处理,包括标准化、去噪等清洗工作。在第二部分,自编码器在原始数据集上进行训练,提取多种影响因子的主要特征,得到对应的稀疏标签构造数据集。第三部分,使用一个简单的三层神经网络在之前的数据集上使用反向传播算法进行训练,最终得到从影响因素到就业质量指数的映射关系。

第一部分采用标准化的算法[16],如式(5)所示:

其中,erfc 为非线性阈值函数,o为原始数据集的平均值,σ为数据集的方差。经过标准化的原始数据集,模型能够在其中获得更快的收敛速度和更高的训练精度。

在第二部分中,在预处理过的数据集中对自编码器进行训练。该应用场景需要在无监督条件下提取出相应的标签,并将相应的标签映射到不同的区间值。由于经典的就业质量指数的计算涉及到20多种影响因素,为了抓取主要影响因素,该文算法在系统中加入对信号进行降维操作的步骤。具体地,该算法中使用了稀疏自编码器。其输入端的节点数目大于输出端的节点数目,这种结构天然地保证输入向量的维度大于输出向量,能够使输入向量被稀疏化。相较于经典主成分分析方法(PCA),稀疏自编码器的非线性提取能力更强,能够实现更加复杂的数据映射关系且较好地完成了复杂关系中的降维。

第三部分中,对神经网络进行训练。输入层输入预处理后的数据,再通过一层隐藏层后得到输出。输出层的神经元维度和自编码器输出端的维度保持一致,便于根据自编码器得到的稀疏结果计算误差更新网络权重。这一环节重点在于初始权值的设定、训练方案的选择、训练会合以及batchsize 大小的选择,网络参数与训练参数的具体设定会在后面的实验部分给出。

经过以上3 个步骤,该文构建了一个基于神经网络的就业质量指数评估算法。对于具有不同分布类型的数据集,神经网络进行针对性的训练后可以实现较为特异化的信号表达。然后,根据就业数据分布状况采用相应的神经网络模型直接进行预测评估。相较于传统的线性拟合方案,新的算法对于不同的数据分布更加客观。

3 实验验证

该节根据上述算法模型以及应用背景进行实验设计,并验证模型的有效性。

在具体实现过程中,采用一个三层的神经网络,激活函数采用tanh 函数。训练算法使用随机梯度下降算法SGD,Batchsize 设为100。不同于传统的就业质量指数计算方案,文中的就业质量指数取值范围设定为[0.0,10.0],步长为0.5。就业质量指数取值越高,则表明质量越好;反之,则越差。数据集为含有不同专业、不同年份的就业质量指数分布,以及相应的就业质量指数。该算法在Pytorch 上搭建模型,对模型进行训练并得到相应的预测结果。

1)自编码器特征提取结果

在验证自编码器的过程中,该文截取了就业机会(a)、公平待遇(b)、工作环境(c)、社会保障(d)、社会对话(e)、经济(f)、社会背景(g)、工作时间(h)、稳定性(i)、工作保障(j)、报酬(k)、平衡工作和生活(l)这12 个维度进行训练,然后进行降维,结果如表1 所示。

表1 自编码器降维结果

根据自编码器的降维结果,该文最终选定报酬、稳定性、社会保障和工作环境4 个指标作为主要影响因素构建了输入向量。

2)神经网络训练结果

提取出主要影响因素后,采用5 个专业的就业相关数据:数控技术、电子商务、会计、民航运输、软件技术。在这些数据集上对神经网络进行20 个Epoch 的训练,其训练过程中的损失曲线如图6 所示。

图6 神经网络的loss曲线

由图6 可知,经过20 个Epoch 的训练,网络基本收敛。将5 个专业的就业质量指数分别通过经典的线性拟合算法和该文提出的网络模型进行计算,得到就业质量指数的计算结果,如图7 所示。

图7 两种算法所得就业质量指数比较

在电子商务和数控技术两个专业中,经典算法与传统算法得到的结果反差较大。在经典算法中对于薪酬的权重过高,导致在这两个专业中的就业质量指数较低。而通过网络学习得到的评价方法能够更全面地对各种因素进行综合考量,得到更为客观的评估结果。

4 结束语

该文针对经典的就业质量指数计算方案拟合性较差、权值选取较为经验化的缺点,采用近年来效果突出的神经网络模型提出一种新的算法。其能够根据不同数据集进行针对性的训练,得到不同的权值分布,使就业质量的评估不再经验化,且加强了影响因素到评估指数的非线性映射特性。

猜你喜欢

编码器权值神经网络
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
神经网络抑制无线通信干扰探究
基于FPGA的同步机轴角编码器
基于双增量码道的绝对式编码器设计
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
基于神经网络的拉矫机控制模型建立
JESD204B接口协议中的8B10B编码器设计
复数神经网络在基于WiFi的室内LBS应用