APP下载

基于大数据技术的高校就业预测平台构建方法

2023-11-14贺冰心

中国新技术新产品 2023年19期
关键词:特征选择准确率预测

贺冰心 陈 恒

(湖南环境生物职业技术学院,湖南 衡阳 421005)

1 基于大数据技术的高校就业预测平台架构设计

基于大数据技术的高校就业预测平台旨在通过收集、分析和利用大数据,为学生、高校管理部门和用人单位提供准确的就业预测和指导。该高校就业预测平台的硬件部分采用先进的服务器和存储设备。服务器选用型号Dell PowerEdge R740,搭载Intel Xeon Gold 6240处理器和128GB DDR4 ECC 内存以及2TB NVMe SSD 存储和千兆以太网接口,在Linux CentOS 7.0 操作系统中运行。存储设备采用NetApp FAS8200,具有100TB 的存储容量,结合固态硬盘(SSD)和机械硬盘(HDD)组合,采用RAID 6 级别保障数据安全。此外,平台还使用云平台服务,选择Amazon Web Services (AWS)作为云服务提供商,通过Amazon EC2虚拟机实例(c5.4xlarge)提供4 个vCPU 和16GB RAM 的计算资源以及100GB SSD 存储。这些硬件设备的选择旨在提供高性能和可靠性,以支持大规模数据处理和并发请求的需求。就业预测平台架构图如图1 所示。

图1 高校就业大数据预测平台架构图

除硬件设计外,平台中包括数据采集与预处理模块、特征选择及新特征的构建、预测模型构建与训练模块等多个模块。数据采集模块负责获取高校就业相关数据,然后通过数据清洗等方式进行预处理,保证数据的质量和一致性,对数据进行分析与挖掘等获取数据特征及关联规则,然后构建预测模型与训练模块建立高校就业的预测平台。平台中各组件和模块协同工作,为高校提供基于大数据的就业趋势分析和预测服务。

2 数据采集与预处理

数据采集和清洗是构建基于大数据技术的高校就业预测平台中的重要环节[1]。基于大数据的高校就业预测平台的数据源包括政府就业统计报告、招聘网站数据和高校就业服务中心数据。一方面,利用爬虫程序自动从网页中提取所需数据。通过指定网页的URL、解析HTML 内容、提取数据等步骤实现数据采集。另一方面,访问提供数据的API 接口,通过认证、授权等方式获取访问权限,然后使用API 的请求方式获取数据。数据采集完成后进行数据清洗等预处理工作,在该环节去除重复数据、处理缺失值和异常值,将数据转换为合适的格式,以便于后续特征选择和建模。数据清洗的步骤如下。

2.1 去重

对数据集中的重复数据进行识别和删除,保证数据集中的每条记录都是唯一的,以避免重复数据对分析结果的干扰,从而提供准确的就业数据用于后续分析和建模。

2.2 填充缺失值

使用均值、中位数或众数来填充缺失值,均值Mean和标准差StandardDeviation的计算如公式(1)、公式(2)所示。

式中:∑x为所有观测值的总和;n为观测值的数量。

式中:x为观测值;μ为均值。对就业数据进行统计,获取每个属性的均值和标准差,并将缺失值替换为相应的统计指标值,从而补全缺失的信息,提供高质量的就业数据,为后续的数据分析、挖掘和预测模型构建提供可靠的数据基础。

2.3 异常值处理

使用箱线图识别数据中的异常值,箱线图通过绘制数据的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)以及异常值的范围来可视化数据的分布情况,根据上下四分位数和离群点的定义,计算四分位数和离群点的范围,上下四分位距的计算如公式(3)所示。

式中:Q1为下四分位数;Q3为上四分位数。

异常值的上限(Upperfence)和下限(Lowerfence)计算如公式(4)所示。

式中:k为异常值的判断倍数,通常取1.5 或3。通过比较数据与异常值范围,可以判断是否存在异常值,以进行删除异常值或使用合理的替代值进行填充等处理。

经过上述操作可消除数据中的噪声和不完整性,从而得到高质量的数据集,为预测模型提供更可靠的输入,提高预测结果的准确性和可靠性,从而提高整个平台的性能和效果。

3 特征选择

特征选择是基于大数据技术的高校就业预测平台中的关键步骤之一,旨在从众多特征中选择与目标变量最相关的特征,以提高预测模型的准确性和效果[2]。基于大数据技术的高校就业预测平台中,使用相关性分析和主成分分析法选择最相关的特征。相关性分析如公式(5)所示。

式中:x和y分别为2 个特征;n为样本数量。相关系数的取值范围为-1~1,正值为正相关,负值为负相关,而接近0 的值为无相关性。通过计算特征之间的协方差来度量每对特征之间的线性关系,并应用最小-最大归一化方法进行归一化处理,将特征的取值范围线性映射到[0, 1]的指定区间内,消除不同特征之间的量纲差异,以选择与目标变量相关性较高的特征,如公式(6)所示。

式中:x为原始特征的取值;x'为归一化后的特征取值。最小-最大归一化将特征的取值映射到0~1,保留了原始数据的分布形态,适用于大部分特征值分布较为集中的情况。然后对特征进行均值和标准差的转换,使特征的取值符合标准正态分布(均值为0,标准差为1)。计算如公式(7)所示。

式中:mean(x)为特征的均值;std为特征的标准差。通过标准化处理,消除特征间的量纲差异,使模型的训练更稳定。

高校就业预测涉及众多特征,例如学生的个人信息、学业成绩、实习经验和专业领域等。这些特征的数量庞大且复杂,其中可能存在冗余、无效或噪声特征。通过特征提取可以从中挖掘更具预测能力的特征,以减少维度灾难和信息冗余,提高模型的泛化能力,提升预测的准确性和实用性。

4 就业趋势分析与建模

高校就业市场的变化和趋势对学生和高校就业服务机构具有重要意义。就业趋势分析与建模阶段旨在通过分析历史就业数据和相关指标,探索就业市场的发展趋势,并构建就业情况预测模型,预测高校学生的未来就业情况。

首先,使用小二乘法(OLS)构建线性回归模型进行数据分析,预测学生的就业情况和薪资水平。假设目标变量与特征变量之间存在线性关系,通过拟合一条最佳拟合直线来预测目标变量。线性回归模型如公式(8)所示。

式中:Y为目标变量(如薪资水平);X1、X2、...、Xn为特征变量;β0、β1、β2、...、βn为模型参数。其次,通过最小化预测值与实际观测值之间的残差平方和,估计模型参数。使用最小二乘法,利用蚁群算法求解最佳的模型参数值,使模型与观测数据之间的差异最小化,实现建模,如图2 所示。

图2 基于大数据技术的高校毕业生就业预测过程

完成建模后,进行模型评估判断模型的性能和准确度。该平台将均方误差(Mean Squared Error,MSE)、决定系数(R-squared)作为模型评估指标。MSE 衡量模型预测值与实际观测值之间的平均平方差,计算如公式(9)所示。

式中:n为样本数量;y_pred为模型预测的值;y_actral为实际观测的值。MSE的值越小,为模型的预测结果与实际观测值越接近,模型的预测性能越好。MSE的优点是对误差的较大值给予较高的惩罚,因此对异常值和离群点比较敏感。

决定系数衡量了模型对观测数据变异性的解释程度,为模型能够解释因变量的变异程度的比例。计算如公式(10)所示。

式中:SS_res为回归模型的残差平方和;SS_total为总平方和。决定系数的取值范围在0~1,越接近1 说明模型对观测数据的解释能力越强,模型的预测准确度越高。然后使用训练好的模型,输入学生就业的特征数据,进行就业情况和薪资水平的预测,根据预测结果,进行就业趋势分析,探索学生就业市场的变化趋势和影响因素。

5 测试试验

为验证基于大数据技术的高校就业预测平台的性能和准确度,该文设计平台测试试验。试验目的是评估构建的预测模型在实际应用中的表现,并发现模型的局限性、比较不同模型的性能,为模型的优化和改进提供指导。

5.1 试验准备

5.1.1 服务器

使用1台高性能的服务器,型号为Dell PowerEdge R740,配置为2 个英特尔至强(Intel Xeon)Gold 6240处理器;每个处理器具有18 个核心和36 个线程,以支持高性能的数据处理和并行计算;服务器内存为128GB ECC DDR4 RAM,具备高速的数据处理和并发计算能力。

5.1.2 存储设备

使用高速的企业级固态硬盘作为存储设备,型号为Samsung PM983,容量为2TB,具备高速的读写性能和可靠的数据存储能力。

5.1.3 网络设备

使用高速以太网接口和网络交换机,以提供稳定和高带宽的网络连接。

5.1.4 数据源

收集具有代表性的高校就业数据,包括学校、专业、就业行业、职位以及薪资等信息。

5.2 试验过程

5.2.1 数据预处理

对收集的高校就业数据进行清洗,去除重复项和缺失值,并处理异常值,进行数据转换和归一化,以保证数据的统一性和可比性。

5.2.2 划分训练集和测试集

采用随机抽样的方式,将收集的数据按照一定比例划分为训练集和测试集,将70%的数据作为训练集,30%的数据作为测试集。划分过程需要保证数据的随机性和代表性,以确保试验结果的可靠性和泛化能力。

5.2.3 设置不同的测试条件评估高校就业预测平台的性能和效果

使用不同规模的数据集进行测试,例如小型数据集和大型数据集,评估平台在不同数据规模下的处理能力和预测准确度。使用不同的特征选择方法,如相关性分析和主成分分析方法,选择最相关的特征用于预测模型的训练,比较不同方法对预测准确度的影响。应用不同的数据预处理方法,例如标准化处理和缺失值处理,确定最佳的数据预处理策略,提高预测模型的性能。使用不同的预测模型算法,例如决策树和逻辑回归算法比较其在平台的表现和预测准确度。

5.2.4 使用测试集对训练好的模型进行评估,计算各项评估指标

试验评估指标包括准确率、召回率、F1值和AUC-ROC值。准确率计算如公式(11)所示。

召回率(Recall)用于衡量模型对正例的识别能力,计算如公式(12)所示。

式中:TP为真正例(预测为正例且实际为正例)的数量;TN为真反例(预测为反例且实际为反例)的数量;EP为假正例(预测为正例但实际为反例)的数量;FN为假反例(预测为反例但实际为正例)的数量。

F1值(F1-score)综合了准确率和召回率,通过计算准确率和召回率的调和平均值来评估模型性能,计算公式为F1值= 2×(准确率×召回率)/ (准确率+召回率)。AUC-ROC值是根据模型的预测结果和真实结果绘制的ROC曲线下的面积,用于评估模型的分类能力,越接近1 说明模型的性能越好。

5.3 试验结论

经过平台运行试验可以深入了解预测模型的优势、局限性以及适用范围,试验结果见表1。

表1 平台测试结果

由表1 可知,对小型数据集,平台展现了较高的准确率、召回率、F1值和AUC值。随着数据集增大,性能指标逐渐提升,表明平台能够处理更大规模的数据,并提供更准确的预测。不同特征选择方法的结果良好,证明平台对不同方法的适配度较高,标准化和归一化在准确率、召回率、F1值和AUC值上表现相似,都能够提高平台的预测性能,并提高对不同特征取值范围的适应能力,缺失值处理对平台性能的影响相对较小。平台在处理包括缺失值的数据过程中,依然能够保持稳定的性能,说明平台具有一定的容错能力和鲁棒性。最后,不同算法的选择均具有出色的表现。高校就业预测平台能够基于多种算法提供提供稳定且可靠的预测结果。综上所述,平台能够根据数据集大小、特征选择方法、预处理方法和算法选择等条件的变化,提供可靠且准确的预测结果,展现了较高的鲁棒性,说明高校就业预测平台在不同条件下均具有稳定性和适应性。

6 结语

综上所述,该文基于大数据技术构建高校就业预测平台。在设计和实现过程中,通过数据采集、清洗和提取特征,保证使用的数据质量高并准确;应用机器学习算法建立预测模型,并通过准确率、召回率、F1值和AUC-ROC值等指标来评估模型的性能。试验结果表明,平台能够提供可靠、准确地预测和分析结果。能够帮助毕业生了解就业市场的趋势。然而,平台的发展仍面临数据的获取和更新、模型的优化和更新等挑战。未来的工作须进一步完善和优化平台,提高预测和分析的精度和实用性,增加更多的数据源和特征,提供更全面和智能化的功能,以满足用户的需求和期望,为高校毕业生的就业规划和职业发展提供有力支持。

猜你喜欢

特征选择准确率预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
高速公路车牌识别标识站准确率验证法
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择