APP下载

基于数据挖掘技术的数据类岗位招聘信息分析与研究

2024-04-14王姣姣姚华平

现代信息科技 2024年2期

王姣姣 姚华平

DOI:10.19850/j.cnki.2096-4706.2024.02.004

收稿日期:2023-06-14

摘  要:通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式展示数据类岗位数据分布特点,并得到福利待遇和公司类型的词云图;然后采用TF-IDF算法对五类数据类岗位的岗位要求提取关键词,使得求职者能够根据职位画像选择最佳岗位;最后基于LDA主题模型确定最优主题数,进而挖掘得到岗位要求。

关键词:岗位需求分析;爬虫技术;数据挖掘;可视化技术;LDA主题模型

中图分类号:TP391    文献标识码:A    文章编号:2096-4706(2024)02-0013-05

Analysis and Research on Recruitment Information for Data Related Positions

Based on Data Mining Technology

WANG Jiaojiao, YAO Huaping

(Luoyang Institute of Science and Technology, Luoyang  471023, China)

Abstract: By mining and analyzing information from recruitment websites, we can understand the distribution of job demands and development trends, which can provide important guidance for job seekers. Firstly, crawler technology is used to obtain relevant information on data related positions on the recruitment websites of “Lagou Net” and “51job”. After data preprocessing, Jieba segmentation is used for data feature analysis to visually display the distribution characteristics of data in data related positions, and a word cloud map of welfare benefits and company types is obtained; then, the TF-IDF algorithm is used to extract keywords from the job requirements of five types of data related positions, enabling job seekers to select the best position based on the job profile; finally, based on the LDA topic model, the optimal number of topics is determined, and then job requirements are mined.

Keywords: analysis of position requirement; crawler technology; data mining; visualization technology; LDA topic model

0  引  言

如今數字经济席卷全球,网络招聘信息平台现已成为企业发布招聘信息和求职者找工作的主要渠道,相比于传统的招聘方式,网络招聘没有空间和时间的限制,且招聘信息全、工作机会多,也避免了地域性限制,求职者可以通过在网上投简历从而找到心仪工作[1]。在此背景下,也可以发现目前Web招聘网站发布的招聘信息最能反映市场对技能的需求,其中就包含了公司对各类求职者在学历上、技能上、工作经验等一些具体要求,但这些招聘信息都是存储在网站上,只是对求职者的无组织的文本信息,需要求职者花费大量的精力去筛选与自身能力匹配的岗位信息,而通过对这些信息进行有效的详细分析和文本挖掘,可以准确获取企业用人需求分布以及发展趋势,给求职者提供有效帮助。本文从招聘网站对数据类岗位的社会需求入手,从拉勾网和前程无忧招聘网站两大主流招聘网站爬取信息,利用大数据技术和文本挖掘方法,对岗位信息进行分析,挖掘得到企业对数据类人才技能的特征,掌握数据类岗位用人特点,对于广大求职者来说,这些信息具有重要参考价值。

1  技术介绍

1.1  Python语言

Python是一种动态解释型的编程语言,具有面向对象的特性,提供了内置的数据结构[2],包括元组、列表、字典、集合等,拥有大量的现成库,广泛用于数据分析、网络爬虫以及Web开发等。近年来随着人工智能、数据科学的兴起,Python使用量呈线性增长,成为目前世界上最受欢迎的编程语言之一[3]。

1.2  Echarts工具

Echarts的全称为Enterprise Charts,是一个使用JavaScript实现的开源可视化库[4],提供了丰富的图表库,包括树图、饼图、热力图、关系图等多种图表类型。使用Echarts能够实现图形的动态展示,增强了界面的美观性。并且Echarts能够实现与数据库的交互,常被用来制作可视化大屏[5,6]。

1.3  TF-IDF算法

词频-逆文件频率(Term Frequency-Inverse Document Frequency, TF-IDF)用于词条的加权,本质上是作为一种统计方法计算一个字词在一篇文章中的重要程度[7]。在一篇文章中,一个词语的重要程度往往与它的出现频率成正比,但是又会随着它在语料库中的出现频率成反比。因此,当一个词语在一篇文章中出现的频率越大,同时又在语料库中出现的频率越少,说明这个词语比较能够表达文章的主题。

词频(Term Frequency, TF)为词条出现在文本中的频率[8],通常情况下会对其进行归一化,防止它偏向长的文件。TF用公式表示为:

(1)

其中,ni, j为词条ti在文档dj中出现的次数,TFi,j为词条ti在文档dj中出现的频率。

逆文件频率(Inverse Document Frequency, IDF)为词条的普遍程度。IDF用公式表示为:

(2)

其中,| D |为所有文档的数量,| j:t_i ∈ d_ j |为包含词条t_i的文档数量,为了防止包含词条t_i的数量为0而导致运算出错,对| j:t_i ∈ d_ j |进行加1。

TF-IDF就是词频与逆文件频率的乘积,其公式为:

(3)

TF-IDF的范围可以从0到无穷大,当一个词语在文本中没有出现时,TF值为0,TF-IDF值也为0,当一个词语在文本中出现的频率越高,TF值越大,TF-IDF值也越大。当一个词语在整个文本集合中的重要程度越高,则TF-IDF值越大[9]。

2  数据获取与预处理

2.1  数据采集

网络爬虫(又被称为网页蜘蛛、网络机器人)主要是一种程序,通过程序模拟浏览器向服务器发送网络请求,在服务器接收请求响应后,按照一定的规则,自动地抓取信息,进行批量的数据下载[10]。爬虫的具体流程如图1所示。

2.2  数据保存

通过对“拉勾网”和“前程无忧”两个网站全国的数据类岗位进行爬取,共采集了23 000多条数据。此次采集的数据含有:岗位名称、工作地点、工作经验、学历要求、薪资水平、融资阶段、公司规模、行业领域、职位标签、福利待遇等。将获取的数据存储至csv文件中。部分采集结果如图2所示。

2.3  数据预处理

2.3.1  结构化数据预处理

对于结构化数据的预处理是先使用Excel自带的删除重复项功能对全局进行重复项删除,像工作经验和公司类型数据,通过指定分隔符进行分割,像爬取的岗位薪资列是一个范围,所以使用split函数指定分割符将其划分为最高工资和最低工资,并将其转化为整型后计算平均薪资,便于后期进行数据分析。

2.3.2  非结构化数据预处理

在采集的数据中,存在部分的文本数据,如:福利待遇、公司行业领域、岗位职责和岗位要求等。对于这些非结构化的文本数据通过Python的jieba分词库对其进行中文分词。jieba分词支持以下三种分词模型[11]:

1)精准模式:精确的切分文本,没有冗余。

2)全模式:将文本中有可能是词语的都进行扫描,速度较快,存在冗余。

3)搜索引擎模式:在精准模式的基础上,对长词再次切分。

本文采取全模式对文本数据进行分割,但是由于中文语言的不确定性,并且数据类岗位有一定的特性,在岗位要求描述上存在许多技能性的词语,在一定程度上会影响分词结果。所以对特殊的关键性词语构建技能词典,部分技能特征词如表1所示。

通过jieba.load_userdict函数加载自定义的词典,对文本数据进行分词[12],分词后的词汇中有很多词汇如:“或”“的”“等”。这类词语对于我们后期提取数据类岗位特征词是没有意义的,因此将以上这些语气词、介词、标点符号等统一作为停用词对上述分词结果进行过滤,本文采用百度停用词表并做部分修改,如表2所示。

通过加载停用词后,对jieba分词的结果进行遍历,过滤掉停用词。将停用词过滤结果进行保存,经过上述分词后的数据便于后期进行可靠的文本挖掘分析[13]。

3  实验结果分析

3.1  数据类岗位特征可视化分析

使用可视化技术对数据类岗位进行分析,从学历来看,学历占比排序为本科>大专>学历不限>硕士>博士,本科占比为86.49%,说明招聘以本科学历为主,如图3所示;从薪资来看,可以看出整体上来看学历与薪资呈正比例关系,学历越高则薪资水平越高,但差别不大,高出范围并不明显,如图4所示。

3.2  基于文本的词云图分析

对福利待遇和公司类型数据进行jieba分词后统计词频制作词云。先将分词结果放入txt文件中,引入第三方库WordCloud根据词频生成词云图[13],结果如图5和图6所示。

由图5和图6展示的词云图结果可知:福利待遇在五险一金、六险一金、双休、氛围、带薪年假等出现的词频较高。而发布的数据类岗位招聘需求的公司,其中做服务咨询、数据服务、软件服务、技术服务、电商和短视频的占比较大。

3.3  基于TF-IDF的數据类职位网络架构

对进行分词处理后的数据分析工程师、数据挖掘工程师、数据开发工程师、数据运维工程师、数据库工程师这5类数据类岗位的岗位要求分析结果进行TF-IDF权重计算,结果如表3至表7所示。

通过上述TF-IDF对数据分析、数据开发、数据挖掘、数据运维、数据库5类岗位的关键词权重计算结果,选取权重最大的10个关键词,通过Echarts绘制网络图,如图7所示。

从网络图的展示结果可知每个岗位对应的各个关键词,说明这些是从事数据类岗位必须掌握的技能;不同类型的数据类岗位之间含有相同的关键词,如数据库、Linux、Python等,说明行业之间有着技术交

叉,需要求职者具备这些基础技能;各个数据类岗位分别有着各自唯一关键词,说明这是该岗位区别于其他岗位需要的必备技能,对于求职目标明确的求职者来说可以有重点地增加该技能。总之,根据这些职位画像,求职者可以结合自身实力来选择适合自己的岗位。

4  结  论

本文首先采用爬虫技术获取招聘网站数据类岗位信息,通过去重、去异常值、设停用词以及分词等预处理,对信息中的地区、学历、薪资等关系进行分析并以可视化形式进行展示,最后使用数据挖掘算法得到岗位要求关键词,为求职者提供准确有效的参考。通过对网络招聘信息的分析与挖掘,可以掌握当前社会数据类行业的需求特点与发展趋势。根据分析挖掘结果,可以让相关求职者有针对性地补充专业知识,增强对口技能,也能方便计算机相关专业学生了解自己应该掌握的技能侧重点以及学校对工作单位所需要的人才的技能进行有针对性的培养。本次研究结果具有为高校的人才培养以及大学生自身能力构建、就业选择以及职业规划等提供参考依据的意义。

参考文献:

[1] 徐晗,赵鑫.互联网时代网络招聘面临的机遇、问题及对策分析 [J].江苏科技信息,2022,39(20):53-56.

[2] 宋永生,黄蓉美,王军.基于Python的数据分析与可视化平台研究 [J].现代信息科技,2019,3(21):7-9.

[3] 钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98.

[4] 任妮,吴琼,栗荟荃.数据可视化技术的分析与研究 [J].电子技术与软件工程,2022(16):180-183.

[5] 谢美英.基于Anaconda的婴儿用品数据爬取及可视化分析 [J].现代信息科技,2021,5(14):90-93.

[6] 冯洪熙,王林,魏嘉银,等.基于回归分析的网络招聘信息爬取及可视化 [J].现代信息科技,2021,5(10):1-5.

[7] 刘宇韬,施莉,刘诗含.基于TF-IDF与Word2vec的用户评论分析研究 [J].成都航空职业技术学院学报,2022,38(4):89-92.

[8] 钟晓旭.基于Web招聘信息的文本挖掘系统研究 [D].合肥:合肥工业大学.

[9] 殷漫漫.基于电商化妆品评论主题的挖掘研究——以京东平台化妆品为例 [J].营销界,2022(21):161-163.

[10] 冯晓磊.基于Python的拉勾网网络爬虫设计与实现 [J].现代信息科技,2023,7(6):85-87+91.

[11] 陈佳楠.招聘网站中数据分析类岗位的现状及其影响因素 [D].桂林:广西师范大学,2020.

[12] 刘畅.基于Web文本挖掘的数据分析岗位需求研究 [J].中国管理信息化,2018,21(10):76-79.

[13] 涂晓彬.基于大数据技术的网络招聘岗位需求分析方案 [J].信息技術与信息化,2022(12):31-34.

作者简介:王姣姣(1994—),女,汉族,河南洛阳人,助教,硕士,研究方向:大数据技术、计算机应用;姚华平(1976—),女,汉族,河南洛阳人,讲师,硕士,研究方向:软件工程、计算机应用。