基于NLP的IT岗位需求分析研究
2022-07-07刘邵宏
摘 要:文章以IT高水平专业群建设为例,通过自然语言处理(NLP)对IT产业岗位需求进行了大数据分析,依次采用DBSCAN聚类和LDA概率主题模型,分析得到了4类岗位簇与5个技能模块关系矩阵。文章采用LTP依存句法提取岗位簇技能、知识、素质模块,进一步为厘清高水平专业群组群逻辑、完善人才培养模式、增强职业技术教育适应性提供了技术支持。
关键词:大数据技术;NLP;IT岗位;高水平专业群
中图分类号:TP391.1;G717 文献标识码:A文章编号:2096-4706(2022)04-0161-04
Research on IT Post Demand Analysis Based on NLP
—Take the Construction of IT High Level Professional Group As an Example
LIU Shaohong
(Guangdong Nanhua Vocational College of Industry and Commerce, Guangzhou 510095, China)
Abstract: This paper takes IT high level professional group construction as an example, analyses the big data of IT industry post demand through natural language processing (NLP), uses the DBSCAN clustering and the LDA probability theme model successively, analyzes and obtains four kinds of post clusters and five skill module relationship matrices. This paper uses the LTP dependence syntactic extraction post cluster skill, knowledge, quality module, and then further provides technical support of clarifying the logic of high level professional group, improving talent training mode, enhancing the adaptability of vocational and technical education.
Keywords: big data technology; NLP; IT post; high level professional group
0 引 言
針对中办、国办印发《关于推动现代职业教育高质量发展的意见》[1]和《“十四五”规划和2035年远景目标纲要》[2]提出的增强职业技术教育适应性目标,文章[3]提出“双高建设”背景下提升高职教育质量的路径为构建特色化人才培养模式,构建与地方的产业形态、行业特点、企业经营相辅相成,与劳动力市场需求紧密贴合的人才培养模式。
按照教育部颁发的《中国特色高水平高职学校和专业群建设计划申报书》[4]中提出“组群逻辑”一栏专业群组群逻辑叙述要求,文章[5]指出当前高水平专业群组群逻辑普遍研究不足、内部逻辑较少涉及,以及在组建过程中并未遵循严格的组群逻辑问题,需要厘清组群逻辑的结构与机理等。文章[6]提出从技术链出发深化专业群顶层设计,依据组群逻辑重组群内资源,推进制度体系保障工作,实现专业群可持续发展。
针对以上问题和解决思路,借助自然语言处理(NLP)等大数据分析挖掘技术,通过常态化实时准确感知劳动力市场需求,对解决当前高水平专业群建设组群逻辑问题、完善人才培养方案、增强职业教育适应性具有现实而长远的指导意义。
1 算法框架
如图1所示算法主要包括6个步骤:第一步:数据采集,应用Requests技术收集岗位信息;第二步:数据清洗,进行数据查重、变换和清洗;第三步:岗位簇聚类分析,利用DBSCAN聚类与专家判断相结合的方法提炼;第四步:LDA主题分析,应用LDA概率主题模型提炼岗位簇和技能集关系矩阵;第五步:依存句法分析,应用依存句法分析提炼岗位簇知识、技能和素质技能特征集;第六步:分析专业群组群逻辑,构建专业群人才培养模式。
2 数据来源及清洗
2.1 数据来源
以某招聘网站发布的13+万条IT岗位数据为数据来源,数据包括招聘信息ID、公司名称、岗位名称、薪酬、工作地点、工作年限要求、学历要求、信息公布时间、岗位描述等特征。
2.2 数据清洗
数据清洗包括去除同一岗位的招聘重复信息,去除岗位名称中包含的异常符号、数字和无效数据。经Jieba分词、去除停用词、无效词后进行分析。
3 数据挖掘分析
3.1 产业岗位、城市和学历分布
IT产业涵盖上游、中游和下游产业,具体包括电子电路/传感器、网络通信、计算机硬件、计算机软件、信息中介/服务业等。通过对行业字段统计分析,如图2(a,b)所示,IT岗位需求占整个岗位需求的36.6%岗位,共计69 579条。
从城市分布图3(a,b)看,IT产业人才需求80%主要集中在一线城市(北京、上海、广州、深圳)以及新一线城市(成都、杭州、武汉、南京、长沙、天津等15个)。而广州、深圳核心城市及珠海、惠州、东莞、肇庆、佛山、中山、江门、澳门等粤港澳大湾区城市群岗位占比达34.2%。
3.2 岗位簇聚类分析
因主题数量未知,故与文章[7]采用基于质心的K-means聚类算法需要事先确定主题数量不同,本文采用基于密度的DBSCAN聚类算法,该算法能够自动确定聚类簇数,并有效消除噪声和异常点的干扰,尤其可以发现任意形状的聚类簇。
从学历分布图4看,IT岗位对本科学历的需求最大,占44%,其次专科为41%,表明产业对专科及以上层次高素质技能人才的需求较大。
依次对岗位名称进行分词、词性标注、TF-IDF词权重、基于词性的新权重、并调整距离阈值和邻域样本数阈值参数分别为eps=0.5,min_samples=3最终聚类得到前200簇类名称,分析得到IT需求量较大的4大岗位簇及对应岗位名称、数量情况,如表1所示,其中以大数据分析为代表的新一代信息技术岗位需求逐渐增多。
3.3 LDA主题聚类分析
使用Gensim LDA聚类分析方法对岗位簇相应主题和技能进行聚类,输入岗位描述,输出为相应的主题概率和关键词。首先计算了主题数量N取值为2~10时的多个模型主题数困惑度和一致度曲线,如图5所示,综合困惑度最小化、一致性最大化原则,取主题数量N=7可视化输出为pyLDAvis主题模型如图6所示。
分析图6可知,除了主题3为员工福利外,其余6个主题均与专业技能有关,其中主题5包含在主题7中,可以合并为一个主题,故可聚类开发、测试、软件、实验、运维5个主题技能集,以及对应频次最高的15个技能词,如表2所示。
3.4 需求矩阵分析
按照岗位簇中所有岗位对每一个技能集需求程度的平均值归一化[7]后,得到4个岗位簇对于5个技能集的需求矩阵表3和重要度指数表4(其中的重要度指数*的数量为表3数据整数部分)。
3.5 结果可视化
将表4岗位簇技能集重要度指数可视化为桑基图,如图7所示,中间连接线宽度表示指数大小。分析可知:开发、软件技能与软件开发岗位簇强相关;软件、测试、实验技能与软件测试岗位簇强相关;测试、实验技能与大数据分析岗位簇强相关;而运维技能与网络运维岗位簇强相关。由技能难度分析,4类岗位簇中软件开发难度最大;而大数据分析岗位的技能难度相对较低,一定程度反映当前大数据分析岗位技能要求与专科层次水平差距较大。
4 LTP依存句法分析
本文使用哈工大的PYLTP分析算法如图8所示,别对4类岗位簇进行主谓宾关系句法分析,精准抽取知识、技能和素质关系事实三元组,这里以软件开发岗位簇分析为例,可视化输出词云图如图9所示。
分析词云图可知,4大岗位簇均涵盖操作系统和服务器原理、数据库原理、编程等知识技能,以及学习、沟通、协作、责任、服务等素质,以上可作为专业群平台模块。而项目经验可作为拓展模块纳入人才培养方案中。以人才培养方案为基础构建IT专业群组群逻辑如图10所示。
5 结 论
本研究基于13+万的岗位大数据,依次采用DBSCAN聚类分析、LDA主题模型、LTP依存句法分析,对岗位簇和技能集分别进行了大数据分析挖掘,以下为具体结论:(1)IT产业岗位占比整个岗位需求的36.6%;其中面向粤港澳大湾区城市占比33%;面向专科层次占比39%,故面向粤港澳大湾区城市群高职IT岗位需求数(占比)为5 800(4.5%)确保了专业覆盖面和地域特色。(2)由表4可知:软件开发岗位簇以开发、软件技能培养为主;软件测试岗位簇培养测试、软件、实验技能为主;大数据分析岗位簇培养测试、实验技能为主;网络运维岗位簇培养运维技能为主;以上较真实地反映了当前IT岗位对人才技能的需求,可作为IT专业(群)人才培养技能目标。(3)按照4类岗位簇对应4个专业(群),并结合5个技能模块需求关系,加上平台和拓展2个技能模块,作为IT专业群组群逻辑图10,并以此为基础构建高水平专业群人才培养模式,能够较好地适应IT产业对人才的需求。
参考文献:
[1] 中共中央办公厅 国务院办公厅印发《关于推动现代职业教育高质量发展的意见》[EB/OL].[2021-12-12].http://www.gov.cn/zhengce/2021-10/12/content_5642120.htm.
[2]打造现代化职业教育体系(人民时评) [EB/OL].[2021-12-12].http://paper.people.com.cn/rmrb/html/2021-11/02/nw.D110000renmrb_20211102_1-05.htm.
[3] 李明慧,曾绍玮.“双高计划”背景下高职教育质量提升的方向、难点与路径 [J].教育与职业,2021(13):42-47.
[4] 教育部辦公厅、财政部办公厅关于开展中国特色高水平高职学校和专业建设计划项目申报的通知 [EB/OL].(2019-04-19).http://www.moe.gov.cn/srcsite/A07/moe_737/s3876_qt/201904/t20190419_378876.html.
[5] 张新民,杨文涛.论高职院校专业群建设的组群逻辑 [J].职教论坛,2021,37(7):6-12.
[6] 沈建根,石伟平.高职教育专业群建设概念、内涵与机制 [J].中国高教研究,2011(11):78-80.
[7] 徐正丽,文博奚,谢梅英,等.基于大数据技术的AI岗位需求分析研究 [J].广西科学,2021.28(3):321-329.
作者简介:刘邵宏(1972—),男,汉族,湖南邵阳人,副教授,工学硕士,主要研究方向:大数据技术、智能装备设计与制造。