APP下载

基于招聘广告的数据科学人才技能需求及职责分析

2022-07-20苏芳荔李世豪刘清华

郑州航空工业管理学院学报 2022年4期
关键词:招聘广告职位技能

苏芳荔,李世豪,刘清华

(郑州航空工业管理学院 信息管理学院,河南 郑州 450015)

自2014年开始,“大数据”被国家列为重点战略。得益于政策的推动,我国大数据产业迅速发展,截至2021年,市场规模已超110亿美元,未来,在市场与政策等因素的影响下,我国大数据产业将保持高增长态势,预计到2025年,市场规模将超过250亿美元。

在科学、工业和政府领域复杂而丰富的数据推动下,社会正经历着数字化转型。相应的,学生需要学习许多新的概念、技术、工具和应用程序,如MapReduce、Hadoop、Spark、NoSQL、NewSQL、内存计算、数据虚拟化、大数据仓库、数据湖、云计算、物联网、人工智能、虚拟现实、增强现实、机器学习、深度学习、认知计算和大数据分析。这对数据科学人才的培养也提出巨大的挑战。

招聘广告具有针对性强、信息来源广、表达简洁明确的特点,体现了社会对人才的需求。通过招聘广告分析可以识别出社会对数据科学人才的技能和岗位要求。因此本文基于招聘网站上收集的数据科学相关招聘信息,提取工作要求和工作职责,并运用聚类分析和内容分析方法进行数据处理,实现技能需求和岗位职责的知识挖掘,以期为数据科学教育带来启示。

1 国内外研究现状

随着近年来互联网行业的高速发展,众多企业通过各大招聘网站进行网络招聘。因此越来越多的学者从互联网招聘广告中收集信息,进行基于招聘广告的职责和技能需求分析。相关分析主要基于内容分析法、人工处理法、统计分析法进行。

1.1 内容分析法

MS Sodhi等(2010)[1]利用内容分析和频率统计等方法,研究了不同行业对运筹类专业需求的差异点;蔡文杰等(2009)[2]从3个招聘网站获取了168条信息管理与信息系统专业的招聘广告,采用内容分析法分析了企业对人才的技能要求;J. Kim等(2013)[3]选择数字策展领域作为研究对象,从ALA JobLIST等网站上收集招聘广告信息,使用NVivo软件进行质性研究和内容分析。周晓燕等(2016)[4]通过IASSIST网站收集了科研数据服务人员的招聘广告,采用内容分析法和网络调查法进行数据分析,得出企业对科研数据服务人才的技能需求;倪艳等(2022)[5]通过猎聘、前程无忧、智联招聘三大招聘网站收集了578条HRBP岗位招聘广告信息,分析不同规模企业对HRBP岗位人才的胜任力需求。

1.2 人工处理法

Chao(2005)[6]通过Monster网站收集招聘信息,对数据进行人工分类处理来分析信息系统工作岗位所需的工作经验和专业技能;Sang等(2006)[7]收集了IT管理岗位招聘信息,构建了关键词分类目录,了解当代IT经理的最新技能要求;邓之宏等(2013)[8]在智联招聘网上收集了电子商务岗位招聘信息,实证研究企业对电子商务岗位的核心技能需求。

1.3 统计分析法

吕露等(2012)[9]将信息管理专业所需的知识和技能作为关键字,在前程无忧网上采用随机抽取的方法收集了279条招聘信息,分析企业对信息管理专业人才的知识技能需求;司莉等(2015)[10]从美国、英国、加拿大的权威招聘网站获取图书情报学人才的招聘信息,通过统计分析法,了解欧美对图书情报学人才的需求情况;周霞等(2021)[11]从前程无忧网利用Python网络爬虫的方式收集了5484条GIS专业相关的岗位招聘信息,通过统计分析方法分析了GIS人才就业的前景。

有学者针对数据科学相关领域进行了招聘广告分析。黄邕等(2016)[12]通过智联招聘网站收集了2615条数据类岗位的招聘广告,针对职位基本信息、岗位职责、任职要求三方面,采用内容分析法分析用人单位对人才的知识和能力要求,最终对高校图书情报学科的人才培养提出建议;王东波等(2018)[13]收集了智联招聘等招聘网站上有关数据科学的工作岗位信息,探究情报学视角的数据科学专业课程设计内容。朱思霖等[14]爬取2019年3月前程无忧网站1万多条大数据行业相关的招聘信息,挖掘了从事大数据行业不可或缺的技能“利器”。 朝乐门等(2021)[15]从Indeed、LinkedIn和百度百聘中收集了206条数据科学家的招聘信息,对其中的任职资格要求和岗位职责描述进行聚类分析和观点挖掘,提炼出数据科学家的能力要求和岗位职责。

综合上述内容,学者们进行招聘广告分析的数据来源主要包含国内的猎聘、前程无忧、智联招聘、百度百聘等招聘网站,以及国外的Indeed、LinkedIn等综合性招聘网站和ALA JobLIST、IASSIST等专业性招聘网站;分析的专业领域多种多样,包含运筹学、信息管理与信息系统、数字策展、电子商务、GIS等;分析方法包含内容分析法、统计分析法、人工处理法等。以往针对数据科学领域人才需求进行分析时,样本收集范围过窄,样本量较少。因此,本文基于Indeed的数据进行更全面的数据科学人才需求分析,以期为我国数据科学人才培养提供参考。

2 数据来源与研究方法

2.1 数据来源

Indeed是一个招聘信息垂直搜索引擎,每月浏览量达到1亿独立用户,是全球最大的招聘求职网站。本文以Indeed作为数据来源,按照以下条件挑选出 1312个数据科学相关的招聘广告。数据的时间跨度为2020年11月20日—2020年12月18日。

(1)在招聘职位名称中,设置“数据科学”( Data Science)类的关键词,同时用人工扫描排除了名称符合而内容无关的信息。(2)在职位类型上,设置要求全职职位的招聘信息,排除实习类信息。 (3)保留内容齐全的、对知识技能和职能职责均有明确要求的招聘广告。(4)同一个单位多次发布的招聘广告,内容完全一样,只是发布时间不一致的,按照同一条招聘广告对待,人工进行过滤。(5)大部分招聘广告明确设置了“职责”和“资格”两个方面的要求。对于没有明确指出或者描述混乱的,本研究人工进行了内容的审核、识别和矫正。

2.2 研究方法

具体研究方法和分析步骤如下: (1)持续四周在Indeed网站上搜索并下载保存招聘网页;(2)按照数据来源部分设置的数据选择原则,过滤掉无关的、重复的、实习类的或者内容不完整的招聘公告;(3)人工审核1312条招聘广告的具体内容,手工提取具体的知识技能素养需求和相应的岗位职责;(4)将数据分别导入分析软件Vosviewer,识别出知识技能需求和职能职责中包含的核心关键词的频次和共现关系;(5)对第4步形成的关键词共现网络使用网络分析软件Pajek进行聚类分析和社区划分;(6)人工核对和优化上述步骤;(7)结合已有的研究和本人的研究基础,给出数据科学人才培养的建议。

3 结果分析

3.1 职位名称分析

职位名称是一个招聘广告需求的凝练和总结,具有概括性和直观性。由于对数据科学人才学位、技能、职责等方面的要求各不相同,因此职位名称的描述非常分散,共出现了超过800种不同的职位名称。图1显示了招聘广告中至少出现五次的职位名称,共15种。

图1 数据科学招聘广告职位名称分布

“数据科学经理”和“数据科学高级经理”两个职位名称合计出现次数最多,共出现了86次,其次是“数据科学主管”和“数据科学高级主管”,共出现了68次,然后是“数据科学工程师”和“数据科学高级工程师”,共出现了67次。其他职位名称还包括“数据科学分析师”“数据科学顾问”“数据科学软件工程师”“数据科学培训”等。

为了更好地挖掘数据科学人才招聘广告包含的内容和范围,本研究识别了职位名称中包含的关键词,并给出关键词的聚类图(见图2)。通过关键词频次分析发现,最常见的职位类型是manager(经理),其次是主管和分析师,相关的职位类型还有工程师、顾问、培训师、软件工程师等。主要工作范围包括机器学习、人工智能、商业分析、市场分析、研究、程序设计、产品分析等。

图2 职位名称关键词聚类图

基于招聘广告职位名称中包含的关键词之间的共现网络关系,把相关招聘需求分成了五个大类:(1)数据科学管理、主管、工程师、领导、高级管理等,这是一个笼统的大类,包含了数据科学的基本工作。(2)数据科学的顾问和分析顾问,侧重于给出解决方案。(3)数据分析及软件设计,运用机器学习、人工智能、高级程序语言进行分析和开发。(4)数据科学相关的研究和操作。(5)针对Pearson K12 Learning的数据科学管理,主要进行数字课程资源的开发和评估。

3.2 学位要求

从Indeed下载的1312个数据科学相关的招聘广告中,1055个提出了教育背景的基本要求,具体分布如图3。其中117个职位要求应聘者具有博士学位;315个职位要求应聘者具有硕士学位(其中150个职位优先考虑博士学位);611个职位本科学位就可以胜任,但其中250个职位硕士学位优先;余下的12个职位只要求有本科生学历。从以上统计可以得出,大约一半的数据科学相关工作只需要本科学位,大约四分之一要求硕士学位,只有少数要求博士学位。

图3 数据科学招聘岗位学位要求

招聘广告的学科要求如图4所示。1312个数据科学相关的招聘广告中共出现了150个学科,出现次数最多的学科是计算机科学(628次),其次是统计学(484次)和数学(372次)。其他出现次数超过100次的专业还有工程(299次)、数据科学(170次)、经济学(170次)、物理(118次)、运筹学(103次)以及应用数学(101次)。上述学科的毕业生是数据科学相关从业者的重要组成部分。

图4 数据科学招聘广告的学科要求

3.3 知识和技能要求

从所有数据科学人才招聘广告的职位描述中,提取出具体的知识和技能要求。数据科学相关工作所要求的知识和技能主要有:程序设计语言(Python,R等)、分析工具、项目管理、分析软件(SPSS、SAS等)、数据库、机器学习、建模、交流能力、大数据技术、自然语言处理、深度学习、表达能力等。

表1列出了出现频次在110次以上的知识技能关键词。经验在所有的知识技能需求关键词中出现频次最高,表明数据科学相关工作非常注重工作经验。93.4%的招聘岗位有经验要求,最长要求15年的相关工作经验。其他相关的高频关键词还包括:能力、技能、知识。在程序设计和脚本语言中, python是一种简单并且类库丰富的程序语言, 在招聘广告中出现频次很高,有817个招聘要求掌握Python语言,占比达到63%。排在第二位的脚本语言是R语言,占比为43.6%。可以认为数据科学领域需求最多的两种程序设计语言是Python和R。

表1 数据科学相关工作知识技能要求

存储系统是大数据基础架构的核心,在关于知识技能要求的高频关键词中,与数据存储相关的有 “数据库” “sql” 等。近三分之一的职位提出了对交流能力的要求,相关的高频关键词还包括表达技巧等。“数据分析”及“善于分析的”等关键词出现频次较高,体现出数据科学重在数据分析和处理的特点。机器学习的理论、算法和技术也是数据科学工作者的核心工作技能。数据分析和机器学习过程的实现,需要有“统计”基础, 能够熟练掌握和使用 “sas” “spass”等统计分析软件及 “hadoop”“spark”等大数据处理平台。在软件实体中, 最常用的基础办公软件 “Excel”也出现在高频关键词列表中。

根据招聘广告中涉及的知识和技能需求的关键词共现情况,通过VOSviewer软件构建了关键词共现网络,使用社会网络分析软件Pajek中的聚类分析方法,将知识和技能需求划分为3个簇,从而把知识和技能需求归为三大类。

(1)数据科学相关的经验、能力、知识、技能以及交流和表达能力。主要包括:数据科学、机器学习或相关领域经验;领导和管理团队经验;商业智能、商业分析经验;数据科学家、统计学家、应用数学家或同等工作经验;能够在团队环境中独立完成任务并管理时间;很强的组织能力;能够独立解决问题;能够与各部门的各级人员进行有效的口头和书面沟通;能够与他人建立并保持有效的工作关系;优秀的沟通能力,批判性思维,分析、解决问题的能力和组织能力;具有业务和技术需求分析、捕获、建模、验证和方法开发的经验;对分析和解决问题有热情;有业务发展、客户或客户关系管理经验。

(2)机器学习相关的理论、算法与技术。主要包括:机器学习、统计建模和数据挖掘技术,如梯度增强、神经网络、自然语言处理和聚类;深度学习或强化学习方面的研究和应用经验;机器学习理论涉及的深度神经网络、有监督和无监督学习、特征提取、时间序列预测、异常检测等;使用逻辑和线性回归、决策树、神经网络或聚类等技术建模;使用深度学习工具(如TensorFlow,Keras或PyTorch)训练各种神经网络结构;使用自然语言处理工具来支持关于技术和科学主题的评估和技术报告的经验;有丰富的自然语言处理经验(如文本翻译、情绪分析、语音识别)等。

(3)数据科学相关的工具、程序语言、平台、数据库等。主要包括:具有使用Python、R语言和Scala等面向分析语言的编程技能;有使用SAS或其他统计包分析大型数据集的经验;了解或有使用数据库系统的经验(如SQL,NoSQL,MongoDB,Postgres等);有使用大数据分布式编程语言和生态系统(例如S3,EC2,Hadoop/MapReduce,Pig,Hive,Spark,SAP HANA等)的工作经验;Tableau,PowerBI和其他商业智能分析技能。

3.4 工作职责分析

从所有招聘广告的职位描述中,识别出要求的岗位职务职责。数据科学人才要求的职务职责主要有:数据服务、数据分析、数据建模、数据项目、合作、产品开发、技术服务等。表2列出了工作职责中出现频次在90次以上的高频关键词。工作职责中出现频次最高的关键词是团队,说明数据科学相关工作强调团队协作。其次,数据分析是数据科学从业者的核心工作,通过数据分析找到解决方案。同时数据建模和项目管理也出现在数据科学职能职责的高频关键词列表中。

表2 数据科学相关工作职责

续表2 数据科学相关工作职责

根据招聘广告中识别出的具体工作职责所包含的关键词的共现情况,构建了工作职责关键词共现网络,从而把数据科学人才的工作职责划分为以下四大类。

(1)项目管理、过程管理、协作、给出方案等。主要职责包括:项目识别和管理;确定和定义一个特定的数据驱动项目;领导数据科学家团队,担任客户项目经理;积极寻求提高数据质量;制定新的解决方案以改进工作流程和服务;使用复杂的分析和数据可视化软件或工具发现数据模式,研究和开发复杂数据问题;指导数据科学团队在项目管理、分析计划的开发以及结果和影响的沟通方面的实践;与跨职能业务伙伴和分析团队合作,设计和生成高级解决方案。

(2)团队管理、产品战略、客户管理、业务和市场管理,主要职责包括:管理一个团队(指导和项目监督),承担多个项目,并负责项目交付;与由产品经理和工程师组成的不同团队合作,并对生命周期管理流程进行建模;收集产品决策方面的相关见解,扩大、领导和管理一流的数据科学团队;财务分析和商业案例创建,包括市场机会、投资、ROI、NPV、分阶段路线图和敏感性分析;开发先进的定量分析和优化方法,以支持客户参与、市场营销活动、对冲计划、资产优化和应对市场变化。

(3)数据工具、数据建模、算法、机器学习等,主要职责包括:参与数据策略的创建;负责收集、存储、格式化和访问数据的总体技术需求;开发将原始数据转换为有意义和有用的信息的方法、流程、架构和技术;开发和维护必要的数据治理程序和相关控制程序,以确保数据的完整性和分类;执行高度复杂的计算和数据建模,性能和集成测试;获取数据并应用基本的机器学习、建模和大数据分析技术;开发方法、假设、量化和计算机程序,为复杂的分析捕获数据,使用各种编程语言和软件工具设计和编写程序;建立复杂的算法,为现有的系统注入更多的智能;设计和开发针对大型数据集的算法和模型,以创建业务洞察力;指导团队设计、开发、测试、验证和部署机器学习/统计模型。

(4)数据分析、技术服务、技术支持、需求分析、服务提升等,主要职责包括:跨不同数据集执行统计分析;对大型数据集执行高级定量和统计分析;为与不同业务单位相关的数据分析功能提供高度的技术支持;积极研究和应用新理论和新技术,推动技术创新;与信息技术部门合作解决项目相关的技术问题;建立关键绩效跟踪指标并进行持续监控;收集需求,进行需求计划、需求捕获和需求管理,以确保满足项目利益相关者的需求;在流程、技术和执行方面提供指导和创新。

4 讨论与结论

近年来,大数据与数据科学类专业快速发展。培养数据科学人才是数据科学与大数据技术专业及计算机科学、情报学、统计学等相关专业的任务和责任。但是目前我国部分院校的数据科学专业建设存在跟风现象,缺乏必要而充分的调查与论证,偏离了数据科学专业本身的定位和人才培养目标。本次调研给数据科学专业的人才培养,尤其是相关的专业建设带来以下的启示。

4.1 注重不同领域、不同学科交叉融合

从事数据科学相关工作的专业人员学科来源广泛,基于本文统计的1312个数据科学相关招聘广告,职位涉及了150个学科,范围包括计算机科学、统计学、数学等学科。可见,数据科学是一个典型的跨专业、文理交叉学科。因此数据科学教育应积极推进工程学、计算机科学、统计学、运筹学等理工学科以及经济学、历史学、语言学、情报学等人文学科的交叉融合。

4.2 设计多层次的数据科学课程体系

基于该学科人才的技能需求,数据科学的课程体系可分以下阶段构建:第一阶段为统计学、高等数学、线性代数、概率论等基础课程的学习,目的是提升学生的逻辑能力;第二阶段为程序设计语言(Python、Java、R等)、数据结构、数据库、计算机原理等课程的学习,目的是提升学生的编程能力;第三阶段为数据挖掘、数据仓库、人工智能、神经网络、数据可视化等课程的学习,目的是提升学生的数据分析能力;第四阶段为相关专业的知识学习,如情报学领域的信息管理学、管理学、知识组织等课程的学习,目的是提升学生的项目管理和表达分析能力。

4.3 强化数据分析课程链建设

围绕数据分析这一条主线,统计学是基础,数据挖掘、机器学习、自然语言处理是方法和工具。数据科学类课程设计可在既有数据库、JAVA程序设计、计算机网络、管理信息系统等课程的基础上融入数据分析核心课程。数据分析领域需求最多的两种程序设计语言是Python和R。可将Python程序设计—数据处理—Python数据分析与挖掘等作为数据能力培养的核心课程,同时增加机器学习、自然语言处理、深度学习等课程,以提高学生基于数据分析的综合应用能力。

4.4 开展数据科学实践教育

数据科学是一门极具实践性的学科,可开展实践和教学相结合的教学模式,让学生在实践中学习理论知识,从而增长学生的实践经验和实际能力。除了要有扎实的师资队伍、丰富的课程体系外,也可与数据分析相关企业合作办学,聘请具有丰富实战经验的企业工作人员作为兼职教师,加强课程的应用与实践性。

猜你喜欢

招聘广告职位技能
领导职位≠领导力
女生总有一些神奇的技能
劳动技能up up!
拼技能,享丰收
禁止招聘广告性别歧视项目调查研究报告
画唇技能轻松
美最高就业率地铁圈
如何确定雇员的薪资