基于Web文本挖掘的数据分析岗位需求研究
2018-05-28刘畅
刘 畅
(兰州财经大学 统计学院,兰州 730020)
0 引 言
大数据时代是以数据为中心的时代,网络信息资源组成了一个庞大的信息库。如何在众多的信息资源中快速找到有效信息成为大数据时代备受关注的问题。在此背景下,数据分析人才需求量急速上升。人才培训市场的大数据入职培训机构深受毕业生追捧,不少培训班费用昂贵,却成为入职大数据、IT行业的通行证。这一方面反映了人才市场的用人需求,另一方面反映出高校人才培养与市场人才需求之间衔接的断层。同时在人才招聘中经常出现求职者难以找到理想工作,用人单位难以找到理想员工的状况。在线招聘平台的出现提供了大量的岗位招聘信息,直观反映了招聘市场的用人需求,使求职就业更加快捷、高效。本文通过对“前程无忧”(http://www.51job.com)招聘信息的文本分析,挖掘数据分析岗位特点,为毕业生求职就业提供参考。
1 数据来源与研究方法
1.1 数据来源及其预处理
本文利用八爪鱼采集器于2017年12月1日对前程无忧网近一个月全国范围内数据分析师职位招聘信息进行采集,得到包括薪资待遇、工作地点、工作经验、学历要求、职位信息等内容的招聘信息共9270条。在获取的招聘信息中,存在重复信息、薪资、职位信息等指标的信息缺失情况,利用R语言对数据进行去空、去重处理,得到有效数据6325条。
招聘信息中包含大量文本信息,通过R语言对中文文本进行数据预处理,结合Jieba分词与Rwordseg分词模块进行中文分词。对文中无意义的介词、连词以及无助于分类的专用名词,使用哈工大停用词表进行停用词过滤。对于冒号、空格等特殊字符,则运用正则表达式进行处理。为确保分词结果的准确性,将“数据分析”“数据库”等专业词汇加入技能词典。
1.2 关联规则基本概念
关联规则用于发现数据集中数据之间的相关关系,根据数据库中某个事务的属性值去推断或者预测出其他事务属性值。若I={I1,I2,I3,…,Ik}是所有项目的集合,存X∪I,Y∪I则称X,Y为项目集,其中k为项目计数。关联规则是形如X→Y的表达式,其中X为关联规则前项,Y为关联规则后项,且X和Y是不相交的项集,即:X∩Y=φ。关联规则的强度用支持度(Support)、置信度(Confidence)和提升度(Lift)来度量,其公式如下。
支持度表示一个项集或者规则在所有事物中出现的频率,确定规则可以给定数据集的频繁程度。置信度表示关联规则的可靠性,即在关联规则X→Y中,Y在包含X的事物中出现的可能性。当X、Y的支持度和置信度分别不小于预先设定的最小支持度和最小置信度时,称X→Y为强关联规则。提升度度量项集{X}和项集{Y}的独立性,若Lift(X→Y)=1,则{X}、{Y}相互独立,若Lift(X→Y)<1,则{X}、{Y}相斥。提升度越高,挖掘出的关联规则越有价值。
Apriori算法是关联规则中的经典算法,能有效地识别和挖掘隐藏在海量招聘信息数据中的频繁项集,并快速准确地找出关联规则。它主要利用逐层搜索以及迭代的方法挖掘频繁项目集,再根据挖掘得到的频繁项集来找到目标事务库中各个项集之间的关联关系,最后通过获得的频繁项目集进行关联规则挖掘,从而实现挖掘目标数据间关联关系的最终目标。Apriori算法步骤如下。
步骤1:遍历目标数据库,找到频繁项集L1。
步骤2:将Lk-1(k≥2)采用自身连接生成k阶候选项目集Ck。
步骤3:根据频繁项目集的任一子集全部都为频繁项目集,可以对k阶候选项目集Ck进行剪枝。假设Ck-1是Ck的任意一个(k-1)阶子集,Ck-1∉Lk-1,则Ck∉Lk,则该候选项目集肯定不是频繁的,可以直接将该候选项目集删除。
步骤4:循环步骤2、步骤3,直至不能得到更高阶的频繁项目集为止,在得出的所有频繁项目集中计算出满足要求的关联规则,挖掘过程结束。
2 数据分析岗位分布初探
2.1 工作地点分布情况
数据科学作为分析研究海量数据的前沿科学,其发展程度和所在地区经济发展、科学技术、科研进展有着紧密联系,工作地点直接影响着求职者未来的职业发展和薪资水平。我国数据分析师工作地点分布如图1所示。
数据分析岗位主要分布在北京市、上海市、广东省。此外,我国华东地区的江苏省、浙江省、安徽省、山东省提供了大量的就业机会,中部地区的四川省、湖北省、陕西省、重庆市也有较多的工作机会。在城市分布中,一线城市、新一线城市的数据分析师岗位需求最大,总占比为86.8%。为便于统计分析,本文将工作地点中的93个城市按城市规模进行分类,分为一线城市、新一线城市、二线城市、三线城市和四线城市。
2.2 薪资水平影响因素
薪资待遇是员工价值的直接体现,也是求职者选择入职单位的重要因素。当前社会竞争日益激烈,为吸引高素质的人才,企业不仅要给予员工足够的发展空间,更重要的是能给予人才优厚的薪资待遇。目前,数据分析师工作月薪均值为9400元/月,将招聘信息按工作地点的城市规模进行分类统计平均薪资,可以看出不同地区数据分析师的薪资水平有显著差异。一线城市的平均薪资为10700元/月,明显高于新一线城市的平均薪资7100元/月,其他城市平均月薪则分布在5000~7000元/月。可见在数据科学不断进步的时代,信息交流平台宽广的一线城市不仅为数据分析专业人才提供了大量的就业机会,也拥有高水平的薪资待遇。
学历和经验通常代表应聘者的专业能力,因此在招聘市场中,用人单位往往根据求职者的学历、经验给出与其能力相匹配的薪资福利。针对一线城市求职者,进一步分析数据分析师的薪资水平影响因素,对不同学历要求的招聘信息按经验要求进行分类,考察在同一地区、相同学历的求职者在不同工作经验年限的薪资水平,如表1所示。
薪资水平不仅随着学历的提升而增加,也同样和求职者的工作经验有着密切的联系。在整体平均薪资中,无工作经验要求的信息水平略高于有一年工作经验的求职者,由此可以看出部分用人单位更倾向于招聘应届毕业生。对于有工作经验的求职者,经验越多意味着能力越强,企业倾向于给出更高的薪资。因此,求职者应同时根据自身学历、工作经验等诸多因素对未来工作的薪资水平进行合理预期。
表1 一线城市薪资水平分布 单位:元/月
3 职位信息的知识发现
3.1 岗位描述信息提取
招聘信息中的职位信息主要由岗位描述和岗位职责两部分组成,包含了数据分析师的主要岗位特点。本文对职位信息进行文本挖掘,得到数据分析师岗位关键词,如图2所示。
可见招聘信息主要包含数据分析、数据挖掘、数据库相关工作,注重工作能力、数据分析经验,及认真负责和团队精神等职业素养。职位信息同时提到对专业、软件等任职要求。通过R语言构建技能词典提取专业、软件相关文本信息,发现专业需求主要为统计类、计算机类、数学类相关专业,充分体现了大数据时代对专业人才的需求。大量招聘信息中明确提出了对数据分析软件的要求,包含数据分析软件如SQL、Python、R、SAS及基础统计软件,如SPSS、Excel等。可见在数据科学、计算机处理水平高速发展的时代,海量数据的统计工作对于数据分析软件的要求逐渐提高。
图2 职位信息词云图
3.2 关联挖掘知识发现
招聘信息中的不同指标间存在着千丝万缕的联系,关联规则用于表达招聘信息文本数据之间的相关性,发现招聘信息中的内在影响因素。对应各指标编码,得城市A1-A5,对应一线城市-四线城市;学历B1-B5,对应中专及以下-博士;工作月薪C1-C7,对应3000元以下-18000元以上;经验D1-D7,对应工作经验为0~10年以上;主要使用软件软件E1-E3,对应SQL与Python、Excel与SPSS、无软件要求。通过R语言Apriori算法得到1015条关联规则。为在大量的关联规则中快速挖掘有意义的规则,引入聚类算法将规则进行分组。使用K-means聚类方法,将LHS、RHS统计上相似的归为一类,使用Jaccard distance距离定义两个项集Xi、Yi之间的距离来聚类频繁项集,对1015条关联规则进行聚类,得到基于分组矩阵的关联规则图,如图3所示。
图3 关联规则聚类图
在聚类后的关联规则中,发现提升度最高的类为{Experience=D5,Software=E1,+3items}→ {Salary=C7},即 具备5~7年工作经验且熟悉编程类数据分析软件的求职者,最有可能获得18000元以上的月薪。可见高薪职位最看重求职者的工作经验及应用R、Python等软件的技术水平。同时,聚类结果中包含规则数最多的为{Education=B4,Salary=C3,+18item}→{Software=E3},即学历要求为硕士,入职薪资为6000~9000元的招聘信息往往同时对应无统计分析软件要求。说明没有软件技能的高学历求职者获得的薪资将低于平均水平。从上述关联分析中可以看出,用人单位看重求职者的工作经验、专业技术水平。熟练使用R、Python等专业数据分析软件作为可量化的指标,备受用人单位重视。
进一步分析高薪职位的决定因素,筛选出提升度最高的5个关联规则,做出基于图形的可视化处理,如图4所示。其中,支持度取值范围为(0.003~0.01),置信度取值范围为(0.5~0.7),提升度取值范围为(7.8~9.6)。图4中清晰、明确地展示了后项为{Salayr=S7}的关联规则的组成项目及共享规则项目,可以看出,对于入职薪资在18000元以上的高薪职位,拥有强关联规则的项目地点位于一线城市,熟悉编程类数据分析软件,学历为本科及以上,经验为5~7年。
图4 关联规则网络图
4 结 语
综合统计分析及文本挖掘结果,数据分析师作为新兴岗位分布在我国多个省市,其中一线城市拥有大量岗位需求及较高薪资水平。在数据科学背景下,数据分析工作种类繁多,对求职者的学历、经验要求随工作内容而改变。随着数据科学的不断发展,数据分析岗位对于技术的要求逐渐加强,对求职者的学历水平、专业技能提出了相应的要求。大专学历求职者倾向于基础数据分析工作,数据分析技能要求较低,薪资水平较低。本科及以上学历对求职者的数据分析水平要求较高,薪资水平较高。对于同一学历的求职者,薪资水平随经验增加而升高。通过文本挖掘得到招聘信息中的内在联系,对于高薪职位,其工作地点主要分布在一线城市,学历要求为本科及以上,经验要求为5~7年,有R、Python等面向对象的解释型计算机程序设计语言要求。
高校学生求职就业,选择一线城市意味着更广阔的发展前景。对于志在数据科学领域的在校大学生,学好统计学、数学、计算机科学理论知识的同时,应注重实践操作,掌握R语言、Python语言等专业数据分析技能,丰富提升自身数据分析功底。对于高校来说,在发展大数据分析等新兴专业的同时,也应重视统计学等传统学科的发展,及时调整、更新相关专业培养计划,避免高校人才培养与市场人才需求之间衔接的断层。目前,我国中小型城市及西部欠发达地区就业选择面窄。对于政府相关部门,支持欠发达地区数据科学发展进程,促进东部沿海地区与西部地区的信息、技术、产业及人才交流,将有助于为西部地区及我国中小城市提供更多的就业机会,带动欠发达地区市场经济发展,加快建成全面小康社会步伐。
主要参考文献
[1]刘睿伦,叶文豪,高瑞卿,等.基于大数据岗位需求的文本聚类研究[J].数据分析与知识发现,2017(2).
[2]张学新,贾园园,饶希,等.海量非结构化网络招聘数据的挖掘分析[J].长春师范大学学报,2017(10).
[3]汤洋,汤敏倩.网络招聘信息中职业类型与专业领域的情报分析[J].情报杂志,2017(6).
[4]王文娟,马建霞.基于就业市场需求的我国情报人才培养探讨[J].情报理论与实践,2017(6).
[5]詹川.基于文本挖掘的专业人才技能需求分析——以电子商务专业为例[J].图书馆论坛,2017(5).
[6]王萍.基于Web文本挖掘的电子商务专业人才市场需求研究[D].重庆:重庆工商大学,2016.
[7]曾雷.关联规则挖掘中Apriori算法的研究[D].重庆:重庆交通大学,2016.
[8]夏立新,楚林,王忠义,等.基于网络文本挖掘的就业知识需求关系构建[J].图书情报知识,2016(1).
[9]艾伟,孙四明,张峰.基于本体的Web文本挖掘与信息检索[J].计算机工程,2010(22).
[10]胡静,蒋外文,朱华.Web文本挖掘中数据预处理技术研究[J].现代计算机,2009(3).
[11]王智玮.自动目标识别中全源数据挖掘技术应用[J].指挥信息系统与技术,2012(4).
[12]钟晓旭.基于Web招聘信息的文本挖掘系统研究[D].合肥:合肥工业大学,2010.