APP下载

社会工作者招聘的岗位特征与区域差异:基于网络爬虫的数据分析

2022-08-03翟俊杰

关键词:爬虫直辖市求职者

翟俊杰

(南京理工大学社会工作系,江苏 南京,210094)

2020年2月23日,习近平总书记在统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议上指出:“要发挥社会工作的专业优势,支持广大社工、义工和志愿者开展心理疏导、情绪支持、保障支持等服务。”在党中央领导、有关部门和社会工作教育界、实务界的共同推动下,经过三十多年的努力,中国专业社会工作有了令人鼓舞的大发展。已有研究指出社会工作在实际发展过程中依旧有很多问题,主要表现在行业总体发展不充分,地区发展不平衡之中[1]。那么这种不充分、不平衡的具体表现如何呢?

本文试图从招聘数据研究的角度来剖析当前我国社会工作发展中存在的问题,如工作机会、就业门槛、薪资待遇、地区差距等,对以上问题的研究有助于加强对该行业的认识。通常来说,衡量一个行业的发展状况除了可以使用宏观的数据例如行业市场规模、相关从业人员人数、就业岗位外,还可以用微观的数据例如平均就业薪资、学历要求等来反应某个行业的发展情况。直观的行业招聘数据往往是我们研究某一个行业的有力资料,随着研究技术的进步,越来越多的企业招聘渠道由传统的报纸、线下广告等形式转为网站、App、小程序等。线上招聘最显著的优势是为雇主和求职者节省时间、提高效率;与传统的方式相比,线上招聘的方式可以帮助公司减少高达三分之二的经济成本[2]。而从研究的数据收集角度来看,线上招聘的数据更全面、来源渠道更广、数据收集的成本大大降低;另外,网络爬虫技术(Web Crawler)和文本分析技术的兴起也为此类研究提供了极大的便利。

一、文献综述

当前,国内外不乏利用网络爬虫和文本分析技术抓取招聘软件和网站的数据做统计的研究。国外此类研究中比较有代表性的是对美国著名招聘网站(Burning Glass)约200万条网络招聘广告的分析。这项研究分析了美国前30种广告数量最多的职业需求,统计雇主对技能或偏好的需求[3]。除此之外还有学者利用Java编程语言收集了在线招聘网Saramin上发布的17 781条IT职位招聘数据,以此来了解IT业各个领域的招聘趋势[4]。

在国内,有学者应用网络爬虫技术爬取并清洗得到招聘网站上六万多条教师招聘信息,以此为基础数据,对教师劳动力市场的技能或特征需求进行了研究[5]。还有学者从人才培育建议入手通过采集档案人才网络招聘数据,挖掘档案企业与职位的人才需求、任职要求,最后从教育发展规划、课程体系结构和专业教学过程提出了档案人才培育相关建议[6]。

目前国内外学者已经将网络爬虫运用到自己所在专业领域并取得了一定的研究成果。但目前国内针对社会工作就业的研究多以高校社工毕业生为研究样本,从学生的专业素质、就业观念以及配套岗位设置、薪酬待遇、专业认知度、培养机制分别来分析影响社工毕业生择业的主客观因素[7]。在比较研究方面,有学者利用我国高校2015~2017年就业质量报告比较了社会工作专业的高校毕业生与其他专业毕业生就业率的差异[8]。在政策倡导方面,有学者从社会工作就业供求失衡的原因分析入手,提出解决供需矛盾的策略建议[9]。不可否认,上述研究对于认识该行业的就业状况有一定价值,但是高校社工专业学生的就业情况只是整个行业的一部分,我们还应当关注到整个行业的现实状况。以CNKI为例,在不做任何类别筛选的前提下,利用“社工就业”“社工就业分析”“社工招聘”等关键词检索出来的结果几乎都是以具体某个地区或高校的就业状况研究,而从社工招聘数据的角度来分析整个行业状况的研究几乎没有。

综上所述,本文以网络爬虫和文本分析技术为工具收集社会工作招聘数据作为研究对象具有一定的意义。

二、研究设计

(一)研究工具的选择

本文收集数据的工具为Python语言,Python由荷兰数学和计算机科学研究学会的Guido van Rossum于1990年初设计。Python是一种解释性语言,具有面向对象的特性,相比较其他语言开发人员可以获得更大的灵活性,代码的体积更小,面向对象的编程存在python中也更方便。Python提供了高效的高级数据结构,能简单有效地面向对象编程[10]。除此之外,Python的爬虫技术还有以下优点:可以有效地获取关键数据信息,该技术是一种按照设计者所设定的规则,模拟成为浏览器,自动驱动抓取网页信息的程序或者脚本,它可以将整个网页完整爬取下来,且具有高度的自定义性。之后,设计者就可以根据自己想要的数据来改善爬虫,使其删掉无用的信息而保存需要的数据[11]。本文选择了运用Python语言编写自动化的爬虫程序来抓取招聘软件和网站的招聘数据源代码,得到数据后用X-path、正则表达式对网页源代码进行解析从而得到想要的关键词数据,而后借用Excel和文本解析工具做数据的清洗和整理工作。

(二)数据来源

本文选择了四个垂直招聘软件(Boss直聘、前程无忧51job、智联招聘、猎聘)。选择上述四个垂直招聘软件是因为一方面上述软件综合影响力大,岗位全面,另一方面在各个手机厂商的应用商店里下载量靠前,用户群体大。检索数据的关键词为“社会工作”,招聘主体为社工机构,地点设为“全国”,其他条件均不做设置,尽可能多地获取数据。本文还分别选取了一个由社工团体开发运营的专业社工招聘软件——青翼社工招聘以及另一个中国社工联合会主办的国内社工唯一的门户网站——社工中国网;青翼社工和社工中国网的招聘模块只针对社会工作岗位招聘,两种招聘渠道互为补充。

(三)关键词数据和分析框架

为了探究当前社会工作招聘的现状,本文抓取的关键词数据包括各省(自治区、直辖市)、岗位的薪资、学历要求、工作年限要求、附加条件以及招聘岗位的类型;数据抓取的时间为2021年10月10日。之所以选择这些数据作为关键词进行抓取是因为岗位薪资、学历要求、工作经验要求、附加条件等数据能够反映出一个城市该行业的发展水平和对从业者的入门门槛。

通过设置检索条件,笔者一共从上述6个招聘软件和网站中获取7 821条初始数据,对一些关键值缺失(例如没有薪资说明、非社工机构社工等)和不符合研究条件(例如招聘岗位非社会工作岗位)的数据进行删除,最后得到5 042条有效数据。由表1可见,其他四个垂直招聘软件的检索匹配正确率明显低于社工中国网和青翼社工,这是因为垂直招聘软件通常为了让数据量更大,会在检索结果中夹杂其他岗位的招聘信息;而社工中国网和青翼社工的检索匹配正确率接近100%。

表1 各个招聘软件与网站清洗前后的数据量对比

三、研究发现

基于关键词所抓取的数据,下文将分析社会工作行业招聘的岗位规模、平均薪资、平均学历要求、平均工作经验要求、雇主对于求职者的偏好等,并进一步分省份进行比较。

(一)岗位规模

通过Excel函数的计算和图表呈现功能,我们将全国各省(自治区、直辖市)在上述招聘软件和网站上发布的招聘信息(以发布的招聘信息条数为单位)做成了条形图,从图1不难发现,东部地区省份的社会工作招聘量就占据了所有数据量的半数以上,而广东省所发布的招聘信息数量达到了1 950 条,占招聘总数的38.67%,北京次之,以429条招聘信息占招聘总数的8.5%,江苏以398条招聘信息占招聘总数的7.89%;甘肃、黑龙江、内蒙古、青海、新疆等地区能找到的招聘信息不超过10条,西藏甚至在上述招聘软件和网站上找不到任何关于社会工作的招聘信息。同样,我们再分别以“Java工程师”“法律”等字样为检索关键词,地点为“全国”进行检索,结果是仅在前程无忧51job招聘软件上“Java工程师”检索出了超过40 000条的相关招聘信息,“法律”则检索出了超过60 000条的相关招聘信息。由图1可见,相比其他行业,社会工作就业的选择面会小很多。

图1 全国各省(自治区、直辖市)所发布的招聘信息数量

与此同时,在数据的处理过程中我们还发现大部分的招聘信息招聘的岗位为“一线社工”;另外,中层职位也相对较少,整个数据中也几乎没有“研究型”岗位面向市场招聘。这可能和一些地方社工职业的法律制度、激励制度不够健全、社工人才的职业地位、发展前景难以得到保障导致社会工作人才出现“弱势退出”现象[12]以及高质量社工少、离职情况不少等原因有关[13]。

(二)薪资情况

统计发现,全国各省(自治区、直辖市)所要招聘的社工岗位的平均每月的薪资水平为5 025.6元,每月薪资水平的中位数为5 000元整,与平均薪资数据非常接近;两个数据均低于2021年全国居民人均工资性收入的5 505元[14],且有不小差距。不仅如此,社工岗位的平均薪资也远低于全国城镇非私营单位就业人员的薪资,以山东为例,通过爬虫得到的社工招聘岗位平均薪资为5 125元/月,而山东发布的2020年全国城镇非私营单位就业人员平均工资为97 379 元/年。这进一步说明当前社会工作行业平均薪资低,与相关研究结果一致[9]。

6个招聘软件和网站的数据在岗位薪资区间一项上,占比最少的为大于15 000元的2.13%,占比最高的是3 000~5 000元这一项,比例为45.18%;而小于3 000元,3 000~5 000元、5 000~8 000元、10 000~15 000元这四个薪资区间的占比分别为6.08%、32.48%、9.33%、4.77%(见表2)。

由表3可见,各省(自治区、直辖市)的具体数据与总体数据在结果上大体一致,值得指出的是北京和上海两地在10 000~15 000元和大于15 000元这两项指标上明显高于总体数据;而在小于3 000 元和3 000~5 000元两项指标上面,招聘数量位于后15位的省(自治区、直辖市)中大部分数据与总体数据的结果也有较大差异,一方面可能是受到数据量的影响,样本数量少,结果多少会出现一些偏差;另一方面地方的社会经济发展水平的不同也会影响到行业的发展。

从图2(西藏未检索到招聘信息)我们发现,统计的结果基本与我国整体的经济发展水平相一致。上海、北京、浙江、江苏、广东等经济发展较好的城市所发布的招聘岗位平均薪资占据了前五;而上海是平均薪资唯一突破7 000元的,平均薪资达到了7 427元,这与上海整体的社会经济实力有关。尽管青海、新疆、甘肃、黑龙江等多个省(自治区、直辖市)所发布的招聘信息不足十条,但是在数据整理的过程中笔者发现上述省(自治区、直辖市)所发布的招聘信息中,同一级别的岗位薪资也明显低于其他省(自治区、直辖市),因此在平均薪资的排名中排在尾部。

表2 6个招聘软件和网站各个薪资区间的招聘数量与占比(百分比结果保留两位小数)

表3 全国各省(自治区、直辖市)各个薪资区间的招聘数量与比例(百分比结果保留两位小数)

(三)学历要求

统计发现,学历要求中,与其他行业求职的学历要求基本相同,社会工作行业内的岗位对求职者学历为本科和大专要求的占据了绝大多数,两者相加的比例占到了87.61%,这也说明了成为一名社会工作者需要积累一定的知识;高中/中专和不限学历的占比分别为7.93%和2.12%。值得注意的是,当前我国社会工作行业所招聘的岗位中,需要求职者具有研究生及以上学历的数量太少,5 042条招聘信息中仅有117条招聘信息有此要求,占据数据总量的2%不到,这与我国当前社会工作硕士生的教育规模不大匹配。当前我国已批准170多所高校设立社会工作专业硕士点,另有多所高校培养社会工作方向的博士生,年均数千名社会工作研究生毕业,在社会工作行业整体对学历要求较低的情况下,严重制约了社会工作硕士进入专业领域从事社会工作管理与服务(表4)。

表4 招聘岗位对求职者的学历要求(百分比结果保留两位小数)

在学历要求这一项上,各个省份对于求职者的学历要求差异显著,这种差异主要表现为:需要求职者最低学历为硕士和博士的招聘岗位中,除了一些省份有极少数的在招岗位以外,绝大部分的岗位都集中在经济发达的省份和直辖市;例如北京、上海、广东、浙江和江苏;不仅如此,上述各省(自治区、直辖市)在对求职者最低学历要求为本科的比例也高出了所有数据的平均水平;与之相对应的是东北、西北、西南和华南(除广东省以外)等省(自治区、直辖市)对求职者最低学历要求为大专及大专以上学历的表现几乎都低于平均水平。 这与前人的研究结论相似[14]。国内社会工作研究不同程度地存在着“重实务轻学术”研究的倾向(表5)。

表5 各省(自治区、直辖市)对求职者的学历要求(百分比结果保留两位小数)

续表

(四)工作经验要求

在对求职者的工作经验要求这一项中,不限工作经验的占比最高,达到了36.98%,要求求职者具有1~3年相关工作经验的占比次之,达到了32.80%,要求具有3~5年工作经验的占比为20.26%,剩下指标按照高低顺序依次是要求求职者具有0~1年工作经验占比为4.81%,要求求职者具有5~10年工作经验占比为4.16%,要求求职者具有10年以上的工作经验占比为0.09%(表6)。

在对求职者工作经验的要求统计中我们发现,几乎各省(自治区、直辖市)的具体数据与总体数据无太大差别,主要集中在“不限工作经验”和“1~3年工作经验”这是由于爬取的数据中多数岗位招聘职位为“一线社工”和“社工助理”等(表7)。

表6 对求职者的工作经验要求的数量与占比(百分比结果保留两位小数)

表7 各省(自治区、直辖市)对求职者的工作经验要求的数量与百分比(百分比结果保留两位小数)

续表

(五)工作附加要求

除了学历、工作经验要求以外,在招聘数据里我们还抓取了每个招聘信息中雇主对于求职者的额外要求字样;但这一类要求主观性较强,往往都是雇主根据自身的需求进行描述,因此这类数据无法像岗位平均薪资、学历要求、工作年限要求等数据可以量化展示;因此,对于该数据的处理,我们利用微词云文本清洗工具,对于反复出现的文本信息进行识别。

文本清洗和分析的思路为:首先对所有文本信息进行识别,然后统计相似文本信息所出现的频率,最后根据文本出现的频率生成词云图,即图3。

图3 招聘岗位对工作的附加要求的文本热度

图3是从5 042条招聘信息中所附加的工作要求里提取出来出现频率最多的文本信息;对于求职者可量化的要求里面,具有社会工作师证的要求被提及的次数最多;在个人品质方面,责任心强、热爱社工行业是出现频率最高的文本;在学历要求方面,大专、本科学历被出现的频率最高,这也与前面的统计结果基本一致;在其他能力要求方面,熟悉办公软件的操作出现的频率也位于前列。

其中,个人品质(责任心、热爱社工行业)对于雇主的优先级大于专业资质,这与人们的常识有所出入,一般来说,在社工的实践中,雇主通常认为具有责任心、热爱社工行业的员工更能够长期从事该行业,因此它的优先级比专业资质高。

四、结论与讨论

(一)结论

从本文抓取的数据来看,我国社会工作行业目前存在着以下问题:(1)规模较小、岗位层次偏低,数据显示,社工招聘信息少,通过与其他岗位的关键词检索得到的结果相比较显得更加直观,同时,高端就业岗位,例如要求求职者具有研究生及以上学历的岗位占比极小。(2)薪酬较低、高收入占比小;通过上文的比较,社工的平均薪酬偏低,而且高收入岗位的占比无论是总体数据还是各个省份都不高。(3)限制不高、资历要求较少;整个数据中,对求职者的学历不限和仅为高中的岗位数量占比达到了近9%,几乎是研究生岗位的5倍,同时超过三分之一的岗位(36.78%)对求职者的工作经历没有任何要求。(4)边界不清、看重社工情怀。雇主并不特别关心是否毕业于社会工作专业,而是更强调强调求职者持有社会工作师等相关证书,同时也比较看重求职者是否具有同理心,责任心、热爱社工行业等品质。(5)差距显著、东部领先西部。东部地区在四个主要指标上相对西部地区具有非常明显的差距。同一地区之间不同省份的发展也存在着巨大差距,华南地区中广东省几乎“一家独大”,西南地区中川渝明显强于云贵。

(二)讨论

本文采取网络爬虫和文本清洗工具作为研究方法,收集了6个招聘软件和网站的招聘数据作为研究对象,在此基础上做数据的描述性统计分析;以招聘数据来反映当前我国社会工作行业发展的状况。尽管利用网络爬虫开展的研究具有收集数据/资料成本低、数据较为全面、具有时效性、很大程度上能够减少误差等优点,但同时也存在着不可忽视的缺点:由于受到招聘渠道的限制,以往的研究数据无法获得;抓取的关键词数据对于开展深度的研究有局限性;无法代表所抓取到的招聘渠道以外的数据,且这部分数据的存量不可忽视。本研究部分结论与前人的一些结论一致。不同之处在于,由于研究对象、研究方法和研究角度的不同,具体的研究结果也有所差异。总的来说,在多方的共同推动下,中国的社会工作事业得到了实质性的发展,但当前我国社工行业的发展也存在着诸多不可忽视的问题,面对这些问题,需要社会各界人士持续不断地努力。

猜你喜欢

爬虫直辖市求职者
起初为娱乐,现在做招聘:直播帮中国求职者找工作
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
大数据背景下校园舆情的爬虫应用研究
加纳移民局招聘:有妊娠纹不行
2016年各省、自治区、直辖市人均财政收支
民生表情
面试中的12个禁忌
大数据环境下基于python的网络爬虫技术
2015年各省、自治区、直辖市财政收入完成预算情况