大数据背景下的校园求职用户画像研究
2022-06-10陈伟东
摘要:随着大数据技术的发展和成熟,校园建设和管理方面可以使用大数据得到快速提升。本文通过对校园求职用户研究,提出了大数据背景下校园求职用户画像研究的总体框架和实施方案。根据校园求职情况构建对应的求职用户画像,有效管理校园求职用户,推动学生就业工作开展。
关键词:大数据;校园求职用户;用户画像
进入21世纪后,我国高等教育事业快速发展,高校毕业生数量也随之高速增长。中商产业研究院数据显示:2011-2020年毕业生人数按2%~5%的同比增长率逐年增长,近10年毕业生人数累计达7603万[1]。数据证明当前高校毕业生的数量增长显著,这一情况说明社会对文化知识的需求数量增加,同时也是当今社会发展的趋势,但是,高速的毕业生数量增长也给社会各方面配套能力造成一定的压力,逐年出现的“更难就业季”就是其中一大问题。
一、校园招聘的现状
校园招聘是毕业生从学校步入社会的一个渠道,各类工作单位通过校园招聘的形式引进新员工,校园招聘在连接过程中发挥着重要作用。校园招聘不同于其他形式的招聘,其具有独特的优势,一方面,招聘成本不高,涉及的专业数量多,应聘率和签约率都比较高,单位能够通过校园招聘获得一定的储备人才,有利于提高品牌形象;另一方面,通过校园招聘录用的员工,素质水平高,能够具备一定的可塑性,有年轻活力,对公司的认同感强。因此,校园招聘在一定程度上吸引了大量用人单位,受到毕业生喜爱,具有显著优势。
但校园招聘也存在着一些痛点问题,学生对求职认知有限,很多学生仅限于“找工作”几个字,没有认真地去分析求职这件事;对于自己真正要找什么工作,什么工作最合适,分析不足;同时校园招聘纷杂繁多的招聘信息,学生往往会摸不着头脑,无手下手,难以从招聘信息海洋中找全真正适合自己的职位;校园招聘信息亟需个性化推送服务,但个性化推送缺乏基础模型[2]。
二、用户画像的定义与发展
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型[3]。其核心是用户标签,在大数据技术支持下通过分析用户信息提炼特征标识丰富用户标签,让用户画像变得立体真实。
用户画像是由Alan Cooper提出,是建立在一系列属性数据之上的目标用户模型[4]。用户画像中分析的用户信息主要是互联网下的用户信息,是随着互联网产生的,与网络用户行为密切相关,根据用户的行为提取用户的特征,将用户信息标签化。标签是人为定义的高度精练的特征标识[5]。 其中可以对用户的基本属性进行标签化,用户基本属性是指一些用户的静态属性,例如性别、年龄、手机号码、文化程度、职业等;可以对用户的动态属性进行标签化,这些属性不是直接能得到,需要获取信息后统计、计算、分析后才能得到特征值,例如消费时间、购买力、音乐内容偏好、上网活跃度等。
用户画像随着大数据等技术的成熟发展很快,使原本大量沉睡的数据开始发挥商用价值。例如在电商领域,从以TB计的数据记录中获取消费行为、社交网络、生活习惯等方面的标签模型,指导商家个性化精确运营。
用户画像就是通过收集用户生活习惯、社会信息、心理特征等信息,然后建立数学模型,将用户信息标签化,抽象出一个带有标签的虚拟用户[6]。
鉴于以上背景,本文在针对用户画像的一系列研究基础上,提出将用户画像应用到校园招聘场景,进而构建大数据背景下的校园求职用户画像的设想,通过采集相关数据、设计画像维度与标签体系、提取画像标签等工作实现对校园求职用户的全面可信的刻画描述,为大数据时代的校园招聘开展创造了一种新思路。
三、大数据背景下的校园求职用户画像研究总体框架
大数据背景下的校园求职用户画像研究总体框架分为三个部分。校园求职用户画像驱动力、校园求职用户画像构建和校园求职用户画像应用价值。
(一)对现有校园招聘存在的痛点问题进行研究,痛点问题主要集中在学生对求职认知有限、学生求职需求分析不足、招聘信息纷杂繁多无从下手、个性化服务缺乏基础模型,确定了校园求职用户画像建设的必要性。
(二)利用适合校园招聘的画像视角和方法,采集相关数据,对校园求职用户进行数据建模分析并生成校园求职用户标签,构建校园求职用户画像。
(三)利用校园求职用户画像助力校园招聘的高效进行和良性发展,实现校园求职用户画像的应用价值。
四、大数据背景下的校园求职用户画像实施方案
实施方案主要分为四部分:校园求职用户画像模型构建、数据源获取与数据采集、校园求职用户标签加工、校园求职用户模型实际应用。
(一)校园求职用户画像模型构建
校园求职用户画像模型由基本属性标签、能力属性标签、求职环境标签、求职类型标签、求职行业标签、求职单位标签、求职行为标签共七类用户标签组成,具体子标签如图1所示。
(二)数据源获取与数据采集
用户标签的获取与计算,离不开各类数据源。数据来源按渠道分,主要包括系统本源数据、外部采集数据、第三方数据[7];按终端分,主要是线上数据,线上數据包括移动端数据、电脑端数据,也有少量线下数据;按类别分,主要包括人口属性数据、行为数据、设备信息数据、用户兴趣数据等[8]。
本项目需要用到的数据源包括学校本源数据和外部网络爬虫采集的数据,本源数据包括用户基本信息、网络访问日志、用户行为、用户问卷等。其中构建校园求职用户画像的其他数据,包括招聘单位的数据等,由网络爬虫方式采集。流程如下:
1.首先根据用户标签属性定位调研校园求职情境下的目标网站,分析目标网站下目标网页特征,重点观察网页url变化规律,形成url列表,重点分析网页DOM结构、网页层次和目标数据规律,使得目标数据尽可能完整。
2.网络爬虫系统设计。选择合适的爬虫系统框架,可选取Scrapy爬虫框架、Crawley爬虫框架、PySpider爬虫框架等框架,然后新增爬虫系统辅助功能,辅助功能包括:URL管理,主要是URL的增删改查操作;时间与频率管理,主要是爬取时间定时,爬取次数定频率。
网络爬虫系统完成后,选取一个或多个网页作为网络爬虫程序的种子链接,从种子链接开始,将待爬虫的URL链接列表移至待抓取队列,依次读取待抓取队列URL,对该URL定位的网页进行针对性的数据抓取并将目标数据并存入数据库,之后把已经爬虫过的URL移至已抓取队列,在已抓取的网页中如果还能获取新的未爬取的URL则继续移至待抓取队列。支持定期爬取,可以设置定时器,自动触发爬取。
3.数据分析处理和结构化存储。对于爬取的数据进行解析、处理,去除无效数据,形成结构化数据,存入结果数据库。
(三)校园求职用户标签加工
1.用户标签加工步骤
针对不同源的数据,如何获取校园求职用户画像所需的用户标签数据,一般需要经历4个步骤,包括数据采集、数据清洗、数据打通与标准化、标签挖掘与验证[9]。
(1)数据采集。如上文所提,校园求职用户标签所需的数据采集来源为学校本源数据和外部对应网站。采集用户的静态属性,包括用户的基本属性、求职环境、求职行业等;采集用户的动态属性,包括用户求职行为日志等[10]。
(2)数据清洗。第一步中采集的数据存在完整性、唯一性、权威性、合法性、一致性等质量问题[11],需要进行数据清洗。数据清洗的目的是为了解决这些质量问题,针对不同的问题采取不同的处理方式,例如针对数据完整性问题采用信息补全方法,针对唯一性问题采用去重方式,最终得到标准、正确的数据,使得数据适合做分析、计算和挖掘。
(3)数据打通与标准化。校园求职用户数据来自不同的系统,数据比较分散,关联度低,而且不同系统间数据标准有可能不一样,而对于用户画像来说,数据打通与标准化非常关键,需要寻找具有关联性的用户标识,这一类标识有身份证号、手机号、设备id等,利用用户标识进行信息关联,整合多源数据,建立统一标准完整标识实体。
(4)标签挖掘与验证。分析加工校园求职用户信息,获取目标要素,通过数据挖掘算法,计算用户标签值,如果数据量非常大,可以利用大数据平台并行计算。挖掘加工后的用户标签,使用真实案例进行验证,以保障用户标签值挖掘的有效性、准确性。
2.动态标签的加工
动态标签的标签值随着时间推移可能会发生变化,因此需要建立实时更新或者定期更新机制。以“企业价值”用户标签为例。如何计算企业价值,根据Wikipedia 上的企业价值公式进行简化:
企业价值 = 市值 + 负债 - 现金
市值、负债、现金三个数据需要使用网络爬虫技术获取。首先爬取天眼查、东方财富网等网站上企业数据,利用代码解析获取目标原始数据,然后清洗分离市值、负债、现金三个数据,最终计算企业价值。
因为市值、负债、现金会定期发生变化,所以“企业价值”也是动态发生变化的,需要定期爬取,定期更新数据与计算值,本文中企业价值根据财报周期时间,按季度进行更新。
(四)校园求职用户模型实际应用
校园求职用户画像具备七大领域用户标签信息,可以应用在推荐、分析等多个领域。
应用1:校园招聘信息个性化推荐。当招聘单位输入相关信息后,系统根据企业的招人要求,比如:学历、专业、求职地、技能、岗位名称等要求,将智能去匹配求职用户画像,在众多纷杂的招聘信息中为求职者推荐最合适的招聘信息。
应用2 :求职者求职分析报告。根据求职用户画像,通过分析算法,输出用户全方位分析报告,内容涉及用户求职心态分析、适宜职位、求职策略等。
五、结束语
本文从四个方面阐述了大数据背景下的校园求职用户画像研究,提出了校园求职用户画像驱动力、校园求职用户画像构建和校园求职用户画像应用价值的总体框架,制定了校园求职用户画像模型构建、数据源获取与数据采集、校园求职用户标签加工、校园求职用户模型实际应用实施方案,有力支持校园就业用户管理和就业工作开展。
作者单位:陈伟东 杭州职业技术学院信息工程学院
参 考 文 献
[1]李艳军.论地方高校大学生就业维权意识的培养[J].商情,2019(48):204.
[2]王鹏远. 基于大数据的高校图书馆个性化推送服务研究[J]. 内蒙古科技与经济, 2016(19): 159-161.
[3]沈金波. 用户画像在互联网金融中的应用[J]. 现代商业, 2017(33): 55-56.
[4]林燕霞. 网络舆情中网民属性及行为分析[D]. 广东工业大学, 2019.
[5]赵刚, 姚兴仁. 基于用户画像的异常行为检测模型[J]. 信息網络安全, 2017(7): 18-24.
[6]仲玮, 李志琛. 基于机器学习的网络教育系统研究[J]. 通信学报, 2018, 39(A01): 135-140.
[7]薄明霞.基于大数据的安全威胁情报分析与共享平台技术架构研究[J].电信技术,2019(11):5-9.
[8]丁伟.基于大数据技术的手机用户画像与征信研究[J].邮电设计技术,2016(3):64-69.
[9]甘伟.大数据临床科研平台的设计与实现[J].中国数字医学,2019(2):40-43.
[10]王传清.面向用户的科技期刊智能内容生产模型构建[J].中国科技期刊研究,2020(5):541-549.
[11]郭宏毅. 大数据在金融风控和精准营销中的应用及大数据项目风险研究[D]. 山东大学, 2017.