基于多源异构就业大数据的雇主用户画像关键技术研究

2021-12-02李利杰何颂颂

电子元器件与信息技术 2021年11期

李利杰，何颂颂

（1.宁波城市职业技术学院，浙江宁波 315100；2.宁波职业技术学院，浙江宁波 315100）

0 引言

校园招聘作为社会企业招聘人才的重要途径，连接企业与高职院校的主要桥梁，吸引着企业雇主的积极关注和参与。但传统校园招聘中伴随的各种弊端也日渐凸显。高职毕业生因各种原因缺乏对雇主信息的完整清晰掌握，导致高职院校、毕业生、企业之间的信息不对称，制约毕业生就业意向与雇主需求之间的不匹配；高职院校在校园招聘过程中缺乏对毕业生的精准推荐，也无法给企业雇主实现个性化推荐服务。大数据时代各种海量的就业和招聘数据到处可见，将大数据技术与用户画像技术应用到高职院校毕业生就业领域，利用大数据和画像技术精准构建面向高职毕业生的雇主画像，提升毕业生和企业之间的匹配度和满意度。

1 研究现状

互联网的发展导致用户信息和行为数据的急剧膨胀，给互联网时代的数据处理带来了深刻的变革，用户画像技术随之产生。用户画像技术是指通过对用户信息和行为数据采用数据分析挖掘等技术手段，对用户性质和特征做出抽象和概括，勾画用户的信息全貌，其核心是对用户潜在的意图和兴趣进行表示和存储，利用机器学习等算法构建出可读取、可计算的用户模型，为后续的推荐算法提供精确的语义信息。Rachsuda等学者通过对朴素贝叶斯方法、支持向量机和神经网络等技术构建的用户画像模型精度进行对比分析，提出不同用户画像模型建模的适应场景[1]。张宇等学者综合运用协同过滤、形式概念建模等技术手段，提出了基于多维特征标签体系的面向情景感知推荐领域的用户画像模型和普适推荐系统设计方法[2]。岳怡然等学者从数据挖掘和标签体系映射开展了面向知识服务的针对农业用户特定群体用户画像研究并开展了实践[3]。Wen研究团队开展了多源异构大数据的学者画像的关键技术研究，提出了基于双向长短期记忆网络和条件随机场信息抽取模型，构建了融合学术网络和文本语意的标签多分类模型，并设计了学者未来影响力预测模型，实验结果表明所提出的针对多源异构大数据的针对学者的用户画像技术有效提升信息抽取精度、标签发现能力和预测能力[4]。

虽然国内外学者已对用户画像技术开展了系列研究，但将用户画像技术应用到毕业生就业招聘领域的相关研究较少。截止到目前，知网只有两篇相关文献。张建东讯等学者探讨了将用户画像应用到校园招聘领域的可行性，开展了雇主画像维度和标签体系的设计，提出了雇主画像构建和设计流程，最后根据仿真结果优化标签提取模型。郭欢欢等学者将大数据方法融入精准招聘，利用文本挖掘等技术手段实现了雇主画像、雇主字典和技能词典的构建，一定程度上实现了求职者技能和雇主招聘需求之间的匹配。

综上所述，大数据时代丰富的数据来源为构建高度精准的雇主画像提供了可能，与此同时也提出了挑战。首先是雇主信息的异构性及不确定性，即便经过数据清洗依旧无可避免数据错误和缺失。其次如何处理爆炸式增长规模的数据也是亟须解决的问题。用户画像具有较高的时效性，这对如何设计、构建海量的用户画像数据处理和分析体系和核心算法提出了挑战。

2 雇主画像指标和标签体系构建

雇主画像数据来源于高职院校招生就业部门提供的2016-2020的毕业生就业数据，采用爬虫技术获取毕业生就职雇主的社会信息，从不同的雇主属性维度描述雇主，据此生成对应的标签描绘雇主不同维度的特征，主要的雇主标签包括基础属性标签、招聘属性标签、社交属性标签、运营属性标签和价值属性标签等五个属性标签。

基础属性标签描述雇主的基本信息，包括名称、地址、注册类型、批准设立机关、组织机构代码、证照号码、开业时间、邮政编码、电话、经营范围、所处行业、法定代表人、股东名称、税务登记证号、核算方式、从业人数等。招聘属性标签描述雇主招聘偏好，包括年龄区间、专业倾向、学历要求、毕业生离职率等。社交属性标签描述雇主在就业媒体平台的行为信息，包括发布招聘次数、发布招聘信息频率、发布招聘信息间隔、社交平台参与讨论帖数量等。运营属性标签描述企业的运营状况，包括市盈率、市净率、资产规模、经营风险、司法风险等。价值属性标签涵盖季度招聘人数、年度招聘人数、价值评定级别等。

3 雇主画像信息抽取与多源融合

多元完整的雇主数据是构建雇主画像的基础，本文的雇主数据来源于本校招生就业中心提供的近五年的毕业生就业统计结构化数据（2017-2021）和网络爬虫获取的非结构化雇主数据。招生就业中心提供的近五年的毕业生就业统计数据涵盖雇主名称、地址、注册类型、批准设立机关、组织机构代码等。其他雇主数据采用Scrapy-Redis分布式网络爬虫从天眼查、财报网、就业网等抓取和解析，采用Scrapy-Redis分布式采集系统增量爬取和采集雇主信息。采集流程主要如下：

（1）根据招生就业中心提供的近五年的毕业生雇主名称、组织机构代码建立关键词库。

（2）配置爬取域并载入Redis队列，并初始化请求队列；

（3）Scrapy主程序从配置的天眼查、财报网、就业网等域中爬取雇主的非结构数据，使用Duplicate Filter组件实现去重。Duplicate Filter组件利用Redis中的集合不重复特性判定请求是否重复，并把不重复的请求加入到Redis请求队列。

（4）返回的Reponses数据采用BeautifulSoap组件解析数据，并采用Flume组件将采集解析后的数据直接存储到Hadoop文件系统。

采集到的雇主大数据多源异构，不可避免地存在雇主信息存在差异、冲突和冗余。采集后的多源异构就业大数据通过数据清洗、集成、规约以及融合等系列处理将多个雇主信源提供的局部信息加以融合，消除多信源异构数据所产生的冲突，获得一致性描述。

4 基于机器学习的雇主画像价值评级标签提取

机器学习根据学习模式的不同分为监督学习和无监督学习。监督学习首先将数据集划分为训练数据集和测试数据集，在样本数据集开展模型训练和构建，进而在测试数据集上验证模型有效性。无监督学习求解样本数据组间组内距离最大最小化问题从而进行样本聚类。基于机器学习的标签提取是根据采集清洗后的多维雇主信息，在数据集上使用机器学习算法训练构造模型，进一步采用训练而成的模型进行预测分析，从而确定雇主的相关标签值。

雇主画像价值评级定义源自企业的信用评级，是雇主画像的核心标签，集中体现雇主在毕业生求职中的招聘能力，雇主受毕业生喜好的欢迎程度，雇主的招聘信用等方面信息。机器学习因其鲁棒性在用户画像领域得到较为广泛的应用实践，展现出其优势：能够直接从内容中提取特征，表征能力强；便于应用循环神经网络对动态或者序列数据进行建模等。为精准刻画雇主画像，提出基于机器学习的多源异构雇主画像价值评级标签提取模型。

本文采用句向量的分布词袋（PV-DBOW: Distributed Bag of Words version of Paragraph Vector）来表示价值评级数据的特征标识。句向量的分布词带通过句向量和词向量的首尾相援来预测下一个词，在每一个随机梯度下降的循环中，抽取一个文本窗口，然后从这个文本窗口中抽取一个词，然后通过一个分类任务得到句向量。依托句向量的分布词袋模型构建多源数据的特征向量表述，以串联的方式生成雇主画像的融合特征。在此基础上采用支持向量机实现用户画像价值标签分类预测。支持向量机是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。SVM算法最初是为二值分类问题设计的，处理多类问题时，就需要构造合适的多类分类器[5]。

多分类问题和二分类问题之间存在一定的对应关系：如果一个分类问题N类可分，则这N类中的任何两类间一定可分；反之，在一个N分类问题中，如果已知其任意两两可分，则通过一定的组合法则，可由两两可分来最终实现N类可分。本文构建决策树支持向量机多分类器实现用户画像价值评级预测，基本算法及流程如下：

（1）计算特征样本集中的每两类的类间区分度dij，搜索最小区分度对应的类别编码；

（2）在样本子集Si与Sj上进行支持向量机训练，得到实现类i,j的支持向量机分类器，将其生成为决策树中的一个节点；

（3）将样本子集Si与Sj合并为一个新的子集，并跟前序的k-2个样本子集构成新的含有k-1样本子集；

（4）若分类数量达到2，则直接对样本数据集执行支持向量机训练，得到分类器决策树的根节点。

5 结语

本文系浙江省高等教育学会2021年度高等教育研究课题研究成果（基于高职院校学生就业大数据的雇主画像关键技术研究），开展了Scrapy-Redis在雇主信息采集中的应用研究、探索了句向量的分布词带异构数据融合模型，开展了决策树支持向量机在雇主画像价值评级标签提取中的应用研究，为多源异构就业大数据的雇主用户画像关键技术研究提供了参考价值。后续将对基于机器学习的标签提取算法在其他标签上的应用实践开展讨论和研究。