基于多层特征表征与级联模型的医疗简历筛选
2022-03-03张晓莹陆慧娟
张晓莹,陆慧娟
1(中国计量大学 现代科技学院,杭州 310018) 2(中国计量大学 信息工程学院,杭州 310018)
1 引 言
互联网招聘已经成为了医院引进人才的主要方式,节省了传统招聘所产生的人力物力成本.由于网络招聘获取信息与投递简历的便捷性,使得投递简历的数量大幅度增加,需要投入更多人力对简历进行筛选,如何高效准确地自动筛选大量的简历成为了亟待解决的问题.
简历筛选可以大致分为推荐与分类两类方法.推荐方法基于推荐系统的思想,通过计算简历信息与岗位要求信息间的匹配度,筛选出与岗位要求匹配度最高的简历.如ALMALIS等[1]提出基于内容推荐的简历推荐方法,通过Minkowski距离计算匹配度.ZHANG等[2]则提出基于协同过滤的简历推荐方法,使用了推荐系统里面Item-Based与User-Based两类方法.谷楠楠等[3]计算简历和职位信息之间的互惠得分值,按照互惠得分排序,推荐Top N简历给企业.此类方法,能够从大量的简历中推荐出与岗位要求相匹配的简历,特别适用于中华英才网与智联招聘这类广域的企业与简历匹配,企业和竞聘者互推.而对于医疗招聘这类垂直领域,由于都是主动投递简历,岗位与简历内容匹配度都很高,而需要的是更精细的简历等级评估和筛选,基于推荐方法的简历筛选较难适用.
另一种基于分类的简历筛选方法,利用历史竞聘者的简历作为训练数据(包括被录用与未被录用的简历),训练分类模型,判断是否为可能被录用的竞聘者.如MWARO等[4]提出基于朴素贝叶斯分类模型的简历分类方法.文献[5]提出了基于集成学习的简历分类方法,采用投票的方式集成了朴素贝叶斯、支持向量机、逻辑斯蒂克回归等多种分类模型.文献[6]提出了基于语义分析的简历分类方法.LUO等[7]提出了ResumeNet,采用了注意力网络与全连接神经网络融合多类简历特征用于简历分类.秦嵩等[8]提出了基于离散筛选模型的简历分类方法.张波等[9]提出了主动式简历的概念及基于反向传播神经网络学习模式及筛选方案,主动式简历招聘指的是企业为招揽某种人才而主动发放统一或定制简历的一种招聘行为,并且该方法能够适于更精细的简历分类,如JIECHIEU等[10]基于卷积神经网络多标签简历分类用于竞聘者技能预测,为简历标记10类技能项.SAYFULLINA等[11]研究了面向简历分类的卷积神经网络模型领域适应问题,将简历分为了27个职位类型.
所谓医疗简历,是指投递到医院尤其是投递到临床医技类岗位的电子简历.随着多年的积累,医院积累了大量的医疗简历数据,能够作为分类模型的训练数据.区别于互联网与制造业专业技术岗位,及高校与科研院所科学研究岗位,医疗特别是临床医技类岗位,不但要求竞聘者具有实际的临床医疗专业技能,还要求具有临床医学科学研究能力,可以说是专业技术与科学研究兼任岗位,对竞聘者专业背景、临床经验、科研能力等方面都有要求与考量.比如,临床医技类岗位简历比互联网与制造业专业技术岗位多出了科研能力的部分.而比高校与科研院所科学研究岗位多出了实习与技术资质资格等技术能力部分.医疗简历构成更为复杂,表现为多类与多层次的特征信息,现有方法应用于医疗简历筛选时对特征的不同层级分层关系及综合表征方面考虑不足.再者,现有基于分类的简历筛选方法对简历是“通过与不通过”的二分类筛选.但在实际场景中,简历筛选贯穿着整个招聘流程,通常包括初审、笔试与面试.简单的二分类仅能满足简历初审的需求,而对于后续笔试与面试环节帮助甚微.
面向上述问题,本文提出基于多级特征表征与级联模型的医疗简历细粒度筛选.针对医疗简历多类特征层次化结构的特点,将简历特征分为教育与工作背景、科研能力、业务能力等特征组,提出多级特征表征模型,通过层级注意力网络结构和多层输出向量合并的方法,实现底层、局部和全局特征的提取与表征.不同多层级的注意力网络的输出向量对简历特征的表征粒度和能力是不同的,将其合并使得表征向量可以携带更多特征信息,能够兼顾底层特征细分要求与特征组综合表征要求.针对离散(如专业)、数值(如工作年限)、文本(如论文标题)等底层特征可以采用不同的表征方法,同时能够从不同特征层级综合表征简历特征,使得组内特征作为一个整体,并通过注意力机制增强有用特征作用于后续的分类模型.
此外,本文将现有简单的“通过与不通过”粗略筛选改进为“一般”(不能通过初审)、“中等”(通过初审但不通过笔试)、“良好”(通过笔试但不通过面试)和“优秀”(通过面试)的细粒度筛选,更加符合现今医院临床医技类招聘初审、笔试、面试的多级筛选过程,也有利于后续对不同等级人才的考量,采用级联分类模型建模该过程.实验表明,以支持向量机为分类方法的多级特征表征与级联模型平均F1值达到82.46%,能够提升优秀类简历的分类效果,对可能被录用的竞聘者识别的更好,对于简历筛选的实际应用帮助更大,在简历筛选问题上,有必要组合不同类型与粒度的特征提升简历筛选的效果.
本文后续组织结构如下:第2节介绍所提出的方法,首先介绍简历筛选模型的架构,之后介绍医疗简历特征与分组,最后详细介绍了多级特征表征模型与级联分类模型;第3节为实验,以13552份简历为数据,分别以随机森林、全连接神经网络、朴素贝叶斯和支持向量机为分类模型,通过比较实验验证了多级特征表征模型的效果;最后为结语,给出本文结论.
2 方 法
2.1 简历筛选模型架构
基于多级特征表征与级联分类模型的简历筛选过程如图1所示.在医疗简历特征分组的基础上,多级特征表征模型利用三层注意力网络分别表征底层特征、一级特征组、二级特征组,并将三层注意力网络的输出向量合并作为最终的简历特征表征向量.详细的模型结构将在第2.3节介绍.注意力网络由BAHDANAU等[12]提出,用于机器翻译,之后被用于情感分析[13]、文本蕴含[13]、图像分类[14]、语言建模[15]等.注意力网络能够动态地去关注输入的特定部分特征从而更为有效地实现输入特征表征及建立与输出间的关联关系.注意力也适用于多特征表征,如LIU等将其应用于俄语社交媒体文本,融合俄语形态、俚语等词级特征和特殊符号、英译情感信息等多特征的表征.
图1 基于多层级特征表征与级联分类模型的简历筛选过程Fig.1 Resume screening process based on multi-level feature representation and cascade classification model
面向简历细粒度分类的级联分类模型以多级特征表征向量为输入,输出简历的类别,由4个二分类模型构成.详细的模型结构将在第2.4节介绍.对于简历细粒度筛选,本文采用级联分类模型,而不是通过多分类模型,其原因包括两个方面.简历筛选具有数据不平衡问题,影响分类模型的效果,如果直接使用多分类模型,那么将导致算法的预测结果更多的偏向样本量多的类别.再者,对于级联模型能够针对不同级模型专门训练特征表征,得到适合于不同级模型的有效表征.这种基于注意力和级联模型的方法被用于了肝肿瘤分割,能够很好的增强有用特征,抑制无用特征,提升模型表现.
2.2 医疗简历特征与分组
临床医技类岗位简历,除了包括个人基本信息、教育经历、工作经历外,还包含项目经历、获奖情况、论文/著作情况、培训/实习经验、学术兼职/社团任职、聘任职称证书、职业技能证书等情况如表1所示.
表1 临床医技简历信息结构Table 1 Information structure of medical recruitment resume
临床医技简历信息构成更为复杂,对分析、处理与特征表征造成了困难.简历本身是层次化的结构,需要具有针对性的层次化的特征提取与分析方法.现有方法都关注于不同层特征的区分处理以及在简历分类中的特征组合,如谷楠楠[3]等根据简历层次化结构,将整个简历文本分成6个通用类别文本块,针对不同文本块的特点分别采用了规则与隐马尔科夫模型的方法提取简历信息.YU等[5]采用了级联隐马尔科夫模型与支持向量机混合模型针对简历不同层级文本对简历信息进行提取.LUO等[7]提出了ResumeNet,采用了注意力网络与全连接神经网络融合多类简历特征用于简历量化评估.但是,现有方法对于不同层级分层关系及综合表征的考虑不足,如单篇论文、全部发表论文、科研能力这3个层级关系的表征.
针对简历不同层级分层及综合表征的问题,本文首先将简历特征分为了一级组、二级组与特征的三级结构.一级组包括基础、教育、工作、科研4项.二级组包括论文、获奖、工作经历、实习经历、资质等11项.特征包括入职时间、离职时间、工作单位、部门/科室、岗位、论文标题、期刊、影响因子、兼职时间、职务、机构名称等40项.表2为以工作为例给出了特征分组示例.
2.3 多层级特征表征模型
在简历特征分组的基础上,提出多级特征表征模型,模型结构如图2所示.模型以特征的初始表征向量x0,i为输入,经过3层注意力网络,输出简历类别y.本文将3层注意力网络的输出向量拼接在一起作为简历特征的多级表征向量,用于后续的简历筛选.这种层级注意力网络结构和多层输出向量合并方法能够提取和兼顾底层、局部和全局特征的表征.LUO等[7]也使用了注意力网络提取简历特征的组合表征,仅使用了注意力网络最后层输出向量.LAURIOLA等[16]研究了多核学习中全连接神经网络中间层向量的组合,表明组合多个中间层向量的有效性.
图2 多层级特征表征模型结构图Fig.2 Structure of multi-level feature representation model
具体地,离散特征(如专业)的初始表征采用One-hot向量表征.数值特征(如工作年限)的初始表征向量第一维值为该特征的特征值,其他维度值设置为0.文本特征(如论文标题)采用预训练语言模型BERT[15]转为向量作为初始表征.自底向上,第1层注意力网络的每个单元数量对应一个简历特征二级组,因此具有11个注意力单元.注意力单元i其输入为第i二级组内的特征初始表征向量xj,i,1,xj,i,2,…,xj,i,m,输出为第二级组特征的表征向量x′j,i.第2层注意力网络的每个注意力单元与每个简历特征的一级组对应,因此有4个注意力单元.对于注意力单元j输入是第j一级组所有的二级组的第1层注意力单元的输出向量x′j,1,x′j,2,…,x′j,k,输出是第j一级组特征的表征向量x″j.第3层注意力网络具有一个注意力单元,以第2层4个注意力单元的输出向量为输入,输出为表征向量x‴.之后经过一个全连接单元输出简历类别y.
(1)
(2)
ej,i,k=Wxj,i,k
(3)
2.4 简历细粒度筛选与级联分类模型
本文将二分类简历筛选改进为细粒度筛选,分为一般(不能通过初选)、中等(通过初审但不通过笔试)、良好(通过笔试但不通过面试)和优秀(通过面试).细粒度筛选结果能够更好的方便招聘者在各个环节上对简历的使用,也有利于没招满的情况下,再次从细分类中寻找合适竞聘者.
面向简历细粒度分类的级联分类模型由3个二分类模型构成.一级模型判断是否为一般简历,即是否能通过初审.一级模型训练使用通过初审和不通过初审的简历作为训练数据.二级模型判断是否为中等简历,即是否能够通过笔试,使用初审通过的简历中通过笔试与不通过笔试的简历作为训练数据.三级模型判断是良好还是优秀简历,即是否能够通过面试.其训练数据采用通过笔试中通过与不通过面试的简历构成.每个二分类模型不限于具体方法,可以选择支持向量机、随机森林、逻辑斯蒂回归等分类模型.
级联模型简历筛选过程如图3所示.对于一篇简历首先通过一级二分类模型判断是否为一般简历,若是则判定为一般等级简历,若不是则通过二级二分类模型判断是否为中等简历,若是则判定为中等简历,若不是则通过最后的三级二分类模型判断是良好还是优秀简历.
图3 级联模型简历筛选过程Fig.3 Resume screening process of cascade model
3 实 验
3.1 实验数据
本文以某医院2019年与2020年的临床医技类的招聘简历数据作为数据集,其中包括竞聘者性别、年龄、职称、教育经历、工作经历、项目/课题情况、获奖情况、论文/著作情况、培训/实习经验等信息.该医院的应聘流程与大多数单位的应聘流程一致,分为初审、笔试、面试.此数据集共13552条数据,其中一般等级简历3086条(未通过初审),中等等级简历7478条(通过初审但没有通过笔试),良好等级简历2708条(通过笔试但没有通过面试),优秀等级简历280条(通过面试),各等级简历数量参见表3,括号内为各等级简历所占百分比.通过表3,可以看到各等级的简历数量比例非常不平衡,尤其是优秀等级的简历非常少,仅占总数的2.07%,而中等等级简历占到55.18%多于其他等级简历总和.
表3 数据集各等级简历数量Table 3 Number of each level resumes in dataset
3.2 实验设置
为了模型训练及测试,首先从各级简历数据中随机抽取20%作为测试数据,其余80%作为模型的训练数据.在训练数据上训练模型后,在测试数据上测试模型的简历分类效果.之后,按照2.4节所述的各级模型的训练数据的构成,将训练数据再划分为级联模型中各级模型的训练数据.级联模型中各级模型训练数据数量如表4所示.
表4 级联模型中各级模型训练数据Table 4 Training data for each level of the models in cascade classification model
多级特征表征模型中的BERT模型采用Bert-base-chinese.离散特征One-hot向量、数值特征向量、文本特征BERT表征向量都设置为768维.二级组特征的表征向量、一级组特征表征向量与最后一层注意力网络的输出向量维度为128维.模型训练采用Adam优化算法[18],学习率为0.001,Dropout率为0.3,训练数据批量(Batch)为64,训练周期(Epoch)为100.实验评价指标采用F1值.
(4)
(5)
(6)
3.3 实验结果与分析
1)多级特征表征实验
为研究多级特征表征模型的作用,本文在随机森林、全连接神经网络、朴素贝叶斯和支持向量机的级联模型与多分类模型下,比较了多级特征表征(M1)、无多级特征表征(M2)、仅使用多级特征表征最后一层向量(M3)、仅使用多级特征表征第2层向量(M4)、仅使用多级特征表征第1层向量(M5)的5种方法.无多级特征表征是将离散特征One-hot向量、数值特征向量、文本特征BERT表征向量直接拼接为一个向量作为模型输入.不同特征表征方法的F1值列入了表5.
由表5所示,在不同的级联模型下,应用多级特征表征模型的分类效果好于其他方法.表明多级特征表征(M1)能够很好的提取用于简历筛选的特征表征,而且能够适用于随机森林、全连接神经网络、朴素贝叶斯与支持向量机等不同的分类方法.采用多级特征表征的方法好于仅使用多级特征表征最后一层向量(M3)、仅使用多级特征表征第2层向量(M4)、仅使用多级特征表征第1层向量(M5)的方法,表明在简历分类问题上,有必要组合不同类型与粒度的特征,使得表征向量携带更多特征信息.本文所提出的层级注意力网络结构和多层输出向量合并的方法能够提取和兼顾底层、局部和全局特征不同粒度特征的表征,从而能够提升简历分类的效果.
表5 不同特征表征方法的F1值Table 5 F1 of different feature representation methods
在各简历等级下,各种分类方法的级联模型的F1值都好于多分类模型.特别是对于优秀等级的简历,多分类模型的F1较低.这表明多分类模型不倾向于将样本分于优秀等级.其原因是,优秀等级简历数据量较小,模型对该类学习不充分.同时,优秀类简历数据对训练损失影响相比于其他等级的数据也相对小很多,使得模型更倾向于占比较大等级简历的学习.而级联模型能够很好解决该问题,提升了优秀等级简历的分类效果.在实际招聘过程中,优秀等级简历是最终通过面试可能被录用的竞聘者.对该类简历分类效果更好,则意味着级联模型相比于多分类模型对于简历筛选的实际应用帮助更大.
对于数据较充足的中等等级简历的分类,级联模型也好于多分类模型.原因是中等等级简历数据相对较多,多分类模型更倾向于分到该类.级联模型改善了其他类数据的分类效果的同时,使得分到中等等级的简历相对变少,从而提高了中等等级简历的分类准确率.
2)与前人工作的对比
本文将所提出方法以SVM为基分类器在医疗简历数据集上与最新前人工作进行了对比,包括:2017年SAYFULLINA等[11]提出的基于卷积神经网络的方法,2018年由LUO等[7]提出的ResumeNet,2020年MWARO等[4]提出的朴素贝叶斯方法.各方法的F1值列入了表6中.实验表明,本文提出的基于多层特征表征与级联模型的简历筛选方法好于对比方法.在优秀等级简历上,F1值比ResumeNet高6.69%.ResumeNet也使用了注意力网络.本文与ResumeNet不同的是采用了多级注意力网络的特征表征向量,并且加入了残差结构.而ResumeNet采用单层注意力网络.结合表5,在同样使用朴素贝叶斯为基分类器的情况下,与MWARO等提出的方法相比,基于多层特征表征与级联模型的方法的各等级简历筛选效果更好.
表6 与前人工作的对比Table 6 Comparison with previous work
4 结 语
本文研究了医疗招聘简历筛选,将简历特征分为教育与工作背景、科研能力、业务能力等特征组,并将现有简单的“通过与不通过”粗略筛选改进为“优秀、良好、中等、一般”的细粒度筛选,更加符合现今医院招聘初审、笔试、面试的多级筛选过程,也有利于后续对不同等级人才的考量.提出了基于多级注意力网络的多级特征表征模型与级联分类模型,用于简历细粒度筛选.在包含13552条简历的数据集上验证了所提出方法,在各等级简历分类上好于对比现有方法.
在简历分类问题上,有必要组合不同类型与粒度的特征,层级注意力网络结构和多层输出向量合并的方法能够提取和兼顾底层、局部和全局特征不同粒度特征的表征,从而能够提升简历分类的效果.面向细粒度简历分类问题,级联分类模型能够有效解决数据不平衡带来的分类错误,特别是能够提升优秀类简历的分类效果,对可能被录用的竞聘者识别的更好,对于简历筛选的实际应用帮助更大.
在今后的研究中,将重点关注级联一体化模型的研究,使得特征表征模型和级联模型中各级分类模型能够共享部分模型参数,从而能够共享部分特征表征知识与分类知识,也能够降低模型参数数量,提升训练与预测速度.