融合智能审核的高考志愿推荐模型
2022-03-04刘行兵王英英孙钦英柴斌李冉
刘行兵,王英英,孙钦英,柴斌,李冉
(河南师范大学 a.计算机与信息工程学院;b.“教育人工智能与个性化学习”河南省重点实验室,河南 新乡 453007)
高考志愿填报是高考招生工作的重要环节[1],但由于高考数据冗杂繁多,考生个人定位不明确,志愿填报规则复杂[2-3]等问题,考生和家长难以在短时间内精准进行信息筛选并做出合理的志愿填报方案选择.一旦选错志愿,做错决策,将影响考生未来的就业之路[4],严重时还会造成高考落榜,带来巨大的损失.因此,利用相关技术手段帮助考生快速审核高考志愿填报方案的合理性是解决此问题的关键.
目前,高考志愿填报的相关研究主要包括:高校录取成绩预测[5-7],高考志愿推荐[8],高考志愿决策系统[9]等.沈小娟等[10]基于高考志愿录取机制,依据考生志愿选择偏好和考生位次,建立志愿填报概率模型,计算出考生被高等学校录取的概率,提高考生志愿填报的有效性.周井芝[11]针对报考中出现的问题,提出一种基于数据分析的志愿决策模型,根据考生的分数、选择偏好等因素为考生志愿填报提供决策支持.余奎锋等[12]基于C均值模糊聚类的多特征权重模糊均值聚类算法构建了高考志愿推荐原型系统,更好地利用考生分数,满足考生个性化志愿需求,降低了志愿填报风险.
虽然以上工作已经取得很好的效果,但现存模型大多数只实现了基础的志愿推荐功能,并没有解决如何审核考生所选高校的合理性问题.综合考虑高校特征及考生偏好对高考志愿填报的影响,实现高考志愿智能审核和个性化推荐是一项重大挑战.为了解决以上问题,提出了一种融合智能审核的高考志愿推荐模型,利用梯度划分原则和高校录取成绩预测模型对考生初始志愿进行审核,并在考生初始志愿中提取考生偏好特征,结合考生偏好来修改、完善考生志愿.最后,通过实例验证了模型的有效性.本研究为解决高考志愿填报问题提供了一个新思路.
1 融合智能审核的高考志愿推荐模型
融合智能审核的高考志愿推荐模型利用高考志愿填报策略和智能化审核方法对考生志愿进行评估,提出合理的建议和意见.算法主要运用了梯度划分思想和高校录取成绩预测技术对考生志愿进行审核,提出修正意见,并结合志愿修正意见和从考生初始志愿表单中提取的考生偏好为其再次推荐个性化志愿表单.模型技术路线如图1所示.
1.1 梯度划分
高考录取按照“分数优先,遵循志愿”的规则,考生可以填报多个高校(不同省份规定填报的高校数目不同),模型将考生填报的高校进行梯度划分,按照冲、稳、保规则进行填报.设某省份某批次最多可填报的志愿数为R,将其分为冲、稳、保3个梯度,每个梯度的志愿数为
XF=G(F,g,h,e),
(1)
其中,G(F,g,h,e)为将位次映射为分数的函数,F为院校录取位次,XF为院校录取分数,g为考生所在省份,h为文理科,e为高考年份.在g,h,e相对固定的情况下,该映射可以通过查询对应的一分一段表获得.
根据高校最低录取线和高校平均录取线预测结果计算考生Un(n=1,2,3,…,n)对每个高校的录取概率.概率p计算如(2)式所示:
(2)
其中Sm表示高校最低录取线的预测值,Sa表示高校平均录取线的预测值,M表示考生成绩.根据录取概率将高校划分在3个梯度中,第1个梯度为冲刺类高校,录取概率在(0,50%];第2个梯度为稳定类的高校,录取概率在(50%,80%];第3个梯度为保底类高校,录取概率(80%,99%].
1.2 考生偏好提取
考生志愿表单中隐含考生的选择偏好,将从志愿表单中获取的考生偏好作为考生的个性化标签.根据考生填写的初始志愿表单,在高考数据库中挖掘出高校地区、高校类型、专业类别等信息,根据此信息为考生出具志愿评价结果.若某省份某批次可以选报m个高校,每个高校可以填报n个专业.则每个考生填报的高校集合为C=(c1,c2,c3,…,cm),专业为m×n矩阵A,如(3)式所示:
(3)
根据C找到考生志愿中每个高校的高校特征μ=(μ1,μ2,…,μi),包含:高校类型特征t=(t1,t2,…,tm),t∈μ,地区特征集合l=(l1,l2,…,lm),l∈μ,以及高校所在城市级别特征集合o=(o1,o2,…,om),o∈μ等.其中i指高校特征总数.根据A找到考生志愿的专业特征矩阵:专业类型矩阵B,如(4)式所示:
(4)
1.3 志愿问题分析及推荐
结合梯度划分思想审核考生志愿,将志愿表单中不符合梯度的高校列出,分析原因,并为考生志愿提出合理的修正建议,使用融合录取概率和考生偏好信息的高考志愿推荐模型进行志愿推荐,指导考生修改和完善志愿方案.同时,为了解决有相似偏好的考生得到相同的推荐结果,导致众多考生扎堆填报同一高校的问题,本文将随机采样和top-k法相结合,生成最终的高校推荐结果.
(1)针对考生分数,计算考生被高校录取的概率,产生考生对应的高校候选集Q.
(2)从考生志愿表单中提取考生偏好.构建考生对应的志愿个性化标签Y=(y1,y2,y3,…,ym),其中,m≤R,y=μ为考生初始志愿表单中的高校特征集合.
(3)利用Jaccard系数[13]结合志愿特征计算相似度.Jaccard系数定义为:给定两个集合D,E,Jaccard系数为D与E交集的大小和D与E并集的大小的比值,如(5)式所示:
(5)
当集合D,E都为空时,J(D,E)定义为1.
分别计算考生志愿与候选集中每个高校的相似度.当考生对应的志愿个性化标签Y=(y1,y2,…,ym),候选集Q中高校j的高校特征为S=(s1,s2,…,si)时,考生志愿与候选集中高校的相似度为:
(6)
(4)产生推荐集.将相似度计算后的高校集按照相似度降序排列,得到推荐列表W,最终为用户推荐的高校数量为I,I的取值根据考生可填报的高校数R来决定,一般将I定为R的两倍.为了缩小考生选择范围,扩大选择空间,同时避免考生扎堆填报相同高校的问题,将其方法与梯度划分原则相结合,依据录取概率将推荐列表W也分为冲、稳、保3个梯度,根据已经计算好的相似度和top-k法(取k=10),在每个梯度中,选取前10个高校作为初始推荐表,再用随机抽样的方法,在每个梯度中为考生随机抽取Z个高校,得到最终推荐结果.其中,Z=<2·R/3>,(<2·R/3>为2·R/3取整的结果),X=3·Z.
2 模型实例分析
以河南省2020年高考数据中理科一批的高校数据和考生数据为实验数据,以高考分数为620分的某考生U1为对象进行分析,验证模型的可行性.
(1)考生输入注册信息.
(2)系统反馈:考生分差(考生分数和对应批次省控线的差):您超出一本分数线76分.考生位次(考生在该省份对应科类的排名):您在本省理科考生中的排名为27 221.
(3)考生初次填写志愿表单,如表1所示.
(4)提取考生偏好. 根据考生志愿表单中填报的高校,挖掘出考生选择志愿的偏好信息.如表2所示.根据考生志愿表单中填报的专业,挖掘出其专业特征,如表3所示.
计算考生志愿特征对应关键词的词频率.其中,词频率=某个词在词集中出现的次数/词集总数.并针对计算好的志愿特征词频率生成可视化界面,以直观的方式展示给考生.如图2~图5所示.
(5)志愿问题分析.根据志愿填报策略和梯度划分原则对考生初次填写的志愿表单进行深层次分析,列出考生志愿存在的问题,提醒考生.并给出合理的建议,帮助考生修改和完善志愿表单.如表4所示.
表2 考生U1的高校关键信息
表3 考生U1的专业关键信息
分析考生志愿表单可知:考生填报的第1、5志愿为冲刺类高校,2~4志愿为稳妥类高校,第6志愿为保底类高校.从整体来看,考生填报的志愿表单冲、稳、保分配不太合理,没有按照梯度划分原则从上至下依次概率递增.可见考生志愿部分内容不符合志愿填报准则,建议考生对第2志愿和第5志愿进行修改.
表4 考生U1的志愿问题分析
(6)志愿推荐.计算考生被高校录取的概率,将符合要求的数据加入高校候选集Q.根据志愿填报规则,考生偏好特征,高校特征结合Jaccard系数计算候选集Q中所有高校和考生志愿的相似度.部分高校相似度计算如表5所示.
表5 考生志愿与部分高校相似度
将计算好相似度的高校集按照录取概率划分为3个梯度,每个梯度的高校集按照相似度降序排列,过滤掉用户已经选择并且选择合理的高校,在每个梯度中随机选取I个高校给目标用户进行推荐,表6为当I= 4时的推荐结果.考生可以根据推荐结果,重新选择高校或者替换掉不合理的高校.
表6 考生志愿推荐结果
3 结 论
为解决高考志愿填报决策困难的问题,提出一个融合智能审核的高考志愿推荐模型.结合志愿填报策略,对考生志愿进行审核,分析考生志愿存在的问题,为考生志愿填报提出建议;并根据考生选择偏好,为考生推荐个性化志愿选择方案,帮助考生修改、完善高考志愿,最后用实例验证模型可行性.由于高考志愿填报受到来自考生、高校、家长等多方面因素的影响,因此下一步将细化高考志愿填报影响因素,从多方面更客观地分析高考志愿填报问题.