基于多元回归模型优化招生计划探究①
2020-03-10姜希伟高婷婷莫秋萍高佳娟
刘 巍 姜希伟 高婷婷 胡 霜 莫秋萍 高佳娟
(沈阳药科大学,辽宁 沈阳 110016)
随着我国高等教育改革的不断深化和发展,高等教育的资源分布发生了显著变化。从数量上看,高等院校是一个庞大的体系。截至2018年,全国普通高等学校为2195所,其中公办本科院校为508所。每所高等院校想要达到符合自身特点的发展要求,需要招收到符合该校招生录取分数段的优秀生源,这就要与全国同水平各高等院校产生竞争,那么如何根据生源实际分布情况制定科学合理的招生计划,就成为地方本科院校招生工作中的重中之重。
高等院校在经济社会发展过程中承担着为社会输送高质量人才的重任,其职能可以概括为:第一,培养人才;第二,发展科学;第三,直接为社会服务。为了实现这三个职能,高等院校需要招收到符合自身建设和发展要求的生源,这样的生源才有助于高校更好地完成高校人才培养目标,使高校培养出更多的适合社会发展的有用人才,从而实现高等院校的职能。为了实现招收到符合要求的生源目标即生源水平与自身教学科研水平相符合的学生,需要对制定的招生计划进行科学合理的把控,将各地区计划招生人数控制在合理的范围。当前普通高等学校招生考试知分填志愿的政策实施大大减少了低分高录和高分低录情况的出现,这一政策保证了考生能够根据查询到的高考成绩,自主选择填报院校,减少了填报志愿的盲目性,提高了投档成功率,同时高校可以通过改变各地区招生计划人数来调控分数线,让分数合适的学生得以进档填报志愿。在这一背景下,对于高校而言,通过调整招生计划,使得学校能够招收到与自身教学条件相匹配的学生的过程显得尤为重要。但目前诸多高校招生部门在制定招生计划时具有一定的主观性和随意性,常常通过经验和粗略判断来调整招生名额,缺少科学合理的方法指导。为了避免出现招生名额过多,生源质量不符合要求,以及减少招生名额后对应地区名额过少而错失优秀生源的情况出现,可以根据往年的招生数据进行建模分析,通过模型研究各因素对制定招生计划的具体影响,为制定招生计划提供参考依据。
一、数据基础分析
本研究分析的对象为辽宁省一所普通本科第一批次招生高等院校。目前高校招生对本省、直辖市学生都存在优惠政策,故在进行后续建模分析的过程中不纳入辽宁省数据。现有数据为该校近10年在各个地区录取学生的录取人数、最低分、平均分、最高分、省控制线、各专业录取人数和对应录取分数。
录取人数与对应省、直辖市考生人数相关性检验结果如表1所示,在进行该项分析时基于该校在辽宁省地区的原因未纳入辽宁省数据,对其余29个地区的考生人数(单位为万人)与实际录取人数进行相关性检验,检验得pearson相关系数为0.48,与统计学意义上的中等强度相关,相关显著性为0.08,相关性显著,表明在决定该校对某一地区招生计划人数时参考了该省、直辖市考生人数。故将该因素纳入在后续分析中。
表1 相关性检验结果
录取分数相关的数据中录取最高分数据具有随机性和偶然性,波动较大。以天津市为例,作折线图观察历年录取平均分与录取控制线之差,总体较为平稳,如图1所示,说明该校在天津市的招生层次未发生显著变化。
图1 天津市近10年录取平均分与控制线差折线图
分析该校各专业录取人数与录取分数可知该校存在填报热度较高的专业,录取分数较其他专业略高,但分差不大,不存在某一个或几个专业远超该校录取分数线的情况,故该项不会对该校录取整体分数情况造成较大影响。
二、模型建立
多元回归是一个因变量与多个自变量之间建立一个回归关系的数据分析处理手段。在研究实际问题的过程中,变量之间的相互关系可能较为复杂,多元回归可以简化其中关系,便于对其进行分析。其中最为常用的是多元线性回归分析,在实际处理问题的过程中,变量之间的相互关系通常不完全是线性的,而在非线性模型中,自变量对因变量的影响往往不够清晰,这会给问题的分析与解决带来诸多困难,因此可以将非线性回归问题转化为线性回归来解决。在制定高等院校招生计划时,针对各个地区的招生人数有诸多影响因素,本研究基于近年招生的录取分数和录取人数数据对下一年的招生计划进行优化,采用多元回归对自变量和因变量关系进行模拟分析,在这些影响因素与最后确定的招生人数之间建立多元线性回归模型,通过模型得出各因素对制定招生计划的具体影响,根据这些影响关系对来年招生计划的制定进行调整,并利用模型各因素综合计算得到模型预测值,参考该预测值结合实际情况对原计划招生人数进行调整。以此达到提升高校生源质量的目的,同时也保证该校为对应地区提供的教学资源与该地区实际情况相适应。
1.因素筛选
在建立模型的过程中,现有数据可以归类于以下几个类型。
分数因素:在没有出现未录满和投递志愿过于火热的前提下,前一年的最低录取分数线可以很好地反映出该校在该地区招生的整体情况,会极大地影响生源水平与招生目标的符合程度。分析现有数据得知,最低录取线与控制线的分差总体平缓,未出现较大落差(由于每年试卷题目难度会存在差异,比较落差时选择比较录取最低分与控制线的分差,将该值与近四年的值对比,比较得知各地区四年内的分差的极差未超过该地区考试总分的5%),故可将该因素纳入模型中。
地区因素:不同地区教育资源有差异,考生基数也存在差异,地区因素在高校决定最后招生人数的问题上也起着关键性的作用,如表1中相关性分析结果显示,考生人数与高校确定该地区招生人数显著相关,故将考生人数作为地区因素纳入模型。由于该校面向的招生人群主要是本科第一批次的考生,各省市一本达线人数也可纳入模型中进行分析,但考生人数与一本达线人数由于显著相关,同时纳入导致模型中出现多重共线性,影响模型分析精度,故只能择其一纳入模型中。考虑到部分地区有二本线招生的名额,该模型需要对各地区招生进行统一调整,此外将一本达线人数与招生计划人数进行相关性分析的Pearson相关性系数为0.36,较考生人数略低,故此处将当前年各省考生人数纳入模型中。
考生因素:寻找此类因素的主要目的在于通过筛选现有数据,寻找能够反映出该校对某地生源吸引力的因素。其中,基于目前知分填志愿的政策条件,考生可以在综合考虑自己分数与高校历年录取分数的前提下填报志愿,因此录取平均分和录取最高分与最低控制线的差值可以体现出该校对优秀考生的吸引力,但录取最高分具有偶然性且不稳定,故录取平均分与最低控制线的差值。另外,录取考生中将该校填报为第一志愿的人数占总录取考生人数的比也能反映出该地区考生对该校的填报意愿强弱。在该占比越高的地区,该校招到符合招生目标的考生的可能性也越高。
综上考虑,在现有数据中总结筛选出四个指标变量,分别为:当前年地区考生人数、当前年第一志愿占比,当前年平均分与控制线的差值,前一年最低分与控制线的差值,纳入后续模型中进行分析,对下一年的招生计划进行优化。
2.数据预处理
各地区考生人数方差较大,分布分散,没有出现数据集中在某一区域的现象,为了方便后续研究,避免出现由于其量纲过大导致系数过小的现象发生,故将该变量单位设置为万人。
在进行选拔性测验时,为了要达到对测验对象进行选拔的目的,需要将考试难度梯度设置到合理的水平,令测验对象的分数呈现正态分布,从而有利于优秀受试者脱颖而出,便于测验举办方对受试者进行甄别和选拔。高等学校统一招生考试由于其重要性和特殊性,国家教育部及其他各相关部门通过设置严格的出卷和评审流程等手段确保高考能够达到作为选拔性测验的要求,那么考生成绩分布符合正态分布。故在本研究中假设各省、直辖市考生分数服从正态分布。由于分数服从正态分布,且研究对象的招生目标处在正态分布曲线右半部,根据正态分布曲线的特性,分数越接近中线表示该分数对应的人数越多,故可对以上涉及分数的因素进行对数化处理。
由于各省总分不同,本科第一批次录取分数也不同。将各省录取最低分数减去对应录取最低控制线得到录取最低控制线与录取分数之差,再将该值除以该地最低控制线,以减少不同地区高考分数政策造成的差异。此外,该高校在不同地区的招生政策存在些许差异,小部分专业在某些地区会在本科第二批次录取分数线上招生,在实际处理数据的过程中,将该部分招生整合进本科第一批次录取中,计算录取最低控制线与实际录取分数之差时依然采用本科第一批次录取最低控制线,该差值记负数。
3.模型建立
设置招生人数为y,当前年地区考生人数(单位为万人)为x1,当前年第一志愿占比为x2,当前年平均分与控制线的差值为x3,前一年最低分与控制线的差值为x4,基于3.2中理由对与分数相关的变量进行对数化处理。利用Matlab R2016a进行多元回归拟合得回归方程如下:
4.模型结果
运用多元回归模型得到的预测招生人数及实际人数见表2。
表2 实际招生人数与模型结果
三、结果与讨论
模型得到的招生人数总和和实际招生人数总和差异不大,因此不需要对招生总数进行调整。由于在进行上述分析过程中没有纳入辽宁省的招生数据,在处理辽宁省招生计划时,可采取总招生名额数减去其他地区招生数的方式。采用这一方式出于如下考虑:由于地区政策,辽宁省招生数量较大,数十个名额的影响不会对辽宁省的招生情况造成很大的影响,且该高校位于辽宁省,辽宁考生对该校的填报意愿不会出现较大的起伏,因此可以选择根据其他地区招生数量的增减情况确定辽宁本省的招生数量的方式对辽宁省招生计划进行调整。
通过分析多元回归模型,发现因素即考生人数与模型结果为正相关,即在考生人数多的地区确实需要分配更多的名额。但其余项均为负相关。因此,若某地区考生录取分数或录取第一志愿占比提高,模型结果人数会降低,反之录取分数或第一志愿占比降低,模型结果人数提高。
这一结果反映了高校在本科招生实际工作过程中常会出现的一种情况:该校属于双非普通本科第一批次录取院校,在部分地区知名度和影响力不足,难以与当地同层次高校竞争,从而出现了填报热度不足,导致其录取分数及第一志愿占比较其他地区低,在该模型中体现为模型结果显著高于实际人数。对于出现上述情况,该校应在招生计划中缩减这个地区招生数量,但招生数量下降会提高填报该校的学生承担的风险,从而使得一部分学生不愿承担风险改填更为稳妥的学校,最终缩减名额使得该地区录取分数线不升反降,形成了恶性循环。为了解决这一问题,需要根据对应地区的具体情况调整招生政策。
该多元回归模型筛选出了可能存在这种情况的地区,在对这些地区进行招生计划优化时,可以参考该地区往届招生实际生源质量进行调整,若实际生源质量高,则可以加大在该地区的招生宣传力度并增加招生名额,扩大数量可以参考模型结果数据。若生源质量欠佳,并且通过各种招生宣传手段无法显著改变现状时,可以推测出由于地理位置等客观因素导致无法确保该地区学生的填报意愿,针对这种情况比较好的解决方法是维持目前招生计划不变,给予该地区了解该校并希望进入该校就读的学生同等的机会。另外,在招生名额紧张时也可以削减此类地区招生人数以满足其他地区的需求。
对于模型结果与实际人数接近的地区,该结果表明招生计划与该地区情况较为适应,可以不作调整或随着整体招生计划更改略微变动。
对于模型结果低于实际人数的地区,其结果体现了该地对该校的填报热度高,竞争激烈,这对该校招收优秀生源是有利的。对该地区招生计划的调整同样可以参考往届生源质量。若生源质量欠佳,则可对招生计划进行适当的缩减。