基于决策树的高校招生宣传策略研究
2023-03-24常赛
常赛
关键词:决策树;招生宣传;宣传策略;个性化
1 引言
2014年9月国务院印发了《国务院关于深化考试招生制度改革的实施意见》,是进一步深化改革,促进教育公平,提高人才选拔水平的重要举措。该意见提出要形成分类考试、综合评价、多元录取的考试招生模式,健全促进公平、科学选才、监督有力的体制机制[1]。如何能够保证公平公正地录取到更多高素质人才,一直是各高校招生部门的工作重点,而招生宣传则是其中的核心环节。我国高校招生扩招从1999年开始,录取率首次突破50%,随后高考报名人数呈逐年攀升的趋势,2008年达1050万,但从2009年开始有所下降,2018年下降至975万人,相较2008年减少了75万人。由此引发了激烈的生源竞争,即使近两年高考报名人数呈现回暖趋势,2021年达1078万人,也没有缓解各高校间愈演愈烈的生源竞争热度。高校想方设法通过各种途径扩大招生宣传范围及力度,虽然相对粗放型的扩张模式在短期内有所收效,但耗费大量人力和物力,不利于高校招生宣传的长期可持续性发展[2]。
现阶段高校招生宣传工作主要存在时间局限性、地域局限性和信息投放盲目性的问题。
(1) 时间局限性。一方面在招生宣传集中填报志愿的较短时间段内,各高校信息以爆炸式的方式呈现,考生很难短时间接纳如此庞大的信息并有效分析,容易造成信息丢失,降低招生宣传的有效性[3]。另一方面在平时的宣传中,由于高中生学业压力大,高考前时间极为紧张,宣传时效覆盖面有限,很难有效发挥平时招生宣传的应有作用。
(2) 地域局限性。研究表明,招生宣传中的招生宣讲会及进校园宣传的效果最好,此模式下考生可以和心仪的高校进行面对面详细咨询,高校也可定点定向针对匹配学生进行宣传。但此类方式受地域限制明显,特别是在目前全球新冠疫情的情况下,高校能参与的招生宣讲会及进中学校园活动受到限制,容易造成宣传密度不均,影响招生宣传的公平性[4]。
(3) 信息投放盲目性。为减少时间和地域局限性影响,高校愈发侧重新媒体宣传模式[5]。但目前新媒体信息投放呈现撒网式特点,有一定的盲目性,无法根据地域、中学、学生等情况精准化个性化投放。虽然新媒体方式如QQ、微信等方式可实现咨询互动,一定程度上解决学生个性化咨询问题,但受工作人员数量和工作时间影响,咨询并非能得到及时回复,且效率不高,用户体验受到影响。
为解决上述问题,本文构建基于决策树的高校招生宣传模型,在此模型中根据决策树的分类策略进行招生宣传布局,解决信息盲目投放问题,提高投放效率,有针对性地进行宣传,加强招生宣传精准度及公平性。
2 决策树
决策树算法是一种经典的数据挖掘方法,生成的模型呈树形结构,常用于处理分类和回归问题。算法流程示意图如图1所示。
ID3和C4.5是决策树算法中的两个较为经典的算法。ID3(Iterative Dichotomiser3) 算法是20 世纪80年代由J.R.Quinlan 提出的,核心思想是以信息增益作为分裂属性选取的依据,选择具有最高信息增益的属性作为节点N的分裂属性。式1为D中元组分类所需信息熵。式2为以属性A划分D中元组所需的信息熵。
信息增益为原来的信息需求(式1) 与新需求(式2) 之间的差,如式3所示。
ID3算法具有较快的分类速度和测试速度。但该算法在设计之初未考虑如何处理连续属性、属性缺失以及噪声等问题。1993年J.R.Quinlan针对ID3算法的不足设计了C4.5算法,引入信息增益率的概念,如式4所示。C4.5算法克服了ID3算法无法处理属性缺失和连续属性的问题,并且引入了优化决策树的剪枝方法,使算法更高效,适用性更强。
剪枝的基本策略有“预剪枝”和“后剪枝”两种策略。“预剪枝”策略是在分类进行之前进行评估,如果泛化能力不到预期则不进行划分,该节点记作叶子节点。“后剪枝”策略是在决策树完成后,自低向上进行评估,将不满足泛化预期的节点删除子树后轉换成叶子节点[6-7]。
C4.5算法的优点是产生的规则易于理解且准确率较高,因此本文选择C4.5作为决策树生成算法。
3 招生宣传模型
新时代信息化高度发达,高校在招生过程中积累了大量的数据,通过分析发现在招生宣传过程中无论是学生对高校专业的了解程度还是学生对宣传手段的认可程度,都存在一定规律性,从规律中能发现招生宣传过程中存在的不足[8]。基于决策树的高校招生宣传模式分为五个步骤。①划分区域目标:根据不同省份区域的专业计划投放目标划分基础区域范围;②采集数据:主要包括各区域的学生入学前的咨询数据及新生调查问卷数据;③数据预处理:对采集的信息进行清洗整理、去除杂质;④建立决策树,为下一步的具体宣传决策提供决策机制基础;⑤生成宣传决策:为不同区域或不同类型的对象生成个性化招生宣传策略。基于决策树的招生宣传模型层次结构如图2所示。该模型分为三层:数据层、处理层和应用层。
数据层主要涉及招生数据、宣传数据的采集工作。数据来源分为两个模块,第一是调查问卷数据模块,数据来源主要是新生入学调查问卷内容;第二是互联网数据模块,主要包括:学生入学前各类咨询数据。数据层技术主要包含离线采集、实时采集、互联网爬虫解析等。利用上述技术采集各类相关数据,以供处理层分析。
处理层主要实现数据处理。先对数据进行预处理,去除杂质,生成决策树,为应用层决策提供支撑依据。
应用层根据应用需求,为不同地区、不同层次、不同中学的学生生成个性化招生策略,并通过线上线下招生宣传平台,实现高效、精准、个性化宣传。
4 决策树模型
本文对S大学2021年的6232份新生调查问卷数据级及各类咨询数据进行统计分析,根据属性归类划分将数据整理成数据集样本D,如表1所示。属性集合A={了解途径、填报志愿决定者、家庭所在地},类别集合宣传效果L={强、弱}。其中类别中的强弱标准依据调查问卷中学生通过招生信息对高校了解程度来进行划分,超过50%为强,低于50%为弱。决策分类属性中“了解途径”的信息增益率最高,被选为根节点分类属性,以此类推,逐渐生成决策树,如图2所示。
5 基于决策树招生宣传策略的优点
基于决策树的高校招生宣传相较于传统招生宣传策略更具多元化、个性化及精准化特征。高校可以多角度、全方位地利用不同阶段的学生数据进行分析预测,对学生的报考咨询数据、入学及培养数据进行分析,掌握内在规律,制定精准化招生策略,改变目前广撒网式、盲目性的宣传问题,节约招生宣传成本、提高招生宣传效率。
5.1 多元化宣传方式
通过数据分析可知,新时代大学生对于填报志愿更具有独立性和自主性,家长、亲友、老师对学生本身志愿填报意愿的权威性影响越来越不明显。这与新媒体时代信息的高效传播存在密切关系,学生能够通过各种渠道获取到各类招生信息,追求各种渠道的“安利”。这对高校的宣传工作提出了更高要求,需要与时俱进地采用新时代年轻人喜闻乐见的方式宣传学校相关内容,制定适应新时代青年的宣传材料,使学生能够自我决定,并在观念上认同报考高校。
5.2 个性化信息推送
在招生宣传过程中有三个重要的组成部分即宣传主体、宣传客体及宣传本体。首先,宣传主体为高校实施招生宣传的组织和队伍;其次,宣传客体为招生宣传面向的对象,主要包括学生、家长、中学;最后,宣传本体为招生宣传的信息和内容,包括宣传材料、宣传视频、宣传政策等。传统招生宣传中宣传主体起主导作用,宣传客体仅处于被动接收的状态。宣传本体的组织完全取决于宣传主体的宣传意愿。但基于决策树的招生宣传模型中,宣传本体的设置一方面需要依赖于宣传主体的宣传意愿,另一方面更需要根据宣传过程中主客体产生的数据进行挖掘分析,制作精准化的招生宣传本体。在宣传主客体相互作用下,产生的宣传本体才能够更加精准化及高效性。
5.3 精准化信息投放
通过新生调查问卷数据构建的决策树显示,对于S大学而言,家庭所在地为地级市的新生对于S大学的基本了解程度较高,接下来依次是省会城市直辖市、县城乡镇,来自农村地区的新生对学校的基本了解程度较其他地区的新生更低。首先,农村了解程度低,究其原因是农村学生的了解各个大学的消息途径相对闭塞。其次,省会城市或直辖市的学生相对而言各类高校选择的机会更多一些,因此关注S大学的信息可能会相对弱一些。最后,地级市、县城、乡镇的同学对于S大学的期待更高,也会更加关注相关信息。由此可见,不同地区的学生对不同层次的高校的关注度是有区别的,因此高校在进行信息投放时应该区分学校受关注区域进行精准化信息投放。一方面,對于关注度高的区域,应重点利用新媒体技术加大信息投放,稳固招生优势;另一方面,对于因信息途径闭塞导致关注度低的区域,则可以结合传统招生宣传模式,选择代表性地区或学校树立典型,逐步扩大影响,提高知名度;最后,对于信息通畅但关注度不高的区域,则可采取精品宣传模式,优先重点宣传高校优势项目,以突破该区域同类高校的招生优势,逐步形成品牌效应。精准化的信息投放能在有限招生成本下最大程度地扩大高校影响力。
6 总结
在目前高校生源竞争日趋激烈的环境下,如何在有限的条件下,提高招生宣传效率,吸引更优质生源报考是各高校招生工作的重点。宣传主体、宣传客体和宣传本体是招生宣传工作中的三个组成部分。在传统模式下,宣传主体将设计的宣传本体推送给宣传客体,宣传客体被动接收宣传本体,经验占据主导地位。本文利用决策树C4.5算法,建立基于决策树的招生宣传模型,宣传本体的设置不仅依赖于宣传主体的宣传意愿,更重要是根据宣传过程中主客体产生的决策数据,设置精准化的招生宣传策略。数据层、处理层、应用层三层建模模式,为招生宣传决策提供数据支撑,最终形成多元化宣传方式、个性化信息推送、精准化信息投放的高效招生模式;同时亦可避免人为因素干扰,利用隐藏在数据中的宣传规律,科学指导宣传策略设计,有利于高校招生宣传工作的可持续发展。