APP下载

决策树模型与logistic回归探究大学生入党意愿自身影响因素及结果预测

2022-06-03申冰可邵林芳

电脑知识与技术 2022年8期
关键词:决策树数据挖掘影响因素

申冰可 邵林芳

摘要:培养和吸收优秀大学生入党是高校党建工作的需要。为了分析大学生入党意愿自身影响因素和动机,基于首都大学生成长基线报告,通过二元逻辑回归,进行[χ2]检验和t检验,从而获得影响力较大的因子。利用决策树CHAID模型,预测大学生是否打算在大学期间入党。实验结果显示,政治面貌是大学生是否入党的第一要素,其次是日后期望工作单位。成绩排名与是否取得奖励和荣誉也是重要的影响因素,成绩排名越靠前或已经取得荣誉或奖励意愿入党的概率越高。CHAID模型通过交叉测试的预测准确率为73.3%,高于随机的50%,具有现实性意义。另外,除了自身相关因素外,还有家庭、学校、社会等环境影响。在大学生自身意愿的前提下,外界的积极引导同样重要。

关键词:决策树;数据挖掘;入党意愿;影响因素;二元逻辑回归

中图分类号:G642        文献标识码:A

文章编号:1009-3044(2022)08-0000-03

1 引言

教育的改革和发展使得大学生的人数日益增加。大学是青春的一个重要阶段,大学生的入党意愿反映了他们对党的领导的坚定程度。探究影响大学生入党意愿的因素,从而引导大学生入党,是推动高校党建的保障。此前,已有部分研究根据理论分析大学生入党意愿影响因素。例如,张锐[1]从社会、家庭和学校方面分析入党意愿动机影响的原因;另张锐[2]将入党意愿分类并从社会、学校、个人、家庭和宗教四个方面,分析此类因素对高校教师与大学生入党意愿的影响;姚斌[3]用计划行为理论验证其主观因素对入党意愿的直接和间接影响;王君涛[4]采用结构化方程,对大学生入党意愿影响路径分析。但是以上研究大多从消减大学生入党意愿的影响因素探究,并且没有进行相关的预测分析。本文采用logistic回归,获得高置信度的因子,建立卡方自交互侦测决策树(CHAID)模型,深入全面探究影响大学生入党意愿自身因素并预测分析实验结果,为提高大学生入党意愿提供充分的理论依据。

2 数据及其初步统计分析

2.1 数据

本文的数据来自中国人民大学中国调查数据中心的常规项目——首都大学生成长跟踪调查(2009)的基线数据。数据基于概率抽样的原则选取调查对象,随机从北京市15所高校的2008级(大一)和2006级(大三)抽取5100个样本进行调查。其中,4771人参与调查,应答率为93.55%。调查内容包括大学生在校时的基本情况、心理量表、高中情况、大学学业、大学政治、家庭情况等诸多信息,调查采用多阶分层抽样方式,因此该数据集可以在一定程度上支撑本课题的研究。

2.2 样本特征与统计学分析

该问卷通过“是否打算大学期间入党”确定大学生入党意愿,分为打算和不打算两类。考虑包括基本信息、自身实力与自我规划等因素,通过人工筛选,最终确定12个可能与入党意愿密切相关的特征因素:民族、户口性质、性别、大学年级、现专业、大学期间是否获得奖励和荣誉、成绩排名、政治面貌、大学期间是否担任过干部、毕业后最希望去的单位、对我国整体发展状况满意度、认为家庭经济层次。其中,为便于使用,将成绩排名通过(1-班级排名/班级人数)×100得到连续的值,数值越大代表排名越靠前。对于刻度变量(即连续变量)的缺失值采用平均值填补,对于名义变量(在现有前提或条件下确定的值)的缺失值用众数填补。经计算,成绩排名和对我国整体发展满意度刻度变量的峰度绝对值小于10并且偏度绝对值小于3,因此基本可接受为正态分布。

3 基于Logistic 回归和决策樹的数据分析

3.1 Logistic回归相关性探究

本文研究的是大学生在大学期间是否打算入党,因变量表示入党意愿,取值只有两项,将打算入党赋值为1,不打算入党赋值为0。采用二元Logistic回归模型,如式(1):

其中,[β0]是常数项,[ βi]是自变量[Xi]的回归系数。[p]为打算入党的可能性。[p]在0到1之间变化(公式(1)中[p]表示愿意入党的概率)。[X]为影响大学生入党意愿的相关变量。

分别采用[χ2]检验和[t]检验,计算人工筛选后变量与因变量的依赖度。对刻度变量(对当前我国整体发展状况满意程度和认为家庭经济层次)采用t检验,对名义变量采用[χ2]检验。[χ2]统计值或[t]值越大,说明两个变量的相关性越高。有关人工筛选后的变量的分布情况,参见表1。

3.2 CHAID模型创建与分析

卡方自交互检测决策树(Chi-squared Automatic Interaction Detector,CHAID),分类树方法,按照卡方显著性划分或组合形成多叉树状结构。定距和定类变量均可作为目标变量,适宜于预测变量为分类变量的情况。CHAID决策树将因变量作为根节点,按照[χ2]值最大(P值最小)选取变量的原则建立树。

对CHAID模型,将父节点中的最小案例数设置为100,将子节点中的最小案例数设置为30。拆分节点的显著性水平为0.05,合并类别的显著性水平为0.1。合并和拆分条件的显著性值采用Bonferroni方法进行调整。通过样本分割验证30%的测试样本与70%的训练样本用来检验决策树的分类效果。其中,成绩排名与对我国目前发展状况满意度的区间均设定为25。利用单因素logistic回归得到的具有统计学意义的变量,最终生成最大树深度为3,有22个节点和14个终端节点数的树。包括政治面貌、大学年级、毕业后最希望去的单位、大学期间是否担任班委、成绩排名、大学期间是否获得荣誉以及对我国整体发展整体满意度7个自变量。结果如图1所示。

在决策树模型图中,从节点0可以看出打算在大学期间入党的大学生占多数(65.1%)。第一层分类的因素是政治面貌,预测结果为共青团员和民主党派倾向于入党(61.6%),普通群众入党意愿稍弱(20.8%),说明已经向党组织靠拢的人入党意愿更大,共产党员(含预备党员)因已经或即将成为党员所以不再进行分析。对于节点4和节点5,大学一年级(72.5%)的学生比大学三年级(47%)的学生更倾向入党。入党的流程需要消耗一定的时间,低年级学生在校剩余时间更长,入党成功率更高。从节点5可知,毕业后最理想的工作单位也影响大学生入党意愿。其中,希望未来到党政机关和大型国有企业的大学生打算入党的意愿更高(66.8%),其次是到学校,科研机构以及其他国有和集体企业的学生(50%),而倾向去外企或合资企业、创业、民营企业和一般事业单位打算入党的大学生(35.8%)较少。在节点7,对我国整体发展状况满意度高于75%的入党意愿为71.3%,低于75%的为57.1%。在节点8,随着成绩排名下降,以34名次和68名次为分界点,打算入党的比例分别是89.9%、86.9%和64.1%,表明成绩更好的学生有入党意愿的概率越高。在节点12,担任过学生干部(59.3%)比未担任过学生干部(43.1%)的入党意愿更强。2F64113D-F082-465A-BB82-FB64D92889B9

3.3 模型测试结果与评价

模型通过自动减枝去除现专业、认为家庭经济层次两种因子。对模型交叉测试得到表2。将结果分为了四类:真负-将打算入党的学生预测为打算入党,假负-将不打算入党的学生预测为打算入党,真正-将不打算入党的学生预测为不打算入党,假正-将打算入党的学生预测为不打算入党。其中将实际不打算入党预测为不打算入党数为597,占比51.5%,预测正确率即真正率较低。将实际打算入党预测为打算入党的预测正确率即真负率较高为84.7%,预测成功率较高。总体正确率为73.3%。

因模型仅对个人因素探究,且没有对其进行多因素logistic回归分析,所以预测率未达到80%。但从研究的角度来看,仍具有一定的参考价值。如果对各因素进行多元分析,并结合家庭、学校和社会等外部因素,对提高准确度有积极意义,后续需要更深入的研究。

4 结语

从决策树模型可以看出,对大学生入党意愿影响最大的因素是政治面貌,共青团是党的助手和后备力量,共青团员进入大学后,在政治上仍有理想与追求。其次是毕业后期望工作单位,工作单位不同入党意愿不同体现了大学生的入党动机的功利性。这种现实倾向对党组织和学生本身均存在危害,应采取相关措施积极避免。成绩排名靠前或获得过荣誉的大学生往往有更高的追求,渴望加入党组织。本文提出的模型预测率为73.3%。考虑到家庭因素(如家庭成员对大学生的思想教育等)、社会因素(如党领导取得的一系列成就对大学生的吸引力等)、学校因素(如学校开展的政治思想教育的力度)等个体以外的因素对大学生入党意愿都有较大的影响,本文模型还有较大的改进空间,后续将进一步考虑上述因素对学生入党意愿的影响,并为促进大学生入党提供指导意见。大学生应该积极提高自身素质,不断完善自我,成为“四有”新人。同时,社会、学校和家庭层面也要加强对大学生的思想政治教育和辅导,形成教育合力,为高校党建工作注入更加新鲜的血液。

参考文献:

[1] 张锐.高校大学生入党意愿分析[J].共产党员(河北),2015(26):62.

[2] 张锐.高校青年教师和大学生入党意愿深度分析——以宁夏师范学院为例[J].宁夏师范学院学报,2015,36(5):158-160.

[3] 姚斌.基于计划行为理论的高职学生入党意愿和行为的影响因素研究[J].职教通讯,2020,35(2):55-63.

[4] 王君涛,沙治邦,王云龙.大学生入党意愿影響因素及引导策略[J].沈阳建筑大学学报(社会科学版),2019,21(4):411-416.

[5] 宋文凯,汪睿琪.Logistic回归与CHAID探究高考成长环境影响与结果预测[J].信息技术与信息化,2020(7):83-86.

[6] 李如平.数据挖掘中决策树分类算法的研究[J].东华理工大学学报(自然科学版),2010,33(2):192-196.

[7] 姚爽,谢梦婷,邹迪莎,等.空腹血糖受损危险因素的Logistic回归及分类树分析[J].安徽医科大学学报,2018,53(9):1407-1411.

[8] 晁灵,李然,梁利花.分类树模型与Logistic回归在儿童高血压预测中的应用[J].中国学校卫生,2015,36(7):1066-1068.

[9] 王君涛.系统科学视阈下大学生入党意愿影响因素研究[J].河北青年管理干部学院学报,2020,32(1):15-22.

[10] 胡小军.新时期激发培育大学生入党意愿的途径研究[J].广西青年干部学院学报,2011,21(6):15-17.

[11] 苗楠.民办高校大学生入党意愿与动机现状分析——以宁夏理工学院为例[J].现代商贸工业,2016,37(30):151-152.

[12] 胡小军.新时期激发培育大学生入党意愿的途径研究[J].广西青年干部学院学报,2011,21(6):15-17.

[13] 张海平,李坚.工科大学生入党积极性的影响因素及对策研究——以华南农业大学为例[J].学理论,2013(29):355-357.

[14] 张云.高职院校学生入党意愿的调查研究[J].长沙民政职业技术学院学报,2018,25(1):59-61.

[15] 马圣.发挥榜样引导作用 端正大学生入党动机[J].求知,2018(9):49-50.

[16] 刘军.高校学生党员发展工作存在的问题及对策探析[J].山东社会科学,2010(9):173-176.

[17] 黄玖琴,王德召.地方高校大学生入党动机研究[J].学校党建与思想教育,2019(16):22-23.

【通联编辑:王力】2F64113D-F082-465A-BB82-FB64D92889B9

猜你喜欢

决策树数据挖掘影响因素
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
农业生产性服务业需求影响因素分析
村级发展互助资金组织的运行效率研究
基于系统论的煤层瓦斯压力测定影响因素分析
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究