APP下载

基于SMOTE-LR的大学生学术失信预测研究

2021-06-25李志强余炫朴

关键词:诚信信用样本

李志强,余炫朴

(江西财经大学 统计学院,江西 南昌 330013)

随着我国社会、经济的不断发展,信用逐渐融入生活中的方方面面。诚信不仅是中华民族的传统美德,而且是我国社会主义核心价值观中公民基本道德规范的重要内容。《社会信用体系建设规划纲要(2014—2020年)》明确指出,社会信用体系是社会主义市场经济体制和社会治理体制的重要组成部分。近年来,我国高校中的学术不端、考试舞弊、校园非法借贷、证书造假等现象屡见不鲜,其部分案例对社会造成了严重的负面影响。因此,建立以大学生为主体的学术信用评价体系是维持社会经济稳定运行和高校健康发展不可或缺的重要环节。中共教育部党组和共青团中央联合印发了《关于在各级各类学校推动培育和践行社会主义核心价值观长效机制建设的意见》,该意见明确指出,我国将建立健全内容包含学业诚信、学术诚信、经济诚信、就业诚信在内的大学生诚信档案。2020年5月,教育部数据显示,2019年全国各类高等学校在学总规模达4 002万人。大学生已然成为不可忽视的重要社会群体。所以大学生学术信用研究不仅是我国高校急须面对的重要课题,而且是保障我国未来社会稳定发展的基本要求。

一、大学生学术信用研究现状

我国大学生学术信用研究尚处于萌芽期,以往学者们普遍认为学术失信行为多发生在高校教师群体。目前越来越多的大学生参与学术研究,所以大学生学术诚信教育及其相关研究应得到重视。但在现阶段,与我国大学生学术信用研究相关的内容大多围绕大学生诚信建设与学业信用研究。于俊如、徐世强认为入世后诚信是现代市场经济条件下对大学生人格前提的基本要求[1]。江阳刚在对大学生诚信问题现状的调查与分析中发现,样本中15.7%的被调查者对他人缺乏信任感,66.9%的被调查者对身边的人信任感一般[2]。喻名峰、陈成文、李恒全在回顾2001年至2011年大学生就业问题时指出,大学生就业诚信问题是导致“就业难”的原因之一[3]。王艺对近15年我国青年信用建设相关政策性文件进行了梳理,共有34项相关文件及报道,具体数字见表1。经过梳理后得出结论,这些相关政策文件内容主要针对信用管理与体系的建设及守信激励和失信惩罚两个部分[4]。

表1 近15年我国青年信用建设相关政策性文件

目前,我国的大学生学术信用工作尚处于诚信档案建设阶段,大学生信用评价体系的建设也在不断探索与完善中。不同于金融领域的信用,大学生信用指的是以学业信用为主体,并与社交信用、经济信用一起共同组成的信用体系。因此,大学生诚信建设不仅记录了大学生在学校内的诚信信息,而且记录了其在校外活动中所产生的信用状况。这些大数据都可用于大学生的信用及核心素养评估[5]。正因为大数据与通信技术上的不断突破,互联网数据与线下数据的相互补充为完善个人信用信息创造了巨大的可能性。尽管如此,我国大学生诚信建设与学业信用研究还存在着以下问题:

(一)信用信息种类繁杂

无论是大学生诚信档案建设还是学业信用研究,若按照大学生信用信息发生的地点分类,可以分为校园内信用信息与校园外信用信息。校园内信用信息通常指的是学业信用,但包含了校园内发生的社交信用与经济信用,如与同学间的经济不诚信、学费拖欠、校园活动中的不诚信行为等。若按照信息自身特质分类,大学生信用信息可以分为学业信用、社交信用、经济信用等。这些类别的信息通常由不同主体进行收集,如学业信用信息及相关档案被保存于网络社交软件中,而经济信用信息则是由相关金融机构收集的。因此,无论从地点还是特质分类,大学生诚信建设中需记录的信用信息种类十分繁杂,获取大学生完整的信用记录难度大。

(二)研究数据间互通困难

数据平台壁垒指的是不同平台的数据由于法律法规的限制无法进行信息互通。如上所述,大学生信用建设中的数据通常包含学业信用、社交信用与经济信用,这三类信用数据收集平台为高校、社交平台与金融机构。平台不同其监管部门也不一致,这就导致了不同平台间数据互通困难的现象。

数据结构壁垒指的是数据自身结构之间相互转化较为复杂。大学生信用数据通常分为结构化数据与非结构化数据,结构化数据可以表现为二维形式的数据,非结构化数据则是没有固定结构的数据,它可以是文本、图片、音频及视频等数据。在大学生信用数据当中,学业信用数据与经济信用数据均为结构化数据,社交信用数据由于其多样化特点一般为非结构化数据。将这些非结构化数据转换为结构化数据后才能有效地对大学生信用进行评价。

成本壁垒指的是实现数据互通所需成本较高。这些成本包含了数据收集、筛选、处理的成本,出台相关法律法规产生的成本,以及数据结构间转化的成本。随着通信技术与计算机技术的不断发展,大数据技术应用愈发广泛,这为大学生信用数据互通提供了良好的技术基础。在实践应用中,由于政策、技术、经济等相关因素的制约,学业信用、社交信用与经济信用间的数据互通还未能完全实现。

(三)奖惩制度失衡

2019年,国务院办公厅印发了《关于加快推进社会信用体系建设构建以信用为基础的新型监管机制的指导意见》,该意见在信用监督建设方面提出了六项目标:健全失信联合惩戒对象认定机制;督促失信市场主体限期整改;深入开展失信联合惩戒;坚决依法依规实施市场和行业禁入措施;依法追究违法失信责任;探索建立信用修复机制。近年来,我国多地在信用联合惩戒方面取得了一定的成效,基本实现了失信人“一处失信,处处受限”。信用联合惩戒弥补了信用治理中的部分缺陷,提升了信用治理效率,但在复杂的失信情景中,惩戒措施常常忽略了其关联性原则与比例性原则[7]。在信用修复机制建设方面,我国纳税信用管理体系的核心内容分为失信惩戒与守信激励,就目前我国信用建设情况而言,守信激励机制的建立还有所欠缺,一定程度上导致了征纳关系的失衡不能得到及时矫正,从而造成了“双输”的局面[8]。

大学生群体的特殊性使信用奖惩制度建设比纳税信用中的惩戒与激励制度建设更困难。尽管如此,在国家的号召与政策的指导下,我国高校在建设大学生信用奖惩制度方面不断探索。2019年10月我国某高校(以下简称A校)发布了《本科学生诚信评级奖惩制度(试行)》。该奖惩制度分为信用减分与加分信用两部分。在信用惩戒制度的建设中,A校将诚信行为种类分为六个项目,分别是学业诚信、生活诚信、经济诚信、就业诚信、网络诚信、安全诚信。这些项目下又含有15个评价内容与45个信用评价指标。A校在惩戒制度上采用了扣分与信用降级的综合性惩戒方式,但在信用奖励中只简单地罗列了参加校内外活动、参加科研类活动、校内外荣誉奖项、学风帮扶工作及参与集体荣誉建设五项内容。而其他高校的信用激励制度建设还停留在取消处罚、处分等基础激励手段层面。由此可见,大学生信用奖惩制度建设存在与纳税信用中同样的问题,信用激励建设与信用惩戒建设发展失衡。

二、大学生学术失信预测研究

解决现阶段大学生学术信用管理中存在的问题是一项需要长期研究的课题,其内容包括信息技术、统计学与社会学等多学科交叉。本文基于现有的大学生信用相关研究,结合大数据技术与统计学方法,为平衡大学生诚信建设中奖惩制度提供客观的、可靠的评价依据。多元线性回归分析是统计学经典的方法之一,是根据因变量与多个自变量的实际观测值建立因变量对多个自变量的线性回归方程[9],也是常用的分类器之一。大学生学术失信预测是典型的二分类问题,是根据大学生各项信用状况对大学生产生学术失信可能性的预测。此类样本集数据通常不具备正态分布的特点,因此大学生学术失信预测模型中的分类器采用线性逻辑回归分析(LR)。大学生学术失信样本数量一般远远小于守约样本,数据集通常表现为不平衡状态。合成少数类过采样技术(SMOTE)是一种解决类别分布不平衡分类问题的抽样方法。该算法的核心思想是:对于每个少数样本,从这个样本的最邻近随机选择一个样本,在这两个样本之间的连线上随机选择一点便是合成的新样本。薛薇采用SMOTE算法对非平衡数据集进行再抽样处理后得到新的数据集。实验表明,分类器在新的数据集的正负两类上均可获得理想的分类效果[10]。衣柏衡等将改进后的SMOTE算法用于某小额贷款公司客户信用风险评估案例中,其分类精确度有所提升[11]。Chetna Kumari等运用SMOTE算法处理生物活性数据中的类别不平衡问题[12]。因此,本文基于SMOTE-LR来设计大学生学术失信预测模型,根据预测结果能够判断大学生学术信用状况的好坏。

(一)大学生信用评价指标

大学生学术失信预测研究离不开信用评价的发展,而评价指标体系是综合评价中的重要内容。苏为华认为,评价指标体系理论应包括构建原则、构建方法、测验方法、优化方法、单项指标设计方法、指标变换理论和定性变量的数量化技术六个方面[13]。如上所述,大学生信用评价体系的构建与场景应用尚处在探索阶段,国内众多学者都尝试构建、优化大学生信用评价指标体系。侯雨欣、王冲运用德尔菲法与因子分析相结合的方法确立了一套大学生信用评价的指标框架,该指标框架包含学业信用、经济信用、生活信用与社会信用四个维度,具体评价指标内容见表2[14]。该框架的提出对建设我国大学生信用评价体系有着积极的作用。依据苏为华提出的构造综合评价指标体系的全面性原则、科学性原则、层次性原则、目的性原则与可比性原则[13],此评价指标体系设置合理,具有一定的现实指导意义。尽管如此,表2所示的大学生信用评价指标在可行性方面还需进行进一步的验证,如三级指标中I16信用数据是由相关金融机构进行记录的,而借贷记录是信用评价指标中不可忽略的内容;I26“爱占便宜”是由被评价个体的同学及老师提供的信息,而这类信息带有很强的主观性。

表2 基于德尔菲法与因子分析的大学生信用评价指标

基于侯雨欣等的大学生信用评价指标,本文结合调查对象所在学校的实际状况、综合评价的可行性及观测效果,对大学生学业失信预测模型的设计与优化进行进一步的信用评价指标合并与筛选[14]。在调查对象所在的高校,I7与I8经常是作为一项数据进行统计,故将其合并为“篡改实验数据或研究结果”;I11与I12中的“无故逾期”与“恶意拖欠”无法准确界定,故合并后更改为“逾期缴纳学费的情况”;I13与I14因为在表2中是在“学费贷款”二级指标中,故将其修改为“逾期偿还助学贷款”;I17因为处在“个人消费”二级指标中,应区分于二级指标“学费贷款”,故将其与I16合并为“不良校外信贷记录”;I20、I21与其他指标存在较多重合,故在此删除;I23与I24在调查统计时存在较大重合面,故将其合并为“与朋友、同学相处,不守时、不守约定”;I26主观性较强,故明确了“爱占便宜”的具体事项,更改为“与同学、朋友相处,在经济条件良好的情况下,集体社交活动中,经常使用他人物品或钱财”;I27、I28中提到“担任学生干部”,调查对象是高校大学生,并不是高校学生干部,故分别将其更改为“老师对你的不良评价”与“同学对你的不良评价”;I30与I31在调查对象所在高校均为实践与课外活动,故将其合并为“在实践与课外活动中,你的不良评价”;在二级指标“求职信用”中,调查对象均为在校大学生,故将原本三级指标更替为“评选学生干部,简历中存在虚假信息”“寻找兼职与工作时,简历中存在虚假信息”“寻找兼职与工作时,隐瞒学校处分”与“在兼职与实习中,提前结束实习”。最终,大学生信用评价指标共涉及4项一级指标与25项二级指标(见表3)。

首先,重点发展传统专业。传统专业是高职学校从建校以来在此方面就一直很有建树的专业,在长期的教学过程中,不但有专业师资队伍,还形成了独特的培养模式。对此,高职学校就应该在自己优势专业的基础上,迎合时代发展潮流,继续增强优势专业的社会地位,让优势专业成为学校的名片,在此基础上广泛吸收社会各种资源,从而进行其他专业的开设。

表3 大学生信用评价指标

(二)大学生信用状况数据收集与处理

构建大学生学术失信预测模型的现实意义是:根据大学生的社会信用、经济信用、生活信用与学业信用中的各项信用状况,判断其产生学术失信行为的可能性,结果表示大学生学术信用状况的“好”与“坏”。为了了解在校大学生信用状况及获得大学生学术失信预测模型的数据,根据大学生信用评价指标中的25项二级评价指标,设计了大学生信用状况调查问卷,调查问卷共25个选项,要求填写人填写是否存在二级指标中阐述的信用状况,或“是”或“否”。问卷中不出现任何个人信息以保证问卷内容的真实性及隐私性。完成调查问卷设计后,向南昌师范学院本科在校生发放了1 000份调查问卷,共回收948份有效的、完整的调查问卷。

首先,对回收的调查问卷进行编辑,问卷中选择“是”的标记为“1”,选择“否”的标记为“0”,编辑后为原始样本集,其现实意义解释为:“1”代表在该项评价指标下,被调查对象存在失信行为;“0”代表在该项评价指标下,被调查对象不存在失信行为;其次,在构建失信预测模型前,需对样本集A进行数据处理。因为学术诚信主要体现在考试、实验、论文及其他科学研究,因此,在大学生信用评价的25项指标中,“学校记录的考试违纪”“篡改实验数据或研究结果”“论文(包含课程论文及作业中的小论文)中直接抄袭他人学术成果行为”“科研经费与资源不当使用”属于学术失信行为,这四项指标将作为判断学业是否存在学术失信行为的标准。数据处理具体操作为:对单个样本中的“学校记录的考试违纪”“篡改实验数据或研究结果”“论文(包含课程论文及作业中的小论文)中存在直接抄袭他人学术成果行为”“科研经费与资源不当使用”数据进行算术相加,若结果等于0,那么记作结果“0”,若结果大于0,那么记作结果“1”,这些算术相加后的数据结果记在新变量“学术失信”下。其现实意义解释为:只要样本个体存在考试违纪、篡改实验数据或研究结果、论文(包含课程论文及作业中的小论文)中存在直接抄袭他人学术成果行为、科研经费与资源不当使用的任意一项行为都将被认为是学术失信。处理后的数据记作样本集A。在样本集A中共有118人存在学术失信行为。最后为了确认样本集A的可靠性,对样本集A进行问卷可靠性信度分析,可靠性分析采用SPSS25.0软件对调查数据进行研究,其具体结果见表4。Cronbachα系数为0.806,大于0.8,证明样本集A信度质量高,可以用于下一步模型的构建。

表4 样本集A可靠性分析

(三)大学生学术失信预测模型设计

在线性逻辑回归的函数表达式中(公式1.1),p表示结果为“1”发生的概率,也就是大学生学术失信的概率。1-p表示结果为“0”发生的概率,β表示需估计的模型参数,而在个人信用评分的应用中,p是最终需要计算的概率[15]251-266。

(1)

为了便于模型的设计与检验,将样本集中的22个变量处理后得到新的样本集B:Y学术失信;X1无故迟到;X2无故早退;X3老师记录的课程作业抄袭;X4图书馆不良借还记录;X5逾期缴纳学费的情况;X6逾期偿还助学贷款;X7隐瞒家庭真实情况,申请助学贷款、助学金等学校资助;X8不良校外信贷记录;X9虚报信息向家长索要“考试费”等费用;X10缺席学校内任何集体活动;X11向家长隐瞒或谎报成绩或处分的行为;X12与朋友、同学相处,不守时、不守约定的行为;X13与朋友、同学相处,借物不还;X14与同学、朋友相处,在经济条件良好的情况下,集体社交活动中,经常使用他人物品或钱财;X15老师对你的不良评价;X16同学对你的不良评价;X17在实践与课外活动中,你的不良评价;X18评选学生干部,简历中存在虚假信息;X19寻找兼职与工作时,简历中存在虚假信息;X20寻找兼职与工作时,隐瞒学校处分情况;X21在兼职与实习中,提前结束实习。Xn代表大学生的各类信用状况,Y代表大学生是否存在学术失信行为。根据公式(2),LR方程表达式如下:

(2)

将样本集B采用Python3.7软件实现LR分类,得出分类效果:F1_score:0.352;Accuracy_score:0.884;Recall_score:0.257;Precision_score:0.562;AUC:0.73。尽管AUC大于0.7具有一定的准确性,但是召回率分数与F1分数均小于0.5,分类效果并不理想。通过对样本集观测发现,学术失信样本只占总样本的12.45%,因此考虑样本分布不均衡导致的分类效果不佳。为了解决样本分布不平衡的问题,采用Python3.7软件对样本集进行SMOTE算法。采用Python3.7软件对样本集B进行SMOTE算法,纠正样本不平衡后,得到样本集C,共1 660项数据。样本比例见图1。

图1 样本集“0”“1”比例

将得到均衡比例的样本集C运用Python3.7软件,实现LR分类,得出分类效果:F1_score:0.720;Accuracy_score:0.748;Precision_score:0.813;Recall_score:0.647;AUC:0.783。对比样本集B得出的分类效果、ROC曲线和AUC(如图2)发现:F1、召回率与精确度分数得到了显著的提升,AUC分数也得到了7.2%的提升,该模型分类的准确性得到了一定的提升。准确率分数有所下降是因为样本均衡后,结果为“0”的样本比例下降,结果为“1”的样本比例增加后带来的准确率变动。最终SMOTE-LR模型下的失信预测模型表达式为:

图2 ROC曲线与AUC对比

ln(p/1-p)=-0.883+1.048*X1-0.399*X2+2.270*X3+1.942*X4-1.318*X5-22.993*X6-20.623*X7-2.424*X8-0.112*X9+1.687*X10+0.277*X11+0.593*X12+0.706*X13-0.487*X14+0.711*X15-1.547*X16+0.843*X17-1.498*X18-0.941*X19-1.372*X20-1.609*X21

三、场景应用探究

SMOTE-LR模型是根据大学生学业信用、经济信用、生活信用与社会信用的状况,对大学生发生学术失信的可能性进行预测,是管理大学生学术诚信问题行之有效的办法。在大学生信用建设工作中,预测模型能够帮助高校教师动态地掌握大学生产生学术失信的可能性,从而及时对“高风险”的大学生采取必要的教育措施。在其他场景应用中,SMOTE-LR模型是反映大学生学术诚信状况的有效方法之一,为社会中其他活动提供了对大学生在道德品质上科学的、客观的评价。

(一)人才选拔

《国家中长期人才发展规划纲要(2010—2020年)》明确指出,人才是我国经济社会发展的第一资源。大学生作为我国青年主力军,亦是未来各行各业中的人才储备。大学生信用评价得出的评价等级代表其在大学期间的诚信质量等级,评价等级越高表示其诚信度越可靠。董博在对中国人才发展治理的相关研究中认为,“人才”“人才发展”“人才发展治理”是三个逐层递进的概念[16]。人才的挖掘与发展是人才强国的有效方法,而做好人才发展治理是我国社会稳步增长的需要,是建设中国特色社会主义社会的重要保障。我国现阶段的经济制度是以公有制为主体,多种所有制经济共同发展。在这种经济制度下,诚信是我国优秀人才必备的首要条件,是保障我国经济稳定发展的重要因素。2018年2月,国务院办公厅印发了《关于分类推进人才评价机制改革的指导意见》,该意见指出我国在人才评价方面存在诸多问题,如标准单一、评价方法趋同、分类评价不足等。该意见还强调了分类健全人才评价标准需突出品德评价,品德是人才评价的首要内容。

(二)学历考试

教育部最新公布的数据显示,2020年硕士研究生报名人数达到341万人。自2015年起,全国考研报名人数急剧增长,由此可见,越来越多的大学生在面对社会高层次人才需求的压力下选择提升自身的学历。随着高学历的人群越来越多,学术造假、考试作弊等事件频频发生。高学历考试是以考生诚实守信为基本前提考察考生的学业、科研水平。在以往的学历考试中我国高校及研究机构在考试中采取各种措施防止考生作弊,如由于疫情原因,2020年全国高校在研究生及以上学历的考试和面试中采用远程考核方式,为了保证考试的公平性,大多数高校采用了双机位甚至是三机位的监控方式。在通常情况下,这些方法在选拔过程中是非常有效的,但对通过了考试的学生却无法起到任何的约束作用。因此,全国高校将大学生信用评价等级纳入入学考核体系,一定程度上能够降低通过学历考试后学业失信事件发生的概率,是保障我国科学研究健康发展的有效方法。

(三)个人征信

我国现阶段,政府主导型的征信机构占绝对优势。社会征信体系是由征信立法系统、征信监管体系、征信服务行业、失信惩罚机制与人才培养模式五个子体系构成的[17]。个人征信主要是对个人信贷信息进行收集及处理。大学生学术信用研究中的各项信用数据是对我国个人征信数据收集的补充,尤其是未产生信贷记录的人群。金融行业中贷款的发放是根据已产生的金融活动信息或者其资产状况,大数据信贷则在此基础上还需考核社交及其他非金融活动状况。大数据时代,以ZestFinance公司为例,其个人信用评价指标多达几万个,而这些指标数据来源于互联网活动、第三方数据以及用户自身提交的数据[18]。大学生诚信档案数据及大学生个人信用评价等级作为信贷活动中个人信用评估所需的第三方数据,是对金融业个人信用评分体系的添补,是完善我国个人征信体系的重要环节。

基于以上研究,笔者对于未来大学生学术诚信建设提出以下建议:(1)政府设立专职部门。我国高校在大学生信用建设方面各有建树,无论是对完善大学生信用档案的建设还是对信用评价的探索,都已经取得了初步的成效。我国高校数量庞大,不同高校所处地理位置及办学定位不尽相同,具有一定的地域性、方向性及专业特色性。设立专职部门对我国大学生信用建设进行统筹规划,将会降低上述因素对学术信用评价的影响,同时能够加快我国大学生学术诚信建设的步伐。(2)行政机构联合行动。通过对我国大学生诚信建设及学业信用的探究,数据壁垒与奖惩制度失衡是现阶段面对的主要问题。联合政府各职能部门对大学生信用数据进行采集,不仅能打破数据壁垒,还能为高校及学者在今后的研究中提供更多真实可靠的样本数据,从而大幅度地提升研究效率。在奖惩制度建设方面,我国联合行动实例已不胜枚举,一定程度上改善了我国的失信问题。为了完善该项制度,优化行政机构联合行动的具体方针政策将是未来研究重点。(3)加强思想道德教育。我国高等教育在学总规模每年都在不断扩大,2019年该项数字已经超过4 000万人。面对如此庞大的人群,加强大学生思想道德建设必须放在首位,这也是保障大学生健康发展的基本。习近平总书记在纪念五四运动100周年大会上说,“青年的理想信念关乎国家未来”。坚决把增强“四个意识”、坚定“四个自信”、做到“两个维护”融入大学生思想道德建设中,是大学生学术诚信建设最有效的途径。

猜你喜欢

诚信信用样本
中美信用减值损失模型的比较及启示
加快信用立法 护航“诚信河南”
信用收缩是否结束
我们和诚信在一起
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
信用消费有多爽?
“官员写作”的四个样本
照片之争,诚信之殇