基于概率软逻辑推理模型的高校贫困生识别

2024-05-19张嘉王娇王志星

电脑知识与技术 2024年7期

张嘉王娇王志星

摘要：贫困大学生作为一个特殊群体在高校大学生中占有较高比例，国家对于高校资助工作的开展一直高度重视。如何精准识别大学生的贫困程度并为其提供资助是众多高校一直着力解决的长期性问题。该研究提出了一种基于概率软逻辑推理模型来预测大学生贫困等级的方法，该方法通过软约束构建规则和逻辑谓词方式将人为可理解的贫困生判别标准和常识引入概率软逻辑推理模型进行推理预测。在高校学生真实数据上的大量实验表明，该方法的识别正确率可达到90%以上。此外，与支持向量机、逻辑回归、决策树等机器学习算法相比，该方法具有更高的推理识别精度，因此，对于大学生的贫困程度识别该方法具有巨大的潜力。

关键词：概率软逻辑；贫困生识别；推理；预测；精准资助

中图分类号：TP181 文献标识码：A

文章编号：1009-3044（2024）07-0001-03

开放科学（资源服务）标识码（OSID）

0 引言

2013年11月3日，习近平总书记首次提出“精准扶贫”理念[1]，为从根本上解决贫困学生问题，国家、社会和各学校积极探索并建立了全面且完善的贫困学生资助体系。2022年，全国累计资助大学生4588.24万人，资助金额达1675.59亿元。高校精准资助模式是精准扶贫理念的具体实践[2]，精准资助非常重要，但目前在国内高校内，贫困生认定和识别依然是劳动密集型且耗时的工作，当前国内各高校原则上每学年开展一次家庭经济困难学生认定工作，认定程序主要包括公布政策、学生个人申请、辅导员及学院学校评审、结果公示等步骤。然而，在实践中还有很多因素可能影响识别结果，例如：

1）在申请环节，申请者为了隐藏个人敏感信息或者为了获得更大额度的资助金额，可能填写虚假家庭和个人状况；

2）在评议环节，评审者（同学或老师）可能会受到主观因素的影响；

3）同一高校，不同学院在实施过程中的执行标准可能因为各种因素而出现差别。

如何将新技术思维科学地运用到高校贫困生资助中，不仅需要我们转变资助思维，更需要利用先进技术对传统方法进行改进和创新。近年来，数据的可用性大幅提高，研究人员开始利用大数据和机器学习技术来识别学生贫困水平，它们已经成为预测贫困水平最流行的技术之一。其中，支持向量机[3]、逻辑回归[4]、决策树[5]、贝叶斯网络[6]、KNN[7]等机器学习算法都被证明在贫困生识别领域拥有较好效果，但是相比概率软逻辑推理模型（PSL，Probabilistic soft logic） [8]，它们在预测过程中面向人类的可理解性上还稍显不足[9]。

1 概率软逻辑理论基础

概率软逻辑（PSL）是一种概率编程模型，它能够有效地对结构化数据进行推理。PSL模型是通过一组加权的一阶逻辑规则进行定义，这些逻辑规则的输入原子和推理结果可以被定义或解释为[0，1]之间的连续软真值，而不是仅仅使用布尔值0或1来代表概率。加权逻辑规则通常采用以下形式：

[w： P1（A，B） ∧ P2（B，C） >> P2（A，C）] （1）

其中w是规则的权重（也可解释为对应规则的重要性），P1（A，B）∧P2（B，C）部分被称为规则体，右边的P2（A，C）被称为规则头，P1、P2被称为谓词，A、B、C是随机变量，谓词一般用于定义随机变量之间的关系，每个谓词的计算值都可被表示为[0， 1]区间内的连续随机变量。例如，若有规则Friend（A，B）∧know （A，C）>>know（B，C），其中Friend（A，B）表示A和B是朋友，know（A，C）表示A认识C，经过PSL在这条规则上推理后得出的know（B，C）的值即是B认识C的概率。每条规则表示了特殊类型马尔可夫随机场（PSL模型内称为铰链损失马尔可夫随机场，简称HL-MRF）中的一个函数集合[8]。HL-MRF的概率密度由式（2）给出：

[PY|X=1Z（Y）exp-i=1mwi?i（Y， X））] （2）

[ZY=Yexp-i=1mwi?i（Y， X））] （3）

其中，[?i=max0，?iY，Xdi;di∈{1， 2}]， [?i] 是规则对应的铰链损失势函数，X和Y在[0， 1]范围内，m是势函数的数量，?i是线性函数，[di]规定了规则不被满足时的铰链损失方式，它使得我们可以灵活地在线性和平方铰链损失之间进行选择，在大部分情况，平方铰链损失被证明表现出更好的效果，[wi]是与规则相关的权重[8]。推理计算可以由式（4）表示：

[Y*=argminYi=1mwifi（Y， X））=argminYLmap（w，Y， X）] （4）

上述表达式是使用交替方向乘子法（ADMM）[10]求解的。

2 模型构建

2.1 模型结构

基于概率软逻辑推理模型来预测大学生贫困等级的方法整体实现流程如图 1所示，包括数据输入、编码、规则定义、推理和结果评估等多个过程。

各模块具体解释如下：

1）数据输入：用于实验的贫困生数据集，包含学生基本属性字段和贫困等级认定结果字段。

2）数据编码模块：原生PSL无法定义中文谓词数据，本文研究为其开发数据编码模块，推理运行前编码，输出结果时解码。

3）训练集/验证集划分：划分输入数据为训练集和验证集，用于训练模型和验证实验结果。

4）规则学习模块：本文方法一部分规则通过使用C5.0算法训练得来。

5）人工规则定义模块：虽然人工定义规则具有较强的不确定性和主观性，但是人类认知的知识往往是机器学习算法所欠缺的，比如在贫困生识别过程中，一条很浅显的规则是“若某同学在2022年和2023年被认定为贫困生，那么他很可能在2024年也被认定为贫困生”。

6）规则优化模块：使用最大似然估计法[8]对每条规则的权重进行调整。

7） PSL推理模块：执行推理运算，其中R1 -Rn 表示为运算过程中谓词所对应关系的计算原子。

8）结果评估：对实验结果进行验证，主要使用推理的正确率值来度量。

2.2 模型规则定义

1）自动规则。对于本文方法所构建的模型，一个很重要的子模块即是规则自动学习模块，它能集合传统机器学习算法决策树C5.0的优点从数据中提取规则，挖掘得到的规则示例如图2所示。

2）人工规则定义。PSL和支持向量机、逻辑回归等传统机器学习算法最大的区别在于，PSL易于构建数据之间的关联关系，简单地讲，也就是PSL能够将人类世界的常识和知识转化为机器能够使用的规则。因此，除了C5.0已经挖掘得到的规则，我们额外通过手工定义的方式将一些较为重要的贫困生识别的知识转化为规则输入模型。

（1）【延续性举例】通过过往数据，已知某同学在2022年和2023年因家庭经济情况困难被认定为特殊困难等级的贫困生，那么有很大可能他在2024年也将被认定为特殊困难等级的贫困生。该描述被转化为以下规则：

RecognitionLevel （Stu，Y1，Lev） ∧RecognitionLevel （Stu，Y3，Lev） ∧ToBeRecognized （Stu，Y3） ? RecognitionLevel （Stu，Y3， Lev）

以上规则一定程度上阐述了学生经济状态的延续性，RecognitionLevel 表示认定等级，ToBeRecognized 表示待认定数据，Stu代表待评定学生，Y1、Y2、Y3表示学年年份，lev表示认定等级。

（2）【关联性举例】通过学生日常数据，得知某同学在2023年存在助学贷款，并且该同学在校内勤工助学系统申请过多次勤工助学岗位，那么有很大可能他在2024年将被认定为困难或特殊困难等级的贫困生。它们将被转化为以下规则：

StudentLoan （Stu，Y1，money） ∧WorkStudyProgram （Stu，Y1，type）

∧ToBeRecognized （Stu，Y2，Lev） ? RecognitionLevel （Stu，Y2， Lev）

以上规则阐述了学生经济和日常状态的关联性，StudentLoan表示助学贷款，WorkStudyProgram表示勤工助学项目参加情况，Y1、Y2表示学年年份，lev表示认定等级，money表示助学贷款数额，type表示勤工助学岗位。

（3）【模糊性举例】模糊规则代表了人类认知的部分感受，它们不能作为贫困生认定的直接标准，但是在最终的推理结果数据上，它们将对概率值产生积极影响，比如缺乏这些规则的时候，学生Stu经过推理模型后，被评定为经济困难的概率可能为0，但拥有了这些规则，该生被评定为经济困难的概率为0.3，这种结果更符合我们的直观感受。例如：

a.食堂有消费，但每日消费数额越少越可能评定为更高贫困等级。

CanteenConsumption （Stu，Y1， money） ∧ToBeRecognized （Stu，Y2） ? RecognitionLevel （Stu，Y2， Lev）

b.购买生活必需品频率越低，越可能评定为更高贫困等级。

PurchaseEssentialItems （Stu，Y1， num） ∧ToBeRecognized （Stu，Y2） ? RecognitionLevel （Stu，Y2， Lev）

c.网购数量越少，越可能评定为更高贫困等级。

OnlineShopping （Stu，Y1， money） ∧ToBeRecognized （Stu，Y2） ? RecognitionLevel （Stu，Y2， Lev）

3 实验验证

3.1 对比模型构建

对比模型使用Spss Model建模软件进行构建，本文主要构建了CHAID树、支持向量机、逻辑回归、贝叶斯网络、KNN等五种机器学习算法的对比模型，结构如图 3所示。

3.2 实验数据描述

本文数据通过西南某高校学生信息管理系统收集，它包含12 015条贫困生认定数据，其中有特殊困难、困难、一般困难、不困难等4种不同的贫困类型，每条数据具有多个属性，具体如表 1所示。

3.3 实验结果

本文研究将数据按8：2的比例随机划分为训练数据和测试数据，进行的8次实验运行结果如图 4和图 5所示，图 4是模型在未添加人工定义规则时，仅使用C5.0算法训练得到的规则输入PSL模型进行推理产生的实验结果，可以看到，此时本文方法已经得到了较好的实验效果，但是和支持向量机算法相比，在推理正确率上依然有一定差距。当加入人工定义规则时，传统机器学习算法无法添加的常识规则和知识被加入模型，图 5所见即为实验结果，可以看到本文方法实验效果已经基本和SVM算法持平，并且其中有5次实验的推理正确率已超过SVM算法。

4 总结

本文研究提出了一种基于概率软逻辑推理模型来预测大学生的贫困等级的方法，该方法通过结合C5.0算法的规则提取能力，为概率软逻辑推理模型提供科学的输入规则，同时，使用软约束构建规则和逻辑谓词的方式将人类可理解的贫困生判别标准和常识引入概率软逻辑推理模型进行推理预测，在与额外的5种不同的分类算法进行对比实验后，本文方法取得了较好的对比效果。最终结果表明：1）本文所提方法是可行的，并且在本文所用数据集上的实验效果已多次超过SVM算法；2）基于概率软逻辑推理模型的方法在贫困等级预测工作中取得了可喜的成果，多次实验的平均识别正确率达到90%以上。下一步，筆者将收集和整理额外的数据来完善当前方法，争取取得更有益的实验成果。

参考文献：

[1] 让青春沿着总书记指引的方向闪闪发光——写在习近平总书记亲临湘西州视察并提出精准扶贫重要理念十周年之际[J].中国共青团，2023（19）：2，1.

[2] 教育部全国学生资助管理中心.2022年中国学生资助发展报告[N].人民日报，2023-11-03（014）.

[3] 陈瑞虹.不平衡数据的SVM分类研究及在高校贫困生识别的应用[D].泉州：华侨大学，2019.

[4] 李步青.基于组合logistic回归模型的高校贫困生认定研究[J].网络安全技术与应用，2021（1）：59-61.

[5] 李明江，卢玉，刘彦.一种基于C4.5决策树的贵州省高校贫困生评定方法[J].科技通报，2013，29（8）：223-224，233.

[6] 张丽娟，夏艳，程雪平，等.基于伯努利贝叶斯模型的高校贫困生预测研究[J].信息技术与信息化，2021（11）：159-161.

[7] 刘晓娜，王恺，王成德，等.基于KNN算法的高校困难生认定研究[J].电子元器件与信息技术，2023，7（8）：88-92.

[8] BACH S H，BROECHELER M，HUANG B，et al.Hinge-loss Markov random fields and probabilistic soft logic[J].ArXiv e-Prints，2015：arXiv：1505.04406.

[9] 张嘉，张晖，赵旭剑，等.规则半自动学习的概率软逻辑推理模型[J].计算机应用，2018，38（11）：3144-3149，3155.

[10] BOYD S，PARIKH N，CHU E，et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations and Trends in Machine Learning，2011，3（1）：1-122.

【通联编辑：李雅琪】