基于邻域三支决策的学生综合素质评价方法
2019-03-16钱文彬彭莉莎王映龙
钱文彬 彭莉莎 王映龙
摘 要: 现有学生综合素质评价方法大多是基于二元决策模型的,该模型容错率低且较难处理存在噪音的连续型学生数据。为此,依据邻域概念计算连续型数据的邻域类,再通过三支决策规则对学生进行综合素质评价。通过分析邻域参数和阈值对真实学生数据的评价结果的影响,为三支决策对学生进行综合素质评价时的参数设置提供了参考依据。三支决策中的延迟决策将易评价错的学生划分到可进一步评价的边界域中,一定程度提高了评价合理性,降低了误评价损失,实现了学生综合素质评价从粗粒度到细粒度的定量分析。
关键词: 三支决策; 邻域概念; 学生综合素质评价; 粒计算; 粗糙集
中图分类号:TP18 文献标志码:A 文章编号:1006-8228(2019)02-61-06
Method of evaluating students' comprehensive quality with
neighborhood three-way decision
Qian Wenbin1,2, Peng Lisha2, Wang Yinglong2
(1. School of software, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China;
2. School of Computer and Information Engineering, Jiangxi Agricultural University)
Abstract: Most existing students' comprehensive quality assessment methods are based on the binary decision model, the low fault tolerance of this model is inconvenient to deal with numerical student data with noise. So, the neighborhood class of continuous data was calculated through the neighborhood concept, and the comprehensive quality evaluation of students was evaluated through three-way decision rules. The reference for the parameter setting were provided by analyzing the influence of neighborhood parameters and thresholds on the evaluation results of real student data in the evaluation of student's comprehensive quality by three-way decision. Some easily misclassified students were divided into boundary areas that could be further evaluated by the delayed decision in the three-way decision, which improved the rationality of the evaluation and reduces the loss of miss-evaluation to a certain extent, and achieve the quantitative analysis of students' comprehensive quality evaluation from coarse-grained to fine-grained.
Key words: three-way decision; neighborhood concept; evaluation of students' comprehensive quality; granular computing; rough set
0 引言
隨着互联网和大数据时代的发展,大量复杂的数据存在于社会生活和科学研究领域中,如何从这些复杂数据中挖掘出潜在有价值的知识和规律已成为当今信息科学领域的研究热点。在教育领域也存在大规模的学生信息数据,有效地分析和处理这些数据对构建合理的学生综合素质评价方法具有重要的意义。
三支决策(TWD)是一种分析和处理不确定数据的重要方法[1-4],其理论来源于Plawlak经典粗糙集理论[5]和概率粗糙集理论[6],是决策粗糙集理论[7]的重要延伸,现已广泛运用于软件缺陷预测,医疗诊断,垃圾邮件处理,人脸识别等应用领域[8-11]。三支决策的计算模型是通过一对阈值将论域划分为互不相交的正域、负域和边界域,这三个域分别对应接受、拒绝和延迟三种决策。当信息不足以立即给对象分类时,为避免因错误接受或错误拒绝造成的损失,三支决策选择将该对象划分到边界域中,等信息增加后再对其进行分类。
学生综合素质评价是教学科学管理中重要的工作之一,综合素质评价体系[13]主要包括学生的思想品质,专业文化水平和身体素质及实践操作等指标。评价指标信息有时包含噪音数据,例如,向来优秀的学生某次因特殊情况导致几门考试不及格,根据平均分等级评价标准可能将该学生评价为良好学生甚至为不及格学生,显然这种二元评价方式不够合理。
本文引入邻域概念[14-16]计算连续型学生数据的邻域类,构建了基于邻域三支决策的学生综合素质评价方法。
主要工作:①扩充了学生综合素质评价工作领域的方法;②给出了基于邻域概念的三支决策多类分类模型;③可以处理同时存在噪音数据和连续型数据的学生数据。与二元评价决策模型相比,评价结果更加合理,评价准确率更高,误评价损失更低。
1 基础知识
1.1 三支决策
在三元组决策表S=(U,C∪D,{Va|a∈C})中;U={x1,x2,…,xm}表示有限非空对象全集,C={a1,a2,…,an}表示为有限非空条件属性全集,D表示决策属性,Va表示属性值。令R表示U上的一个等价关系,则对象x和y的R等价关系为,x的R等价类为{x}R={y∈U|xRy}。
在三支决策粗糙集中,{λPP,λBP,λNP}和{λPN,λBN,λNN}分别表示当对象属于任意对象集和不属于时,将划分到的正域、边界域和负域的风险损失值,根据期望风险最小化贝叶斯(Bayes)决策准则计算得出三支决策规则:
定义1[1] 在决策表S中,令X∈U,α和β为三支决策阈值,P(X|[x]B)表示对象x基于属性子集属于X的条件概率,则对于,其三支决策规则定义为:
其中:;
1.2 邻域
在邻域系统NS=(U,C∪D,V,δ)中,U表示非空有限对象全集,C表示非空有限条件属性全集,D表示决策属性,V表示属性值集,δ表示邻域参数。
定义2[15] 在邻域系统NS中,,v(x,ak)和v(y,ak)表示对象x和y在属性ak上的属性值,则x和y在属性子集B上的Euclidean距离为:
定义3 在邻域系统NS中,,则x和y基于属性子集B的邻域关系NRδ(B)和邻域定义为:
2 基于邻域三支决策的多类分类模型
定义4 在邻域系统NS中,决策类=
。则Xk基于属性子集的邻域三支决策规则定义为:
其中,,且
。
定义5 在邻域系统中,属性子集B=C,决策类Xk∈IND(D),。则关于决策属性D,其在属性全集C下的邻域三支决策规则定义为:
;
;
;
2.1 学生综合素质评价算法
首先,根據平均分等级评价标准,将所有学生初步评价为优秀类、良好类和及格类,然后,归一化学生数据,根据邻域概念计算各学生的邻域类和各学生属于三个评价等级的条件概率,接着根据三支决策规则将每个学生划分到各等级的三个域中,最后,对处在正域中的学生保留初步划分结果,对处在边界域和负域中的学生待新增评定指标后重新评价。算法具体描述如下。
算法:基于邻域三支决策的多类学生综合素质评价方法。
输入:学生数据决策表和损失函数表;
输出:优秀学生、良好学生和及格学生;
Step1. 标准化和归一化NS;
Step2. 初始化δ,计算阈值α,β;
Step3. 获取初始学生等级;
Step4. for x∈U do
for y∈U do
计算学生之间的Euclidean距离
;
计算学生的邻域类={y|x,y∈
U,fc(x,y)?δ};
end
end
Step5. for x∈U do
计算学生属于各评价等级的的条件概率;
end
Step6. for x∈U do
若,则将学生x划分
到Xk的正域中;
否则,若,则将对象
x划分到Xk的边界域中;
否则,将对象x划分到Xk的负域
中;
end
Step7. 输出学生评价结果,算法结束。
3 实例分析
为进一步验证算法的可行性,以表1为例进行分析说明。其中,x1~x10代表10个学生对象,a1~a6代表6项评价指标,AVG代表平均成绩。根据平均分等级评价标准([85,100]-优秀;[75,85]-良好;[60,75)-及格)初步评价学生为优秀类、良好类和及格类。
第1步 参考归一化函数:y=(x-Minvalue)/(Maxvalue-MinValue)对表1进行标准化和归一化得到表2,其中,条件属性集{a1,a2,…,a6}以及决策属性D分别对应表1中6项评价指标和初步评价结果。
第2步 制定损失函数表,设置参数δ,计算阈值α、β。
由定义4可知,若邻域参数δ过小,则对近似要求更苛刻,邻域类中元素极少甚至只有本身。反之δ过大,会使能观察到的不相似对象都被归为同一邻域类,不能反映数据的区分信息;但考虑到本实例中学生数目较少,因此初始化δ=0.7。文献[12]中提到三种最常用的(β,α)取值组合,分别为(0,0.5)、(0.3,0.8)和(0.5,1);(0,0.5)和(0.5,1)对于风险的预测过于积极或消极,而(0.3,0.8)是风险中性的预测方式,符合人们在日常生活中的决策习惯。因此,本例的阈值选取向第二种组合靠拢。
本算例中假设对该三类学生采取优先推荐工作,可以推荐工作和暂缓推荐工作三种决策。并且预先设定:给优秀学生优先推荐工作和暂缓给及格学生推荐工作不造成损失,即λPP=λNN=0。因此,制定风险损失表如表3,然后根据定义1计算得到α=0.8,β=0.27,与上述第二种常用阈值相近,因此较为客观合理。
第3步 由表2可知,U/D={X1,X2,X3},其中X1={x3,x6,x10}表示优秀类;X2={x1,x2,x5,x7,x9}表示良好类;X3={x4,x8}表示及格类。
第4步 依据算法Step4,计算得到学生之间的Euclidean距离,如表4所示。表中加粗字为满足邻域类的邻域距离值,由此可知,除x5和x9之外,其他学生与学生x1的邻域距离值都大于邻域参数δ,因此x1的邻域类为={x1,x5,x9},同理,可获得其他学生基于属性集的邻域类的结果。
第5步 依据算法Step5和Step6,计算所有评价指标下的每个评价等级的正域、边界域和负域。以x1为例,因为x1∈x2,所以只需计算=,,故,同理,对学生x2~x10进行划分和评价,结果如表5所示。
从本例的计算结果看,负域中没有对象是因为论域U中对象数较少;处在各评价等级正域中的学生{x3,x6,x10}和{x1,x7,x9}以及{x8}仍然保留初步划分结果,因为依据三支决策语义解释,表示接受{x3,x6,x10}于优秀类X1中,可以优先为他们推荐工作;同理,{x1,x7,x9}仍处于良好类X2中,可以给他们推荐工作;学生{x8}处于及格类X3中,建议暂缓为他们推荐工作。而{{x2,x5},{x4}}分别被划分到X2和X3的边界域中,应待新增考核指标后再评价。
通过计算可知,在待分类对象基数较小的情况下,以往按照平均分所处的分数范围对学生进行分类的方法基本可行,但略有粗糙,例如X4的平均分为74.67,十分接近良好类的分数线75,但却被划分到了及格类中,显然划分不太合理,当待分类对象基数较为庞大时,此类现象将会更多,即边界域中的对象则会更多,负域中的对象也会增加,若仅通过分数范围进行二元评价会导致更高的错误率。而三支决策可对边界域的学生进行延迟评价,使评价错误率降低,评价结果更合理,从而减少了误评价损失。
4 实验分析
实验采集江西农业大学软件学院的1805位学生的各项指标数据进行仿真学生综合素质评价,这些指标主要包括思想道德修养课程、体育课程和专业文化课程成绩等,其中专业文化成绩主要以专业主干课程考试成绩为主。实验运行环境:Win7,Intel (R) Core(TM),CPU i5-3230M 2.6GHz和8.0GB内存,用Java编程语言在开发平台Eclipse Mars.2 Release(4.5.2) 上實现。
实验在Euclidean距离下测试了四种情况对学生综合素质评价的影响。情况1:δ=0.5,β=0.3,α=0.5~1,单调递增。情况2:δ=0.5,α=0.7,β=0~0.5,单调递增。情况3:δ=0.5,α=1~0.5单调递减和β=0~0.5单调递增的六种组合,即(α,β)={G1=(1,0),G2=(0.9,0.1),G3=(0.8,0.2),G4=(0.7,0.3),G5=(0.6,0.4),G6=(0.5,.5)}。情况4:α=0.7,β=0.3,δ=0.1~1单调递增。四种情况实验结果分别展现在图2中4个子图(a)~(d)中。
实验表明,邻域参数δ和阈值α,β对学生综合素质评价结果有较大影响。从子图(a)可知,当δ和β不变时,随着α增大,正域POS(D)中的学生总数单调递减,边界域BND(D)中的学生总数单调递增;例如,当α从0.7曾至0.8时,正域中学生总数从751减至514,边界域中学生总数从577增至814;从子图(b)可知,当δ和α不变时,随着β增大,负域中的学生总数单调递增,边界域中的学生总数单调递减;从子图(c)可知,当δ不变时,随着α减小和β增大,边界域中的学生总数单调递减;正域和负域中学生总数单调递增;从子图(d)可知,当α,β不变时,随着δ增大,正域中的学生总数单调递减,边界域中和负域中的学生总数除了在δ等于0.4和0.3时突然下降,其余都呈递增趋势,例如,当δ=0.6增至0.7时,正域中学生总数从512减至250,边界域中学生总数从688增至932,负域中学生总数增从6.5曾至623。
根据理论分析和实验结果可知,阈值α和β对评价结果存在单调性影响,而δ对评价结果既存在单调性影响又存在非单调性影响。因此,在进行学生综合素质评价前以及对延迟评价的学生进行再次评价时,可结合实际需求和上述分析规律,合理设置阈值和邻域参数,以制定合理的评价方案,这样不仅可得到较满意的评价结果,还可使评价过程代价更少。
5 结束语
本文结合邻域概念和三支决策定义了多类划分规则,并将其应用于连续型学生数据处理和分析中,提出了一种基于邻域三支决策的多类学生综合素质评价方法。待评价学生通过三支决策被划分到各评价等级的三个域中,边界域的引入使得评价更合理,评价准确率更高。通过对真实数据进行实验,分析了各参数对评价结果的影响,为三支决策对学生综合素质评价时的参数设置提供参考依据;对比传统的二元学生综合素质评价方法,本文方法评价准确率较高,误分类损失较低。
参考文献(References):
[1] Yao Y Y. Three-way decisions with probabilistic rough sets[J].Information Sciences, 2010.180(3):341-353
[2] Yao Y Y. The superiority of three-way decisions inprobabilistic rough set models[J]. Information Sciences,2011.181(6):1080-1096
[3] 于洪,王国胤,姚一豫.决策粗糙集理论研究现状与展望[J].计算机学报,2015.38(8):1628-1639
[4] 刘盾,李天瑞,李华雄.粗糙集理论:基于三支决策视角[J].南京大学学报(自然科学版),2013.49(5):574-581
[5] Pawlak Z. Rough Sets[J].International Journal of Computer and Information Sciences,1982.11(5): 341-356
[6] Pawlak Z, Wong SKM, Ziarko W. Rough sets: Probabilistic versus deterministic approach[J]. International Journal of Man-Machine Studies,1988.29(1):81-95
[7] Yao Y Y. Decision-theoretic rough set models[J]. LectureNotes in Artificial Intelligence,2007.4481:1-12
[8] Nauman M, Azam N, Yao J T. A three-way decisionmaking approach to malware analysis using probabilistic rough sets[J]. Information Sciences,2016.374:193-209
[9] Chen Y F, Yue X D, Fujta H. Three-way decision support for diagnosis on focal liver lesions[J].Knowledge-Based Systems,2017.127:85-99
[10] Fernandes V, Yevseyeva I. Méndez J, et al. Emmerich.A spam filtering multi-objective optimization study covering parsimony maximization and three-way classification[J]. Applied Soft Computing,2016.48:111-123
[11] Li H X, Zhang L B, Huang B, et. al. Sequentialthree-way decision and granulation for cost-sensitive face recognition[J].Knowledge-Based Systems,2016.91(C):241-251
[12] Yager R. Generalized OWA aggregation operators[J].Fuzzy Optimization and Decision Making,2004.3:93-107
[13] 潘玉駒,何毅,陈文远.高校学生综合素质评价结果的处理机制研究[J].教育发展研究,2011.31(7):77-80
[14] Hu Q H, Yu D R, Xie Z X. Neighborhood classifiers[J].Expert Systems With Applications,2008.34(2):866-876
[15] 胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008.19(3):640-649
[16] Hu Q H, Pedrycz W, Yu Daren, et al. Selecting discreteand continuous features based on neighborhood decision error minimization, IEEE Transactions on Systems, Man, and Cybernetics: Systems,2010.40(1):137-150