APP下载

基于集对分析的学生成绩分析算法

2015-12-14程泽凯

关键词:毕业设计均值学期

宋 园,叶 云,王 灿,程泽凯

(1.马鞍山职业技术学院电子信息系,安徽马鞍山243031;2.安徽工业大学计算机科学与技术学院,安徽马鞍山243032)

基于集对分析的学生成绩分析算法

宋 园1,叶 云2,王 灿2,程泽凯2

(1.马鞍山职业技术学院电子信息系,安徽马鞍山243031;2.安徽工业大学计算机科学与技术学院,安徽马鞍山243032)

针对目前学生成绩评定方法不能有效检测学生偏科问题,利用数据挖掘思想,提出基于集对分析的学生成绩分析(RoSA)算法。以某高校本科生的实际成绩为样本,编程实现该算法,实验结果表明,该算法可以更加客观地反映学生的学习情况,并可有效检测出学生是否偏科;通过分析该算法与普通方法评定结果的差异,可以较好地分析出学生在不同阶段的学习状态。

学生成绩分析;集对分析;数据挖掘;等级划分;机器学习

学生成绩等级评定是高校教学管理的重要组成部分,目前高校对学生成绩分析常用的方法是均值计算、总和排序、加权求和等方法。均值计算和总和排序是简单地求均值、求总和的计算,忽视了不同课程的不同重要程度;加权求和法弥补了均值计算和总和排序的不足,但对某些特定情况(如学生偏科)处理得不充分。如何充分利用学生成绩数据,理性地进行分析,对学生成绩进行等级评定,在教学管理中越来越重要。

集对分析(Set PairAnalysis,简称SPA)方法[1]是一种较新的数据挖掘方法,能有效地分析和处理不完整、不精确、不一致等各种不确定信息,被越来越多的学者所关注,已成为国内外人工智能领域中的学术热点,并在决策、预测、数据融合、综合评价等众多领域取得了较为成功的应用[2-5]。

集对分析方法用联系度的概念统一处理模糊、随机、中介和信息不完全所致的不确定性。其在一定的问题背景下,对组成集对的2个集合的特性作同一性、差异性、对立性分析并加以度量刻画,得出这2个集合在所论述问题背景下的同、异、反联系度表达式,并推广到系统由大于2个集合组成时的情况,由此深入展开有关系统的联系、预测、控制等问题的研究。文献[6]将集对分析运用于玻璃幕墙的安全评估中;文献[7]提出基于改进熵权-集对分析方法并对湖泊的形态健康进行评价;文献[8]讨论了集对分析在供水管网漏损预测中的应用;文献[9]将集对分析方法应用于无线传感器网络中的传感器节点的信誉度分析,提出了一种WSN数据融合的方法;文献[10]将集对分析方法用于产品规划的优化模型中,充分考虑质量的时间性、经济性和可靠性,使产品优化方案的综合效益最佳。近年来,集对分析也应用到教育教学领域,占跃华[11]针对教学质量评价系统中的复杂信息,基于集对分析方法建立了教学评价的数学模型,以此合理地评价教师的教学质量。吴亭[12]利用集对分析中的五元联系数描述给定范围内学生成绩为优、良、中、及格和差五类中各类所占的比例时,发现该五元联系数同时隐含着该批学生成绩的当前态势和潜在的发展趋势,通过偏联系数计算,揭示出其中潜在着的发展趋势,从而为更好地开展下一阶段教育提供了客观依据。鉴于此,本文提出基于集队分析的RoSA(Ranking on StudentAchievement)算法,用于对学生成绩进行等级评定。

1 集对分析原理

设有联系的集合X和Y。X有n项表征其特性,即X=(x1,x2,…,xn),Y亦有n项表征其特性,即Y=(y1,y2,…,yn)。X和Y构成集对H(X,Y)间的联系度定义为

式中:有S个特性为集合X、Y两个集合所共有,这两个集合在其中的P个特性上相对立,在其余的F=n-S-P个特性上既不对立也不同一,即差异性个数;u为差异不确定系数,在(-1,1)区间视不同情况取值,体现了确定性与不确定性之间的相互转换;v为对立系数,v≡-1。为简便,令a=S/n,称为同一度,b=F/n为差异度,c=P/n称为对立度,则式(1)可写成:

式中a,b,c分别表示集合X和Y所呈现出的相同、相异、相反的关系,且a+b+c=1。a,b,c集中反映X和Y的关系结构。

2 基于集对分析的RoSA算法

用基于集对分析的RoSA算法对学生成绩进行等级评定,其实质就是将学生成绩(C)与成绩划分标准(S)构成对子,即组合成一个集对H(C,S),并对构成的集对H(C,S)进行分析。通过学生成绩C中的每个成绩数值与成绩划分标准S中的评价标准范围进行比较,以此来对学生成绩进行等级评定。

基于集对分析的RoSA算法的关键是建立准确的同、异、反联系度函数,即根据各个学生的各科成绩与等级划分标准间的关系确定联系度。针对学生成绩数据,从系统性和代表性的角度选择综合反映研究对象分类特征的指标体系x1,x2,…,xj(j为指标数目)。制定分类等级标准[S(m-1,j),S(m,j)](m=1,2,…,m为分类等级标准数;j=1,2,…),其中S(m-1,j),S(m,j)分别为第j个指标第m类等级标准的下限和上限。

RoSA算法通过比较学生必修课的成绩C(i,j)与指标区间[S(m-1,j),S(m,j)]之间的关系来计算联系度A(m,j),具体构造方法根据式(1),可作适当调整得到A(m,j)的取值如式(3)~(5)所示。

式(4)中k=2,3,…,m-1。根据式(3)~(5)计算出来学生各科成绩与各个级别之间的联系度A(m,j)后,结合各科目的权重W={ω(j)},计算联系度U(i,m)。ω(j),U(i,m)公式如式(6),(7)所示。

考虑教学过程中科目有主次之分,对学生的重要性不同,因此,需要正确的划分出各个科目在学生综合评价中所占的权重值。如式(6)所示,RoSA算法通过学校规定的学分按比例对其科目分配权重ω(j)。其中x'j表示第 j门课程在通过考试后学校规定的所获得的学分。如某学校某学期开设四门课程,各课程的学分依次为2,3,4,1,则各科目对应的权重为0.2,0.3,0.4,0.1。

式(7)中,U(i,m)表示第i个学生与等级m的联系度;

则第i个学生的成绩等级评定为k级。

本文所述的学生成绩等级评定的算法伪码如下所示。算法:基于集对分析的RoSA算法

输入:C,C,xj',S,course_num输出:W,U(i,m),k 1)依次读取各个学生的各科成绩C(i,j)以及各科的等级指标S(m,j);2)根据式(3)~(5),求出A(m,j)的值;3)j取1到course_num,根据式(6),计算权重ω(j);4)根据式(7),计算得到U(i,m);5)根据式(8),求出各个学生对应的等级k。

上述算法的时间复杂度取决于学生成绩的个数,读取每个学生的各科成绩后并计算A(m,j)共需执行i×j×m次,计算权重ω(j)需要执行1次,再计算每个学生总的联系度值U(i,m)并得出对应的等级k需要执行i×m次。所以总的计算次数为:(i×j×m+1+i×m)次,故其时间复杂度为T(n)=O(n),因此,该算法是可行的。

3 实例分析

以某高校的全日制本科生成绩数据作为分析对象,将学生成绩按照五个等级来进行评定:等级Ⅰ为不及格(0~59分),等级Ⅱ为及格(60~69分),等级Ⅲ为中等(70~79分),等级Ⅳ为良好(80~89分),等级Ⅴ为优秀(90~100分)。

3.1 RoSA算法实例

某学期某专业开设的课程及学校规定的学分如表1中第1、2列所列,据式(6)计算出每门课程在RoSA算法中所占的权重值,如表1中第3列所列。学生A某学期各科的考试成绩记录如表1中第4列所列。

依据式(3)~(5)中给出的A(m,j)的构造方法,计算该生各科与各个等级的联系度如表2所示。根据式(7),计算得到该生的成绩与各个等级的联系度如表3所列。可知其与等级Ⅲ的联系度值为五个等级联系度值中最高的,根据式(8)该生利用RoSA算法对其等级评定为等级Ⅲ,成绩中等。

依据同样方法对该学期另一学生B进行等级评定,学生B成绩记录见表1中第5列所列。通过RoSA算法对学生B进行等级评定的结果也为等级Ⅲ,中等。

若采用常规的绩效均值法对其进行等级评定的结果是学生A为等级Ⅱ(及格),学生B为等级Ⅲ(中等)。从学生A和学生B的成绩,可以看出,部分课程(比如微机实习体育、金工实习、冶金概论)学生B的成绩高于学生A,但是学生A的成绩相对于学生B而言,各科成绩间相对稳定,而学生B偏科比较严重。因此可以发现,在处理学生偏科这一问题时,RoSA算法相对于绩效均值方法更加优越。

绩效均值法和均值法的计算如式(9),(10)。

式中:x1,x2,…,xn为某学生某学期各科所得考试成绩;n为该学期所学课程的科目数;ωi为通过该校规定的第i门课程的考试后所得到的学分。

表1 某学期学生A,B成绩记录Tab.1 Course scores of studentAand student B in a semester

表2 学生A各科与各等级的联系度计算结果Tab.2 Calculation results of the connection degree between studentAachievement and various levels

表3 学生A的成绩与各等级联系度的计算结果Tab.3 Calculation results of the total connection degree between studentAachievement and various levels

3.2 RoSA算法的应用

以某高校2000级本科生在校四年的成绩数据以及该专业2008级大一、大二的成绩数据作为分析对象,数据基本信息如表4。

表4 实验数据信息Tab.4 Experimental data

分别考虑在教学过程中科目权重相同以及不相同这两种情况,由于现今高校中对学生成绩的处理方式大多为绩效均值法,所以在本文中分析RoSA算法与常规的均值法、绩效均值法对学生成绩进行等级评定的结果的异同点,由此发现本文提出方法与常用方法的不同之处,并发现隐含在学生成绩间的有意义的特征。实验结果如图1~3。

图1到图3中的六条曲线分别是由RoSA算法获得的结果与其他常用方法获得的结果的相同率(相同率=对学生成绩评定结果相同的个数/总的学生个数)构成。图1和图2是对2000级的学生成绩按照学期和学年为单位的计算结果,图3是对2008级学生按照学期为单位的计算结果。曲线a,c,e是权重不同时RoSA算法与绩效法计算结果的相同率构成的曲线;曲线b,d,f是权重相同时RoSA算法与均值法计算结果的相同率构成的曲线。

1)RoSA算法与常规方法等级评定的一致性分析 图1中,曲线a中8个学期的平均相同率为81.36%,曲线b中8个学期的平均相同率为77.83%;图2中曲线c中4个学年的平均相同率为76.85%,曲线d中4个学年的平均相同率为80.62%;同时,对2000级的本科生4个学年的成绩进行总的等级评定时,RoSA算法与绩效均值法等级评定的结果相同率为87.88%,RoSA算法与均值法等级评定的结果相同率96.97%。可见,采用RoSA算法进行成绩等级评定与现有的绩效均值法、均值法进行的成绩等级评定结果基本保持一致。

2)不同学期的学生状态分析 从图1,3中可以发现,第一学期对应的相同率明显低于其他学期,经分析发现,学生们刚刚从高中以来的督促学习到自主学习,对于如何自主学习,很多学生在这方面较为欠缺,所以第一学期的成绩波动比较大;紧接着进入大二的学习阶段,很多同学会对大一时自己的学习方法和状态进行反思并改正,因此这些同学的学习成绩会有所提升。但是图1和图3中,大二下学期,相同率均会降低。经研究发现,无论是2000级还是2008级,大二下学期皆是一个过渡期,是由基础课的学习阶段向专业课学习阶段的过渡,基础课与专业的教学侧重点不同,学生们在此阶段的学习方法调整状态不佳,导致成绩不稳定。进入大三阶段时,开始系统的学习专业课知识,并且在经过了大一和大二之后,学生对于在大学期间应该如何学习,有了更多的经验,因此在大三阶段,学生的波动情况在四学年中的波动属于最小的;大四阶段主要是各种实习以及毕业设计等,主要考察学生的实践能力,在实践的过程中,只要学生按要求完成任务了,所得成绩均不会差,因此其波动性也较小。

3)孤立点挖掘 曲线a上第8学期对应的是个异常点,该点表示该学期中RoSA算法与绩效均值法评定结果的相同率为100%;与此同时,曲线b上该学期RoSA算法与均值法的结果对比相同率为75.86%。经分析发现,该学期是本科学习阶段的最后一个学期,其中课程设计的学分为2.5学分,毕业设计的学分为16学分。因此,在有权重区分情况下,其等级评定的结果很大程度上受毕业设计的好坏影响,而在无权重区分情况下,课程设计和毕业设计对其等级划分的影响力度相当。同时,也可以发现学生的毕业设计不能很好的反映学生的真实成绩等级,原因在于,毕业设计一般是团队合作的,而在现今的大学生中,往往会出现此种情况,即一个团队中,毕业设计一般是由某个或某几个动手能力比较强的人负责,其他的学生一般很少处理毕业设计的相关问题,但是老师在给分的时候,都是以一个团队来处理的。

4)不同时间段学生成绩的对比 从图1,3可以看出,2000级的学生成绩评定结果的相同率构成的曲线与2008级构成的曲线,大致相同。但是图3中曲线e与曲线f相同率更吻合,由此可以认为2008级的学生成绩比2000级的学生成绩更稳定,在课程设置以及课程权重分配问题上,八年后的更优越。

实验结果表明,RoSA算法具有其正确性、合理性,并且可以更深层次的对学生成绩进行挖掘、分析,帮助教学工作者更好地发现学生在不同时期的不同学习状态,以此更好的帮助学生调整学习状态。

4 结 语

本文将RoSA算法应用到学生成绩分析中,通过实验表明了用RoSA算法处理学生成绩数据,可以更加客观地反映学生学习的实际情况,尤其在处理学生偏科这一问题时,有更好的优越性。

[1]赵克勤.集对分析及其初步应用[M].杭州:浙江科学技术出版社,2000.

[2]何美丽,刘浪,王宏伟,等.基于集对分析的工程评标未知权重多属性决策[J].中南大学学报,2012,43(10):4057-4062.

[3]刘晓,唐辉明,刘瑜.基于集对分析和模糊马尔可夫链的滑坡变形预测新方法研究[J].岩土力学,2009,30(11):3399-3405.

[4]汪伟忠,卢明银,周波,等.基于集对分析的车间安全管理能力评价[J].安全与环境学报,2013,13(3):252-254.

[5]赵晓慎,吴海波,陈丹.集对分析在改进BP神经网络凌汛开河日期预测评估中的应用[J].水电能源科学,2011,29(12):101-103.

[6]吴红华,文洁.玻璃幕墙安全评估的集对分析方法[J].自然灾害学报,2011,20(4):66-70.

[7]张凤太,王腊春,冷辉,等.基于改进熵权—集对分析法的湖泊形态健康评价[J].水电能源科学,2012,30(9):103-109.

[8]张明,李鹏,周润娟.基于集对分析的供水管网漏损预测模型[J].供水技术,2012,6(3):28-31.

[9]马守明,王汝传,叶宁.基于信誉度集对分析的WSN安全数据融合[J].计算机研究与发展,2011,48(9):1652-1658.

[10]张莉,冯定忠,李创,等.基于集对分析与改进模式匹配算法的产品规划方法[J].中国机械工程,2013,24(8):1056-1061.

[11]占跃华.基于复杂信息的教学质量评价集对态势模型及应用[J].计算机与数字工程,2010,38(3):71-74.

[12]吴亭.五元联系数在学生成绩发展趋势分析中的应用[J].数学的实践与认识,2009,39(5):53-59.

责任编辑:丁吉海

StudentAchievementAnalysisAlgorithm Based on Set PairAnalysis

SONG Yuan1,YE Yun2,WANG Can2,CHENG Zekai2
(1.Department of Electronic Information,Ma'anshan Technical College,Ma'anshan 243031,China;2.School of Computer Science and Technology,Anhui University of Technology,Ma'anshan 243032,China)

In view of problem that current student achievement evaluation system cannot detect unbalanc learning of student,by using the concept of data mining,a student achievement analysis(RoSA)algorithm based on Set Pair Analysis was proposed.Taking actual course scores of students as samples,the algorithm was programmed and implemented.Experimental results show that with the proposed algorithm,the students'learning state can be reflected more objectively,the learning unbalance can be found effectively;compared the results from the proposed algorithm and those from other methods,the proposed algorithm can analyze student’s learning state under different stages well.

analysis of student achievement;set pair analysis;data mining;ranking;machine learning

TP311

A

10.3969/i.issn.1671-7872.2015.04.016

2014-08-18

国家自然科学基金项目(61300059);安徽省教育厅自然科学研究重大项目(KJ2014ZD05);安徽高校省级自然科学研究基金项目(KJ2011A039)

宋园(1982-),女,安徽马鞍山人,讲师,研究方向为机器学习。

1671-7872(2015)-04-0383-06

猜你喜欢

毕业设计均值学期
新的学期 新的尝试
期末冲刺高二上学期期末模拟卷
高等职业院校汽车检测与维修专业毕业设计探究
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
基于应用型人才培养模式下的毕业设计改革的思考
——以四川文化艺术学院为例
浅谈均值不等式的应用
电子商务专业毕业设计实施与探索
均值不等式的小应用
八年级(上学期)期末测试题(D)