APP下载

高校教师信息素养指标体系研究
——基于RreliefF特征选择算法

2022-08-29曾慧平

中国新技术新产品 2022年10期
关键词:特征选择分类样本

曾慧平

(江西交通职业技术学院,江西 南昌 330013)

0 引言

信息素养包括文化素养、信息意识和信息技能三个层面,决定了什么时候需要什么样的信息,在哪里能获取到信息,并能够评价和有效利用所需的信息。信息素养是人在信息时代所必备的技能,决定了其对社会的适应能力与对事件的应对能力。信息素养涉及多方面的内容,人文、技术、经济、法律甚至周边学科的专业知识,都会影响个人的信息素养水平。高校教师作为国家人才的培养者,更需要具备高层次的信息素养,以便在信息爆炸的大背景下敏锐地捕捉到先进、正确的科学知识,并传授给学生。但是高校教师作为科研育人的特殊群体,如何评价其信息素养,如何确定具体人员的信息素养构成要素,都是一个有待深入研究的课题。

RreliefF特征选择算法是对各个影响要素的权重进行赋值、综合评定的一种运算方法。在算法中,首先考虑了对事件结果可能产生影响的所有影响要素,其次注重各要素间的相互作用,用发展的视角看待各要素对结果的制约作用,还可以根据初始条件的不同,动态选择参与计算的要素种类和内容。因此RreliefF特征选择算法可以更真实地反映模拟计算结果。

将RreliefF特征选择算法应用于高校教师的信息素养指标评定,可以区分不同专业、不同需求教师群体的特殊性,并在归一化的基础条件之上客观评价教师的信息素养。基于此思想,该文开发了高校教师信息素养指标体系。

1 基于RreliefF特征选择算法的信息素养指标体系

1.1 RreliefF算法

RreliefF算法的基本思想是对每个属性进行权重分配,通过迭代的方式来确定权重,再通过权重的方式来确定属性的子集合,进而使优秀的属性集合在一起,而非独立的个体。对高校教师信息素养的评价,需要枚举出影响因素。为规范评价行为,针对影响因素进行分类汇总,根据不同高校的专业领域、教师的具体研究方向,概括为人文素质选项、技术实力选项、经济能力选项、法律储备选项以及用于个性化定制的其他选项。在每一个选项中,还可以细分为二级考核点,例如人文素质选项中可包括人文常识、表达能力、写作能力和文字功底等很多考核点;技术实力选项细分为专业技术、通用技术、周边技术、融合能力和知识产权等。基于此细分原则,假设给定单标签数据集有个类标签,其训练数据集记为{(,)(,)…(xy)},其中xR(=1,2,…,),R为样本特征空间,为样本特征空间的序号,yR(=1,2,…,),R为样本类别空间。如果第个样本x属于第k类,则记为y()=1,否则记为y()=0。因此,数据集可看作是由的特征矩阵[,,…,x]和的标签矩阵[,,…,y]构成的,且矩阵的每一列只有1个元素值为1。

将训练数据集输入之后,其迭代的次数即为,样本个数为最接近的值,特征权值向量在输出时最明显[6]。特征权值向量()=0.0最开始会出现数据显现,其内容为=1,2,3,…,。在中不按规则地选取一个随即样本,这个随机样本被记作R;寻找与这个随机样本R一样的最近邻值记作,对每个类≠class(R),寻找和R不一样类别的个最近邻值M(),for:=1:更新每个特征权值,如公式(1)(RreliefF算法)所示。

式中:[]为特征全职矩阵集合;(R)为样本R拥有的类标签;(,RM())为样本关于特征的距离;()为类别的可能性;((R))为R拥有的类标签的可能性;M()为第C类目标的第个样本;(·)为按照采样大小设置和。

在确定各属性权重后,权重较大,则说明各属性具有较好的判别能力,由此可以利用门限选取新的特征子集,并在子集中降低维度。

该方法是在训练集合中随意选择一个例子,然后对相邻的1个例子进行检索,在该例子中,相似(击中)的分类样品被称作,而相似(错误)的分类样品被称作。基于该示例的数值对各属性的差异值进行了评估,并按照下列准则进行加权。当1个例子和1个样本分类的属性数值不一样时,这个特性会把2个执行个体从1个相同的类中分开,从而降低了1个品质评估。当1个例子和1个试品样品的属性数值不一样时,它会把2个例子从1个非相似的例子中分开,并且相应地提高它们的品质。上述步骤反复多次,最终求出每个特性的加权平均值,各属性的权值愈高,则其分类性能愈好;相反,则表明此特性的分类性能较差。从算法上可以看到,在寻找最接近领值时,只把每一个样品归入1个类别,并没有将这个样品归入多个类别(也就是多标记的资料),并且在步骤中,特征权的计算也没有将多类别标记的贡献度计算在内,所以ReliefF为单一标记,不能用于多标记的属性选取,多标记的选取还需要更深入探讨。

1.2 多类数据处理

RreliefF是一种求解多类别数字挖掘的扩展方法,其实质是将多个类型的问题分解成单一对多个的问题。RreliefF是一种扩展的方法,该方法利用多重随机取样把多个属性选取问题分为2个类型。从各个分类中随意选取2种不同类型的情况,可以不做任何修改。采用RreliefF方法对这2种类型问题进行分类后,将各类型的属性权重合并,进而得出最终的属性评估。ReliefF并未考虑多个分类的情况下,搜索的最邻近和属性权重的变化情况,很明显不适合多标记的特征选取。为了解决这个问题,该文设计把ReliefF方法推广到多标记问题,并在此基础上给出了1种多标记的特征选取方法。

假定样本所具有的类别标记对其的贡献是相同的,在属性权重计算中添加了贡献度,并对其进行了修正。在查找最近邻时,需要先找到样本拥有的个类标签,记=(,,…,h),然后分别考虑每个类标签h=(=1,2,…,),该方法可以有效地克服ReliefF方法无法处理多类的共现问题。多标记的训练资料集合在标记矩阵中,每个栏的取样可以归入多个分类,因此每个栏的单元数值是1。在ReliefF算法中,W是选取样本,R是每个类标签对其的贡献程度,其他参数基本一致。用1表示样品的全部标记贡献的总和,则样本R每个标签的贡献值W为1/,这种方法通常叫作一范式加权方法。该权值分布将多标记与单一标记的资料并列,但多标记的资料包括了更多的资讯,应该给予更多的关注与更大的权值。另外一个是使用了一个简单的加权指派,即每类对样本R的贡献都设为1(称单位权重法),那么它的全部贡献是标记数目的总和。

该方法将类别标记的权值与标记数目相等,许多试验结果显示该权值的分配方式再次强调了多重标记的重要性。根据标准规范化的思路,将各标记权重因子之和设为1,则每个标签的贡献值W定为范权重法。在强调多个标记的同时,不能设置多个标记的加权,如果样本R有1个类标签,贡献值W的值总为1,这说明ReliefF算法是一种特殊情况。

1.3 特征选择

特征选择的属性抽取是将原资料中的变量进行线性或非线性结合,生成新的群组变量,进而获得与所要解决的问题有关的某些问题。该文提出一种基于偏极最小二乘子的方法来验证该方法的正确性,设计了一种基于多元统计的新分析模型。该算法将、这2个变量都进行了拆分,分别从、中随机抽取各分量(一般称作“因素”),然后根据这些因素的相互关系由大到小依次进行排序。这种算法的目的主要是利用最少的方差来寻找一套最好的函数,也就是利用一种简便的算法来获得某些不知道的真数值,并使2个错误的平方和最少。偏最小二乘法近似为多元线性回归,结合经典相关性和主成份分析,将其应用到多元线性回归的研究中的最简化的方法是,用单一的线性模式对和预期组的相关性进行分析。基于上述方法,该文提出了一种基于滤波的特性筛选方法,该方法在对该特性进行评估时,根据该特性的基本性质,对各特征行进行相应的打分,此计算方法无须借助RreliefF就可进行。假设是所有消息的集合,且={,,…,x},()是给定消息的概率,那么的熵()的定义为公式(2)所示。

在信息学中,互信息是一种重要的信息测量方法。概率理论与信息学都可以利用2个随机变数的交互信息使它们彼此依赖,在范围内交互信息(;)的表达式为公式(3)所示。

式中:()为的熵;(,)为联合熵,其定义如公式(4)所示。

式中:(,)为特征选择结果的最终概率。

在采用5类信息筛选方法进行分类评估时,一般会先将其与分类的相关资讯分开,若资讯数值高,说明该特性与分类之关系愈大,也就是该特性对分类的辨识能力更强。把各属性按互信息量的递减顺序排列,可以得出各属性对分类的优劣程度。在资讯增益方面,通过观测特性所能给的分类体系的讯息数目便可以测度该特性是否有类别分的能力,此即是资讯扩增的基础概念,1个特性为分类所能提供的资讯愈多,则该特性愈具价值。1个特性在1个特定的属性集中,其信息的数量会随着时间的推移而改变,其大小就是该特性所能提供的信息,即为教师个人的信息素养评价结果。

2 对比试验

2.1 试验准备

试验内容包括2个方面:一个是ReliefF法中的不同贡献度的计算,另一个是对比了各种特征选取方法。试验选用KNN作为分类器(为3),使用5 fold交叉校验,按特征权大小由大到小选择。该研究选取3位教师的信息素质之综合指数资料,其中的数据集包括很多部分,这3个数据集的情况见表1。

表1 试验所需数据集数值内容

根据以上2种方法分别求取相应的贡献度,再采用ReliefF算法选取特征子集中,根据ReliefF算法进行多标记的分类,并通过数据对ReliefF的效果进行比较。

2.2 试验结果

根据以上方法在试验中的贡献值的确定W,采用 ReliefF方法选取了多个特征点,并将其归类为多标记,并对其效果进行了对比。3个贡献度对ReliefF的作用如图1所示。在这些数据中,横轴代表了所选取的特征量所占的比例。

图1 贡献值对算法的影响

根据图1可知,二范权重法的分类准确率最少,表现为稳定性;当属性维度一致时,采用一范权重法对多标记与单一标记的数据进行比较,选择的属性不够理性,因此一范权重法的分类准确率最低。而单元加权法过于注重多项指标,因此其分类准确率比二范权重法的准确率低。

对ReliefF和ALA-ReliefF这2种特征选取方法进行对比,以全面检验该方法的正确性。ALA-ReliefF方法是将多个标记的资料集合转换为单一标记,再使用ReliefF方法进行标记的选取。ReliefF方法采用二次加权方法,对其进行了求解。如表2所示,在2个特征选择算法中,对最早20%的属性进行了分类,在80%以上的情况下也同样对其进行了分类。

根据表2可知,当具有同样的特征维度时,基于ReliefF方法的识别准确度要比ALA-ReliefF方法好得多,因为ALAReliefF在将多个标记的信息向单个标记的转换过程中会形成一些干扰,进而使其识别准确度下降。ReliefF方法在进行了特征选取后,其准确度明显优于未进行特征选取的情况,表明ReliefF方法能有效地消除噪声,并能有效地改善其识别准确度。ReliefF方法在识别准确率方面的差异要比ALAReliefF方法低,表明ReliefF方法具有很好的稳定性,其获得的教师信息素养指标体系评价结果更能够反映真实情况。

表2 2种特征选择算法的分类正确率

3 结语

该文基于我国大学教师的信息素质评价指标,分析了我国大学教师的信息素质特征,并对其构成进行了分析。然后基于RreliefF特征选择算法对大学英语专业教师的信息素质进行了分析,并建立了相应的评估指标和评估标准。大学教师的信息素质指数是一个多层次、多结构且综合性强、可测性高的量化性时代性评定方法。制定高校教师信息素养指标体系是一个庞大而复杂的系统工程,该文的指标体系只是一个探索和尝试,希望更多的研究机构和专家学者参与相关研究,基于RreliefF特征选择算法早日制定出符合我国国情的高校教师信息素养指标体系。

猜你喜欢

特征选择分类样本
分类算一算
分类讨论求坐标
推动医改的“直销样本”
数据分析中的分类讨论
教你一招:数的分类
Kmeans 应用与特征选择
村企共赢的样本
联合互信息水下目标特征选择算法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择