APP下载

粗糙集理论与最小距离法相结合的校园招聘分析

2015-04-18高发强

科技视界 2015年3期
关键词:约简粗糙集学生党员

高发强

(江苏科技大学数理学院,江苏 镇江 212003)

0 引言

近年来,“大学生就业难”已经成为一个热门话题,大学生如何在就业形式严峻的情况下,高效找到工作越发困难。参加校园招聘是大学生签订工作的主要方式,如何从校园招聘的众多学子中脱颖而出,是每个大学生面临的难题。通过调查分析,文章用粗糙集理论和最小距离法相结合的方法,分析了校园招聘企业人才需求的影响因素,从而更加准确的指出了不同性质的企业在校园招聘中对毕业生的要求,对大学生如何准备就业具有重要的指导意义。

波兰数学家Z.Pawlak提出的粗糙集理论是一种处理不精确信息和含糊信息的新型数学方法,近年来成功应用于医疗诊断、图像处理、模式识别、知识获取、数据挖掘和决策支持等领域。经典粗糙集理论是通过论域U上的不可分辨二元关系(即等价关系)导出的等价类作为基本的知识颗粒,用一对上下近似集合来逼近数据库种的不精确概念。粗糙集的核心思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

最小距离分类,是指求出未知类别向量到要识别各类别代表向量中心点的距离,将未知类别向量归属于距离最小一类的一种图像分类方法。 本文将粗糙集理论和最小距离法用于校园招聘企业人才需求规则,高校可借鉴此规则引导学生,避免大学生盲目择业;大学生也可参考此规则合理安排大学生活和做好就业准备。

1 基本概念

1.1 粗糙集

定义1 信息系统(Information System记为:IS)可定义为一个四元组:DIS=<U,AT,V,f>,其中U是一个非空有限对象的集合,又称为论域:AT是非空有限属性集合,∀a∈AT,Va表示属性a的值域;V表示全体属性的值域集合, 即 V=VAT=Ua∈ATVa;f为信息函数,Vx∈U,a∈AT,定义 f(x,a)表示 x 在属性 a 上的取值,则有 f(x,a)∈Va。

如果AT=C U D,其中C是非空有限条件属性集合,D是非空有限决策属性集合,则<U,C∪D,V,f>又被称为决策信息系统(DIS)。当D={d}时,称<U,C∪{d},V,f>为单决策信息系统。

定义2 设IS=<U,AT,V,f>,∀A⊆AT,定义A上的不可分辨关系IND(A)={(x,y)∈U2|∀a∈A,f(x,a)=f(y,a)}。 不可分辨关系满足自反性、对称性、和传递性,是U上的一个等价关系。由此等价关系可以导出U上的一个划分,记为U/IND(A),Vx∈U,x的等价类记为[x]A,且[x]A={y∈U|(x,y)∈IND(A)}。

定义3 设IS=<U,AT,V,f>,∀X⊆U,A⊆AT定义X关于属性A的下、上近似分别记为:

1.2 约简

定义 4 设 DIS=<U,C∪{d},V,f>,Vd={1,2,…i,…,r},A⊆C。 由决策属性 d 导出的划分 U/d={D1,D2,…,Dr},其中 Di={x∈U|f(x,d)=i}。 定义

(1)若LOW(A)=LOW(C),则称A是C的一个下近似分布一致协调集;若A是C的一个下近 似分布一致协调集,且∀B⊂A,B,都不是C的下近似分布一致协调集,则称A是C的下近似分布约简。

(2)若UPP(A)=UPP(C),则称A是C的一个上近似分布一致协调集;若A是C的一个下近似分布一致协调集,且∀B⊂A,B,都不是C的上近似分布一致协调集,则称A是C的上近似分布约简。

(3)若 LOW(A)=LOW(C),且 UPP(A)=UPP(C),则称 A 是 C 的分布一致协调集;若A是C的分布一致协调集,且∀B⊂A,B,都不是C的分布一致协调集,则称A是C的分布约简。

定义5 设IS=<U,AT,V,f>是一个信息系统,C∪{d}=AT,集合族{D1,D2,…,Dr}是由决策属性 d 导出的划分,则 C 对{d}的近似分类质量 γC({d})记为:

γC({d})=|PosC({d})|/|U|

γC({d})表示在条件属性集C下能够确切划入决策类U/d中的对象占论域对象总数的比率,表示了决策属性对条件属性的依赖程度:PosC({d})称为{d}的相对于 C 的正域。

定义6 设IS=<U,AT,V,f>是一个信息系统,C∪{d}=AT,条件属性ci∈C(1,2,…,n),ci对于决策属性的重要性程度为 Sig(ci,C,{d}),其中Sig(ci,C,{d})=γC({d})-γC-ci({d})。 PosC-ci({d})称为{d}的相对于{C-ci}的正域,即U中所有根据属性集{C-ci}划分后,仍可准确划分到{d}的等价类中的对象集合。

1.3 决策规则

在粗糙集用于决策规则获取的理论中,隐藏在决策信息系统DIS=<U,C∪{d},V,f>中的知识将以决策规则的形式被提取出来。设DIS=<U,AT,V,f>是一个决策表,AT=C∪{d},C∩{d}=φ,其中 C 为条件属性集,{d}为决策属性,令Xi和Yj分别代表U/C与U/{d}中的各个等价类,des(Xi)表示对等价类Xi的描述,即等价类Xi对于各条件属性值的特定值;des(Yi)表示对等价类Yj的描述,即等价类Yj对于各决策属性值的特定取值。

决策规则定义如下:

rij:des(Xi)→des(Yj),Yj∩Xi≠φ,

规则的确定性因子 μ(Xi,Yj)=|Yj∩Xi|/|Xi|,0<μ(Xi,Yj)≤1。

当 μ(Xi,Yj)=1 时,rij是确定的;当 0<μ(Xi,Yj)<1 时,rij是不确定的。

注:在产生决策规则之前,可首先对决策表中的属性进行约简。

1.4 最小距离法

设 Gi,Gj是两个类:任意∀Xi∈Gi,Xj∈Gj,则定义:

其中dij是Xi,Xj之间的距离,为两个类Gi,Gj之间的距离,它是Gi,Gj之间的最短距离。 用此方法,设 Gp,Gq合并为一个新类 Gr,则对于任意一个类Gk,有

2 校园招聘企业人才需求影响因素体系构建

经过专家打分本文选出13个影响因素,做了100份问卷调查,构建决策信息表如表1所示:

表1 调查问卷设计

表中用“0、1、2、3、4”来表示不同的取值。 U={u1,u2,…,u100}表示100分问卷的集合,A={C1,C2,…,C12,d1}表示属性集。经过上述处理后可得到如下的决策信息表:

表2 决策信息表

3 数据处理

已知 DIS=<U,C∪{d},V,f>,属性集 C={c1,c2,…,ci},U/d={D1,D2,…,Dr}是由决策属性d导出的覆盖,则条件属性集C的下近似分布约简的步骤如下:

步骤1:令C的下近似分布约简R=φ。

步骤2:判断LOW(R)=LOW(C)是否成立,若成立则转步骤4,否则转步骤3;

步骤 3:对任意 ai∈(C-R),取 Sig(ai,C,{d})获得最小值时的 ai,更新 R,使 R=R∪{ai}, 转步骤 2;

步骤4:输出R,R即为C的下近似分布约简。

算法的时间复杂度分析:步骤2中计算LOW(R)与LOW(C)是否相等的时间复杂度是 O(|C|U|2)步骤 3 的时间复杂度是因此该算法的时间复杂度是 O(|C|U|2)。 将步骤 2中的判断条件改为 UPP(R)=UPP(C),步骤 3 的启发信息改为 Sig(Ci,C,{d}),即可求得 C 的上近似分布约简。

通过计算约简掉的冗余数据为 {c5,c11,c12,c13},最终得到C对{d}的相对约简为{c1,c2,c3,c4,c6,c7,c8,c9,c10}。因此获得的确定性规则如下:

r1:(c1=3)^(c2=3)^(c3=1)^(c4=1)^(c6=0)^(c7=1)^(c8=0)^(c9=1)^(c10=1)→(d=0),可信度为1

r2:(c1=3)^(c2=3)^(c3=0)^(c4=1)^(c6=1)^(c7=1)^(c8=1)^(c9=1)^(c10=1)→(d=2),可信度为1

r3:(c1=3)^(c2=3)^(c3=1)^(c4=1)^(c6=0)^(c7=1)^(c8=1)^(c9=1)^(c10=0)→(d=1),可信度为1

r4:(c1=3)^(c2=3)^(c3=0)^(c4=1)^(c6=0)^(c7=1)^(c8=1)^(c9=1)^(c10=1)→(d=3),可信度为1

上述确定性规则用通俗语言解释如下:

1)有相关证书,成绩较好,学生党员,学生干部,不是自主创业尝试者,有独立工作能力,缺乏综合分析能力,有口头表达能力,有创新能力;该类毕业生适合国企,可信度为1。

2)有相关证书,成绩较好,不是学生党员,学生干部,自主创业尝试者,有独立工作能力,一定综合分析能力,有口头表达能力,有创新能力;该类毕业生适合外企,可信度为1。

3)有相关证书,成绩较好,学生党员,学生干部,不是自主创业尝试者,有独立工作能力,一定综合分析能力,有口头表达能力,创新能力弱;该类毕业生适合民企,可信度为1。

4)有相关证书,成绩较好,不是学生党员,学生干部,不是自主创业尝试者,有独立工作能力,一定综合分析能力,有口头表达能力,有创新能力;该类毕业生适合其他类型企业,可信度为1。

不足之处:通过知识约简获得的确定性规则,虽然每个属性都是必要的,但表示的确定性规则显得繁杂,尤其用通俗语言解释时。如果当得到确定性规则存在几十个属性并很多属性必要且相同时,不管用通俗语言解释还是用符号表示,就会更加繁杂,难以简单的找到区分点。因此解决这个不足之处是必须的。

4 改进

改进方法:最小距离法和粗糙集相结合。

最小距离法步骤如下:

第二步:找出D(0)的非对角线上的最小元素,假设为Dpq,将Gp,Gq合成一个新类Gr。

第三步:求出 n-1 个新类的距离矩阵 D(1)=(Dij),其中:Dir=Dri=min{Dip,Diq}。

第四步:重复第二、三两个步骤,直至将样品合并为所需的类。

通过最小距离法,将属性c1和c2分为一类,记为C1,即显性具体能力;属性c7和c9分为一类,记为C2,即基本能力。则改进后的确定性规则如下:q

r1:(C1=3)^(c3=1)^(c4=1)^(c6=0)^(C2=1)^(c8=0)^(c10=1)→(d=0),可信度为1

r2:(C1=3)^(c3=0)^(c4=1)^(c6=1)^(C2=1)^(c8=1)^(c10=1)→(d=2),可信度为1

r3:(C1=3)^(c3=1)^(c4=1)^(c6=0)^(C2=1)^(c8=1)^(c10=0)→(d=1),可信度为1

r4:(C1=3)^(c3=0)^(c4=1)^(c6=0)^(C2=1)^(c8=1)^(c10=1)→(d=3),可信度为1

上述确定性规则用通俗语言解释如下:

1)有显性具体能力,学生党员,学生干部,不是自主创业尝试者,有基本能力,缺乏综合分析能力,有创新能力;该类毕业生适合国企,可信度为1。

2)有显性具体能力,不是学生党员,学生干部,自主创业尝试者,有基本能力,一定综合分析能力,有创新能力;该类毕业生适合外企,可信度为1。

3)有显性具体能力,学生党员,学生干部,不是自主创业尝试者,有基本能力,一定综合分析能力,创新能力弱;该类毕业生适合民企,可信度为1。

4)有显性具体能力,不是学生党员,学生干部,不是自主创业尝试者,有基本能力,一定综合分析能力,有创新能力;该类毕业生适合其他类型企业,可信度为1。

5 结论

本文利用最小距离法和粗糙集的知识对企业人才需求状况的数据处理,通过上述可以看出,不同的企业对毕业生有不同的要求,但其中有些是共同因素,如:证书,成绩的重要性,学生干部,独立工作能力等。因此,学校针对性地采取有效措施,正确引导大学生合理安排大学生活,应届毕业生可根据自身的情况找到适合的类型企业或根据企业的类型来准备简历和其他相关性的事情,这对应届毕业生在校园招聘中有一定的参考价值。

[1]张文修,吴伟志,梁吉业,李德玉.粗糙集理论与方法[J].北京:科学出版社,2001.

[2]Pawlak Z.Rough sets[J].International Joumal of Computer and information Sciences,1982,11(5):341-356.

[3]徐维艳,魏敏,张明.基于相似关系粗糙集中的否定规则及约简[J].微电子学与计算机,2012.

[4]贺莹,严春芳.关于提高校园招聘有效性的思考[M].上海:中国电子科技集团公司第二十三研究所,2014.

[5]徐映梅.市场分析方法[M].北京:中国财经经济出版社,2006.

猜你喜欢

约简粗糙集学生党员
网络环境下如何发挥高校学生党员在意识形态工作中的作用
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
实值多变量维数约简:综述
基于模糊贴近度的属性约简
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
高校优秀学生党员评选体系的构建——基于AHP法的运用分析
高师院校发挥学生党员作用模式初探
两个域上的覆盖变精度粗糙集模型