APP下载

基于Apriori算法的高校招生的关联规则分析*

2014-07-25赵祖应潘明波

网络安全与数据管理 2014年5期
关键词:频度项集置信度

赵祖应,丁 勇,潘明波

(云南工商学院,云南 昆明 651701)

1 民办高校招生的现状分析

招生工作一直是民办学校最重要的工作,民办学校在招生上的投入占一年总支出的很大部份,采用的招生方式也在不断的更新,使用新方法,新模式。但同时也会发现,有些方式方法并不能解决招生问题,浪费了有限的资源,得不偿失,主要表现在招生成本高、没有严格的招生机制,宣传模式单一等。归根原因是没有找到适合本校的招生方法与模式,而要能做到这一点,必须要对招生工作做一个详细的研究,根据以住招生的情况,总结分析,找出问题所在点和发光点,为招生工作更好的方式提供有力的依据。

2 Apriori算法分析

2.1 挖掘关联规则的主要步骤

步骤1:发现所有的频繁集。项集的频度至少应等于(预先设置的)最小支持度。关联规则的整个性能主要取决于这一步。

步骤2:根据所获得的频繁项集,产生相应的强关联规则。这些规则必须满足最小置信度阈值。

2.2 Apriori算法

Apriori算法是挖掘产生关联规则所需要的频繁项集的基本算法,是数据挖掘领域里面常用的一种关联规则挖掘算法。该算法利用一个层次顺序搜索的循环方法来完成频繁集的挖掘工作。这一循环方法就是利用(k-1)-项集来产生k-项集,具体的做法是首先找出频繁集I-项集,记为L1;然后利用 L1来挖掘产生 L2,即频繁 2-项集,如此循环往返,直到无法发现更多的频繁k-项集为止。在每一层挖掘产生Lk时,都需要对整个数据库扫描一遍。Apriori算法利用Lk-1来生成Lk。

该算法实现过程包括两个步骤,即连接和剪枝,具体实现过程如下。

连接步骤:设l1和l2为 Lk-1中的的两个项集,符号Lij表示 Li中的第j项,如 Li,k-2就表示 li中的倒数第二项。 若 Lk-1的连接操作记为 Lk-1⊕Lk-1,它表示若l1和l2中的前(k-2)项是相同的,即若有下面关系。

则Lk-1中的l1和l2的内容就可以连接到一起。

剪枝步骤:Ck是Lk的一个超集,其中由项集组成的各元素不一定都是频繁项集,但是所有的频繁k-项集一定都在里面,即有L⊆Ck。对数据库进行扫描就可以确定Ck中各候选项集的支持频度,并由此获得Lk中的各个元素,即频度k-项集。所有频度不小于最小支持频度的候选集就是Lk的频繁集。

3 Apriori算法对民办高校招生分析

3.1 数据预处理

从某高校招生的收集数据中抽出1 000条数据进行数据预处理,并对其进行数据筛选,处理结果如表1和表2所示。

表1 2012年招生数据预处理

表2 2013年招生数据预处理

3.2 利用spss Clemention建模

利用spss Clemention工具建立模型,本例用2012年入学数据与2013年入学数据进行比较,得出两年的地区与是否报到的关联性分析,建模如图3所示。

3.3 设置最低条件支持度,最小规则置信度,最大前项数

在2012年的数据中,设置最低条件支持度为8.0,最小规则置信度60.0%,最大前项数为5,得到的数据分析结果如图4所示。

如果把2013的规则支持度和置信度设置和2012相同,结果如图5所示。

3.4 地区与是否报到关联规则结果分析

图4 2012年执行结果

图5 2013年执行结果

根据图 4和图 5进行比较,B(云南大理)和 D(云南昭通)地区的学生报到是趋于正常的发展,在2013年招生中,A(云南昆明)、C(云南曲靖)和 E(云南丽江)加大了招生宣传,取得了非常明显的效果,那么在2014年的招生宣传中,还需要在A、C、E地区保持一定的宣传投入,在B和D地区可以适当减少招生投入。

一个学校生源的多少决定了它规模及发展。特别是在民办高校,“招生就是一切”,招生中不仅要数量、质量也是发展的关键。民办院校在不同的发展时期会有不同的发展策略,在不同的历史时期院校也就有不同的招生策略及队伍建设适应发展的需求。因此,只有在清楚制定了院校发展战略规划后,才能顺理成章地制定出院校人力资源需求、发展、策略、培训、扩建和储备计划。充分把数据挖掘技术利用在招生工作中,将对个高校的招生工作提供决策支持,对高校的招生成本的整合具有深远的意义。

[1]赵祖应,丁勇.基于Apriori算法的购物篮关联规则分析[J].江西科学,2012(1).

[2]王嵩岩.基于数据挖掘的关联规则研究[J].吉林省经济管理干部学院学报,2008,22(1):80-82.

[3]朱建平,谢邦昌.数据挖掘中关联规则的提升及其应用[J].统计研究,2004(12):34-39.

[4] 姚俊.浅谈关联规则挖掘[J].信息技术,2005(6).

[5]刘柱文,李丽琳.关联规则技术在数据挖掘中的应用[J].科学技术与工程,2008(6).

[6]谭建豪,章兢.数据挖掘技术[M].北京:中国水利水电出版社,2009.

[7]刘世平.数据挖掘技术与应用[M].北京:高等教育出版社,2010.

猜你喜欢

频度项集置信度
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
一种垂直结构的高效用项集挖掘算法
眨眼频度可判断烟瘾大小
铜绿假单胞菌MIC分布敏感百分数与抗菌药物使用频度相关性研究
置信度条件下轴承寿命的可靠度分析
分布式数据库的精简频繁模式集及其挖掘算法*
频度副词问与答