高校毕业生就业区域选择调查——以成都市非川籍大学毕业生为例
2015-06-18王灿
王 灿
(成都师范学院数学系,四川 成都 611130)
0 引言
城市发展的动力是科技,科技的载体是人才。因此,一个城市的人才引进机制的建立直接关系到这个城市发展的前景;对于一个城市的管理者如何制定科学合理的人才引进机制直接关乎这个城市的发展。然而对于一个人选择就业区域就存在诸多影响因素,城市的管理者必须从这些纷繁的影响因素中能够快速、准确地作出判断。影响人才去留的因素包括国民经济核算、职工工资、资产投资、环境、物价、生活保障、产业分布、交通通讯、旅游、对外贸易、教育科技、文化体育等。因此,对高端人才的就业流向区域及其因素的研究就迫在眉睫。通过计算机智能,对海里的数据进行精确的处理,挖掘出有用的信息,为管理者决策提供有力的数据支持,刻不容缓。
1 关联规则
关联规则挖掘近来在算法的研究生越来越受重视,挖掘算法的健壮性和效率影响着关联规则挖掘的实际应用。随着关联规则挖掘研究和应用的不断深入,提出了许多关联规则挖掘的理论和算法,其中比较经典的当属Apriori算法和FP-growth算法,并在此基础上分支出了各种各样的算法。
2 Apriori算法简述及实现
R.Agrawal等人于1994年提出了挖掘交易数据库中项目集之间关联规则的Apriori算法。Apriori算法是研究关联规则中具有代表性的方法,也是最早用于解决关联规则问题的算法。
Apriori算法基于两阶段生成频繁项目集的思想,是通过挖掘频繁项目集啦挖掘关联规则的特有影响的算法。该算法是一种宽度优先算法,采用迭代的逐层搜索方法,生成特定的候选项目集,并对数据库进行扫描计数,确定出是否频繁项目集。
在迭代搜索过程中,首先找出频繁1-项集F1,用F1找频繁2-项集集合F2,用F2找F3,依次循环,直到不能找到频繁K-项集为止,找每个Fk需要一次数据库扫描。Apriori算法在首次初始化时,直接遍历数据集合可以找到频繁的1-项集集合F1;算法在第k(k>2)此迭代中,依据程序上一个迭代过程获取的项集结果Fk-1,迭代除本次候选项集的频繁集合Ck,然后为Ck中的每个结果赋值为0的计数器,然后遍历数据库D中的所有元素,找到属于所有的事务并存在于Ck的项集,程序更改计数器的值,当所有事务都遍历完成后,那么可以得到Ck中所有项集的支持度,根据事务数据库D中包含事务和输入的程序参数Ck里面的频繁集合。具体算法如下:
输入:事务数据库D,最小的支持度阈值minsup。
输出:D中的多次出现项集F。
第一步产生频繁项目集
第二步 产生频繁K-项目集
第三步 扫描子集,形成频繁项目候选集
扫描事务数据库D对每个候选K-项目集计数,达到最小支持度的频繁候选K-项目集成为频繁k-项目集。
Apriori算法演示
(1)首先扫描事务是数据库,统计各个数据项的支持度计数,并生成频繁1-项集Fi,设最小支持度计数为2。
(2)在第二步,依据已经有的性质,所有不包含频繁度集合的项是不会存在频繁度集合的。因此应该删除掉,这样可以减少程序处理的数据量,提高程序的运行速度。
(3)利用散列树,管理海量的候选项目,能够大大提高检索的速度。Apriori算法生成的候选的数据集合,需要遍历事务数据库D,统计候选数据项集的支持度。为了提高性能,候选数据项集集合Ck被存储到一个可扩充的散列树中。
3 模型应用
本文主要以2007-2014年,非川籍大学校毕业生为统计对象,通过对工资待遇、交通状况、户籍制度、房价、教育、医疗、生存环境、产业分布等因素进行定量分析,从而得出影响非川籍大学毕业生去留的选择因素。
关联规则挖掘算法的实现过程为:在关联规则对话框中选择需要挖掘的数据库,即选择已建立的数据字典表的级别,然后在下面的数据挖掘参数复选框中选择相应的挖掘参数,即支持度计数,也可以直接选择默认参数设置,然后点击“运行”按钮,进行关联规则数据挖掘.
图1 影响因素关联规则挖掘实现过程
在算法实现程序中,根据数据表、字典表、结果表的建立,在过程中寻找变量大于7的因素,并按出现的置信度进行先后顺序的排列。其中地区是按照净迁移率额所属类别排列,因素类别包含字典表中的各个属性变量.得到进一步的结果如下表:
表1 关联规则挖掘结果表
4 结语
上述关联挖掘规则得到的数据表明:影响非川籍大学生去留的因素,主要是生活保障以及生存环境方面;但是从表可以看出,影响因素不断从单一因素向综合因素转变,即不仅仅是某一两个因素,而是多个因素在起作用,从而提前我们要想留住人才,必须时刻不忘提高我们的综合实力。
[1]中国国家统计局信息网.统计局:全国总人口13.39亿[J].地理教学,2011(10).
[2]姜启源..数学模型[M].3版.北京:高等教育出版社,2003.
[3]杜英.关联规则挖掘研究[J].知识经济,2011(14).
[4]徐江勇.多维关联规则技术在进出口贸易分析中的应用[J].计算机应用与软件,2008(12).
[5]刘金塘,伍小兰.多元统计分析技术在人口研究中的应用[J].人口研究,2002(2).
[6]毛国君,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.
[7]陈京民,等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.