一种基于序列聚类的现代学徒制课程体系建构方法
2017-07-19杨宇邹臣嵩谭永洲
杨宇,邹臣嵩,谭永洲
(广东松山职业技术学院机械工程系,广东韶关512126)
一种基于序列聚类的现代学徒制课程体系建构方法
杨宇,邹臣嵩,谭永洲
(广东松山职业技术学院机械工程系,广东韶关512126)
采用多种数据挖掘算法建构现代学徒制课程体系的组织结构,解决将职业教育的课程装进“学科体系”架构之中被“强制性”序化的问题,改变将复杂多变的内容主观机械地套入既定的课程结构模式的常见做法.用关联规则算法分析课程前导后续的关联关系,用序列模式算法分析课程开设学期的序列关联关系,定义课程序列结构、内容和加权相似性的度量方法,提出基于全局中心的序列相似性距离乘积最大法来改进K均值聚类算法,并生成现代学徒制课程体系结构.
序列;聚类;现代学徒制;课程体系建构
现代学徒制是国家大力推广的职业教育模式,是职业教育模式改革的集大成者,其在强调双主体、双身份、双导师、一体化育人之外,更加突出在岗培养、在岗成才.现代学徒制专业教学标准的研制路径包括供需调研、职业能力分析、课程体系建构、标准编制四个阶段[1],根据调研得出的“职业生涯发展路径表”,从项目、任务、能力点三个层次解构职业能力,获得了大量的“原子态”的能力要素、频率系数、重要性系数、项目评定系数[2]以及课程开设学期、前导后续课程等数据.传统的课程体系建构多采用头脑风暴、多元协商等定性的方法,采集的大量数据没有发挥应有的作用.而数据挖掘等社会实证的方法是基于对数据的定量研究来建构课程体系,是对定性分析的重要补充,不但可以提高课程体系与企业的动态行动体系匹配度,方便实现在岗培养和在岗成才,还可以挖掘出人们无法用观察法准确鉴定的社会现实问题,帮助破译不同生产环境条件下完成任务(课程)的工作过程[3],分析出课程之间隐藏的内在联系,揭示隐含的规律.本文以广东省现代学徒制培养试点项目——机电设备维修与管理专业的课程体系建构为例进行了关联规则分析、序列模式分析和K均值聚类分析等数据挖掘研究,提出了一种课程体系建构方案.
1 当前现代学徒制课程体系建构存在的问题
课程设计有两个决定性因素:一是课程内容的选择,也就是对“筑道材料”的选择;另一个是课程内容的序化,也就是对“跑之过程”的确定[4].对于课程体系来讲决定性因素也是一致的,职业能力分析和典型工作任务分析选择了现代学徒制课程体系的内容,需要突破的是课程间的序化问题,即课程组织结构问题.
课程体系的组织结构问题是当前职业教育课程改革面临的重要问题,也是难点问题[5].当前研究职业教育课程体系的组织结构主要集中在两个方向:一是课程体系的组织原理和方法,二是课程体系的结构模式和构建.前者研究的重点是组织的思想、原理、原则,在组织方法与技术层面的研究还比较欠缺[6],还没有形成比较成熟和易于操作的方法与技术,造成已经明确选取的凸现职业教育特色的课程内容被重新装进“学科体系”的架构之中而被“强制性”地序化,以致课程又重新成为被简化了的、被压缩了的学科课程的翻版[7].后者的研究重点是模式分类与构建,当前适于职业教育的课程结构模式有很多,但从结构角度基本都可以分为专门化课程模式、系列化课程模式、阶段化课程模式和模块化模式.其中模块化模式逐步成为主流,它又包括CBE指导下的DACUM法常采用的模块化矩阵式课程模式和国际劳工组织的MES培训体系常采用的模块化组合式课程模式[8],以及“宽基础活模块”等众多国内改进模式.这些模式为现代学徒制课程体系的建构提供了很好的结构模板,操作性也强,但依然存在将复杂多变的内容主观机械地套入既定模式的问题,很少着眼于蕴含在动态行动体系之中的隐性实践知识的生成与构建[7].
2 现代学徒制课程间的关联关系
典型工作任务转换为课程后,确定了课程内容,也明确了课程的数量、功能与属性等课程组织要素,但并未生成与构建出现代学徒制课程体系的组织结构,而要完成此项任务必须先明确课程间的关联关系.
姜大源将课程内容的关联关系分为“平行、递进、包容的逻辑关系,或者是这三者排列组合的结果”,为方便表达关联关系的结构,项目组将课程间的关联关系修正为串行递进、并行组合、串并交叉三种关系.
上述三种关联关系的排列组合就生长与构建出了课程结构:具有串行递进关系的课程形成一条职业能力培养的课程链路;相对独立的课程链路通过并行组合实现专业培养目标要求的多项职业能力的培养;与相对独立的课程链路交叉较多的链路形成辅助链路,显化隐含的职业能力培养路径.
上述三种关联关系在程度上还有强弱之分,并作用于课程结构:若同一条串行递进链路上的课程递进关系变弱就有可能产生串并交叉,形成辅助链路;若递进关系继续弱化就应该将课程归属到不同的并行链路中构成组合关系;若多条链路出现同一课程则该课程就有可能是交叉课程甚至公共平台课程,反之若链路中都不出现的课程就属于孤立课程,并有可能独立形成新的链路.
3 课程间关联关系的数据采集
项目组采集了课程开设学期、前导课程和后续课程三个关联关系数据,课程只涉及能全面反映动态行动体系复杂关联关系的13门专业技术技能课和学徒岗位能力课,提高了数据的针对性和准确性;样表如表1.数据采集面向11名企业专家,5名校外课程专家,5名校内骨干教师,5名学徒,共采集了1 358个样本数据,样本量满足数据分析要求.
4 课程间关联关系数据挖掘的方案设计
用传统统计方法分析“开设学期”数据时发现部分课程的开设学期非常分散,得不出具备统计意义的开设学期结论.其次,分析“前导后续”数据时,课程排序数量巨大,而且矛盾排序很多,无法得出课程的前后关联关系.第三,无法将“开设学期”的时间关系与“前导后续”的顺序关系有机的统一起来分析.
本文用数据挖掘方法分析课程间关联关系数据的方案设计,具体步骤如下:(1)用Apriori算法分析课程前导后续的关联关系,筛选出大于一定强度阈值的关联规则及其2-序列;(2)用Sequence pattern算法分析课程开设学期的序列关联关系,筛选出大于一定强度阈值的序列关联规则及其2-序列;(3)合并上述两种算法筛选出的具有相同形式的2-序列,并定义序列的相似性度量方法;(4)提出一种基于全局中心的序列相似性距离乘积最大法来改进K-means算法,并对合并的序列进行聚类分析;(5)按聚类结果构建课程体系并进行评估.
本方案解决了传统统计方法的问题,能分析时间关系与顺序关系的强弱并加以取舍,还能将两种性质完全不同的关联关系有机的统一起来.
表1 课程关系数据采集样表
5 聚类分析前的数据挖掘
5.1 用Apriori算法分析课程前导后续的关联关系
Apriori算法是最为经典的关联规则算法,是通过分层搜索挖掘单维逻辑型关联规则频繁项目集的有效算法,其任务是在事务数据库中找出具有给定最小支持度和最小置信度的强关联规则[9].
本方案将“项目”定义为两门有前导后续关系的课程的组合,如AB,它指先开设A课程再开设B课程,因此候选项目集为{AB,AC,AD,……,MJ,MK,ML},共包含156个项目.本文选择IBM SPSS MODELER的14.1版进行计算,规定规则最小支持度为12.5%,规则最小置信度为60%,算法分析后生成形如“AB→CD”的强关联规则,其包含的2-序列为AB、AC、AD、BC、BD、CD.
5.2 用Sequence pattern算法分析课程开设学期的序列关联关系
Sequence pattern算法是序列关联分析的经典算法,它采用边读入边计算再批量筛选的动态处理策略,将频繁序列组织成邻接格的形式,使序列规则的生成更加准确,也降低了计算开销[10].
本文选择IBM SPSS MODELER的14.1版进行计算,规定规则最小支持度为30%,规则最小置信度为70%,算法分析后生成形如“C and D>E→F”的强关联规则,其包含的2-序列可以简化为不含并列关系的CD、CE、CF、DE、DF、EF、DC.
5.3 定义课程序列的相似性度量方法
上述分析已经将两种关系统一为不含并列关系的2-序列,将其合并后生成新的序列数据事务库,候选集包括156个项目,项目是由A到M的13个元素中的两个相异元素有序排列而成.针对课程序列的特点和建构课程体系的需求,项目组采用一种新的方法定义课程序列的相似性及相似性距离.
定义1序列结构相似度.假设Si和Sj是序列数据事务库中的两个序列,则序列Si和序列Sj的结构相似度Csim(Si,Sj):
式中COM(Si)、COM(Sj)表示序列Si、Sj所包含的元素的集合;∣COM(Si)∩COM(Sj)∣表示序列Si、Sj所共有的元素的个数,∣COM(Si)∪COM(Sj)∣表示序列Si、Sj所包含的全部元素的个数.
Csim(Si,Sj)的取值范围是[0,1],当Csim(Si,Sj)=0时,序列Si和Sj之间没有任何结构相似性;当Csim(Si,Sj)=1时,序列Si和Sj之间结构完全相同.
定义2序列内容相似度:
式中PER(Si)、PER(Sj)表示序列Si、Sj所包含的项目的集合.
定义3序列加权相似度:
定义4序列间的相似度距离:
根据定义1的符号解释和边界条件,可方便的推出定义2到定义4的相应解释和条件.
6 基于序列相似度的K-means聚类算法改进
聚类分析是数据挖掘领域的一个重要分支,根据在数据中发现的描述对象及其关系的信息,将数据对象分类.其目标是簇内的对象相互之间是相似的(相关的),而不同簇中的对象是不同的(不相关的).簇内的相似性(同质性)越大,簇间差别越大,聚类就越好[11].K-means算法思路清晰简单,但也因此带来了一个重大问题,K-means算法对初始聚类中心敏感:从随机的初始聚类中心出发,得到的聚类结果可能不同;反复迭代,计算开销大;一般不会得到全局最优解[12].
优化初始聚类中心点选取是改进K-means算法的一个重要方向:翟东海等人采用了最大距离法选取初始簇中心[13];袁方等人采用了基于高密度的最大距离法选取初始簇中心[14];熊忠阳等人采用了基于高密度的最大距离乘积法选取初始簇中心[15];段桂芹采用了基于均值与最大距离乘积法选取初始簇中心[16].
针对课程序列的特点和建构课程体系的需求,项目组提出了一种基于全局中心的序列相似性距离乘积最大法来优化初始聚类中心的选取.具体算法描述如下:
a)计算全部序列的支持度.
b)将序列按支持度降序排列后提取前N个序列,构建序列候选样本集Sequence_N.
c)根据序列间的相似度距离公式(定义4),构建距离矩阵dist_array_N.
d)从距离矩阵中取出同时满足以下3个条件的K个序列(K>=3)作为聚类中心.
条件1:K个序列完全相异;
条件2:K个序列间的距离乘积最大;
条件3:K个序列映射至二维空间所构成的平面图形必须是首尾相连的闭合曲线.
e)从样本集中选择离聚类中心最近的M个序列与聚类中心求并集,生成集合S.
f)去除集合S中的重复元素,输出聚类结果.
为验证算法核心部分的正确性,计算平台选择了Matlab.R2011b,选取UCI数据库中的Iris、Balance-Scale和Wine作为测试数据,在准确率、迭代次数、聚类误差平方和的综合评价上总体较优.
7 基于序列聚类的现代学徒制课程体系建构
将现代学徒制课程体系的相关数据进行序列聚类分析,结果如表2所示.
在表2的12簇中,删除重复簇和元素个数大于等于8的簇,对剩余的6簇分别计算其元素排序支持度,形成6条课程链路;对孤立元素,计算其与簇元素的排序支持度,得到1条课程链路Ⅳ,见表3.
表2 聚类结果表
表3 路径排序表
表3中的前4条是课程主链路,是与岗位能力对应的培养路径;后3条是课程辅链路,是与专项能力对应的培养路径,它是由数据挖掘出的隐性培养路径.
在7条链路中出现3次及以上的课程为平台课程,共有7门;出现2次的课程为交叉课程,共有4门;只出现1次的课程为非交叉课程,共有2门.
结合“开设学期”数据的分析,将13门课程排列组合成的7条链路分为4个层级,得到现代学徒制课程体系结构图,如图1所示.
每条链路上的课程是串行递进关系;4条主链路相对独立,与“职业生涯发展路径表”中的岗位对应清晰,他们之间是并行组合关系;3条辅链路与4条主链路之间至少有2门课程出现交叉,两种路径之间构成串并交叉关系.
在7条链路中出现3次及以上的课程为平台课程,共有7门,这些课程对能力的培养具有核心意义;根据它们在链路中的序位可以确定其课程功能:排序靠前的2门是基础平台课程;排序居中的两门是中继平台课程;排序靠后的3门是综合平台课程.
8 基于序列聚类的现代学徒制课程体系结构的评估
项目组与企业专家、课程专家对基于序列聚类的现代学徒制课程体系结构进行了评估.本课程体系结构是在数据挖掘的过程中逐步生成的,算法的综合应用与改进基本完成了课程体系在识别、分类、分级和序化4个生长阶段的任务,具备了课程体系“生成论”的基础特征:按照行动体系的框架序化,强调的是动态的、有生命的“主体”对知识的“有机地”主观构建[7].其主要有以下几个优点:第一,课程体系完全建立在数据基础上,特别适应突出在岗培养的现代学徒制,对企业的实际需求与具体工作过程有更强的针对性.第二,是传统定性方法的重要补充,解决了容易发生的两个问题:将职业教育的课程装进“学科体系”架构之中被“强制性”序化问题,将复杂多变的内容主观机械地套入既定的课程结构模式中的问题.第三,清晰的展现了课程间串行递进、并行组合、串并交叉的关联关系和他们的排列组合方式,形成了7条对能力培养有明确针对性的课程路径,明确了课程性质与功能,促进了课程的组织与实施.第四,可以挖掘出蕴含在动态行动体系之中的隐性实践知识,揭示隐含的规律.如:在技术专家主导的课程构建阶段设备管理岗位只建构出一门与其他课程关联关系较弱的相对孤立的课程A,但通过数据挖掘却生成了由ALM组成的主链路Ⅳ.企业专家认为该链路厘清了设备管理岗位的技术要求,企业需要在岗位标准修订时加以补充.第五,操作性较强.关联规则算法和序列模式算法都选择使用范围广、功能全面和数据格式简单的IBM SPSS MODELER软件;聚类算法经改进后,准确率高,计算开销少.
但本方法还有一些地方需要完善:首先,每门课程都是由4~6个模块组成,模块间依然存在递进、交叉、并行的关系,不可避免的使课程间的关系复杂化,造成路径的关系还存在一些无法解释的地方.其次,虽然对职业能力进行了详尽分析,采集并计算了项目系数以及项目、任务、能力点三级的频度系数和重要性系数,但没有深度挖掘它们之间的相关性和强度,没有为课程体系结构提供直接支撑.最后,该课程结构还未在教学中实施完毕,教学质量与效果有待检验.
图1 现代学徒制课程体系结构图
项目组将从三个方面对本方法进行优化:第一,是淡化课程的综合性属性及学时学分方面的要求,强化模块的专门化属性和短小灵活的特点,再通过数据挖掘的方法建构模块的体系结构,真正实现课程的模块化.第二,定义、识别职业能力的难度系数、学时参数等新的属性,挖掘项目系数、频度系数和重要性系数的关系,生成能力素质模型.第三,在教学实施完毕后采集学徒的兴趣度、课程价值系数和考试成绩等信息,再经数据分析后调整课程体系结构.
[1]杜怡萍,李海东.中高职衔接标准建设新视野:从能力到课程[M].广州:广东高等教育出版社,2015:30.
[2]广东省教育厅,广东省教育研究院.广东现代学徒制专业教学标准研制:职业能力分析(一)[M].广州:广东高等教育出版社,2016:290-347.
[3]赵志群.职业教育学习领域课程及课程开发[J].徐州建筑职业技术学院学报,2010(6):5.
[4]姜大源.论高等职业教育课程的系统化设计——关于工作过程系统化课程开发的解读[J].中国高教研究,2009(4):14.
[5]徐国庆.论职业教育项目课程体系的设计[J].职教论坛,2009(6)下:4.
[6]郭炯,刘怀恩.高等职业教育课程研究的文献综述[J].中国职业技术教育,2009(12)下:54.
[7]姜大源.学科体系的解构与行动体系的重构[J].中国职业技术教育,2006(3)上:15-16.
[8]中华人民共和国教育部高等教育司,全国高职高专校长联席会.点击核心——高等职业教育专业设置与课程开发[M].北京:高等教育出版社,2004:79-83.
[9]元昌安.数据挖掘原理与SPSS Clementine应用宝典[M].北京:电子工业出版社,2009:181-183.
[10]薛薇,陈欢歌.SPSS Modeler数据挖掘方法及应用[M].北京:电子工业出版社,2010:224-228.
[11]Pang-Ning Tan,Michael S,Vipin K.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2011:306.
[12]Han Jiawei,Kamber M.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2006:344-345.
[13]翟东海,鱼江,高飞,等.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715,719.
[14]袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66.
[15]熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190.
[16]段桂芹.基于均值与最大距离乘积的初始聚类中心优化K-means算法[J].计算机与数字工程,2015(3):379.
A Method of Curriculum System Construction in Modern Apprenticeship Based on Sequence Clustering
YANG Yu,ZOU Chen-song,TAN Yong-zhou
(Department of Mechanical Engineering,Guangdong Songshan Polytechnic,Shaoguan 512126,Guangdong,China)
Using multiple data mining algorithms to construct the organizational structure of curriculum system in modern apprenticeship,it aims to solve the problem of"compulsory"ordering in the curriculum of vocational education into the framework of the discipline system,and to change common practice of the complex and changeable contents which are mechanically set into the established curriculum structure model.By analyzing the incidence relation between the leading and subsequent courses by Apriori,it analyzed the sequential incidence relation of courses offered by sequence pattern,defining a method of similarity measurement for the sequence structure,content and weighted similarity of courses,presenting a method of improving the K-means clustering algorithm for the sequence similarity distance product maximum based on the global center,and generating curriculum system construction in modern apprenticeship.
sequence;clustering;modern apprenticeship;curriculum system construction
TP311
A
1007-5348(2017)06-0021-06
(责任编辑:邵晓军)
2017-03-22
2015年度广东省高等职业教育专业教学标准研制项目(BZ201511);2015年广东省高等职业教育现代学徒制试点项目(粤教高函[2015]131号).
杨宇(1970-),男,四川成都人,广东松山职业技术学院机械工程系副教授,硕士;研究方向:职业教育、数据挖掘.