基于学习分析的中小学教师继续教育管理系统
2015-08-09肖立志
肖立志
(河南广播电视大学,河南 郑州450008)
0 引言
当前,教育管理部门对中小学教师的继续教育工作在全国铺展开来,随之各地都建立了专门的中小学教师继续教育管理系统.主要解决传统操作模式在时间消耗和人力消耗上都存在较大的支出问题,使操作流程更加简便合理,提高工作效率,节省人力资源成本,实现培训项目的高效管理、业务操作流程的简便化和信息传递的及时快捷.这些系统基本上都实现了教育信息管理的数字化和信息化,然而,都片面强调了管理,而没有从服务对象的角度去进一步深入研究,为使用者提供个性化的智能服务.
传统的中小学教师继续教育管理系统积累了大量数据,这些数据中隐含着许多知识,都不曾被发现和利用,造成数据资源的浪费,也就是数据沉睡.大数据时代来临,利用智能分析技术从海量的数据资源中获得有价值的知识与信息资源,为用户提供智能化、个性化的服务[1].目的是通过智能化的手段实现学习的个性化和教学的针对性.如何生成能够自动优化的、合适的个性化学习序列,成为实现具有适应性和智能性的中小学教师继续教育管理系统的关键.
目前国内外对学习分析进行了深入研究,并取得了不少新的成果,国外学者利用虚拟手段通过试探和反馈信息来生成学习序列[2-5].例如,Iglesia等通过虚拟教学场景和模拟数据的方法,提出采用强化学习对不同的学习序列进行尝试,进而训练系统以获得最优的学习序列,从而将成果运用到匹配的学习者.其缺点在于没有考虑知识点和学习者之间的关系(如学习者的关注点,爱好等).其他的研究也提出一些优化技术以获得最佳的学习序列进行系统应用.
当前研究存在的主要问题:(1)注重优化技术,忽略了学习规律中的综合因素,如学员关注点和偏好与知识点之间的关系,及学员的个性差异(学习能力等);(2)对于学员的个性化需求与特征、生成合适的学习序列的研究还不够深入;(3)不具备自适应的学习能力;(4)目前研究的对象都是学生,而缺乏针对中小学教师的专项研究.为此,本文提出研究一个针对中小学教师的继续教育系统.采用知识点和关注点间关系作为出发点,并与学员个性化特征及考核反馈信息等结合的个性化学习序列生成方法.
1 知识的表示与关注点提取
1.1 知识的表示
定义1(知识点) 系统中每个知识有若干个知识点,一个知识点由若干固定的成员构成,可以用一个多元组表示:K=(KID,name, RL,KWS,des,imp,dif),其中KID为知识点的标识,用于区别于其他知识点;name为知识点的名称;RL为知识点的相应资源列表;KWS为知识的关键词集,是对该知识点的高度概括;des为知识点的详细描述,包括该知识点的定义、范畴、详述及来源的领域等;imp∈[0,1]为知识点的重要系数;dif∈[0,1]为知识点的难度系数.
1.2 关注点提取
文本挖掘是项目的重点所在,从学员提供的基本信息、相关文档以及学员访问频次较高的网页中提取学员的关注点.
项目采用LDA(Latent Dirichlet Allocation 简称LDA)建立信息进行文档主题分析模型.LDA是一个生成式三层贝叶斯网络的概率主题模型,由David Blei,Andrew Ng和Michael Jordan于2003年提出,主要用于文档处理和知识发现方面.
文档的主题抽取是文本挖掘的一项重要的基础性工作.使用LDA模型对语料集建模,然后确定词项集合,以此形成文档的主题.实验表明该方法在表达文档的主题方面能更加准确地表达其主题,获得了良好的效果.非监督机器学习算法LDA,依据词项频度来表达文档主题,而不考虑词项之间的关系[6].
标准的LDA很难进行精确的求解,并且忽略了词项之间的联系和词项频度与主题之间的关系,在实际的应用当中需要借助其他的方法进行不精确的求解,并且可以利用词项频度设置权重的方法来弥补这些缺点.项目中采取了吉布斯抽样方法(Gibbs Sampling).
采用主题概率模型对文本进行主题建模,得到文本的主题~词项分布.然后综合文本的词项序列、主题~词项分布和相关主题挖掘出易于理解的文档主题.文本挖掘过程如图1所示.
图1 文本挖掘过程Fig.1 The process of text mining
根据LDA模型生成的文档~主题分布,采用libsvm实现SVM算法,训练二元分类器进行分类.经过样本训练的测试实验,分类的准确率达到92.42%.
2 学习分析和个性化学习序列的生成
2.1 学习分析
随着移动互联网发展,移动智能终端广泛使用,随时随地的移动学习和办公成为习惯,进一步拓展了个性化学习的应用环境,智能答疑及自适应服务等开始用于支持移动学习,以用户为中心的服务质量和能力的提升成为决定产品成败的关键,如何为学习者提供更“贴切”的服务成为研究的切入点,智慧学习环境的提出为个性化学习的实现提供了新的途径,大数据分析也为个性化学习提供了技术基础.智慧学习的基本方法是依据学习者个体差异的特点,提供个性化的学习方案、学习计划、学习诊断和学习服务等,并利用移动互联网实时记录学习者的学习行为和轨迹以用于数据挖掘和深入分析,结果用于还原学习轨迹,评估过往学习过程和学习成果,以及预测未来表现和及时发现潜在问题,为学习者提供最佳的学习方案及策略,从而提高学习效果[7].
目前学习分析还没有统一的定义,但基本上都反映了学习分析的本质:首先发掘学习者的需求,利用技术手段获取、分析数据和解析预测,为学员、教师、管理人员等提供所需的数据结果,参与者依据数据结果采取及时、有效的干预措施,从而达到提高学习和教学效果的目的.可见,学习分析科学地提升教学效能的指向非常明确[8].
学习分析的要素.布朗(Brown,2011)提出学习分析包括五个要素.
1)数据获取:利用技术手段获取系统中的学习数据和学员学习日志等.
2)数据分析:按照学习能力、用户需求等方向对数据进行分析.
3)学员学习:学员在系统上的学习序列、学习行为、时间分配等.
4)信息反馈:将结果以各种方式反馈给教师、学员本人以及教育管理者.
5)干预:根据结果,为学员提供个性化的学习方案,服务学员.
学习分析的过程模型如图2所示.
图2 学习分析过程模型Fig.2 The learning analytics model
从模型可以看出数据的来源主要有学员的学习日志和网络行为及系统相关数据,最终的分析结果用户个性化学习服务.
2.2 个性化学习序列的生成
中小学教师继续教育培训通常是在一个固定的时间单元内(如假期等)组织实施的,一次培训通常为一个月或者一周时间不等,每次培训又会细化成几个阶段或者是几个环节来进行.每个阶段或者环节、一个学时都可以看作一个学习活动,每次培训可以有若干个学习活动组成(如72个学时).按照预设的培训方案,假定每个学员的学习能力、学习效率等特点都是一样的,都能够在规定的时间内完成培训任务.这种传统的培训方式忽略了学员的个性化差异,实际上每个学员的各方面指标都是有差别的.在固定的时间单位内,依据学员学习能力等方面的差异,由知识点组成更大容量的学习序列,便于学员个性化学习的需要.学习工作量是学员完成学习序列任务所需付出的精力成本.在固定的时间单位内,它与知识点的数量、难度系数和重点系数成正比.
定义2(学习能力) 学员的学习能力是指在单位时间内完成学习工作量的多少.可以用公式lC=Wl/t来表示.lC为学员的学习能力,Wl为学习工作量,t为单位学习时间.在培训计划确定后,随之的学习工作量也是固定的,依据学员学习能力的不同,能够计算出每个学员完成培训任务所需的时间,进而生成学习序列,为学员提供个性化学习服务.
图3为一个学习序列,该序列由若干个学习单元构成.lui为学员正在学习的学习单元,它之前的为学员已经完成学习的学习单元,后面的为将要学习的学习单元.每个学习单元的单位时间t相等,也就意味着每个学习单元内的知识点的数量不尽相同;在固定的学习工作量要求下,知识点的重要系数和难度系数越大,也就意味着能完成学习的知识点的数量越少,反之则相反.综上,这些公式和数值对于学习任务的精准生成提供了依据和帮助.
图3 个性化学习序列Fig.3 The learning sequences
3 个性化服务与自适应学习
3.1 个性化用户建模
关于个性,著名心理专家郝滨先生认为:个性可界定为个体思想、情绪、价值观、信念、感知、行为与态度之总称,它确定了我们如何审视自己以及周围的环境.它是不断进化和改变的,是人从降生开始,生活中所经历的一切总和.个性就是指某个个体区别于自己所属群体中其他个体的一些独有的特征.本文重点探讨个性在中小学教师继续教育管理系统中的应用,以及对方法和模式的影响,特别是学员的学习轨迹和选择倾向.系统个性化和适应性的第一要务就是精准刻画学员画像.例如,在学员使用系统过程中,往往有些并行的选项,学员根据个人喜好进行选择,系统记录学员的选择、理解并分析出学员的个性.用户画像尽量精准地反映用户的真实个性,是实现中小学教师继续教育管理系统个性化的关键所在.项目实际过程中真实地理解用户就要获得相当量的用户信息,如果要求用户大量显式输入显得臃肿,也影响用户体验.
互联网的迅速发展和移动智能终端的普及为用户偏好的记录提供了坚实的基础.用户通过智能终端的网络行为和操作行为为用户的个性化分析提供了完整可靠的数据基础,用户通过社交软件的行为能反映学员的偏好、需求、动机等一系列的个性特质.
3.2 系统的自适应学习
以学员为中心的学习服务系统,为学习提供贴切的服务是唯一要旨.贴切的个性化服务就要求系统能根据学员的变化,自动做出实时的调整和优化,具备自适应的学习能力.自适应机制是提供系统生命力的关键手段.
通常,学员近期对某个知识点访问的频繁度能够反映学员最近的偏好和关注点,设置衰减系数(attenuation coefficient),以适应学员偏好的变化,用于修正学员的学习偏好:
Cα= e-D/K×F,
其中:F∈[0,1]为访问频度系数,单位时间内访问的次数越多,F的值越小;反之,F越大.D为当前时间与访问时间的差,访问知识点的时间越早,D的值就越大,Cα就越小;反之,Cα就越大.K为选择性常量,用于标识衰减速度,K的值大于1,衰减的速度越快,K值就越大.据此,自动定期对学员的关注点和偏好就行相应的修正.
Pik=Cα×Pik.
系统的适应性体现在系统是否能够根据学员的实际操作和变化,不断地进行学习,进而满足用户不断变化的个性化需求,以及对学员的变化提前做出预测和判断,引导学员进行学习.将学员失去不再关注的知识点的衰减系数趋近于0,将预测的用户关注的知识点添加到为学员推荐的知识点列表中;学员持续关注的知识点在推荐列表中进行加强.针对系统通过预测推荐的知识点和学员真正期望的知识内容存在的情形,分别采取4种不同的策略.如表1所示.
表1 自适应策略表Tab.1 The table of the adaptive strategy
知识点推荐.根据学员记录和学习行为日志产生预测,为学员推荐与之关注点相匹配的知识点结合,主要通过文本匹配和相似性分析进行.
系统内知识点的集合,其中对于学员未曾学习过的每个知识点,都要与预测的学员关注点之间进行相似性匹配:
式中:Pi(Kl)表示学员i在关注点Kl上的需求;Nj(Kl)表示知识点j中关键字Kl的构成相应比例;t为设置的阀值,t值越大,说明匹配度越高,推荐t值高的知识点推荐给学员,并按照t值进行排序.
公式完全满足相似度匹配的要求.系统能够随着学员需求和偏好的变化而自适应学习调整,进而完善了个性化服务.
3.2 系统的使用效果
系统的开发工具为VS2013和SQL2008,采用ASP.NET MVC进行开发,也分别开发了基于Android和IOS的移动智能终端软件,利用Python开发了网络爬虫系统.系统投入使用1年多来,不断完善,已经替代了老的培训系统,正在为河南省100多万中小学教师服务.2000人的问卷调查结果表明,学员对新的个性化培训系统满意率为97.32%,对老的培训系统满意率为81.12%.系统分析数据表明,使用新的培训系统后,学员的学习成绩提高了7.6%,培训效率提高了8.5%.
4 结语
本文整体上对系统的研究和设计过程中的重点进行了较为清晰的表述,满足了学员个性化的学习需求,并具有较好的自适应学习能力.目前该系统的个性化服务得到学员的好评,但也存在一定的不足,例如对知识点之间的内在关系没有详细的分析和考虑,对学员的个性刻画还不够详尽,下一步在这两点上完善研究与设计,并进一步提供系统的自适应性.