基于Android平台的移动学习系统大数据挖掘技术研究
2017-10-12颜磊祁冰
颜磊+祁冰
摘 要: 基于Android平台对移动学习系统大数据挖掘技术进行研究。通过期望最大化EM算法进行用户聚类,利用移动学习系统的个性化资源推荐模型进行近邻用户的选取和评分预测,采用CRISP?DM模型,根据学习者下载资源的时间序列数据建立ARTXP算法挖掘模型,通过对英语类课件、法律类课件、计算机类课件在7天后的下载预测,表明英语类的移动学习资源需求有所下降,法律类与计算机类课件需求有所增加,同样,可对移动学习系统的其他类学习资源需求进行预测,根据需求的变化情况制作并上传相应移动学习资源。
关键词: 挖掘技术; 大数据; 移动学习; Android平台
中图分类号: TN911?34; G420 文献标识码: A 文章编号: 1004?373X(2017)19?0142?03
Research on big data mining technology of mobile learning
system based on Android platform
YAN Lei1, QI Bing2
(1. Network and Educational Technology Center, Hainan University, Haikou 570228, China;
2. Department of Information Engineering, Hainan Technology and Business College, Haikou 570220, China)
Abstract: The big data mining technology of mobile learning system based on Android platform is studied. User clustering was performed by means of the expectation maximization (EM) algorithm. The personalized resource recommendation model of mobile learning system is used to select neighbour users and predict the score. The CRISP?DM model is used to establish the mining model of ARTXP algorithm according to the time series data of learner′s downloading resource. The downloading of English courseware, law courseware and computer courseware in seven days is forecasted, which shows that the demand of English mobile learning resources is declined, and the demands of law courseware and computer courseware are increased. The model can predict other courses′ learning resource demand of mobile learning system, and create and upload the corresponding mobile learning resources according to the changes in demand.
Keywords: mining technology; big data; mobile learning; Android platform
0 引 言
在數据分析方面,数据挖掘可满足现实需求,应用广泛。数据挖掘为移动学习创建系统条件、开发学习资源、设计培养方案提供了支持,是移动学习系统服务的关键技术[1?3]。利用数据挖掘技术构建移动学习系统,提高学生学习积极性、自主性、学习效率,是研究数据挖掘技术的重点[4]。借助通信设备及网络,通过移动学习,学生学习不再受教师、地域、时间的限制[5]。
目前,随着大数据及移动互联网的快速发展,网络已融入到人们的日常生活中[6]。随着各种移动终端设备的广泛使用,在移动过程中提高移动终端服务质量是移动互联网研究的热点[7?9]。用户使用移动终端设备产生大量数据,促使进一步研究大数据挖掘技术[10]。本文基于Android平台,对移动学习系统大数据挖掘技术进行研究。
1 移动学习系统用户特征聚类
聚类是指将数据库中的记录分为一系列有意义的子集。聚类是数据挖掘最主要的功能之一,聚类是概念进行偏差分析、描述的先决条件,本文研究根据移动学习系统中用户可用信息稀疏的问题,将用户按特征信息进行聚类,从而发现目标用户的近邻用户,并将目标用户作为计算用户集进行协同过滤,使用期望最大化EM算法进行用户聚类,EM算法的收敛稳定性、高效性效果较好。
1.1 移动学习系统用户聚类特征维度选取
在进行用户聚类时,本文采用的特征维度为年龄、性别、文化程度、职业,表1为移动学习系统用户聚类维度数据量化表。在各用户特征维度上,数据预处理可将用户属性表示能力有效提高,同时可将算法收敛速度提高。将用户维度信息从数据库不同位置抽取出来,对其进行数据清理及量化操作,在数据库特定位置装入规整化数据。
1.2 移动学习系统用户聚类EM算法实现
对于移动学习系统全部用户数据[X,]不清楚各自属于哪个聚类簇,若将用户完整的数据用[X,Y]表示,[X]所属聚类簇用[Y]表示,[Y∈1,2,…,g],整体数据概率密度如下:
[fX,Y;θ=i=1grifiX,Y;θi] (1)
式中:[g]表示密度分支的个数;[r1,r2,…,rg]表示各分支点的分布比例;[fi]表示第[i]个分支密度;[θi]表示相应分支未知参数;[X1,X2,…,Xn]表示学习系统用户数据集。通过极大似然估计法得到[θMLE]:
[θMLE=argmaxi=1nfXi,Yi;θ] (2)
EM算法属于迭代算法,从初始解[θ0]开始,通过迭代得到[θ1,θ2,…,θt,]完整数据对数似然函数期望值为:
[Qθθt=i=1nEYlog fX,Y;θXi,θt] (3)
式中[EY]表示随机变量[Y]的期望值。
对数似然函数期望值最大化[θt+1]如下:
[θt+1=argmaxQθθt] (4)
2 移动学习系统个性化资源推荐
移动学习系统的个性化资源推荐模型由模型分析模块、推荐算法模块、行为记录模块三部分组成。行为记录模块是推荐模型的输入部分,记录模块主要记录系统使用信息、用户注册信息,同时在数据库中的特定位置存储记录信息;用户信息的抽取、转换、重载由操作模型分析模块完成,同时对用户信息进行分析,通过评价产品、评价新用户,使得稀疏用户资源推荐得到实现;推荐算法模块是整个推荐模型的核心模块,模型大数据计算工作由该模块完成,用户推荐服务的目标通过产品资源协同过滤得到实现,图1为移动学习系统的个性化资源推荐模型架构。
2.1 个性化资源协同过滤
对用户间兴趣相似性进行合理利用,能有效提高推荐精确度,本文以协同过滤技术为基础,提出混合推荐技术。对用户兴趣进行协同过滤并分析,寻找同兴趣相似的目标用户,根据近邻用户对产品的具体评价,对目标用户预测评分进行计算,进而推荐产品。
2.1.1 个性化资源近邻用户的选取
目标用户与其他用户通过计算评价向量[Ei=][X1,X2,…,Xj],得到其存在的相似性,将达到阈值[δ]的用户选为目标用户的近邻用户,并根据评分对用户集进行计算预测。本文采用Pearson系统进行用户相似性计算:
[SimX,Y=j∈IXYrXj-rXrYj-rYj∈IXYrXj-rX2j∈IXYrYj-rY2] (5)
式中:[rX]表示用户[X]对产品的评分均值;[rXj]表示用户[X]对产品[j]的评分;[IXY]表示用户[X,][Y]均评价的产品集;[SimX,Y]表示[X,][Y]的相似度系数。
2.1.2 个性化资源的评分预测
使用全局数值算法,利用式(6)对个性化资源的评分进行预测:
[PXj=rX+Y=1nSimX,Y×rYj-rY-1] (6)
式中:[n]表示用户集的用户数量;[PXj]表示用户[X]对产品[j]的预测评分。
2.2 移动学习系统模型工作流程
用户通过登录移动学习系统知识库,按照产品数据粘稠度的评价,判断聚类操作选取的近邻用户是否通过并继续下一步操作,并根据协同过滤算法对用户集进行计算,将资源推荐给目标用户,图2为移动学习系统推荐模型的具体工作流程。
3 移动学习系统学习资源需求量预测
学习者通过移动学习系统可上传课件资源,同时也可下载课件资源,所有资源的划分按大类和小类进行。根据资源类型的受欢迎程度,进行资源上传,进而使上传资源的下载量得到提高,并满足下载者需求。以课件资源历史下载记录预测课件下载量,实质属于典型的数据挖掘问题。
3.1 移动学习系统时序预测算法
数据挖掘过程模型CRISP?DM主要是描述数据、定义数据、开发数据、实现数据的挖掘步骤,设计开发部署具有快速、易于管理、系统可靠、成本低廉等特点。ARTXP算法是以自回归决策树模型为基础的时序预测算法,该算法在SQL Server 2005中引入SSAS,对预测序列可能值进行优化,适合短期预测。ARTXP算法通过对时间序列数据集的转化,方便于事例集的回归分析。通过对转换数据集的学习,产生目标变量决策树,在叶节点产生线性回归,使用贝叶斯技术学习决策树参数、结构。ARTXP算法的优点是效率高、预测准确,该算法采用线性分段预测,这样容易理解,也容易解释。
3.2 移动学习系统预测模块设计
根据CRISP?DM模型,并依据学习者下载资源的时间序列数据,建立ARTXP算法挖掘模型,同时建立需求预测模块,指出一定时间内用户对资源的需求量,从而安排课件制作。移动学习系统预测模块的核心是Analysis Server,装有数据挖掘接口及时序分析算法,预测表、网站数据存放在数据库,预测辅助程序对重定型挖掘模型、预测表进行定时更新,时序预测Web服务内容包括数据挖掘结果的封装、预测,查询数据库信息,并通过SOAP消息将预测结果输出到客户端。
3.2.1 移动学习系统辅助程序的建立
圖3为移动学习系统预测模型解决方案框架,系统辅助程序为Windows计划任务,每7天执行一次,该程序的主要功能包括首次填充预测表、更新数据,对表中的数据进行提取、归纳及汇总,填入预测表,借助AMO对时序模型进行重新定型,这样可及时得到预测结果。
3.2.2 移动学习系统分析服务项目的建立
在移动学习系统中,根据预测表建立移动学习系统分析服务项目,包括数据源、预测挖掘模型,数据视图、安全级别的设置,允许.net程序访问的模型等。
3.2.3 移动学习系统预测结果浏览页面的建立
本研究移动学习系统服务端采用Web服务器,MVC开发模式,客户端采用Android平台网络设备。系统采用HTTP协议,XML为数据传输格式,客户端利用HttpClient与服务器进行连接。使用AdomdClient类库建立浏览页面,并预测模型的查询让管理者进行浏览,同时创建一个公共类,分析并封装服务器,进行事务处理的操作,例如服务器的连接、查询数据的获取等,这样可给代码复用提供方便,通过DMX查询语言对检索结果进行预测,表2为三类客户端的预测结果。
表2 三类客户端预测结果
[下载的课件类型\&预测7天后的下载量\&所占百分比 /%\&变化情况\&英语类\&51\&20.5\&下降\&法律类\&13\&5.0\&上升\&计算机类\&8\&3.0\&上升\&]
从表2可以看出,在英语类课件、法律类课件、计算机类课件中,7天后英语类的移动学习资源需求有所下降,法律类与计算机类的课件需求有所增加,同樣,可对移动学习系统的其他类学习资源需求进行预测,根据需求的变化情况制作并上传相应的移动学习资源。
4 结 语
本文基于Android平台,对移动学习系统大数据挖掘技术进行研究。通过期望最大化EM算法进行用户聚类,利用移动学习系统的个性化资源推荐模型进行近邻用户的选取和评分预测,采用CRISP?DM模型,根据学习者下载资源的时间序列数据建立ARTXP算法挖掘模型,可以对学习资源需求进行预测。
参考文献
[1] 赵德伟,高江锦,徐正巧.基于K?means算法的Web日志挖掘在移动学习中的实现[J].电脑编程技巧与维护,2016(16):92?94.
[2] 陈超.基于数据挖掘的个性化学习模式研究[J].电子设计工程,2013,21(12):18?21.
[3] 王妍,李波,赵立英,等.基于数据挖掘技术的自适应学习系统的研究[J].计算机光盘软件与应用,2012(19):131?133.
[4] 欧阳柏成.大数据时代的数据挖掘技术探究[J].电脑知识与技术,2015,11(15):3?5.
[5] 赵倩倩,程国建,冀乾宇,等.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,10(33):7831?7833.
[6] 金涛,郑紫微,陈平顺.基于Android终端与数据挖掘的FMIPv6 切换算法[J].计算机应用研究,2016(4):1224?1227.
[7] 宋志秋.大数据时代营销中的数据挖掘技术[J].数字技术与应用,2015(3):209?211.
[8] 王兰成,刘晓亮.网上数字档案大数据分析中的知识挖掘技术研究[J].浙江档案,2013(10):14?19.
[9] 王全旺,赵兵川.数据挖掘技术在Moodle课程管理系统中的应用研究[J].电化教育研究,2011(11):69?73.
[10] 周艳,李萍,吴雷.基于云平台的图书馆数据挖掘技术研究[J].现代情报,2012,32(7):46?50.