HDFS模式下基于用户兴趣的教学信息化资源管理方法
2019-06-19张双祥
张双祥
摘 要: 针对云计算环境下信息化教学资源的云存储和个性化推荐问题,提出一种基于分布式文件系统(HDFS)和用户兴趣的教学信息化资源管理方法。该方法采用Hadoop平台的HDFS技术来解决网络教学资源的云端存储问题,并对相应的HDFS云存储架构进行分析。其中,教学资源推荐功能模块采用LDA用户兴趣主题挖掘模型,并引入学生评分矩阵产生学生?课程属性偏好相似度,提升推荐的质量和准确度。在Hadoop 2.2.0平台上的实例仿真结果验证了提出方法的可行性。此外,相比于基于标准关联规则的推荐方法,提出的挖掘推荐方法表现出更高的准确性。
关键词: 教育信息化; Hadoop; HDFS; LDA; 用户兴趣模型; 推荐服务; 云存储
中图分类号: TN99?34; TP393 文献标识码: A 文章编号: 1004?373X(2019)11?0087?03
Abstract: In allusion to the problems of cloud storage and personalized recommendation of information teaching resources in cloud computing environment, a teaching information resource management method based on Hadoop distributed file system (HDFS) and user interest is proposed. The method uses the HDFS technology of the Hadoop platform to solve the cloud storage problem of the network teaching resources, and analyzes the corresponding HDFS cloud storage architecture. The LDA user interest topic mining model is adopted in teaching resource recommendation function module, and a student scoring matrix is introduced to generate the "student?course attribute" preference similarity, so as to improve the quality and accuracy of the recommendation. The feasibility of the proposed method was verified by simulation results obtained in Hadoop 2.2.0 platform. In addition, the proposed mining recommendation method has higher accuracy than recommendation method based on standard association rules.
Keywords: educational informationization; Hadoop; HDFS; LDA; user interest model; recommendation service; cloud storage
0 引 言
互联网和4G技术的快速发展和广泛普及,使得人们随时随地的上网成为可能。上网的便捷改变了人们生活和工作的方式,也为教育教学活动带来了新的途径和手段。计算机网络技术和多媒体技术相结合,产生了一种新的信息化教学形式,即远程教育(远程教学)。远程教育在世界范围内得到了许多教育机构的关注,并花费大量的人力资源来建设自己的远程教育资源[1?3],例如,大型开放式网络课程MOOC(Massive Open Online Courses)、网易云课堂等。
随着在线课程的数量越来越多,教师教学工具也十分多样,例如Word,PPT教案、音视频素材、FLASH、Web网页等,远程教育资源变得越来越丰富。但是,随着教学信息化资源的急剧增加,如何对其进行有效共享以便减少存储空间浪费,如何根据学生的兴趣推荐最适合的教学内容,成为目前急需解决的问题[4]。
因此,本文提出采用HDFS来实现教学信息化资源管理,以便根据学生的不同需求提供更准确的教育资源推荐。首先在分布式Hadoop平台上设计适用于教学资源的HDFS云存储架构。然后根据学生评分矩阵,利用LDA用户兴趣模型实现个性化教学信息资源推荐,并给出相应的参数估计方法。实例仿真结果表明,相比标准关联规则Apriori方法,LDA用户兴趣模型具有更高的教学资源推荐准确度,有效提升了学生学习的效率。
1 HDFS模式下的网络教学资源存储问题
1.1 HDFS技术原理分析
由于在数据存储和分析方面具有较大优势,Hadoop分布式计算系统成为现代信息教学资源管理方面的主流平台。目前,分布式Hadoop平台主要采用大规模并行编程框架,包括HDFS和Map Reduce[5]。HDFS主要负责数据存储。Map Reduce主要负责并行处理任务。在Hadoop平台中,常用的HDFS原理如图1所示。为了实现海量教学资源的整合,以便实现数据共享,提高数据存储效率,本文采用Hadoop分布式HDFS实现教学信息化资源存储和处理。
圖1 HDFS原理
1.2 适用于教学资源的HDFS云存储架构
本文的目标是将复杂的信息化教学资源通过云存储技术进行整合,形成一个共享的教育云存储服务。因此,需要设计一个适用于教学信息化资源管理的HDFS云存储架构,其中存储层通过HDFS完成数据的分布式存储,包括各种形式的教学资源(数据源自各个教育机构),例如,动画、PPT、文本文档等。
在本文设计的云存储架构中,教学资源推荐功能模块运用LDA主题挖掘模型对海量的网络教学资源进行处理,然后将符合学生兴趣的教学资源进行推荐展示,如图2所示。
图2 HDFS云存储架构
2 基于LDA用户兴趣模型的教学资源推荐方法
2.1 LDA主题挖掘模型
LDA主题挖掘模型作为一种非监督的机器学习方法[4],主要由三层的贝叶斯模型构成。LDA主题模型生成过程如图3所示。
图3 LDA用户兴趣模型
在图3中,方框[M]表示项目集合,方框[N]表示项目中主题[z]和关键词[w]的集合,[α]为Dirichlet分布的先验参数,[β]为被估计的矩阵参数,[θ]为某项目中所有主题的概率分布。
2.2 用户兴趣的偏好相似度矩阵
为了收集学生的兴趣爱好信息,需要构建学生?课程评分矩阵[R],如表1所示。
表1 学生?课程评分表
本文根据学生对课程属性的喜好,在传统的LDA用户兴趣模型推荐算法中加入了“学生?课程属性”偏好相似度。通过有效结合以上隐藏的信息,可以有效提升推荐的质量和准确度。
3 仿真结果
为了对本文提出的方法进行分析和验证,在相同的测试数据中,分别对本文方法、基于标准关联规则Apriori的推荐方法进行对比实验。实验数据源来自32所公立教育单位,主要是各大专本科院校。仿真实验测试的教学信息化资源包括近1.3 TB的数字化资源,其中,Word资源格式占30%,PPT教案资源格式占35%,音视频素材资源格式占10%,FLASH资源格式占20%,Web网页资源格式占5%。课程共计237门。本文采用的评估指标为平均绝对误差(Mean Absolute Error,MAE)[6]。
实验采用分布式Hadoop 2.2.0平台,包括10台计算节点,具有Intel i7 处理器,CPU主频为 3.2 GHz,8 GB 内存。JDK版本为[7]1.8.0。
两种不同方法的MAE结果如图4所示。从图4中可以看出,随着课程数量的增加,两种方法的推荐平均绝对误差均不断降低。其中,标准关联规则Apriori算法的下降速度较快,本文提出方法的下降速度次之,但是两者的下降速度相差很小。此外,在相同课程数量条件下,相比标准关联规则Apriori算法,本文提出算法的MAE更小。也就是说,本文提出算法具有更高的精准度,有效提高了在线课程资源的管理效率。
图4 两种不同方法的MAE
4 结 语
本文提出一种基于分布式HDFS和LDA用户兴趣模型的教学信息化资源管理方法。通过Hadoop 2.2.0平台上的实例测试得出如下结论:基于HDFS架构的网络教学资源云存储管理是切实可行的;相比于标准关联规则Apriori方法,基于LDA用户兴趣模型的推荐方法在HDFS模型下表现出更高的精准度,课程资源推荐效果更好,具有一定的参考价值。
参考文献
[1] BOZKURT A, AKGUNOZBEK E, YILMAZEL S, et al. Trends in distance education research: a content analysis of journals 2009—2013 [J]. International review of research in open & distributed learning, 2015, 16(1): 330?363.
[2] EILEEN Scanlon, PATRICK McAndrew, TIM O′Shea. Desig?ning for educational technology to enhance the experience of learners in distance education: how open educational resources, learning design and MOOCs are influencing learning [J]. Journal of interactive media in education, 2015, 2015(1): 9.
[3] DE HART K, CHETTY Y, ARCHER E. Uptake of OER by staff in distance education in South Africa [J]. International review of research in open & distance learning, 2015, 16(2): 18?45.
[4] CLEGG J. Internationalisation in online distance learning postgraduate education: a case study on student views on learning alongside students from other countries [J]. Innovations in education & teaching international, 2015, 52(2): 137?147.
[5] ADDAIR T G, DODGE D A, WALTER W R, et al. Large?scale seismic signal analysis with Hadoop [J]. Computers & geosciences, 2014, 66(2): 145?154.
[6] 史庆伟,从世源.基于mRMR和LDA主题模型的文本分类研究[J].计算机工程与应用,2016,52(5):127?133.
SHI Qingwei, CONG Shiyuan. Text classification based on mRMR and LDA topic model [J]. Computer engineering and applications, 2016, 52(5): 127?133.
[7] KHAN M, JIN Y, LI M, et al. Hadoop performance modeling for job estimation and resource provisioning [J]. IEEE transactions on parallel & distributed systems, 2016, 27(2): 441?454.
[8] PAPANIKOLAOU Y, FOULDS J R, RUBIN T N, et al. Dense distributions from sparse samples: improved Gibbs sampling parameter estimators for LDA [J]. Statistics, 2017, 18(62): 1?58.