海量网络教育资源挖掘研究与实现
2019-11-30郑志勇
郑志勇
摘 要:随着网络教育信息资源的信息容量急剧增加,简单依靠商业化搜索引擎已不能满足个性化教与学的需求,通过使用解析工具Jsoup抓取教育资源网站和搜索引擎的搜索结果保存进Derby数据库,再利用数据挖掘技术对可用资源的进行页面价值评价和格式化存储,必将有效提高网络教育资源的使用水平。大部分学生触网,都是进入微博、玩网络游戏、聊天,网络在学生群体中的使用更多的只是娱乐工具。
关键词:数据挖掘 Jsoup 网络教育资源 抓取策略
中圖分类号:TP311 文献标识码:A 文章编号:1672-3791(2019)09(b)-0004-02
1 网络教育资源建设的现状和利用分析
随着中国互联网网络结构持续优化,网络性能显著提升,网络基础设施建设规模不断扩大,网民低龄化趋势明显。但有研究显示,尽管在校学生上网人数相当多,利用网络作为学习工具的人数比例还是很少,能很好地使用网络资源,尤其是丰富的学科资源辅助学习的学生人数更少。在校学生无法利用网络教育资源的主要原因有下面几个方面:(1)是因为网上学习资源太杂,难以选择;(2)是网络学习资源呈现方式五花八门,有的是主次部分,充斥大量垃圾广告,更有甚者还有包含暴力、不健康的文字和图片,引诱学生点击。(3)是网络上的材料太难影响兴趣;(4)是老师缺乏指引。随着海量的网络教育资源建设和快速上升的带宽、接入终端普及率与极低的在校学生使用网络教育资源的利用率形成了巨大的反差。通过数据挖掘技术抓取教育资源网站和搜索引擎的搜索结果,再利用数据挖掘技术对可用资源的进行有效分析与格式化,将大大提高在校学生网络教育资源的利用率。
2 网络教育资源挖掘系统的工作原理和主要策略
2.1 网络教育资源挖掘系统的基本架构
网络教育资源挖掘系统的基本架构如图1,主要由包含数据存储部分、页面分析部分和终端输出3个部分。其中数据存储部分有URL资源库、本地资源库、格式库;页面分析部分有页面价值计算系统和页面结构分析系统;终端输出部分主要包括终端展示(含手机APP、微网站、微信应用)及学习反馈两个部分。
2.2 网络教育资源挖掘系统的数据流程
网络教育资源挖掘系统的工作机制为教师或家长在明确学习目标的基础上,使用HTML解析工具Jsoup抓取教育资源网站和搜索引擎的搜索结果,对结果URL进行页面价值计算,将计算结果满足条件的URL记录到URL目标资源库中。执行页面内容抓取分析,进行页面结构化分析,去除无效的页面(如脚本、链超接、商业广告、导航),将分析结果保存到本地资源库中。最后,教师或家长可自行设计输出格式,学生可在手机APP、微网站、微信应用上进行学习。
2.3 网络教育资源挖掘系统的资源抓取策略
如表1所示。
2.4 网络教育资源挖掘系统的数据挖掘策略
网络教育资源挖掘系统页面价值评价系统,采用百分制计算,页面分为三等,分别为不合格,合格和优秀;其中0~50分为不合格,50~80为合格,80~100分为优秀。
网络教育资源挖掘系统页面价值分数计算公式:
F=A*(W*C/B+(P+M)(2-C)/B)
A:代表网站权重,其中专业教育资源类网站权重为1.2,搜索引擎结果权重为1;
B:代表网站权重最大值,这里是1.2;
C:代表文字部分权重,可根据教学目标调整;
W:代表文字内容,满分50分(见表2)。
P:代表图片资源,满分20分(见表3)。
M:代表多媒体视频率资源,满分30分(见表4)。
2.5 网络教育资源挖掘系统的格式输出策略
网络教育资源挖掘系统的格式输出采用内容管理系统CMS技术,网页抓取功能将符合条件的页面内容,过滤后格式化到本地资源库中,通过事先设计网站、手机APP、手机微站、微信应用等模版,教育内容可直接的发布在手机APP、微网站、微信应用上。
页面内容过滤策略为:过滤所有脚本、所有外链、所有样式、导航栏,只保留
范围标签内的内容。3 网络教育资源挖掘系统的实现
3.1 基础准备
开发平台操作系统为Windows;开发语言采用Java;数据库采用JAVA自带Derby数据库。
3.2 URL目标资源库设计
URL目标资源库用于存储有价值的教育资源网站页面URL地址和搜索引擎的搜索结果中有价值的页面URL。核心字段有:来源类型,分搜索引擎和教育资源两类,保存页面的地址,抓取时间,文字数,图片数,资源URL抓取核心代码,采用Jsoup的Document类来完成。
3.3 本地资源库设计
本地资源库设计与普通的内容管理系统类似,核心是页面内容表。核心字段主要有教学任务,文章类型文章内容等。
4 应用案例
本课题研究应用于素质拓展课程古诗词教学,网络上有关古诗的网站,百度找到相关结果约86,100,000,面对如此海量的、质量参此不齐的信息资源,仅依托搜索结果是很难达到教学目标的,如要求教师自己建设一个相关教学网站,需要教师有一定的信息技术能力和教学资源的储备,影响教师使用信息化教学的积极性。通过网络资源挖掘系统挖掘古诗的原文、译文、古诗的写作环境、古诗的内涵、古诗朗读、古诗视频等资源存储到本地资源库用于教学,能大大提高学生对古诗的感悟能力和古诗鉴赏能力。
5 结语
网络教育资源挖掘系统通过对现有海量网络教育资源挖掘和格式化,一方面简化或避免了教师重复建设教育资源;另一方面也降低了学生查找和使用网络教育资源的难度,避免了学生被网络不良资源的侵害,对实际有效利用海量网络教育资源是可行的。
参考文献
[1] 盛雪丰.Android开发一大神器——Jsoup[J].电脑知识与技术,2015,11(8):63-65.
[2] 冯思度,杨健叶,韩煦.基于医疗信息的网络爬虫系统的研究与设计[J].现代信息科技,2019(10):23-25.
[3] 胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,2011,48(1):45-54.