云服务支持的基础教育网络资源挖掘策略的研究
2015-04-22伍晓峰
伍晓峰
摘要:基础教育网络资源存在着资源分散建设与管理、使用率不高等问题。本文研究分析了云服务对基础教育网络资源的管理优势,依托云服务,提出基础教育网络资源挖掘策略,进而实现搜索引擎和缓存系统,有效地解决了广州市基础教育网络资源利用率低的问题。
关键词:网络资源;搜索引擎;缓存
中图分类号:G443 文献标识码:A 论文编号:1674-2117(2015)07-0073-04
● 引言
基础教育网络资源建设是实现基础教育信息化的重要环节,也是建设基础教育公共服务体系的重要内容。近年来,国家各级教育部门投入了大量人力、物力和财力开展基础教育网络资源的建设,在资源的种类、内容、数量和质量等方面均取得了显著的发展,形成了海量的网络资源。用户能否快速、准确查找到所需的资源,对资源的利用率有较大的影响。因此,资源提供者应该对挖掘策略进行探讨。
云计算具有超大规模的存储和计算能力,资源和结构具有动态伸缩性,并且通过虚拟化技术和庞大的资源池按需提供服务,这些特点非常适合在网络环境下存储和挖掘快速增长的网络资源。本研究在云服务支持的环境下,采用搜索引擎挖掘和缓存挖掘策略,实现对基础教育网络资源的挖掘,可以使用户从海量资源中快速获取所需的网络资源,从而提高资源的利用率。
● 问题的提出
广州市现有12个区,基础教育阶段中小学校超过2000所,在校学生近200万人,教职工约15万人。为满足广大师生学习和工作的需要,引领教育发展的方向,广州教育信息化建设始终走在全国的前沿。从2002年开始建设广州教育科研网,铺设光纤总长度约25000公里,接入单位近2000家,联网电脑数在30万台以上,覆盖城乡各级各类学校,成为目前国内规模最大的基础教育光纤城域网。在完善硬件建设的同时,广州注重教育网络资源的建设,从2004年启动“教育e时代”工程开始,市教育信息中心先后购买或建设了多种类型的教育资源。各区也结合自身的优势,探索建设具有区域特色的资源库。详见表1。
到目前为止,广州市、区两级教育部门积累的教育网络资源超过100T。形成了共建共享、内容丰富、形式多样的教育信息资源体系。随着资源总量的增大和类型的增多,随之产生了非结构化、异构等问题,导致资源的查找、索引比较困难,优质资源淹没在海量资源中,造成网络资源使用率低。如何利用挖掘技术有效地提高资源的获取速度,从而提高资源使用率呢?
● 云服务支持的基础教育网络资源挖掘策略
基础教育网络资源包括素材类教学资源,如文本、图形/图像、音视频等媒体素材,以及集成型教学资源,如课件、研究性学习专题、网络课程等。具有内容丰富、数量庞大、增长迅速、覆盖面广等特点。因格式和种类繁多,采用传统数据挖掘方法对此类资源进行挖掘的效果不佳。广州市基础教育网络资源挖掘策略是在云计算环境下,采用搜索引擎和Web缓存两种挖掘策略,来为广州市教育科研网内部用户查找教育资源提供服务。
1.广州市教育搜索引擎
广州市教育搜索引擎是在参考国内外其他学者研究的基础上,经过实践探索自主研发基于NUTCH实现的全网检索引擎。在教育网络资源挖掘检索方面,该引擎首次采用行业搜索引擎和“垂直”搜索引擎技术,依据自主用途排位的排序算法,通过爬虫和分词关键技术实现对网络资源的挖掘,并对中文分词做个性化处理。其机理图如图1所示。
2.缓存挖掘策略
缓存技术具有减少网络带宽消耗、降低服务器压力、减少网络延迟等特点。在广州教育科研网出口网关处部署代理缓存服务器,可以充分利用教科网内带宽充足、运行稳定的优势,针对基础教育网络资源采取缓存挖掘策略,以实现对资源的监控、重定向和缓存。缓存技术策略不仅作为教科网内部用户与网内资源服务器之间的桥梁,也是用户与外网资源服务器之间的桥梁。其部署结构图如图2所示。
● 云服务支持的基础教育网络资源挖掘的实现
1.教育网络资源搜索引擎挖掘策略的实现
研究采用云服务下的搜索引擎为工具,以广州市、佛山市、中山市的网络学习资源为研究对象,依据以下八部分关键技术来实现,其实现过程分析如下。
(1)教育网络资源网络地址集合分析
广州市基础教育网络资源的地址集合由广州市年度教育信息化调查获取的网络地址、广佛同城化教育信息化专项建设时佛山市提交的网络资源地址、中山市教育网络资源地址三部分组成。搜集整理的网络地址集合如表2所示。搜索引擎机器人以搜集的这三部分网络资源网址为入口,理论上,通过超链接的方式,能链接到绝大部分网页。
(2)集合地址内容及状态更新操作
利用搜索引擎inject操作,调用搜索引擎的核心包crawl对上述教育网络资源地址集合库进行网络地址状态的检查、更新和分析,其主要的操作有:①对每个网址进行格式化和过滤,消除非法的网络地址,设定每个网址的状态,按照一定的方法进行初始化分值;②合并消除重复的网址;③将网址的状态、分值存入crawldb数据库,与原数据重复部分需更新。通过本步骤的操作,将上述教育网络资源网址整理出如表3所示。
(3)创建抓取列表并生成对应目录
本步骤实现创建抓取网址的列表,并以时间为名存放在segments目录下。其操作实现分为:①从上述crawldb数据库中取出网址并进行过滤;②对网址进行排序,通过网址、链接数和hash宣发综合进行降序排序;③将排列列表写入segments目录中。至此,教育搜索引擎基本完成了网址内容抓取的所有准备工作。
(4)页面内容抓取
页面内容抓取功能是将网址打开后的具体内容抓取出来,存放在对应的segment目录下。其过程分为:①按照segments目录下的抓取列表执行抓取动作;②抓取过程中页面中的其他网址可能改变,此时更新crawldb数据库中的网址;③为提高抓取速度,抓取程序启动多线程;④抓取操作过程中调用解析程序解释抓回来的数据。通过网络资源库网址页面的内容抓取,至此将所有目标资源库的内容已经抓取到广州市基础教育网络资源搜索引擎库中。
(5)解释抓取的文本和数据并存放
解释操作主要完成对抓取回来的页面进行文本和数据的解释分析并归档存放到segments对应的文件夹中。具体来说,其操作为:①整理由抓取程序反馈的数据,将页面内容分为数据和文本两部分;②数据主要是页面的题名、作者、日期、链接等内容;③文本主要指页面中的文本内容。
(6)更新网络资源地址集合
根据segments目录下面的解释分析出来的内容,对crawldb数据库进行更新,为下一轮抓取做准备工作。
(7)索引前的状态更新
更新linkDB,为接下来建立文本内容和数据内容的索引工作提供准备。
(8)索引过程
为给网络资源学习使用者提供方便,本步骤主要是将抓取回来的数据转换成文本,分析文本,并将分析过的文本保存到数据库中。其实现过程为:①索引前,将数据转换成文本字符流;②对数据索引前,进行预处理,使之更加合适被索引;③将分析过的文本保存到数据库中。
搜索引擎挖掘策略通过上述八个步骤的操作,实现了广州市基础网络资源库搜索引擎的建立。
2.缓存技术挖掘策略的实现
广州市教育科研网内的用户在访问教育网络资源时,首先判断是否符合资源描述数据库。如果符合,则实现访问路径重定向,把存放在发布系统或缓存中的文件路径返回给用户,用户可以直接从内网下载所需资源,否则再通过互联网获取。在减少网络出口带宽负担的同时,大大改善了用户的体验。其实现过程分为:①网络资源使用者向源外网服务器发起请求,请求被重定向子系统捕获;②重定向子系统针对所有用户的请求进行解析,统计当前的网络热点内容;③当该资源达到了设定的热点内容阈值,且没有被缓存系统缓存,将请求转发至缓存子系统的资源管理设备;④资源管理模块解析用户请求,如符合系统缓存策略,则将该下载任务分发至当前性能最优的缓存服务器;⑤缓存服务器没有保存该内容,向负载均衡模块请求用户下载信息;⑥资源管理设备返回相应的文件索引信息;⑦缓存服务器向外网的源服务器发出请求;⑧外网服务器返回该资源对应的下载地址给缓存服务器;⑨缓存服务器代理向外网服务器节点请求内容;⑩缓存服务器代理从外网服务器节点下载文件内容。
● 网络学习资源挖掘策略应用效果分析
广州市教育科研网内用户对教育网络资源的检索需求量比较大。通过实施教育网络资源挖掘策略前后的记录比照分析发现,利用搜索引擎和缓存系统,可以为用户提供快速的网络资源精准定位服务,能极大改善用户访问或下载网络资源的体验,从而提高资源的利用率,并有效减轻教育科研网出口的负担。
1.搜索引擎应用效果分析
广州市教育搜索引擎在2011年投入使用后,研究者对其检索的关键词做了技术统计发现:通过广州市教育科研网进行的信息搜索中,66%是搜索网络学习资源,平均每天超过1千次;搜索其他类型资源的比例为44%。此外,通过对检索分词的分析,用户对网络信息资源的检索技能欠佳,主要表现在关键词的选择不恰当以及不会熟练使用高级检索功能,导致出现误检或漏检等现象,没有达到预期的检索效果。教育搜索引擎的精准检索,大大提高了网络学习资源的精准定位,从而提高了资源的利用率。
2.缓存应用效果分析
缓存系统动态搜集了12个区的教育网络资源,到目前为止共缓存的容量超过13T容量的资源。在此基础上,缓存系统平台利用缓存技术对被挖掘出来资源的路径、文件名等进行梳理,并分类整合,形成缓存文件推送和分享平台。基于本平台,广州市教育科研网用户可以快速地发现网内其他用户关注的热点教育资源,快速下载热点文件,也可以分享自己的网络学习资源。缓存系统从2011年12月到2014年7月,文件分享平台访问人数已达到563179人次,根据平台访问日志分析其使用情况如表4所示。
从以上缓存系统的日志分析结果来看,在异构环境下,缓存策略的实施能通过文件的索引重构、分类推送、热门分享等手段有效地解决学习者资源索引困难等问题,大大提高了网络学习资源使用率。
● 结论
研究在云服务的支持下,通过搜索引擎技术和缓存系统平台技术的挖掘策略,有效地解决了教育网络学习资源在使用中存在的索引困难、查找困难等使用问题,从效果分析来看,云服务支持下的网络学习资源挖掘策略,能较好地解决广州市基础教育网络学习资源利用率不高的问题,提高网络学习资源的利用率。
随着人们对网络资源的日益依赖,基础教育网络资源呈爆炸性增长的态势。本研究提出了在海量的教育网络资源中能快速、准确查找的两种方法,但随着互联网络的发展,研究在如何保证资源的正确性、准确性、可用性等方面没有做相关研究,一定程度上也阻碍了网络学习资源的进一步利用,这是本研究的不足之处。下一步,研究者针对网络学习资源的利用和推广做进一步研究。
参考文献:
[1]张雪.基于数据挖掘的基础教育网络资源有效开发与创新应用的策略研究——以国家基础教育资源网为例[D].西安:陕西师范大学,2012:1.
[2]丁静,杨善林,等.云计算环境下的数据挖掘服务模式[J].计算机科学,2012(6):217-219.
[3]张雪.基于数据挖掘的基础教育网络资源有效开发与创新应用的策略研究——以国家基础教育资源网为例[D].西安:陕西师范大学,2012:16.
[4]http://wenku.baidu.com/link?url=WK8C3p44ySOxENdyNStb4LsLctFA6lIjvT4tfeg4TtauIELF1Vr9O6fX-9hvGAMliVIdz5svhFY4LEOGwIJJS9F_EuaqVY9bL5yzbZYjrmC.
[5]罗胜涛.基于云计算的基础教育网络学习资源管理策略的研究[D].广州:广州大学,2013:24.
[6]http://os.51cto.com/art/201204/326838.htm.